26w06 | Easonshi's Space

未来世界观察其一: Vibe Coding

[A] 引子

时间走到25年底, 身为AI炼金师, 终于可说是 “进入了未来世界的大门” – 如果说在两年前, AI是那理想的未来, chatbot 的交互形式带来智性的思考 (与质疑); 那么两年后的现在, AI终于以 “agent” 的身份进入了大众生活之中, 伴随着视频/世界模型/具身智能走向技术更加爆炸的未来.
当然, 技术的普及仍然存在逐层扩展 (Diffusion of Innovations), 但如 Karpathy所言, AI技术区别于此前的计算机/飞机/GPS 等技术, 从一开始就呈现向大众开放的态势 – “But at least at this moment in time, we find ourselves in a unique and unprecedented situation in the history of technology.”
技术的使用当然是有门槛的, 但至少AI智力极大跃进的年代, 所有人都被拉到同一起跑线; “accessibility” 层面相对公平之时, 重要的就在于每个人的认知&决策, 在于个人的想象与应用场景, 在于如何将打开的潘多拉魔盒发挥其最大效用.
“AI终将改变一切.” 作这样的断言.
惯例应该会加上 “个人维度” 这一定语, 但想一想, 还是修改为 “各个维度上” 的改变. – 人类底层运行的很多逻辑自然有其稳定性, 但 intelligence 层的创造人类史上首次; 必然带来的是科技与应用层的爆炸创建, 演化的齿轮只会加速运转.
观察一: 两年前, 报道中还有很多关于 “人工智能威胁论” 的声音, 但如今自己所见更多是技术应用的极致狂欢 – 显然, 关于 AlphaGo/AlphaFold/IMO 的突破离多数人太远, 讨论止于玄想; 当更多实际场景落地, 大众对于AI的观感更为真切.
观察二: 身边人对于 chatbot 的输出态度更为包容. 从最初关于图灵测试的讨论 & 与 ChatGPT 的接触, 人类对于远端 “思考机器” 的认知在更多的交互与铺天盖地的宣传/科普中逐渐清晰; 因此一方面破除对于硅基输出的不信任, 另一方面也清晰认知概率模型的错误风险.

[B] Vibe Coding (VC)

碎语如此, 大抵言明自己近半年来的情绪; 新的系列起名 “未来世界观察”, 尝试立足个人观察做一些私人总结; 归拢回来, 第一篇谈近期对自己影响最大的一项, Vibe Coding (VC).
何谓 VC? 词源 Andrej Karpathy 25年2月的X, prompt-base programming, “The developer does not review or edit the code, but solely uses tools and execution results to evaluate it and asks the LLM for improvements.” 记不得从哪里看到的概念, VC的不同层级, “IDE → Tab → SideBar → Chat → Remote → Parallel/Long-term”, 描述对于VC的不同层面的受用性.
反观自身经历, 自己的编程也算是半路出家, 前AI时代, 除了刷 LeetCode & 相关课程做的一些projects属纯手搓享受一些创造乐趣之外, 大部分编程属于面向 stackoverflow 搬轮子; 对于coding工具的接受过程, 确实经历了 Cursor/Windsurf 形式的tab补全, 到 Copilot/RooCode 形式的侧边栏对话, 到 ClaudeCode/Codex/Antigravity 形式的侧重对话而非代码的交互. 目前为止体验过的工具链大体如上, 现在自己所熟悉的workflow主要基于CC构建.
何以 CC? 基于Anthropic家的博客和实际使用体验, 分析其核心的一些features:
1. MCP: 标准化工具入口 – agent 之手
2. skill: 可复用/进化标准化工作流, 领域化层级化知识组织 – agent 之经验记忆
3. subagent: 专家体系, 各司其职, 上下文隔离 – agents 群体智慧
4. hooks: 控制&遥测逻辑, 自动化&拦截机制 – agent 之鞭
(显然上述总结并非出自AI之手而是私货, 不然对仗不会如此零碎.) 从这些核心特性出发 (high-level), 加上自己近半年主要在做agent框架的视角: 显然, 上述要素不单是一个coding-agent, 而是满足一个理想上泛用智能体系统的基础构件. 或许这也是为什么, CC出圈也是因为用户拿它来做远不止编程的事情; 也正因此, CC的SDK也更名 claude-code-sdk -> claude-agent-sdk.
25年底, “coding是走向通用智能之路” 成为共识 (当然模型训练是另一回事), 而CC是那第一扇窗户.
那自己有和经验可供分享吗? 借做分享这一契机, 正好在近两周深度使用VC尝试了一些想法, 包括:
1. Nexus: 桌面端个人AI助手. 一个Electron的应用, 面向个人使用集成常用功能, 包括番茄钟 (类 TickTick), 时间记录 (类 Timing), 图床 (类 uPic), 纯然个性化的使用需求和交互逻辑. – 一波三折的技术选型, 一开始Pomodoro想用vscode, 后来跨项目统计问题转到Raycast插件, 因为menubar刷新限制最终选择桌面应用. 所以 tech stack 确实相当重要.
2. Iris: 浏览器个人AI助手. 包括网页agent (类 Monica), 书签工具 (类 Raindrop/Anybox), 圈画助手 (类 Cubox). 在交互逻辑上, 对于 content script / popup / side panel / FAB (Floating Action Button) 等做了不同的选型, 不断迭代中.
3. Delf: 法语考试练习助手. 需求是对象想要法语考试, 帮忙把一个教材练习册转为APP, 包括听说读写四部分+AI判分. – 熟悉之后核心逻辑只用了一天就完成了完全可用的结果, 相当顺畅.
回过头来, VC最好的老师还是自己, 实践才能有判断, AI指导往往比90%的人授更为准确. 自己分享的slices注定是速朽的 (which is good), 但 “meta-VC” 的经验或许有些扩散作用.
1. Manage your own LLM. 正如吴恩达所言, token成为electricity的一般生产资料, 那么模型的使用就不能是一个(无法信任的)黑盒 (某些代理站点). 构建自己的 proxy (openrouter) 的价值在于对于模型/成本/tracing的有效掌控, 并对于LLM的能力有更清晰的认知 (所以理解LLM basic mechanism有必要).
2. Build your own tools. 自己的经验是会把coding场景相关的工具重新包一个MCP, e.g. search/crawl工具. 这样的好处除了对于工具执行进行监控外, 还能对于一些外部服务的质量进行控制, 例如deepwiki很好用但官方的mcp显然没考虑好好维护 (读取文档居然只能全量拉取repo的整个wiki能有100k+tokens), 自己重新封装后可以使其更为可用.
3. Create your own workflows (Even your own CC). 一方面是积累自己的 mcp/skill/hooks/subagent/slash commands, 定制化自己的心流; 另一方面, 再造一个 CC/clawbot 又何尝不可?
VC时代, 一方面, “code is cheap, prompt/spec is core”, 极大改变了软件开发流程/行业. 另一方面, 当代码实现不成为障碍, 个人/产品经理的 idea/sense 就显得尤为突出 – 当然这是一个很大的话题, 留待以后吧!

[C] 本周关注

What if you don’t need MCP at all? | { Mario Zechner } 2511. 通过 browser-tool 的案例, 发现可能不需要使用现成的MCP (playwright-mcp, chrome-devtools-mcp), 而是直接基于已有方案搭建 scripts+skills 更好 – 因为更适合自己的工作流!
FUSE is All You Need - Giving agents access to anything via filesystems [2601 Jakob Emmerling] 引入 Linux FUSE 的概念 (Filesystem in Userspace) 来封装虚拟文件系统 — 将以往只能API暴露的邮件系统封装为文件系统. [remark] 和 agent-skills 的技术路线一致, 都是复用模型 coding/bash 能力.