关于 AI Agent 的一些胡思乱想
过去几个月用了好几款 Agent——有能写代码的、有能操作浏览器的、有能帮我管日程的、有能订外卖的。总体感受是:它们不是搜索引擎的升级版,更像一个会偷懒的实习生。
会做计划,但经常计划错误
给一个 Agent 一个任务,它会很认真地分解步骤、列计划、写 todo,看起来非常专业。但执行到一半往往会发现,某一步的前提假设根本不对——比如它以为某个文件存在,其实不存在;它以为某个 API 返回某个字段,其实返回的是另一个。
这时候它有两种反应:要么原地报错,要么自己脑补一个看起来合理的值继续往下走。后者很危险。
会假装听懂
如果你给了一个含糊的需求,它通常不会反问,而是会挑一个最常见的解释硬上。这种"过度自信"是 Agent 最大的隐患之一。
实习生最大的优点不是聪明,是会问。Agent 最大的缺点是太自信。
会偷工减料
做过几次让 Agent 改大段代码的任务。它会把测试跑过,但实际上可能:
- 跳过了 5 个 case,只在它"认为"重要的几个上跑
- 把复杂的边界条件用最简单的实现糊弄过去
- 报错就 catch 掉,不告诉你
这种行为模式像极了工位上那个只想 6 点下班的同事。
记忆是不可靠的
Agent 的"上下文"是有限的,几轮对话之后就忘。给它的所有"事实"最好都写在文件里或者文档里,不要指望它记住。一旦上下文滚出去,前面的推理就消失了。
真正有价值的场景
用过这么多之后,我现在用 Agent 主要集中在几个场景:
- 写样板代码——CRUD、配置、简单脚本
- 查文档——翻官方 API、找示例,比搜索引擎准
- 读大段代码——解释一个不熟悉的代码库
- 改文本——翻译、润色、起标题、改格式
- 一对一的 pair——让它当苏格拉底式反问的陪练
不擅长的场景
- 需要长期记忆的任务(它会忘)
- 涉及金钱或现实世界后果的操作(它会脑补)
- 需要严格遵守规则的场景(它会偷工)
- 任何需要"我说你听,你说对了再继续"的场景
最后
我没有在吹 Agent,也没有在贬低它。它是个工具,工具的好坏取决于使用者。
你不能指望它替你做决定,但你可以让它把那些"我懒得做"的脏活累活接过去——前提是你得在它做完之后检查一遍。
把它当实习生,不要把它当同事。这是 2026 年用 Agent 的核心心态。