Agent: 最难的已经解决了

本文写于25年九月末, 当时想着改改再发但忙于别的事情就没改. 里面大部分内容虽然仍然认同, 但有的如果我现在写会有一点额外的评论

我暑假在开发一个比较unorthodox的拟人agent架构。

这个架构的设计逻辑很直白: 单一LLM的功能总是有限的，受准确度和成本约束，未来几乎一定会有大量高度特化的功能模块组成复杂的agent。我的创新在于这些模块不只是被动的，而是主动响应的——因为"判断由哪个模块执行任务"这个问题在未来可能很难中心化。当然鉴于底层模型能力限制，这个架构暂时更适合约束较少的拟人用途，但hopefully未来能拓展到更多场景。

不过技术细节不是这篇文章的重点。开发过程中更值得写下来的，是一些关于LLM能力边界的想法。

LLM已经拥有智慧了吗

考虑四个概念: 智力、信息、知识、智慧。LLM现在能解决问题并给出路径，可以说是有前三者并提供了智慧。但我不说它拥有智慧，因为LLM与现实的双向映射仍然没有，它不能直接在物理世界中应用所掌握的知识。

一个亲身例子。我过去几年时有胀气和腹泻，大概率乳糖不耐受加FODMAP敏感，懒得去医院。GPT判断可能是菌群失调甚至SIBO（小肠细菌过度生长），推荐了一个抗生素Rifaximin——能清除坏菌但对好菌影响小，血液吸收极少。我小赌一把，吃了7天，问题解决了。

这里很神奇: LLM显然没有"理解"肠道和细菌是什么实体，但仍然解决了问题。这几乎就是"中文房间"把字典换成专业图书馆的变种。问题在于它很难动态地、实时地与物理世界互动。这也是具身智能呼声强烈的原因——允许LLM的智能通过物理方式作用于外界。

不过具身智能3年内我不太看好，数据采集是瓶颈，而且人类大脑发育中的一些inductive bias至少要被minimally模拟出来才行。

更重要的观察是: 人类学习的材料几乎都是自然语言和公式，也就是同样可以被大模型吸收的东西。理工文科无一幸免。即使3D/图景想象在不少情况下也只是可有可无的辅助——我们就是主要通过语言（含数学）来理解事物的。这个事实强力支撑了一个观点: 依靠现有语料，大模型足够在不少领域达到精英水平。

这里最美妙的一点: 最难的技术问题很大程度上已经被突破了——需要推理的那部分。 剩下的工程问题相较之下几乎只算是套皮工作。

Agent: LLM的皮

为什么有agent这个概念？最简单的比喻: LLM就像发动机，但除了发动机之外还需要变速箱、底盘、电气系统才能跑起来。

本质原因是LLM缺少意图，也缺少记忆，所以必须有外部系统来提供稳定且正确的上下文和指示，使其完成多步骤工作。

注意工作这个词。我们要AI来干嘛？替代工作。OpenAI以经济效益衡量AI能力，我觉得确实有不少合理性——如果只用一个指标，我想不到比这个更好的。

大多数场景我们都会希望AI能多完成几步，最好主动完成。如果这个看法是普遍存在的，那结论很简单: 未来几乎只要能agent化的就会agent化。

当前coding agent火热，其他类型agent还没深入大众生活，主要问题是准确率和任务场景——coding agent面对的是well defined的代码和效果，其他场景没这个福气。但我仍然乐观。最强的证据: 近几年AI相关技术正在把以前没想象过的功能实现，而且这个速度有增无减。两年前AI生成的图片还挺屎的，现在已经流畅生成视频了。这种趋势几乎没有道理骤停。

我们的偏见

有个钟表测试，很多视觉大模型没法正确读出表是几点。原因很简单: 没有足够被标注过的钟表图片数据。但这种测试结果会引来带偏见的推论: 三四岁小孩就懂看表了，在这一点AI智能还不如小孩——然后滑坡到质疑AI在更"困难"问题上的可靠性。

这里有两个来自人类基础教育的隐性偏见:

学东西要按顺序。
如果高阶知识掌握得好，说明底层也掌握得好。

这两点对AI显然不适用，但当前AI研究仍被这两个偏见深度影响，搞出不少搞笑的benchmark。最幽默的是"常识"类和HLE这种极复杂的。但实际上完成工作经常两者都不需要，只需要职业内、领域内知识。一个美国人在这两个测试上都得到平庸分数，不妨碍他完成他的工作。

一个人不知道中国邻国包括俄罗斯大概显得有点傻，但这完全不妨碍他完成他的工作。我们也没必要以此评价AI傻不傻。

当然还有一点更隐蔽的渴望: 我们想当"上帝"，想造出一个和我们一样聪明的存在，复刻创世神话里的造人奇迹。如果以这个为标准，显然不能容忍造物犯下一些显蠢的小错误。

但或许放下这种造神情结，接受一个多体且分工的系统而非一个巨大的无所不能的模型，会带来更大的效益。

LLM已经拥有智慧了吗#

Agent: LLM的皮#

我们的偏见#

LLM已经拥有智慧了吗

Agent: LLM的皮

我们的偏见