本文写于25年九月末, 当时想着改改再发但忙于别的事情就没改. 里面大部分内容虽然仍然认同, 但有的如果我现在写会有一点额外的评论

我暑假在开发一个比较unorthodox的拟人agent架构。

这个架构的设计逻辑很直白: 单一LLM的功能总是有限的,受准确度和成本约束,未来几乎一定会有大量高度特化的功能模块组成复杂的agent。我的创新在于这些模块不只是被动的,而是主动响应的——因为"判断由哪个模块执行任务"这个问题在未来可能很难中心化。当然鉴于底层模型能力限制,这个架构暂时更适合约束较少的拟人用途,但hopefully未来能拓展到更多场景。

不过技术细节不是这篇文章的重点。开发过程中更值得写下来的,是一些关于LLM能力边界的想法。

LLM已经拥有智慧了吗

考虑四个概念: 智力、信息、知识、智慧。LLM现在能解决问题并给出路径,可以说是有前三者并提供了智慧。但我不说它拥有智慧,因为LLM与现实的双向映射仍然没有,它不能直接在物理世界中应用所掌握的知识。

一个亲身例子。我过去几年时有胀气和腹泻,大概率乳糖不耐受加FODMAP敏感,懒得去医院。GPT判断可能是菌群失调甚至SIBO(小肠细菌过度生长),推荐了一个抗生素Rifaximin——能清除坏菌但对好菌影响小,血液吸收极少。我小赌一把,吃了7天,问题解决了。

这里很神奇: LLM显然没有"理解"肠道和细菌是什么实体,但仍然解决了问题。这几乎就是"中文房间"把字典换成专业图书馆的变种。问题在于它很难动态地、实时地与物理世界互动。这也是具身智能呼声强烈的原因——允许LLM的智能通过物理方式作用于外界。

不过具身智能3年内我不太看好,数据采集是瓶颈,而且人类大脑发育中的一些inductive bias至少要被minimally模拟出来才行。

更重要的观察是: 人类学习的材料几乎都是自然语言和公式,也就是同样可以被大模型吸收的东西。理工文科无一幸免。即使3D/图景想象在不少情况下也只是可有可无的辅助——我们就是主要通过语言(含数学)来理解事物的。这个事实强力支撑了一个观点: 依靠现有语料,大模型足够在不少领域达到精英水平。

这里最美妙的一点: 最难的技术问题很大程度上已经被突破了——需要推理的那部分。 剩下的工程问题相较之下几乎只算是套皮工作。

Agent: LLM的皮

为什么有agent这个概念?最简单的比喻: LLM就像发动机,但除了发动机之外还需要变速箱、底盘、电气系统才能跑起来。

本质原因是LLM缺少意图,也缺少记忆,所以必须有外部系统来提供稳定且正确的上下文和指示,使其完成多步骤工作。

注意工作这个词。我们要AI来干嘛?替代工作。OpenAI以经济效益衡量AI能力,我觉得确实有不少合理性——如果只用一个指标,我想不到比这个更好的。

大多数场景我们都会希望AI能多完成几步,最好主动完成。如果这个看法是普遍存在的,那结论很简单: 未来几乎只要能agent化的就会agent化。

当前coding agent火热,其他类型agent还没深入大众生活,主要问题是准确率和任务场景——coding agent面对的是well defined的代码和效果,其他场景没这个福气。但我仍然乐观。最强的证据: 近几年AI相关技术正在把以前没想象过的功能实现,而且这个速度有增无减。两年前AI生成的图片还挺屎的,现在已经流畅生成视频了。这种趋势几乎没有道理骤停。

我们的偏见

有个钟表测试,很多视觉大模型没法正确读出表是几点。原因很简单: 没有足够被标注过的钟表图片数据。但这种测试结果会引来带偏见的推论: 三四岁小孩就懂看表了,在这一点AI智能还不如小孩——然后滑坡到质疑AI在更"困难"问题上的可靠性。

这里有两个来自人类基础教育的隐性偏见:

  1. 学东西要按顺序。
  2. 如果高阶知识掌握得好,说明底层也掌握得好。

这两点对AI显然不适用,但当前AI研究仍被这两个偏见深度影响,搞出不少搞笑的benchmark。最幽默的是"常识"类和HLE这种极复杂的。但实际上完成工作经常两者都不需要,只需要职业内、领域内知识。一个美国人在这两个测试上都得到平庸分数,不妨碍他完成他的工作。

一个人不知道中国邻国包括俄罗斯大概显得有点傻,但这完全不妨碍他完成他的工作。我们也没必要以此评价AI傻不傻。

当然还有一点更隐蔽的渴望: 我们想当"上帝",想造出一个和我们一样聪明的存在,复刻创世神话里的造人奇迹。如果以这个为标准,显然不能容忍造物犯下一些显蠢的小错误。

但或许放下这种造神情结,接受一个多体且分工的系统而非一个巨大的无所不能的模型,会带来更大的效益。