从第一性原理看大模型 Agent 技术

[AUTHOR1: FS.IO] [DATE: 2023-11-05]

互联网时代，网站是核心载体；移动互联网时代，App 占据了人们的注意力中心。那么，智能时代呢？

一个大胆的预测：Agent 可能成为智能时代的核心载体。

什么是 Agent？

从第一性原理来看，Agent 是一个能感知环境、自主决策并采取行动的实体。人类是这个星球上最强大的 Agent，但 Agent 的复杂程度各不相同——从简单的恒温器到复杂的国家组织，都可以是 Agent。

Agent 的关键特征：

感知环境
自主决策
行动能力
明确目标
适应和学习能力

这个概念在 AI 领域已经研究了几十年，但始终面临技术天花板。为什么？因为 Agent 技术的进步本质上依赖 AGI（通用人工智能）的进步。

直到大模型的出现，这一切开始改变。

从 Prompt 到 Agent：技术演进脉络

如果我们观察过去一年多的技术发展，会看到一个清晰的脉络：

Prompt 工程 → Prompt Chain/Flow → Agent → Multi-Agent

第一阶段：Prompt 工程

最简单的方式是把大模型当成工具，通过精心设计的 Prompt 来调用。角色扮演、零样本/少样本提示，都是这种思路的体现。

还记得那个 15000 字符的”AI 导师” Prompt 吗？这就是 Prompt 工程的极致发挥。

第二阶段：Prompt 外挂

单纯靠 Prompt 不够用了。人们开始给大模型加”外挂”：

向量数据库：让模型使用最新知识
工具调用：ChatGPT Plugins 让模型能调用外部 API
规划器：把问题转化成 PDDL 格式，让专用规划器解决

第三阶段：思维链与分解

要让大模型像人类一样”一步一步思考”，思维链（Chain of Thought）应运而生。

进一步的发展：

CoT-SC：尝试多种思路，投票选择最佳答案
思维树（ToT）：将问题垂直分解，逐层扩散解空间
思维图（GoT）：既可以分解，也可以合并
累计推理：清华姚期智团队提出，在 24 点问题上达到 98% SOTA

第四阶段：ReAct 与反馈

ReAct 将推理和行动结合起来：Thought → Action → Observation，形成闭环。

ChatGPT 的代码解释器就是这种模式——生成代码、调用工具、获取结果、反馈给用户。

更进一步，Reflection 机制让 Agent 能从每次任务中积累经验，无论成败。

第五阶段：Agent

AutoGPT 的横空出世标志着 Agent 时代的到来。它的核心思想：

创建初始计划
进入主循环：决策 → 执行 → 反馈 → 迭代
支持任务分解和子 Agent 调用
通过记忆机制优化决策

最近清华发布的 XAgent 提出”双循环机制”——外循环负责宏观规划，内循环负责细节执行，在效果上碾压了 AutoGPT。

第六阶段：Multi-Agent

单智能体不够？那就多智能体协作。

斯坦福小镇：每个角色都是一个 Agent，按计划活动，相遇时交谈，涌现出群体智能。

MetaGPT：定义产品经理、架构师、工程师等角色，协作完成 500 行代码的小工程。

智能的核心：面向目标架构

从人类智能的视角来看，Agent 技术的本质是什么？

答案可能是：面向目标架构（Goal-Oriented Architecture）。

系统一与系统二

《思考快与慢》中提出的系统 1 和系统 2 概念：

系统 1：快速反应、直觉、潜意识
系统 2：逻辑思考、推理、有意识

在认知科学中，全局工作空间理论（GWT）认为系统 2 是一个高度集中的”舞台”，我们的有意识思考都在这个舞台上进行。

目标驱动的智能

人类智能的核心是什么？是消除当前状态和目标状态之间的差异。

当前世界状态 → [目标驱动] → 目标世界状态

在这个过程中：

我们构建世界模型
通过手段-目的分析（means-ends）找到解决方案
将复杂任务分解为子任务
遇到异常时灵活调整

这正是 Agent 需要具备的能力。

软件工程的范式转移

传统的软件开发是面向过程架构——函数、接口、组件，都是被调用的子流程，不为结果负责。

而 Agent 代表了面向目标架构——描述目标，让系统自行寻找达成目标的方法。

这个转移意味着：

从人类主导、AI 辅助 → AI 主导、人类辅助
从解决有限任务 → 解决无限长尾任务
从垂直层级架构 → 自主生成的架构

现有 Agent 的局限性

尽管发展迅速，但现有 Agent 技术仍有明显局限：

1. 缺乏真正的推理能力

很多 Agent 只是简单的规划器，没有显性的推理过程。它们能行动，但不会深度思考。

2. 世界模型不完善

大模型只能输入语言，但理解世界需要多模态输入、时间感知、身体运动控制等。

3. 记忆机制简陋

目前的”记忆”只是向量数据库存储和召回，缺乏：

记忆的整理和遗忘
长短时记忆的层次化
工作记忆的机制

4. 学习能力不足

Agent 需要学会：

判断自身可靠性
知道自己知道什么、不知道什么
从经验中内化知识

5. 简单难题做不了

举个例子：让 GPT-4 展示一个超长加法计算的每一步过程。由于 Token 限制，它无法完成，但人类可以。

这说明人类和 AI 的处理策略有本质差异，我们需要新的架构来弥补这个 Gap。

未来的方向

基于第一性原理的分析，Agent 技术的未来可能在以下方向：

1. 中央执行机构

不只是规划器，而是有透明可控的内部加工过程。用系统 2 包裹起来，让每一步思考都可观察。

2. 完善的记忆机制

记忆的整理和遗忘
长短时记忆与工作记忆的层次化
海马体式的记忆重构

3. 多模态输入与自上而下处理

不仅是视觉、听觉，还要有时间感知、身体感知。更重要的是 Projection 机制——从上到下的解释，像人类从像素点中识别人脸。

4. 隐空间通信

语言是低带宽、低效的通信工具。未来 Agent 能否在隐空间直接通信，类似”心灵感应”？

5. 运动控制的层次化

神经网络直接连接运动控制神经网络，实现流畅的、比人类更灵活的运动。

6. Mental Simulation

不是”想到就做”，而是在内部预判行动结果，自我纠错，保证行动可靠性。

思考：Agent 与大模型

一个重要的问题：GPT-4 和 Agent，谁更本质？

从任务完成的视角看，GPT-4 也是一种 Agent。Agent 的概念是大模型的超集。

这也解释了为什么智能时代的核心载体可能是 Agent，而不是大模型本身。大模型是 Agent 的核心组件，就像自行车轮子和自行车的关系。

结语

Agent 技术站在了一个新的起点上。

从 Prompt 工程到 AutoGPT，从单智能体到多智能体协作，我们正在见证一场深刻的变革。

它不是要取代人类，而是要重新定义人机协作的方式。

未来的智能体工程，可能会让 AI 成为中心，人类变为辅助。这不是悲观，而是乐观——因为这意味着我们可以从重复的脑力劳动中解放出来，去探索更有创造性的领域。

正如毛泽东的那段话：

“它是站在海岸遥望海中已经看得见桅杆尖头了的一只航船，它是立于高山之巅远看东方已见光芒四射喷薄欲出的一轮朝日，它是躁动于母腹中的快要成熟了的一个婴儿。”

Agent 技术，正是这样一个时刻。

注：本文基于【从第一性原理看大模型Agent技术】分享视频整理，感谢原作者的深入思考。