“CICERO” · 近30天声量数据
作品数作品数趋势作品数分布
互动数互动数趋势互动数分布
- 公众号2151/52%
- B站1135/27%
- 微博131/3%
- 抖音33/1%
- 快手0/0%
代表作品
作品导出
深度报告
| 内容 | 评论 | 分享 | 收藏 | 获赞 | 操作 |
|---|---|---|---|---|---|
![]() ![]() 一个不明物体突然降落地球,里面竟然是一个全身发麻的女人! 唇下痣影视 发布时间2025/12/27 23:08:54 | 30 | 11 | 216 | 433 | 更多 |
![]() 这个诺贝尔奖,解释了伊朗为何走向失败 报人刘亚东A 发布时间2026/01/16 11:39:36 | - | - | - | 169 | 更多 |
![]() ![]() 保镖只是照了下镜子,却发现后面藏着一双脚 有缘电影 发布时间2025/12/27 15:59:00 | 0 | 0 | 157 | 128 | 更多 |
![]() 刘业进|何谓现代性?何谓现代国家? 刘业进 发布时间2026/01/06 05:49:41 | 16 | - | - | 86 | 更多 |
![]() ![]() #模型时代# 从扑克AI到o1推理模型,Noam Brown伯克利讲座:多智能体AI的核心方法论
这个讲座的重要程度似乎就不用多说了,来自OpenAI研究科学家,AI领域的传奇人物Noam Brown在UC Berkeley CS294-196课程,一场关于Multi-Agent AI(多智能体AI)的深度讲座。反正AI圈,叫Noam的好像都挺牛?
Brown在CMU读博期间创造了Libratus和Pluribus,首次在无限注德州扑克中击败人类顶尖职业选手;后来在Meta FAIR带队开发了Cicero,成为第一个在策略游戏《外交》中达到人类水平的AI;2023年加入OpenAI后,他成为o1/o3推理模型的核心研发者之一。这场讲座浓缩了他十年研究的核心洞察:为什么自我博弈在某些游戏中如此成功,又为什么在LLM和非零和场景中遇到了根本性障碍。
Brown这场讲座最核心的洞见是:如果你的目标是学会与人类合作,不用人类数据是死路一条。 这直接挑战了AI社区一个流行的隐含假设——AlphaGo式的纯自我博弈是通往通用智能的路径。双人零和游戏的均衡值是唯一的,不管怎么训练都能通用;但非零和游戏存在多个均衡,纯自我博弈会让你收敛到一个"自己人"的均衡,扔进人类世界就懵了。人类社会已经有了自己的均衡,还带着文化差异,你要和人类协作,就必须学他们的均衡。
但Brown并没有否定强化学习,他否定的是self-play RL在非零和场景中的适用性。他提出的方法依然是RL,只是环境变了:先用人类数据训练imitation model,再把这个模型当作RL的环境。人类数据的作用不是替代RL,而是构建RL的环境。你依然在做强化学习,但你的"对手/队友"是人类行为的近似,而非自己的副本。
划重点:其中一个AI要学习人类(模仿学习),伪装成人的样子。
一、自我博弈为什么还没进入LLM?
Brown开场就抛出了一个让人意外的观察:自我博弈(self-play)驱动了AI在围棋、扑克、Dota、星际争霸等游戏中的突破,但我们至今没有在LLM中看到真正的自我博弈。
1、LLM的发展轨迹其实和AlphaGo很像
两者都经历了三个阶段:首先是在高质量人类数据上预训练,AlphaGo用人类棋谱,LLM用互联网文本;然后是启用大规模推理计算,AlphaGo用蒙特卡洛树搜索,LLM用链式思考(chain of thought);第三步是递归自我改进。AlphaGo通过自我博弈完成了这一步,AI和自己下了数十亿盘棋,越下越强。但LLM卡在了这里。
2、问题出在哪?
很多人对自我博弈的直觉其实是"过拟合"到围棋和象棋这类双人零和完美信息博弈上了。一旦走出这个范畴,自我博弈的很多优美性质就消失了。
这引出了一个基础问题:什么才是"最强"的定义?
二、谁才是最强的扑克玩家?
Brown用一个问题打开了这个话题:假设有两个扑克玩家,A是那个在足够大样本下能赢过任何单一对手的人;B是那个一年下来赚钱最多的人。谁更强?
现场观众意见分歧。有趣的是,在扑克中,这两个人可能不是同一个人。
A可能擅长在顶尖对手面前不犯错、稳扎稳打地赢下微小优势,但面对弱手时不会最大化收割;B可能特别擅长发现弱手的漏洞并狠狠利用,但在顶尖对决中反而略逊一筹。在象棋或围棋中,我们几乎不会考虑这种可能性——"最强"就是Magnus Carlsen,两个定义指向同一个人。
这就是minimax equilibrium(极小化极大均衡)和population best response(对群体的最优响应)的区别。
minimax equilibrium追求的是"让对手占不到便宜"——不管对手怎么打,你都不会输。population best response追求的是"在这群人里赚最多"——针对特定群体的弱点最大化收益。在双人零和游戏中,这两者往往一致。但在扑克和更复杂的场景中,差异就显现出来了。
三、不完美信息游戏为什么这么难?
1、完美信息游戏的自我博弈相对简单
在围棋、象棋这类完美信息游戏中,自我博弈本质上就是独立的单智能体强化学习。理论上,只要探索充分,PPO(Proximal Policy Optimization,目前最主流的强化学习算法之一)这类算法就能收敛到均衡。当然实践中神经网络的近似能力有限,仍可能存在对抗性漏洞——2023年有论文证明,人类玩家通过特定策略仍能击败顶级围棋AI。
2、不完美信息游戏完全是另一回事
Brown举了一个让人惊讶的例子:PPO在石头剪刀布中不会收敛到均衡。
很多资深RL研究者都不知道这一点。原因在于,石头剪刀布需要以特定概率平衡多个动作,而PPO算法本身没有任何机制强制收敛到某个特定的概率分布。
3、核心难点:动作的价值取决于你选择它的概率
这是不完美信息游戏区别于完美信息游戏的根本原因。在象棋中,如果你想用西西里防御开局,不管你10%的概率用还是90%的概率用,期望价值都差不多。但在扑克中,如果你想诈唬(bluff),你10%的时间诈唬还是90%的时间诈唬,收益天差地别——如果你总是诈唬,对手会察觉并开始频繁跟注,诈唬的价值就会暴跌。
所以,在不完美信息游戏中,你需要的算法不是找出"该做什么动作",而是找出"以什么概率做什么动作"。
四、解决不完美信息游戏的算法
1、虚拟博弈(Fictitious Play)
最简单的方法。每轮迭代中,每个玩家对对手历史平均策略计算最优响应。如果所有玩家都这么做,平均策略最终会收敛到均衡。
以石头剪刀布为例:初始两人都出石头,历史记录是"100%石头";第二轮,针对"100%石头"的最优响应是出布,于是你出布,现在历史记录变成"第一轮石头、第二轮布",平均下来是50%石头50%布;第三轮,针对"50%石头50%布"的最优响应还是出布,你继续出布,平均策略变成33%石头67%布;第四轮,针对这个分布的最优响应变成剪刀……就这样迭代下去,平均策略会慢慢收敛到1/3、1/3、1/3。
问题是收敛速度非常慢。
2、后悔匹配(Regret Matching)和Hedge算法
这是现代更快的算法。Fictitious Play每轮都all-in到单一最优动作,Regret Matching则更"圆滑":它追踪每个动作的regret(后悔值)——"如果我一直选这个动作,本可以多赚多少?"——然后按后悔值的比例分配概率。后悔值越高的动作,下一轮选它的概率越大。这就是所谓的正则化最优响应:不是非黑即白地跳到最优,而是平滑地向最优倾斜。
这类算法和梯度下降有很深的数学联系。改进版本如Linear Regret Matching可以快几个数量级。
这些算法最终被用于击败人类扑克冠军。Brown强调,Libratus击败顶尖扑克选手时没有用神经网络——主要挑战是如何在不完美信息游戏中做搜索,以及如何收敛到均衡,Regret Matching是关键。
3、单智能体RL和多智能体RL的算法鸿沟
一个恼人的现实是:单智能体RL有很多优秀算法,但它们在多智能体设定下失效;能收敛到均衡的多智能体算法,在单智能体RL中表现又不好。最近有一些工作在尝试统一这两类算法,但仍在快速发展中。
五、为什么双人零和游戏中不需要语言?
Brown提了一个有趣的理论结论:在双人零和游戏中,如果你计算的是minimax均衡,和对手交流永远没有用。
证明很简单:双人零和游戏的所有均衡都有唯一值V1和V2=-V1。如果有"cheap talk"(无成本沟通),要么它增加V1(对手会忽略),要么减少V1(自己不该说),要么没影响。所以在均衡中,沟通毫无意义。
这解释了为什么在谈到双人零和游戏时,Brown几乎没提LLM——因为语言在这里根本不重要。
六、非零和游戏:与人类合作需要人类数据
这是整场讲座最关键的论断:"如果你的目标是学会与人类合作,不用人类数据是死路一条。"
1、最后通牒游戏(Ultimatum Game)的启示
游戏规则:Alice拿到100美元,必须向Bob提出一个分配方案;Bob决定接受或拒绝;如果接受,按方案分;如果拒绝,双方都得零。
现场调查显示,大多数人在20-30%以下会选择拒绝——即使拿1美元也比0美元多,但人类的公平感会让他们宁可两败俱伤。
纯博弈论的"最优"策略是什么?Alice只给1美分,Bob理性上应该接受。但这个策略在真实世界完全行不通。
有人会说"人类是非理性的,算法没问题"。但Brown认为这是错误的思路。如果你的目标是在真实世界中与人类协作并获得最好结果,那问题出在你的优化目标上,而非人类的行为。
2、文化差异让问题更复杂
最后通牒游戏的实验结果高度依赖文化背景。有些文化很容易接受20%的分配,有些文化只接受50/50。你怎么可能在没有人类数据的情况下学到这种文化差异?
3、Diplomacy AI的实证
Diplomacy是一个七人自然语言谈判游戏,每回合玩家私下协商,然后同时提交命令,充满了信任和背叛。
Brown团队开发了DORA,一个纯自我博弈、类似AlphaZero的Diplomacy AI。结果很有意思(七人游戏中,随机水平的胜率是14%,高于14%说明你比平均强):
• 1个Searchbot(用人类数据训练)vs 6个DORA:Searchbot只赢1%,远低于随机水平
• 1个DORA vs 6个Searchbot:DORA只赢11%,也低于随机水平
这说明什么?存在不同的均衡。DORA找到了一个和自己博弈时有意义的均衡,但把它扔进一群按人类均衡训练的AI中,它就懵了。
在双人零和游戏中不会有这种问题——不管你怎么训练,只要收敛到均衡,面对用完全不同方法训练的AI也能表现良好。但在非零和游戏中,这个性质消失了。
4、正确的方法
Brown给出的方案是:
• 收集大量人类数据,训练人类行为的模仿模型
• 扩展推理计算以更好地模拟人类玩家——这里的目标不是让AI"更强",而是让AI的行为模式和人类一致。为什么?因为你要和人类玩家协作,如果你的行为逻辑和人类完全不同,你们根本配合不起来,就像DORA在一群Searchbot中的窘境
• 在以人类模仿模型为环境的设定下做强化学习
这个方法在No-Press Diplomacy的200场真人锦标赛中拿到了第一名。在完整的自然语言Diplomacy中,Cicero匿名进入人类联赛,排名前10%,平均得分超过人类平均的两倍多。
Brown认为Cicero没拿第一的主要原因是2022年的语言模型还不够好。用今天的模型重做,结果应该会更惊人。
七、Multi-Agent AI的当下与未来
1、为什么需要多智能体协作?
延迟问题。 Chain of thought是串行的,o1 Pro可以思考15-20分钟,但如果要思考几小时甚至几天呢?没人愿意等三周拿一个回复。
多智能体的并行方法提供了替代方案:Best-of-N(采样多次,选最好的)、共识(采样多次,选最常见的答案)。缺点是计算效率更低,但延迟低得多。
多样性是优势。 就像人类用计算器乘15位数比心算更有效率,模型也没必要自己做所有事。不同模型擅长不同任务,路由(routing)本质上已经是一种多智能体AI——根据query选择最合适的模型来回答。
2、当前的困境
现在的多智能体系统大多是高度工程化的脚手架(scaffold),非常脆弱。Cognition最近有篇博客说得很直白:"Agents today are not quite able to engage in this style of long context proactive discourse with much more reliability than you would get with a single agent."
换句话说,技术还没到位。
3、为什么现在是研究多智能体AI的最佳时机?
多智能体AI领域已经存在了几十年,一直有个老大难问题:怎么让AI之间互相沟通和协调?有人花整个PhD就为了让智能体发展出一种语言来交流。
LLM彻底解决了这个问题。现在AI可以直接用自然语言互相对话,而且——它就是能work。如果你只在这个领域待了几年,你会把这当成理所当然。但对老一辈研究者来说,这简直是魔法。
Brown的判断是:模型正在接近能够有效执行多智能体任务的临界点。现在入场正当时。
核心归纳
Q1: 为什么LLM还没有实现像AlphaGo那样的自我博弈突破?
因为大多数人对自我博弈的直觉是基于围棋、象棋这类双人零和完美信息游戏。在这类游戏中,自我博弈可以保证收敛到不可战胜的策略。但LLM面对的任务大多不是这类游戏——它们涉及不完美信息、多方参与、合作与竞争并存。在这些场景中,纯自我博弈可能收敛到一个对自己有效但对人类毫无意义的"均衡"。
Q2: 在不完美信息游戏中,为什么标准的RL算法(如PPO)会失效?
因为不完美信息游戏中,一个动作的价值取决于你选择它的概率。如果你总是诈唬,对手会学会跟注,诈唬的价值就会下降。这要求算法不仅找出"该做什么",还要找出"以什么概率做什么"。PPO没有任何机制强制收敛到特定的概率分布,所以即使在石头剪刀布这么简单的游戏中也不会收敛到均衡。
Q3: 为什么说"学会与人类合作必须用人类数据"?
因为非零和游戏中存在多个均衡,纯自我博弈可能找到一个和人类完全不同的均衡。最后通牒游戏的例子说明,博弈论的"最优"策略在真实人类面前会彻底失败。更关键的是,人类行为存在文化差异,没有任何算法能从零推导出这种差异。Diplomacy AI的实验证明,用人类数据训练的模仿模型作为环境来做RL,是目前唯一有效的方法。 http://t.cn/AX4fDj7S ![]() 高飞 发布时间2025/12/26 02:53:23 | 0 | 59 | - | 61 | - |








