【Agent】115. 对OpenAI姚顺雨3小时访谈:6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界-2025-M09
封面
- 标题:115. 对OpenAI姚顺雨3小时访谈:6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界
- 链接:https://podcasts.apple.com/cn/podcast/115-对openai姚顺雨3小时访谈-6年agent研究-人与系统-吞噬的边界-既单极又多元的世界/id1634356920?i=1000726193755
- 发布日期:2025-09-11
- 总字数:2911
- 预估阅读时长:约 10 分钟
- 生成时间:2025-11-22 11:03:10
- 覆盖时长:02:31:19
摘要总结
- 本期核心观点:方法主线已统一为“语言模型+推理+RL”,真正的瓶颈正在从“训练模型”转向“定义任务/环境与衡量标准”。
- 顺宇强调:语言是人类为“泛化”而发明的工具,代码是AI在数字世界的“手”(affordance),Agent的泛化本质来自推理能力而非记忆碎片。
- 对创业者:最大的机会在“交互方式创新”与“任务/环境设计”,数据飞轮成立的前提是有“白盒、结果导向”(可verify)的可学习reward。
- 非共识洞见:未来会出现多种交互形态的super app,而不是一家独大;真正的护城河可能来自memory(长期记忆与用户context),而非单点模型能力。
- 评估应从刷榜转向鲁棒性与长期价值(reliable),优先优化pass@1与端到端成功率,避免仅在pass@k上做文章。
全文
片头预告与引子(00:00:01 - 00:01:23)
张小军:为什么你比大多数人更早做这件事?
姚顺宇:运气与非共识。我PhD第一项工作就是用语言模型做agent;如果OpenAI一直做强化学习(RL),很难超过DeepMind。
广密:如果你是伯克希尔CEO,要怎么在AGI领域投500亿美元?
姚顺宇:不同交互形态的super app会并存,机会来自相信多样性。
开场与嘉宾介绍(00:01:31 - 00:03:37)
张小军:欢迎收听张小军商业访谈录。本期嘉宾OpenAI研究员姚顺宇,2025年4月发表博文The Second Half,提出AI主线程进入“下半场”。
张小军:共同主持人广密。我们将从人、组织、AI的交互出发,探边智能与人机全景。
经历与入门AI/Agent(00:03:38 - 00:07:44)
姚顺宇:自认“乖学生”:合肥→清华→普林斯顿→OpenAI。本科看李剑老师课上Word2Vec/多模态embedding震撼;18年赴MIT和吴嘉庆学长做DL,从CV转向Language与Agent。导师是GPT-1二作Karthik Narasimhan。
语言的general与历史回顾(00:07:48 - 00:09:30)
姚顺宇:语言的generalality很吸引我。60年代Noel & Simon和图灵都想build一个agent,但难度太大,学界走向“碎片化”。15年后Scaling Law带来范式回归,更通用系统成为可能。
BERT vs GPT;任务难度与环境局限(00:09:31 - 00:12:54)
姚顺宇:第一年最大收获:要用GPT,不要用BERT。BERT擅长“选择”,Agent需要“自由生成动作”。另一个教训:任务/环境决定上限,简单任务学不到本质。文字游戏如Zork封闭、迁移差,RL打通一款游戏对其他任务无帮助。
研究脉络:WebShop→ReAct→Reflection→ToT→Automation(00:13:18 - 00:15:11)
姚顺宇:先补环境短板(WebShop把互联网当环境),再抓方法(ReAct),随后是Reflection、Tree of Thought(ToT)、Digital Automation等。我的标准:做有价值、贴近真实世界的任务与“简单通用”的方法。
ReAct的范式转变(00:15:11 - 00:16:17)
姚顺宇:当时学界不适应“只做prompting也可成为研究”。但那时训练大模型落后公司数年,最有价值的是“如何使用模型”而非“如何再训一个模型”。
- 非共识洞见:从‘训模型’转到‘用模型’是决定性的范式跃迁(ReAct)。
非共识与更早做Agent(00:16:18 - 00:17:49)
姚顺宇:我一直做非共识的Agent方向,追求“简单且通用”的方案,不愿为单一垂直场景设计复杂结构。
Agent的定义与语言Agent优势(00:17:57 - 00:21:09)
姚顺宇(NLP视角):不仅能生成文本/思考,还能与外界交互(电脑/互联网/工具)。
姚顺宇(AI视角):广义Agent遍布(AlphaGo、Waymo、robot)。当下更关注“基于LLM自我决策”的Agent。
- 本质差异:语言Agent可推理(reason),因此可跨环境泛化。
Agent三波演进(00:21:19 - 00:26:16)
姚顺宇:1) 符号主义(规则推理,遇到覆盖性瓶颈);2) 深度RL(成功多,但泛化差、工程环境强依赖);3) LLM-based Agent(方法=LLM+推理+工具,环境=编码/互联网等数字世界)。
- 方法线与任务线双演进不可分。
OpenAI“五级能力”与演化逻辑(00:26:16 - 00:28:02)
张小军:从聊天机器人到推理者、Agent,再到创新者、组织者。
姚顺宇:Level 2→3是关键跨越:把推理投入环境交互。下一步两条线:自我reward/探索;multi-agent组织。
架构与关键能力(00:28:03 - 00:29:46)
姚顺宇:主流采用ReAct式“推理→动作”。关键能力划分法不同;我最看重“Context/Memory”和基于此的“在线/终身学习”。
代码即AI之“手”(00:30:09 - 00:32:06)
姚顺宇:Coding是AI最重要的affordance。我们在22年做InterCode:把coding从“一次性任务”改为“多轮环境”,随后有SLATE/SLATE Agent。
- 洞见:代码/接口(API)是机器天然接口,是AI的‘手’。
从code到全数字世界(00:32:08 - 00:34:17)
姚顺宇:API也可视为code之延展。最终会走向API化与GUI操作并行的“中道”,Agent同时会用API与前端(screenshot/GUI)。
泛化本质在推理(00:34:17 - 00:36:18)
姚顺宇:哪怕pretraining装入了大量知识,真正的泛化来自“学到可迁移的思考方式”,而非数据覆盖。
“Second Half”与任务转向(00:37:48 - 00:39:37)
姚顺宇:方法已统一,“下半场”的瓶颈转为“定义任务/环境”。
- 比喻:以前面对多怪兽需多把武器;现在有一把通用机关枪,要解决的是‘朝哪里开火’。
定义reward:结果导向、白盒(00:39:38 - 00:42:13)
姚顺宇:RL最难是reward设计。成功案例(Math/Coding)共同点:1) 基于结果非过程;2) 白盒、可计算、非偏好驱动。否则易被“hacking”。
任务类型与评估从pass@k到鲁棒(00:44:06 - 00:48:09)
姚顺宇:任务可分偏reliability与creativity;也可按深度/广度(长时持续 vs 单次短任务)。评估不应只盯pass@k,更应看pass@1与“端到端鲁棒性”。
创业机会:交互方式创新(00:48:55 - 00:51:07)
姚顺宇:大厂都在做ChatGPT式“像人与助手的对话”。机会在“新交互方式”+“模型溢出能力”两者兼备。
- 洞见:路径依赖使super app难转弯,小厂可先做出交互创新,再被模型公司吸收。
新交互:Her与Canvas(00:51:59 - 00:54:08)
姚顺宇:语音助手(Her)是重要形态,但还会出现新的。Canvas类尝试:根据任务/个体在线生成“专属前端”。
数据飞轮与Midjourney案例(00:54:08 - 00:56:00)
姚顺宇:多数应用尚无数据飞轮。飞轮成立需自训且有清晰reward(如Midjourney:喜欢与否即reward,且与产品强对齐)。
生态树:Memory / Intrinsic Reward / Multi-agent(00:56:59 - 00:59:38)
姚顺宇:基础研究三大方向:1) Memory/长期记忆;2) Intrinsic reward(内生激励);3) Multi-agent。创新者需要长期记忆与内在reward;组织者需要让Agent协作scale。
中心化 vs 去中心化 & Crypto(01:10:33 - 01:13:47)
姚顺宇:技术发展一手推动“中心化效率”,一手增加“个人跃迁机会”。巨头会强,但交互与组织创新也会涌现去中心化力量,长期可能并存博弈。
OpenAI路线与Scaling维度(01:14:16 - 01:18:20)
姚顺宇:OpenAI早期也重视RL,但真正“different bet”是GPT规模化(Ilya强力推动)。未来可能出现新scaling维度:如latent memory、multi-agent在test-time的扩展。
语言本质与RL跨任务泛化(01:19:29 - 01:23:06)
姚顺宇:语言是为“泛化”发明的工具,能帮助解决“任何任务”。如今在Math/Coding上做RL,会迁移到创意写作等,这与以往“只能在围棋里强”的RL不同。
- 洞见:单模型多任务RL成为可能,但迁移强度与任务相似性相关。
成本 vs 价值 & 应用优先(01:23:26 - 01:24:54)
姚顺宇:agent token成本高不是根本问题,“value>cost”则成立。关键是找到真正有价值的应用,成本随后会下降。
DeepSeek时刻与开源反思(01:29:50 - 01:32:43)
姚顺宇:Chain-of-Thought在产品层的“时刻”很重要;OpenAI也在反思开源的价值与忽视。做好开源难度极高(资源/组织/正当性),但其影响值得重视。
未来两年与super app生态(01:49:24 - 01:53:10)
姚顺宇:模型公司的默认交互会越来越agentic;会出现更多像Cursor在IDE中的“环境内copilot”。近两年整体仍偏中心化的super app格局,但不同交互生态会并行发展。
CEO与投资配置(02:00:22 - 02:03:34)
姚顺宇:若我是大型公司CEO:先亲自学习技术,再从第一性原理思考“如何用现有资源+新技术创造新价值”。
若投500亿美元:既投模型层(OpenAI/Anthropic类),也投“能积累user context/构建特殊environment”的平台——这可能成为强壁垒。
安全与意识(02:05:40 - 02:09:02)
姚顺宇:安全有两层:产品商业安全(可通过价值驱动解决)与更宏观的意识形态安全(未定论)。
意识尚未被很好定义;当系统能在复杂context下自主决策,或许是“意识”的一个操作性刻画。
Long context与长期记忆;MCP与记忆层级(01:41:00 - 01:44:24)
姚顺宇:Long context是实现long-term memory的一种方式,但不一定最好。当前评测多是“needle-in-a-haystack”,是必要非充分。
MCP像是“hack我的context”的方式。
- 洞见:环境始终是记忆层级(memory hierarchy)的最外层(受冯·诺依曼启发)。
研究方法与method–task fit(02:12:58 - 02:15:31)
姚顺宇:最难不是方法,而是“找到能表达方法价值的任务”(method–task fit)。我常先有“通用方法”的直觉,再反推能展示其潜力的任务,这比“从任务生方法”更难。
终极任务与组织(02:15:38 - 02:17:17)
姚顺宇:曾想“创造科学家/发现新理论”作为激进任务。到硅谷后意识到“创造伟大组织”同样是通用方法层的创新(如股份制),能持续派生多样成果。
创业建议与快问快答(02:27:39 - 02:31:20)
姚顺宇:
- 对创业者:先想清楚“你创造的增量价值是什么”。技术是工具,交互与环境是机会。
- 最关键fact:会出现不同交互方式的super app;若不相信这一点,世界会很灰暗。
- 爱看传记与《智能简史》,偏好INFP(自述不确定)。
- 喜欢的城市:伊斯坦布尔;食品:椰子。
- Rap与AI:难在“好听/flow”的reward难量化,以及“生活经验”的缺失。
附:代码与全栈数字环境(若关心Agent落地,可快速参考)
- 代码/IDE是闭环、可验证、有白盒reward的最佳起点(InterCode、SLATE)。
- 从API到GUI,Agent将“一体两面”;中期“既会写code、也会点前端”的hybrid形态最现实。
- 评估转向“pass@1、鲁棒性、端到端成功率、长时任务完成度”,远离“短平快刷榜”。
- 护城河来自“长期记忆+用户context+生态连接”,不仅是模型一次性能力。
欢迎交流与合作
目前主要兴趣是探索agent的落地,想进一步交流可加微信(cleezhang),一些自我介绍。
本文发表于 2025-11-22_周六。