【Agent】115. 对OpenAI姚顺雨3小时访谈：6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界-2025-M09

封面

标题：115. 对OpenAI姚顺雨3小时访谈：6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界
链接：https://podcasts.apple.com/cn/podcast/115-对openai姚顺雨3小时访谈-6年agent研究-人与系统-吞噬的边界-既单极又多元的世界/id1634356920?i=1000726193755
发布日期：2025-09-11
总字数：2911
预估阅读时长：约 10 分钟
生成时间：2025-11-22 11:03:10
覆盖时长：02:31:19

摘要总结

本期核心观点：方法主线已统一为“语言模型+推理+RL”，真正的瓶颈正在从“训练模型”转向“定义任务/环境与衡量标准”。
顺宇强调：语言是人类为“泛化”而发明的工具，代码是AI在数字世界的“手”（affordance），Agent的泛化本质来自推理能力而非记忆碎片。
对创业者：最大的机会在“交互方式创新”与“任务/环境设计”，数据飞轮成立的前提是有“白盒、结果导向”（可verify）的可学习reward。
非共识洞见：未来会出现多种交互形态的super app，而不是一家独大；真正的护城河可能来自memory（长期记忆与用户context），而非单点模型能力。
评估应从刷榜转向鲁棒性与长期价值（reliable），优先优化pass@1与端到端成功率，避免仅在pass@k上做文章。

全文

片头预告与引子（00:00:01 - 00:01:23）

张小军：为什么你比大多数人更早做这件事？
姚顺宇：运气与非共识。我PhD第一项工作就是用语言模型做agent；如果OpenAI一直做强化学习（RL），很难超过DeepMind。
广密：如果你是伯克希尔CEO，要怎么在AGI领域投500亿美元？
姚顺宇：不同交互形态的super app会并存，机会来自相信多样性。

开场与嘉宾介绍（00:01:31 - 00:03:37）

张小军：欢迎收听张小军商业访谈录。本期嘉宾OpenAI研究员姚顺宇，2025年4月发表博文The Second Half，提出AI主线程进入“下半场”。
张小军：共同主持人广密。我们将从人、组织、AI的交互出发，探边智能与人机全景。

经历与入门AI/Agent（00:03:38 - 00:07:44）

姚顺宇：自认“乖学生”：合肥→清华→普林斯顿→OpenAI。本科看李剑老师课上Word2Vec/多模态embedding震撼；18年赴MIT和吴嘉庆学长做DL，从CV转向Language与Agent。导师是GPT-1二作Karthik Narasimhan。

语言的general与历史回顾（00:07:48 - 00:09:30）

姚顺宇：语言的generalality很吸引我。60年代Noel & Simon和图灵都想build一个agent，但难度太大，学界走向“碎片化”。15年后Scaling Law带来范式回归，更通用系统成为可能。

BERT vs GPT；任务难度与环境局限（00:09:31 - 00:12:54）

姚顺宇：第一年最大收获：要用GPT，不要用BERT。BERT擅长“选择”，Agent需要“自由生成动作”。另一个教训：任务/环境决定上限，简单任务学不到本质。文字游戏如Zork封闭、迁移差，RL打通一款游戏对其他任务无帮助。

研究脉络：WebShop→ReAct→Reflection→ToT→Automation（00:13:18 - 00:15:11）

姚顺宇：先补环境短板（WebShop把互联网当环境），再抓方法（ReAct），随后是Reflection、Tree of Thought（ToT）、Digital Automation等。我的标准：做有价值、贴近真实世界的任务与“简单通用”的方法。

ReAct的范式转变（00:15:11 - 00:16:17）

姚顺宇：当时学界不适应“只做prompting也可成为研究”。但那时训练大模型落后公司数年，最有价值的是“如何使用模型”而非“如何再训一个模型”。

非共识洞见：从‘训模型’转到‘用模型’是决定性的范式跃迁（ReAct）。

非共识与更早做Agent（00:16:18 - 00:17:49）

姚顺宇：我一直做非共识的Agent方向，追求“简单且通用”的方案，不愿为单一垂直场景设计复杂结构。

Agent的定义与语言Agent优势（00:17:57 - 00:21:09）

姚顺宇（NLP视角）：不仅能生成文本/思考，还能与外界交互（电脑/互联网/工具）。
姚顺宇（AI视角）：广义Agent遍布（AlphaGo、Waymo、robot）。当下更关注“基于LLM自我决策”的Agent。

本质差异：语言Agent可推理（reason），因此可跨环境泛化。

Agent三波演进（00:21:19 - 00:26:16）

姚顺宇：1) 符号主义（规则推理，遇到覆盖性瓶颈）；2) 深度RL（成功多，但泛化差、工程环境强依赖）；3) LLM-based Agent（方法=LLM+推理+工具，环境=编码/互联网等数字世界）。

方法线与任务线双演进不可分。

OpenAI“五级能力”与演化逻辑（00:26:16 - 00:28:02）

张小军：从聊天机器人到推理者、Agent，再到创新者、组织者。
姚顺宇：Level 2→3是关键跨越：把推理投入环境交互。下一步两条线：自我reward/探索；multi-agent组织。

架构与关键能力（00:28:03 - 00:29:46）

姚顺宇：主流采用ReAct式“推理→动作”。关键能力划分法不同；我最看重“Context/Memory”和基于此的“在线/终身学习”。

代码即AI之“手”（00:30:09 - 00:32:06）

姚顺宇：Coding是AI最重要的affordance。我们在22年做InterCode：把coding从“一次性任务”改为“多轮环境”，随后有SLATE/SLATE Agent。

洞见：代码/接口（API）是机器天然接口，是AI的‘手’。

从code到全数字世界（00:32:08 - 00:34:17）

姚顺宇：API也可视为code之延展。最终会走向API化与GUI操作并行的“中道”，Agent同时会用API与前端（screenshot/GUI）。

泛化本质在推理（00:34:17 - 00:36:18）

姚顺宇：哪怕pretraining装入了大量知识，真正的泛化来自“学到可迁移的思考方式”，而非数据覆盖。

“Second Half”与任务转向（00:37:48 - 00:39:37）

姚顺宇：方法已统一，“下半场”的瓶颈转为“定义任务/环境”。

比喻：以前面对多怪兽需多把武器；现在有一把通用机关枪，要解决的是‘朝哪里开火’。

定义reward：结果导向、白盒（00:39:38 - 00:42:13）

姚顺宇：RL最难是reward设计。成功案例（Math/Coding）共同点：1) 基于结果非过程；2) 白盒、可计算、非偏好驱动。否则易被“hacking”。

任务类型与评估从pass@k到鲁棒（00:44:06 - 00:48:09）

姚顺宇：任务可分偏reliability与creativity；也可按深度/广度（长时持续 vs 单次短任务）。评估不应只盯pass@k，更应看pass@1与“端到端鲁棒性”。

创业机会：交互方式创新（00:48:55 - 00:51:07）

姚顺宇：大厂都在做ChatGPT式“像人与助手的对话”。机会在“新交互方式”+“模型溢出能力”两者兼备。

洞见：路径依赖使super app难转弯，小厂可先做出交互创新，再被模型公司吸收。

新交互：Her与Canvas（00:51:59 - 00:54:08）

姚顺宇：语音助手（Her）是重要形态，但还会出现新的。Canvas类尝试：根据任务/个体在线生成“专属前端”。

数据飞轮与Midjourney案例（00:54:08 - 00:56:00）

姚顺宇：多数应用尚无数据飞轮。飞轮成立需自训且有清晰reward（如Midjourney：喜欢与否即reward，且与产品强对齐）。

生态树：Memory / Intrinsic Reward / Multi-agent（00:56:59 - 00:59:38）

姚顺宇：基础研究三大方向：1) Memory/长期记忆；2) Intrinsic reward（内生激励）；3) Multi-agent。创新者需要长期记忆与内在reward；组织者需要让Agent协作scale。

中心化 vs 去中心化 & Crypto（01:10:33 - 01:13:47）

姚顺宇：技术发展一手推动“中心化效率”，一手增加“个人跃迁机会”。巨头会强，但交互与组织创新也会涌现去中心化力量，长期可能并存博弈。

OpenAI路线与Scaling维度（01:14:16 - 01:18:20）

姚顺宇：OpenAI早期也重视RL，但真正“different bet”是GPT规模化（Ilya强力推动）。未来可能出现新scaling维度：如latent memory、multi-agent在test-time的扩展。

语言本质与RL跨任务泛化（01:19:29 - 01:23:06）

姚顺宇：语言是为“泛化”发明的工具，能帮助解决“任何任务”。如今在Math/Coding上做RL，会迁移到创意写作等，这与以往“只能在围棋里强”的RL不同。

洞见：单模型多任务RL成为可能，但迁移强度与任务相似性相关。

成本 vs 价值 & 应用优先（01:23:26 - 01:24:54）

姚顺宇：agent token成本高不是根本问题，“value>cost”则成立。关键是找到真正有价值的应用，成本随后会下降。

DeepSeek时刻与开源反思（01:29:50 - 01:32:43）

姚顺宇：Chain-of-Thought在产品层的“时刻”很重要；OpenAI也在反思开源的价值与忽视。做好开源难度极高（资源/组织/正当性），但其影响值得重视。

未来两年与super app生态（01:49:24 - 01:53:10）

姚顺宇：模型公司的默认交互会越来越agentic；会出现更多像Cursor在IDE中的“环境内copilot”。近两年整体仍偏中心化的super app格局，但不同交互生态会并行发展。

CEO与投资配置（02:00:22 - 02:03:34）

姚顺宇：若我是大型公司CEO：先亲自学习技术，再从第一性原理思考“如何用现有资源+新技术创造新价值”。
若投500亿美元：既投模型层（OpenAI/Anthropic类），也投“能积累user context/构建特殊environment”的平台——这可能成为强壁垒。

安全与意识（02:05:40 - 02:09:02）

姚顺宇：安全有两层：产品商业安全（可通过价值驱动解决）与更宏观的意识形态安全（未定论）。
意识尚未被很好定义；当系统能在复杂context下自主决策，或许是“意识”的一个操作性刻画。

Long context与长期记忆；MCP与记忆层级（01:41:00 - 01:44:24）

姚顺宇：Long context是实现long-term memory的一种方式，但不一定最好。当前评测多是“needle-in-a-haystack”，是必要非充分。
MCP像是“hack我的context”的方式。

洞见：环境始终是记忆层级（memory hierarchy）的最外层（受冯·诺依曼启发）。

研究方法与method–task fit（02:12:58 - 02:15:31）

姚顺宇：最难不是方法，而是“找到能表达方法价值的任务”（method–task fit）。我常先有“通用方法”的直觉，再反推能展示其潜力的任务，这比“从任务生方法”更难。

终极任务与组织（02:15:38 - 02:17:17）

姚顺宇：曾想“创造科学家/发现新理论”作为激进任务。到硅谷后意识到“创造伟大组织”同样是通用方法层的创新（如股份制），能持续派生多样成果。

创业建议与快问快答（02:27:39 - 02:31:20）

姚顺宇：

对创业者：先想清楚“你创造的增量价值是什么”。技术是工具，交互与环境是机会。
最关键fact：会出现不同交互方式的super app；若不相信这一点，世界会很灰暗。
爱看传记与《智能简史》，偏好INFP（自述不确定）。
喜欢的城市：伊斯坦布尔；食品：椰子。
Rap与AI：难在“好听/flow”的reward难量化，以及“生活经验”的缺失。

附：代码与全栈数字环境（若关心Agent落地，可快速参考）

代码/IDE是闭环、可验证、有白盒reward的最佳起点（InterCode、SLATE）。
从API到GUI，Agent将“一体两面”；中期“既会写code、也会点前端”的hybrid形态最现实。
评估转向“pass@1、鲁棒性、端到端成功率、长时任务完成度”，远离“短平快刷榜”。
护城河来自“长期记忆+用户context+生态连接”，不仅是模型一次性能力。

欢迎交流与合作

目前主要兴趣是探索agent的落地，想进一步交流可加微信（cleezhang），一些自我介绍。

本文发表于 2025-11-22_周六。