【AI】OpenAI DevDay 2025 Opening Keynote with Sam Altman-2025-M10
封面
- 标题:OpenAI DevDay 2025: Opening Keynote with Sam Altman
- 链接:https://www.youtube.com/watch?v=hS1YqcewH0c
- 发布日期:2025-10-06
- 总字数:6041
- 预估阅读时长:约 21 分钟
- 生成时间:2025-10-27 00:56:14
- 覆盖时长:00:51:42
- 识别说话人:A, B, C, D
摘要
- OpenAI 在本次 Dev Day 宣布四大方向:在 ChatGPT 内构建原生应用(Apps SDK)、更快更强的 agent 构建与部署(AgentKit/可视化工作流/Guardrails/ChatKit)、以 Codex 重塑软件工程全流程(并 GA 与团队功能)、以及模型与多模态的重大更新(GPT-5 Pro、Real-time mini 语音模型、Sora 2 API 预览)。
- 亮点是把“应用即对话”推进为“在 ChatGPT 里运行真实应用”,并通过 MCP 标准贯通数据、动作和 UI,辅以推荐与变现体系,带来规模化分发;另一方面,Codex 已能长时自主完成复杂任务、跨端协同、即席重编程,真正改变软件开发组织的协作范式。
- Sora 2 在 API 预览中着重强调可控性与声画同步,配合产品化控制(时长、比例、分辨率、remix),将影视级生成带入工作流。整体节奏指向一个共识:从想法到产品的时间被大幅压缩,软件创作进入分钟级时代。
关键要点
- ChatGPT 原生应用:Apps SDK(基于 MCP),连接数据与动作、渲染交互式 UI、上下文可回流给模型;对话内搜索/推荐应用;未来支持 agentic Commerce protocol 实现即时结账。
- 演示(Alexei):Coursera 视频学习中“talking to apps”让模型感知播放上下文;Canva 直接在对话里产出海报;已有 MCP 只需返回 HTML 资源即可升级为 ChatGPT 应用。
- Agent 构建(Christina):可视化编排多个 agent、工具、文件检索、Guardrails(PII 等);一键发布 workflow ID,配合 ChatKit React 组件无侵入上线;支持代码导出与在线迭代。
- Codex(Sam/Arman):正式 GA;新 GPT-5 Codex 模型支持动态思考时长、擅长重构/评审;Slack 集成、Codex SDK、团队治理面板;案例与数据全面飙升。演示从摄像机控制到场馆灯光 MCP,乃至语音实时编程与热更新,几乎全程“零手写代码”。
- 模型与多模态:GPT-5 Pro 上线 API,适合高准确率推理(金融/法律/医疗等);GPT real-time mini 语音模型(70% 更便宜,同等音色表现);Sora 2 API 预览,可控性与声画同步大幅提升,已与 Mattel 等伙伴落地产品概念验证。
- 非共识洞见:
- 在 ChatGPT 内“应用即分发”,显著缩短冷启动与获客链路。
- “Talking to apps”把 UI 状态纳入对话上下文,实质性提升人机协作闭环能力。
- Codex 可长时自主推进任务、补取资料,接近“可委托 teammate”的形态。
- Sora 2 把声音与画面强绑定,视频生成迈向“可导演”的创作范式。
全文
开场与里程碑(00:00:34 - 00:02:12)
Sam:早上好,欢迎来到 Dev Day。谢谢你们来到旧金山——我们出发的城市,也是我们致力于构建 AI 未来的地方。距离第一次 Dev Day 将近两年了,这段路我们和你们一起走过。
Sam:回到 2023 年,我们有每周 200 万开发者、每周 1 亿 ChatGPT 用户,API 每分钟处理约 3 亿 tokens。当时这已经让我们觉得很多了。
Sam:今天,已有 400 万开发者在 OpenAI 上构建;每周有超过 800 人使用 ChatGPT(可能为口误);API 每分钟处理超 60 亿 tokens,感谢你们。AI 已从“被构建/玩具”,变成“大家每天用来构建的工具”。
Sam:在今天发布之前,先做件有趣的事:我身后的屏幕是本厅里部分开发者的名字——他们的应用在我们平台上跨越了重要里程碑:处理 100 亿 tokens、1000 亿,甚至 1 万亿。让我们为他们鼓掌。
Sam:代表 OpenAI 的所有人谢谢你们,是你们在把未来向前推进。我们还在很早期,所以今天我们聚焦于“让你们更容易用 AI 构建”。
今日议程与四件事(00:02:12 - 00:03:06)
Sam:我们一直在倾听开发者:你们哪里卡住,接下来希望我们做什么,好让你们能造更多。今天有四件事:
- 我们要展示如何在 ChatGPT 里构建应用,并帮助你们获得大量分发;
- 如何更快更好地构建 agent;
- 让写软件更容易,承担重复性编码,让你们聚焦系统与创造力;
- 模型和 API 的更新,支撑你们想造的一切。
Sam:这是史上最适合做 builder 的时代,从想法到产品从未如此之快。先看在 ChatGPT 里的应用。
在 ChatGPT 内构建应用与 Apps SDK(预览)(00:02:56 - 00:04:22)
Sam:我想让 ChatGPT 成为帮人前进、提升生产力、激发创意、加速学习的好方式。自上次 Dev Day 起,我们在探索怎样向开发者开放 ChatGPT——尝试了 GPTs、采用了 MCP 标准,并让开发者把 ChatGPT 连到越来越多应用。有些成功、有些不,过程中学到了很多。
Sam:今天我们将开放:让开发者在 ChatGPT 里构建真正的应用。它们将是可交互、自适应、个性化、可对话的。
Sam:为此我们发布 Apps SDK(今日起预览):你将获得“全栈”——连接你的数据、触发动作、渲染完整交互式 UI 等。Apps SDK 构建于 MCP 之上,你能完全掌控后端逻辑与前端 UI。我们也发布了标准,任何人都可以集成 Apps SDK。
Sam:用 Apps SDK 构建的应用可以触达数以亿计的 ChatGPT 用户,帮助你们快速扩展产品规模。谢谢。
分发与变现、应用发现(00:04:29 - 00:05:36)
Sam:如果用户已订阅你现有的产品,他们可以直接在对话里登录。未来我们会支持多种变现方式,包括新的 agentic Commerce protocol,可在 ChatGPT 内一键结账。来看几个例子:用户可指名找应用,比如草绘产品流程后说“Figma,把草图变成可用的流程图”,Figma 应用就会接管完成动作;你也可以从 ChatGPT 启动 FigJam 继续迭代。
Sam:我们还会在对话中让应用“可被发现”。当用户提需求时,我们会推荐相关应用。比如“我想要周末派对歌单”,ChatGPT 可推荐用 Spotify 来构建。这让用户在合适的时刻遇见合适的应用,开发者获得新的发现路径。接下来请 Alexei 上台做现场演示。
演示:在 ChatGPT 里的 Coursera 学习体验(00:05:43 - 00:08:16)
Alexei:我是 ChatGPT 的软件工程师,负责 Apps SDK。很兴奋展示一些今天用户就能体验的首批应用。魔力在于把“丰富的交互式可视化”与 ChatGPT 的能力结合。
Alexei:假设我想补机器学习,我可以在 ChatGPT 里对 Coursera 应用说:“Coursera,教我一些 machine learning。”第一次使用需要授权连接,下次就能直接进入。
Alexei:应用默认以内嵌方式显示,能渲染任何网页可渲染内容,比如这里的视频。Apps SDK 也支持画中画或全屏。播放视频会把它固定在顶端,便于一边看一边对话。
Alexei:如果我想深入视频里刚提到的点,我可以问 ChatGPT:“能解释一下他们‘现在’在说什么吗?”Apps SDK 提供 API 把“应用上下文”回传给 ChatGPT,确保模型知道用户此刻在与什么交互。我们称之为“talking to apps”,这就是魔法的一部分。
Alexei:ChatGPT 回复解释了讲师在讲训练前的数据准备,并用更简单的话拆解。我不需要描述视频里看到什么,ChatGPT 直接“看懂”了。因此我可以在同一段对话里完成:连接 Coursera、发现课程、播放视频,并通过文本直接与视频交互。很酷。
演示:在 ChatGPT 里用 Canva 产出海报、MCP 升级路径(00:08:20 - 00:09:54)
Alexei:用户也爱在 ChatGPT 里创造。我一直在为我妹妹的遛狗小生意脑暴,现在要把它变成现实。我选中“Walk This Wag”这个名字,对 Canva 说:“Canva,请用 Walk This Wag 做一张海报,要 colorful、whimsical、bright,我偏好 sans serif fonts。”Canva 会基于对话上下文在后台生成海报。现在你可以直接在 ChatGPT 里启动这类创作工作。
Alexei:正如 Sam 提到的,Apps SDK 基于 MCP。若你已有 MCP,只需新增一个返回 HTML 的 resource,就能快速用 Apps SDK 增强,并在 ChatGPT 的 Web 与移动端全面分发。
演示:AgentKit 可视化搭建与发布 Ask Froge(00:23:20 - 00:29:42)
Christina:我现在下载一个组件,回到我们的 agent,把它作为 sessions agent 的输出格式,预览确认无误,这个 session agent 就完成了。
Christina:接着我创建“Dev Day agent”,给它上下文,并让它以 Froge 的风格说话。把包含活动信息的文件附上,agent 就绪。我再加几条安全策略(Guardrails):这是构建 agent 的关键,能防幻觉、做内容审查、屏蔽 PII。我启用预置的 PII Guardrail,并包含“姓名”便于验证,把它接到工作流最前面保护 Froge,再加一个专门处理敏感信息的 agent,同样保持 Froge 风格,并提醒它遇到敏感信息就不能帮忙。
Christina:我还能配置输出给终端用户展示什么,比如关掉文件检索的来源展示。现在来测试:问“想学构建 agents,我该参加哪个 session?”你能看到消息穿过我们刚搭的工作流:检查 Guardrail、意图分类、从 sessions 文件拉取信息、找到合适 session、用我们自定义的 widget 呈现,最终给出“Orchestrating agents at scale,11:15,James 和 Rohan”的推荐,还会“呱呱叫”,因为它是 Froge。
Christina:看起来不错,我发布它,命名为“Ask Froge”。现在一个已部署的生产 agent 出来了,我拿到 workflow ID 可直接调用。右侧也有代码导出,若要在自有环境与服务器运行可以用,但代码很多,我先用刚创建的 workflow ID。
Christina:到我的 Dev Day 站点,先用该 workflow ID 创建一个 ChatKit 会话;再添加 ChatKit React 组件,使用我们在自有服务器上的 client secret,并做 Froge 主题的可视化定制。我把“Ask Froge”以底部抽屉方式出现,并在站点顶部加入口。
Christina:回到站点,尝试同样的问题。工作流依次执行 Guardrails、分类、文件检索、widget 展示,仍然推荐“Orchestrating agents at scale”。我们完成了,且提前 49 秒。之后我可直接在可视化构建器里持续迭代并一键部署到站点,无需改动任何代码,包括新增工具和 widgets、增加 Guardrails,甚至连上客户端工具在站点内直接执行动作。现在“Ask Froge”已在你们的 Dev Day 站点上线,可以用它来找合适的 session。期待你们用 AgentKit 打造全新的体验。谢谢,交还给 Sam。
过渡与软件创作新纪元(00:29:48 - 00:31:00)
Sam:谢谢你,Christina。太酷了,我等不及看大家会造出什么。我们看了 AI 应用和 agents,现在切到同样重要的一件事:我们如何写软件。
Sam:AI 正在开启一个软件创作的新纪元,任何人带着想法就能为自己、家人或社区构建应用。在日本,一位 89 岁退休老人借助 ChatGPT 自学编程,已为老年用户做了 11 款 iPhone 应用;在西班牙,Pau Garcia 和 Domestic Data Streamers 团队用 ChatGPT、图像生成和 Sora 帮助人们重连记忆;在 ASU,医学生用我们的模型构建虚拟病人,先练习困难对话再走进真实诊室;在法国凡尔赛,游客可以“与宫殿对话”,他们用我们的实时 API 构建了与艺术品对话的体验,让历史变成一场对话。
Codex:从研究预览到 GA、团队化能力(00:31:20 - 00:34:12)
Sam:今年早些时候我们发布了 Codex 的研究预览——OpenAI 的软件工程 agent,协同开发者,加速软件创造。自那以后,Codex 变得更强更受欢迎,能在你写代码的任何地方工作:IDE、终端、GitHub、云端;你的 ChatGPT 账号把一切打通,工作可在不同工具间无缝切换。
Sam:我们为 Codex 发了很多新功能,它现在运行在新的 GPT-5 Codex 模型上——专门为 Codex 与 agentic coding 训练的 GPT-5 版本。它在代码重构、代码评审等任务上更好,还能根据任务复杂度动态调整思考时长。开发者很喜欢这个新模型,Codex 使用量快速上涨。自 8 月初以来,我们看一个关键指标“日消息数”(每天与 Codex 的任务与对话数)上涨了 10 倍;快速增长也让 GPT-5 Codex 成为我们增长最快的模型之一,自发布以来我们已从该模型服务了超过 40 万亿 tokens。
Sam:在内部,现在 Codex 无处不在。OpenAI 新写的代码几乎都出自 Codex 用户之手;使用 Codex 的工程师每周完成的 Pull Request 多 70%,几乎每个 PR 都经过 Codex 评审,且大家获得的洞见常常比预期还深,哪怕来自非常资深的工程师。
Sam:从今天起,Codex 正式从研究预览转入 GA。虽然它已经在个体开发者中有很强牵引力,今天我们引入一组针对工程团队的新功能:
- Slack 集成:可在团队的 Slack 对话里直接让 Codex 写代码或答疑;
- 全新的 Codex SDK:将 Codex 扩展与自动化进你团队的工作流;
- 新的管理工具与报表:环境控制、监控、分析面板等,便于企业级管理 Codex。更多改进很快到来。
Sam:使用者很广,从周末做 side project 的开发者到高速成长的初创公司,再到大型企业。比如 Cisco 在整个工程组织推广了 Codex,代码评审速度提升 50%,项目周期从数周缩短到数天。接下来来点有趣的:演示如何用新版 Codex 与我们的 API,把你身边“任何东西”变成可用软件。欢迎 Arman 上台。
演示:从相机控制面板开始(00:34:26 - 00:38:01)
Arman:大家早上好。去年我们从零构建了一个 iPhone 应用,甚至在台上用 O1(我们的第一代 reasoning 模型)现编程小型无人机,算是还没命名的“vibe coding”。此后进展惊人:Codex 如同队友,理解上下文、并肩工作、可靠承接团队任务。我们想做个能让全场一起参与的演示。
Arman:你们抬头能看到舞台上方的摄像机。我先让 Codex CLI 生成了一个简单的控制面板:左侧相机画面,右侧按钮。把我的笔记本画面切上来你能看到结果——起步就很好,然后我加了本次 Dev Day 的 Figma 品牌风格,让它拉取准确的色彩与组件,界面完全贴合设计。
Arman:我一行代码没写。切到终端,Codex CLI 用我的 ChatGPT 账号登录,底层是 GPT-5 Codex(Sam 提到的全新模型)。我问了一个你可能从未问过编码 agent 的问题:“如何在 Node 控制 Sony FR7 摄像机?”我原本以为要用 C++ SDK 再转成 JavaScript,但 Codex 提出了更好的主意:使用 VISCA 协议。它很快给出方案,我让它基于 VISCA 搭好集成并和控制面板打通。
Arman:说实话,Codex 越来越难演示,因为它能长时间、扎实地把任务干完。我见过它为一次大型重构工作 7 小时并正确完成,令人惊叹。这次它更新了计划、写了很多代码,整整干了 13 分钟,最终结果完全符合预期。切到 VSCode,你能看到它为相机控制生成的文件:一个 Node 服务器,以及发给相机的 UDP 包。想想我本该花多久去学一个 30 多年前的协议。Codex 甚至找到了这台相机需要的特殊包头。
演示:接入 Xbox 手柄与 Auto Context(00:38:02 - 00:39:14)
Arman:服务器已跑起来,界面联通,我点“开机”——你们看,画面来了,按钮控制也生效。但按钮不够酷,我们上无线 Xbox 控制器。我在 IDE 扩展里发起任务:“接入 Xbox 无线控制器来控制相机。”我在后台找到一只手柄让它在台上待命。
Arman:你能看到 Codex 制定了 3 个子任务,正在探索文件,搞定手柄接入。IDE 里有“Auto context”,这意味着你的 prompt 可以很短,Codex 会理解你的意图、查看你最近的文件,自动匹配上下文。
演示:实时语音 API + MCP,灯光系统 MCP Server(00:39:16 - 00:41:16)
Arman:同时我也想接入语音。为省时间,我已让 Codex 集成我们的 Real-time API 与 Agents SDK,并把它挂在界面右下角的绿点上。Real-time API 不仅带来自然的语音对语音,还能在对话上下文里连接任何 MCP 服务器。那我就想:我们能不能把会场的灯光系统也接成一个 MCP Server?
Arman:在 Codex Cloud 上我发了任务:为这个具体型号的灯控系统搭 MCP Server,我给了参考文档与期望的 UI 接口。看日志你能体会 Codex 的“agentic”行为:它在推进过程中发现需要“command 8”的新信息,于是自己去抓 GitHub 文档并调用工具继续推进。随后我又让它写好 README,告诉我如何运行。回到 VSCode,我把 Cloud 里的改动一键“Apply”到本地,依赖我已提前装好。
演示:现场联调——手柄控相机、语音控灯光(00:41:42 - 00:44:00)
Arman:先看手柄:现在推摇杆就能控制相机了,甚至我没指定哪个按钮做什么,它也“猜”对了。现在进入语音模式(抱歉各位音视频同事):试试控制灯光。
Voice Agent:嗨,我能清楚地听到你,需要什么尽管说。
Arman:你现在摄像机里看到什么?
Voice Agent:我看到你面前是一大片观众,排排就座、灯光明亮、一直延伸到后排。
Arman:把灯光打向观众。
Voice Agent:我已用明亮的洗光点亮观众,现在他们应该被很好地突出显示。
Arman:和现场的朋友们打个招呼吧。
Voice Agent:观众灯光已拉起。让我们欢迎这群了不起的开发者。Fort Mason 的各位,你们好!今天将非常精彩。
Arman:给线上直播的观众做点有趣的灯光并问好。
Voice Agent:现在我让彩色动态效果滚起来了。各位正在观看直播的朋友,感谢加入,这会是很棒的体验。
Arman:好的,恢复正常。
Arman:到现在我还没手写过任何代码。
演示:Codex SDK 的“实时重编程”(00:44:01 - 00:45:58)
Arman:最后再看一点未来的味道。我们今天也发布了 Codex SDK。我用语音说:“请让 Codex 展示一个电影片尾式的 credits overlay,不过把全体参会者当作演职员表。”——它正在用 Codex 执行。我又说:“启动倒计时,给我们所有人拍张照。”——屏幕上倒计时与拍照完成。
Arman:解释一下:语音 agent 把 Codex SDK 作为工具接入,这意味着我可以“现场重编程”这套应用,并根据用户需求即时适配。在这个例子中,Codex 能编辑 React 应用里的代码、热更新、找到它需要的一切,然后让 credits 滚动起来。我们把语音、草图、身边的设备都变成了“可工作的软件”,全程零手写。把你最有野心的想法和最复杂的编码问题交给 Codex,看看会发生什么。唯一的限制是你的想象力。谢谢,把时间还给 Sam。
软件创作方式的最大变革与模型更新(00:46:05 - 00:47:27)
Sam:谢谢 Arman。这是我所见过的软件创作方式最大的变化。接下来是模型更新。8 月我们发布了 GPT-5,我们训练它在 steering agents 和端到端编码上表现出色,事实也证明如此。像 Cursor、Windsurf、Vercel 等领先编码产品用 GPT-5 在他们的产品里改变软件书写方式。
Sam:随后我们发布了 GPT-5 Pro,这是我们迄今最智能的模型。今天我们在 API 开放 GPT-5 Pro,所有开发者都可使用。GPT-5 Pro 非常适合需要高准确率与深度推理的场景,比如金融、法律、医疗等。
Sam:我们还在 API 里发布了一个更小的语音模型:GPT real-time mini。它比两个月前发布的高级语音模型便宜 70%,但保持相同的音质与表现。我个人认为“语音”会成为人机交互的主渠道之一,这一步很关键。
Sora 2 API 预览:可控性与声画同步(00:47:30 - 00:50:59)
Sam:现在聊聊内容创作的更新。这是个很多人强烈请求的功能。今天我们在 API 中发布 Sora 2 的预览。你现在可以在自己的应用里调用与 Sora 2 同款的视频生成模型。
Sam:这代模型的一大飞跃是“可控性”。你可以给它很详细的指令,它能稳定保持场景状态,同时在风格、准确性、构图上交付出色结果。比如用 iPhone 的竖屏视角,指令 Sora 扩展为电影级的宽幅镜头。
Sam:更让我兴奋的是它把“声音与画面”配得非常好——不只是说话,还有丰富的声场、环境音、和与视觉同步、扎根于画面的音效。比如皮划艇的视频里,你能听到与视觉匹配的环境声。
Sam:你也可以把现实带进 Sora 2,比如拍你家狗的照片,再给它加几个新朋友;或做产品概念开发:仅描述“氛围”或“产品”,Sora 就会给出视觉起点。我们用它生成了一段电商应用的概念视频。
Sam:大家似乎很喜欢 Sora 2,它自发布以来一直在 App Store 顶部。现在通过 API 预览,你可以把同等质量、含真实且同步音效的视频直接生成到产品里。和其他模态一样,它强调灵活性:你可控制视频时长、画幅比例、分辨率,轻松 remix 视频。Mattel 是很棒的合作伙伴,他们用 Sora 2 把玩具的早期概念更快地“看见、分享与反馈”。
收尾与总结(00:51:01 - 00:52:17)
Sam:希望今天能给你一些新灵感。我们想让 OpenAI 成为这个新建造时代的优秀平台,精彩的事情很快就会发生。所有发布都围绕这个目标:
- Apps SDK:在 ChatGPT 里构建原生应用;
- AgentKit:让你能更容易、更有信心地在任何地方部署 agents;
- 更强大的 Codex:改变软件开发方式,让团队更快交付;
- 新模型进 API:GPT-5 Pro、Sora 2、real-time mini,拓展可能性。
Sam:我们在见证重大的变化:软件过去要花数月或数年去做,你们刚才看到,现在可能只要几分钟。用 AI 构建不再需要庞大团队,需要的是好点子,你就能以前所未有的速度把它变成现实。谢谢你们到来并持续构建。我们的目标是让 AI 对每个人都有用,没有你们做不到。也向促成今天一切的团队致敬。今天还有很多内容,享受各个环节,回头见。谢谢大家。
欢迎交流与合作
目前主要兴趣是探索agent的真正落地,想进一步交流可加微信(微信号:cleezhang),一些自我介绍。