【AI】OpenAI DevDay 2025 Opening Keynote with Sam Altman-2025-M10

##LLM

封面

标题：OpenAI DevDay 2025: Opening Keynote with Sam Altman
链接：https://www.youtube.com/watch?v=hS1YqcewH0c
发布日期：2025-10-06
总字数：6041
预估阅读时长：约 21 分钟
生成时间：2025-10-27 00:56:14
覆盖时长：00:51:42
识别说话人：A, B, C, D

摘要

OpenAI 在本次 Dev Day 宣布四大方向：在 ChatGPT 内构建原生应用（Apps SDK）、更快更强的 agent 构建与部署（AgentKit/可视化工作流/Guardrails/ChatKit）、以 Codex 重塑软件工程全流程（并 GA 与团队功能）、以及模型与多模态的重大更新（GPT-5 Pro、Real-time mini 语音模型、Sora 2 API 预览）。
亮点是把“应用即对话”推进为“在 ChatGPT 里运行真实应用”，并通过 MCP 标准贯通数据、动作和 UI，辅以推荐与变现体系，带来规模化分发；另一方面，Codex 已能长时自主完成复杂任务、跨端协同、即席重编程，真正改变软件开发组织的协作范式。
Sora 2 在 API 预览中着重强调可控性与声画同步，配合产品化控制（时长、比例、分辨率、remix），将影视级生成带入工作流。整体节奏指向一个共识：从想法到产品的时间被大幅压缩，软件创作进入分钟级时代。

关键要点

ChatGPT 原生应用：Apps SDK（基于 MCP），连接数据与动作、渲染交互式 UI、上下文可回流给模型；对话内搜索/推荐应用；未来支持 agentic Commerce protocol 实现即时结账。
演示（Alexei）：Coursera 视频学习中“talking to apps”让模型感知播放上下文；Canva 直接在对话里产出海报；已有 MCP 只需返回 HTML 资源即可升级为 ChatGPT 应用。
Agent 构建（Christina）：可视化编排多个 agent、工具、文件检索、Guardrails（PII 等）；一键发布 workflow ID，配合 ChatKit React 组件无侵入上线；支持代码导出与在线迭代。
Codex（Sam/Arman）：正式 GA；新 GPT-5 Codex 模型支持动态思考时长、擅长重构/评审；Slack 集成、Codex SDK、团队治理面板；案例与数据全面飙升。演示从摄像机控制到场馆灯光 MCP，乃至语音实时编程与热更新，几乎全程“零手写代码”。
模型与多模态：GPT-5 Pro 上线 API，适合高准确率推理（金融/法律/医疗等）；GPT real-time mini 语音模型（70% 更便宜，同等音色表现）；Sora 2 API 预览，可控性与声画同步大幅提升，已与 Mattel 等伙伴落地产品概念验证。
非共识洞见：
- 在 ChatGPT 内“应用即分发”，显著缩短冷启动与获客链路。
- “Talking to apps”把 UI 状态纳入对话上下文，实质性提升人机协作闭环能力。
- Codex 可长时自主推进任务、补取资料，接近“可委托 teammate”的形态。
- Sora 2 把声音与画面强绑定，视频生成迈向“可导演”的创作范式。

全文

开场与里程碑（00:00:34 - 00:02:12）

Sam：早上好，欢迎来到 Dev Day。谢谢你们来到旧金山——我们出发的城市，也是我们致力于构建 AI 未来的地方。距离第一次 Dev Day 将近两年了，这段路我们和你们一起走过。

Sam：回到 2023 年，我们有每周 200 万开发者、每周 1 亿 ChatGPT 用户，API 每分钟处理约 3 亿 tokens。当时这已经让我们觉得很多了。

Sam：今天，已有 400 万开发者在 OpenAI 上构建；每周有超过 800 人使用 ChatGPT（可能为口误）；API 每分钟处理超 60 亿 tokens，感谢你们。AI 已从“被构建/玩具”，变成“大家每天用来构建的工具”。

Sam：在今天发布之前，先做件有趣的事：我身后的屏幕是本厅里部分开发者的名字——他们的应用在我们平台上跨越了重要里程碑：处理 100 亿 tokens、1000 亿，甚至 1 万亿。让我们为他们鼓掌。

Sam：代表 OpenAI 的所有人谢谢你们，是你们在把未来向前推进。我们还在很早期，所以今天我们聚焦于“让你们更容易用 AI 构建”。

今日议程与四件事（00:02:12 - 00:03:06）

Sam：我们一直在倾听开发者：你们哪里卡住，接下来希望我们做什么，好让你们能造更多。今天有四件事：

我们要展示如何在 ChatGPT 里构建应用，并帮助你们获得大量分发；
如何更快更好地构建 agent；
让写软件更容易，承担重复性编码，让你们聚焦系统与创造力；
模型和 API 的更新，支撑你们想造的一切。

Sam：这是史上最适合做 builder 的时代，从想法到产品从未如此之快。先看在 ChatGPT 里的应用。

在 ChatGPT 内构建应用与 Apps SDK（预览）（00:02:56 - 00:04:22）

Sam：我想让 ChatGPT 成为帮人前进、提升生产力、激发创意、加速学习的好方式。自上次 Dev Day 起，我们在探索怎样向开发者开放 ChatGPT——尝试了 GPTs、采用了 MCP 标准，并让开发者把 ChatGPT 连到越来越多应用。有些成功、有些不，过程中学到了很多。

Sam：今天我们将开放：让开发者在 ChatGPT 里构建真正的应用。它们将是可交互、自适应、个性化、可对话的。

Sam：为此我们发布 Apps SDK（今日起预览）：你将获得“全栈”——连接你的数据、触发动作、渲染完整交互式 UI 等。Apps SDK 构建于 MCP 之上，你能完全掌控后端逻辑与前端 UI。我们也发布了标准，任何人都可以集成 Apps SDK。

Sam：用 Apps SDK 构建的应用可以触达数以亿计的 ChatGPT 用户，帮助你们快速扩展产品规模。谢谢。

分发与变现、应用发现（00:04:29 - 00:05:36）

Sam：如果用户已订阅你现有的产品，他们可以直接在对话里登录。未来我们会支持多种变现方式，包括新的 agentic Commerce protocol，可在 ChatGPT 内一键结账。来看几个例子：用户可指名找应用，比如草绘产品流程后说“Figma，把草图变成可用的流程图”，Figma 应用就会接管完成动作；你也可以从 ChatGPT 启动 FigJam 继续迭代。

Sam：我们还会在对话中让应用“可被发现”。当用户提需求时，我们会推荐相关应用。比如“我想要周末派对歌单”，ChatGPT 可推荐用 Spotify 来构建。这让用户在合适的时刻遇见合适的应用，开发者获得新的发现路径。接下来请 Alexei 上台做现场演示。

演示：在 ChatGPT 里的 Coursera 学习体验（00:05:43 - 00:08:16）

Alexei：我是 ChatGPT 的软件工程师，负责 Apps SDK。很兴奋展示一些今天用户就能体验的首批应用。魔力在于把“丰富的交互式可视化”与 ChatGPT 的能力结合。

Alexei：假设我想补机器学习，我可以在 ChatGPT 里对 Coursera 应用说：“Coursera，教我一些 machine learning。”第一次使用需要授权连接，下次就能直接进入。

Alexei：应用默认以内嵌方式显示，能渲染任何网页可渲染内容，比如这里的视频。Apps SDK 也支持画中画或全屏。播放视频会把它固定在顶端，便于一边看一边对话。

Alexei：如果我想深入视频里刚提到的点，我可以问 ChatGPT：“能解释一下他们‘现在’在说什么吗？”Apps SDK 提供 API 把“应用上下文”回传给 ChatGPT，确保模型知道用户此刻在与什么交互。我们称之为“talking to apps”，这就是魔法的一部分。

Alexei：ChatGPT 回复解释了讲师在讲训练前的数据准备，并用更简单的话拆解。我不需要描述视频里看到什么，ChatGPT 直接“看懂”了。因此我可以在同一段对话里完成：连接 Coursera、发现课程、播放视频，并通过文本直接与视频交互。很酷。

演示：在 ChatGPT 里用 Canva 产出海报、MCP 升级路径（00:08:20 - 00:09:54）

Alexei：用户也爱在 ChatGPT 里创造。我一直在为我妹妹的遛狗小生意脑暴，现在要把它变成现实。我选中“Walk This Wag”这个名字，对 Canva 说：“Canva，请用 Walk This Wag 做一张海报，要 colorful、whimsical、bright，我偏好 sans serif fonts。”Canva 会基于对话上下文在后台生成海报。现在你可以直接在 ChatGPT 里启动这类创作工作。

Alexei：正如 Sam 提到的，Apps SDK 基于 MCP。若你已有 MCP，只需新增一个返回 HTML 的 resource，就能快速用 Apps SDK 增强，并在 ChatGPT 的 Web 与移动端全面分发。

演示：AgentKit 可视化搭建与发布 Ask Froge（00:23:20 - 00:29:42）

Christina：我现在下载一个组件，回到我们的 agent，把它作为 sessions agent 的输出格式，预览确认无误，这个 session agent 就完成了。

Christina：接着我创建“Dev Day agent”，给它上下文，并让它以 Froge 的风格说话。把包含活动信息的文件附上，agent 就绪。我再加几条安全策略（Guardrails）：这是构建 agent 的关键，能防幻觉、做内容审查、屏蔽 PII。我启用预置的 PII Guardrail，并包含“姓名”便于验证，把它接到工作流最前面保护 Froge，再加一个专门处理敏感信息的 agent，同样保持 Froge 风格，并提醒它遇到敏感信息就不能帮忙。

Christina：我还能配置输出给终端用户展示什么，比如关掉文件检索的来源展示。现在来测试：问“想学构建 agents，我该参加哪个 session？”你能看到消息穿过我们刚搭的工作流：检查 Guardrail、意图分类、从 sessions 文件拉取信息、找到合适 session、用我们自定义的 widget 呈现，最终给出“Orchestrating agents at scale，11:15，James 和 Rohan”的推荐，还会“呱呱叫”，因为它是 Froge。

Christina：看起来不错，我发布它，命名为“Ask Froge”。现在一个已部署的生产 agent 出来了，我拿到 workflow ID 可直接调用。右侧也有代码导出，若要在自有环境与服务器运行可以用，但代码很多，我先用刚创建的 workflow ID。

Christina：到我的 Dev Day 站点，先用该 workflow ID 创建一个 ChatKit 会话；再添加 ChatKit React 组件，使用我们在自有服务器上的 client secret，并做 Froge 主题的可视化定制。我把“Ask Froge”以底部抽屉方式出现，并在站点顶部加入口。

Christina：回到站点，尝试同样的问题。工作流依次执行 Guardrails、分类、文件检索、widget 展示，仍然推荐“Orchestrating agents at scale”。我们完成了，且提前 49 秒。之后我可直接在可视化构建器里持续迭代并一键部署到站点，无需改动任何代码，包括新增工具和 widgets、增加 Guardrails，甚至连上客户端工具在站点内直接执行动作。现在“Ask Froge”已在你们的 Dev Day 站点上线，可以用它来找合适的 session。期待你们用 AgentKit 打造全新的体验。谢谢，交还给 Sam。

过渡与软件创作新纪元（00:29:48 - 00:31:00）

Sam：谢谢你，Christina。太酷了，我等不及看大家会造出什么。我们看了 AI 应用和 agents，现在切到同样重要的一件事：我们如何写软件。

Sam：AI 正在开启一个软件创作的新纪元，任何人带着想法就能为自己、家人或社区构建应用。在日本，一位 89 岁退休老人借助 ChatGPT 自学编程，已为老年用户做了 11 款 iPhone 应用；在西班牙，Pau Garcia 和 Domestic Data Streamers 团队用 ChatGPT、图像生成和 Sora 帮助人们重连记忆；在 ASU，医学生用我们的模型构建虚拟病人，先练习困难对话再走进真实诊室；在法国凡尔赛，游客可以“与宫殿对话”，他们用我们的实时 API 构建了与艺术品对话的体验，让历史变成一场对话。

Codex：从研究预览到 GA、团队化能力（00:31:20 - 00:34:12）

Sam：今年早些时候我们发布了 Codex 的研究预览——OpenAI 的软件工程 agent，协同开发者，加速软件创造。自那以后，Codex 变得更强更受欢迎，能在你写代码的任何地方工作：IDE、终端、GitHub、云端；你的 ChatGPT 账号把一切打通，工作可在不同工具间无缝切换。

Sam：我们为 Codex 发了很多新功能，它现在运行在新的 GPT-5 Codex 模型上——专门为 Codex 与 agentic coding 训练的 GPT-5 版本。它在代码重构、代码评审等任务上更好，还能根据任务复杂度动态调整思考时长。开发者很喜欢这个新模型，Codex 使用量快速上涨。自 8 月初以来，我们看一个关键指标“日消息数”（每天与 Codex 的任务与对话数）上涨了 10 倍；快速增长也让 GPT-5 Codex 成为我们增长最快的模型之一，自发布以来我们已从该模型服务了超过 40 万亿 tokens。

Sam：在内部，现在 Codex 无处不在。OpenAI 新写的代码几乎都出自 Codex 用户之手；使用 Codex 的工程师每周完成的 Pull Request 多 70%，几乎每个 PR 都经过 Codex 评审，且大家获得的洞见常常比预期还深，哪怕来自非常资深的工程师。

Sam：从今天起，Codex 正式从研究预览转入 GA。虽然它已经在个体开发者中有很强牵引力，今天我们引入一组针对工程团队的新功能：

Slack 集成：可在团队的 Slack 对话里直接让 Codex 写代码或答疑；
全新的 Codex SDK：将 Codex 扩展与自动化进你团队的工作流；
新的管理工具与报表：环境控制、监控、分析面板等，便于企业级管理 Codex。更多改进很快到来。

Sam：使用者很广，从周末做 side project 的开发者到高速成长的初创公司，再到大型企业。比如 Cisco 在整个工程组织推广了 Codex，代码评审速度提升 50%，项目周期从数周缩短到数天。接下来来点有趣的：演示如何用新版 Codex 与我们的 API，把你身边“任何东西”变成可用软件。欢迎 Arman 上台。

演示：从相机控制面板开始（00:34:26 - 00:38:01）

Arman：大家早上好。去年我们从零构建了一个 iPhone 应用，甚至在台上用 O1（我们的第一代 reasoning 模型）现编程小型无人机，算是还没命名的“vibe coding”。此后进展惊人：Codex 如同队友，理解上下文、并肩工作、可靠承接团队任务。我们想做个能让全场一起参与的演示。

Arman：你们抬头能看到舞台上方的摄像机。我先让 Codex CLI 生成了一个简单的控制面板：左侧相机画面，右侧按钮。把我的笔记本画面切上来你能看到结果——起步就很好，然后我加了本次 Dev Day 的 Figma 品牌风格，让它拉取准确的色彩与组件，界面完全贴合设计。

Arman：我一行代码没写。切到终端，Codex CLI 用我的 ChatGPT 账号登录，底层是 GPT-5 Codex（Sam 提到的全新模型）。我问了一个你可能从未问过编码 agent 的问题：“如何在 Node 控制 Sony FR7 摄像机？”我原本以为要用 C++ SDK 再转成 JavaScript，但 Codex 提出了更好的主意：使用 VISCA 协议。它很快给出方案，我让它基于 VISCA 搭好集成并和控制面板打通。

Arman：说实话，Codex 越来越难演示，因为它能长时间、扎实地把任务干完。我见过它为一次大型重构工作 7 小时并正确完成，令人惊叹。这次它更新了计划、写了很多代码，整整干了 13 分钟，最终结果完全符合预期。切到 VSCode，你能看到它为相机控制生成的文件：一个 Node 服务器，以及发给相机的 UDP 包。想想我本该花多久去学一个 30 多年前的协议。Codex 甚至找到了这台相机需要的特殊包头。

演示：接入 Xbox 手柄与 Auto Context（00:38:02 - 00:39:14）

Arman：服务器已跑起来，界面联通，我点“开机”——你们看，画面来了，按钮控制也生效。但按钮不够酷，我们上无线 Xbox 控制器。我在 IDE 扩展里发起任务：“接入 Xbox 无线控制器来控制相机。”我在后台找到一只手柄让它在台上待命。

Arman：你能看到 Codex 制定了 3 个子任务，正在探索文件，搞定手柄接入。IDE 里有“Auto context”，这意味着你的 prompt 可以很短，Codex 会理解你的意图、查看你最近的文件，自动匹配上下文。

演示：实时语音 API + MCP，灯光系统 MCP Server（00:39:16 - 00:41:16）

Arman：同时我也想接入语音。为省时间，我已让 Codex 集成我们的 Real-time API 与 Agents SDK，并把它挂在界面右下角的绿点上。Real-time API 不仅带来自然的语音对语音，还能在对话上下文里连接任何 MCP 服务器。那我就想：我们能不能把会场的灯光系统也接成一个 MCP Server？

Arman：在 Codex Cloud 上我发了任务：为这个具体型号的灯控系统搭 MCP Server，我给了参考文档与期望的 UI 接口。看日志你能体会 Codex 的“agentic”行为：它在推进过程中发现需要“command 8”的新信息，于是自己去抓 GitHub 文档并调用工具继续推进。随后我又让它写好 README，告诉我如何运行。回到 VSCode，我把 Cloud 里的改动一键“Apply”到本地，依赖我已提前装好。

演示：现场联调——手柄控相机、语音控灯光（00:41:42 - 00:44:00）

Arman：先看手柄：现在推摇杆就能控制相机了，甚至我没指定哪个按钮做什么，它也“猜”对了。现在进入语音模式（抱歉各位音视频同事）：试试控制灯光。

Voice Agent：嗨，我能清楚地听到你，需要什么尽管说。

Arman：你现在摄像机里看到什么？

Voice Agent：我看到你面前是一大片观众，排排就座、灯光明亮、一直延伸到后排。

Arman：把灯光打向观众。

Voice Agent：我已用明亮的洗光点亮观众，现在他们应该被很好地突出显示。

Arman：和现场的朋友们打个招呼吧。

Voice Agent：观众灯光已拉起。让我们欢迎这群了不起的开发者。Fort Mason 的各位，你们好！今天将非常精彩。

Arman：给线上直播的观众做点有趣的灯光并问好。

Voice Agent：现在我让彩色动态效果滚起来了。各位正在观看直播的朋友，感谢加入，这会是很棒的体验。

Arman：好的，恢复正常。

Arman：到现在我还没手写过任何代码。

演示：Codex SDK 的“实时重编程”（00:44:01 - 00:45:58）

Arman：最后再看一点未来的味道。我们今天也发布了 Codex SDK。我用语音说：“请让 Codex 展示一个电影片尾式的 credits overlay，不过把全体参会者当作演职员表。”——它正在用 Codex 执行。我又说：“启动倒计时，给我们所有人拍张照。”——屏幕上倒计时与拍照完成。

Arman：解释一下：语音 agent 把 Codex SDK 作为工具接入，这意味着我可以“现场重编程”这套应用，并根据用户需求即时适配。在这个例子中，Codex 能编辑 React 应用里的代码、热更新、找到它需要的一切，然后让 credits 滚动起来。我们把语音、草图、身边的设备都变成了“可工作的软件”，全程零手写。把你最有野心的想法和最复杂的编码问题交给 Codex，看看会发生什么。唯一的限制是你的想象力。谢谢，把时间还给 Sam。

软件创作方式的最大变革与模型更新（00:46:05 - 00:47:27）

Sam：谢谢 Arman。这是我所见过的软件创作方式最大的变化。接下来是模型更新。8 月我们发布了 GPT-5，我们训练它在 steering agents 和端到端编码上表现出色，事实也证明如此。像 Cursor、Windsurf、Vercel 等领先编码产品用 GPT-5 在他们的产品里改变软件书写方式。

Sam：随后我们发布了 GPT-5 Pro，这是我们迄今最智能的模型。今天我们在 API 开放 GPT-5 Pro，所有开发者都可使用。GPT-5 Pro 非常适合需要高准确率与深度推理的场景，比如金融、法律、医疗等。

Sam：我们还在 API 里发布了一个更小的语音模型：GPT real-time mini。它比两个月前发布的高级语音模型便宜 70%，但保持相同的音质与表现。我个人认为“语音”会成为人机交互的主渠道之一，这一步很关键。

Sora 2 API 预览：可控性与声画同步（00:47:30 - 00:50:59）

Sam：现在聊聊内容创作的更新。这是个很多人强烈请求的功能。今天我们在 API 中发布 Sora 2 的预览。你现在可以在自己的应用里调用与 Sora 2 同款的视频生成模型。

Sam：这代模型的一大飞跃是“可控性”。你可以给它很详细的指令，它能稳定保持场景状态，同时在风格、准确性、构图上交付出色结果。比如用 iPhone 的竖屏视角，指令 Sora 扩展为电影级的宽幅镜头。

Sam：更让我兴奋的是它把“声音与画面”配得非常好——不只是说话，还有丰富的声场、环境音、和与视觉同步、扎根于画面的音效。比如皮划艇的视频里，你能听到与视觉匹配的环境声。

Sam：你也可以把现实带进 Sora 2，比如拍你家狗的照片，再给它加几个新朋友；或做产品概念开发：仅描述“氛围”或“产品”，Sora 就会给出视觉起点。我们用它生成了一段电商应用的概念视频。

Sam：大家似乎很喜欢 Sora 2，它自发布以来一直在 App Store 顶部。现在通过 API 预览，你可以把同等质量、含真实且同步音效的视频直接生成到产品里。和其他模态一样，它强调灵活性：你可控制视频时长、画幅比例、分辨率，轻松 remix 视频。Mattel 是很棒的合作伙伴，他们用 Sora 2 把玩具的早期概念更快地“看见、分享与反馈”。

收尾与总结（00:51:01 - 00:52:17）

Sam：希望今天能给你一些新灵感。我们想让 OpenAI 成为这个新建造时代的优秀平台，精彩的事情很快就会发生。所有发布都围绕这个目标：

Apps SDK：在 ChatGPT 里构建原生应用；
AgentKit：让你能更容易、更有信心地在任何地方部署 agents；
更强大的 Codex：改变软件开发方式，让团队更快交付；
新模型进 API：GPT-5 Pro、Sora 2、real-time mini，拓展可能性。

Sam：我们在见证重大的变化：软件过去要花数月或数年去做，你们刚才看到，现在可能只要几分钟。用 AI 构建不再需要庞大团队，需要的是好点子，你就能以前所未有的速度把它变成现实。谢谢你们到来并持续构建。我们的目标是让 AI 对每个人都有用，没有你们做不到。也向促成今天一切的团队致敬。今天还有很多内容，享受各个环节，回头见。谢谢大家。

欢迎交流与合作

目前主要兴趣是探索agent的真正落地，想进一步交流可加微信（微信号：cleezhang），一些自我介绍。