AI 日报｜2026-05-30｜OpenAI 推出实时翻译模型，支持 70+语言输入｜Codex 可自主管理对话线程与并行任务

0 条回复

20 次浏览

AI 热点日报（2026-05-30）

模型发布/更新

1. OpenAI 推出实时翻译模型，支持 70+语言输入

OpenAI 实时翻译功能——使用 70 多种输入语言说话，翻译成 13 种输出语言： gpt-realtime-translate 接收任意语言的语音输入，并输出目标语言的语音。大语言模型很棒，但特定用例需要专用模型。我们正在智能眼镜上运行此功能。
来源： X：Greg Brockman (@gdb)

2. 阶跃星辰 Step 3.7 Flash 发布，聚焦智能体效率

阶跃星辰（Step）发布了开源大模型 Step 3.7 Flash，主打智能体（Agent）工作流的效率。该模型在 ClawEval-1.1（67.1 分）和 SimpleVQA Search（79.2 分）评测中排名第一。其架构为 198B 参数的 MoE，约 11B 为活跃参数，支持 256K 上下文。模型具备多模态理解能力，能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面，它致力于高可靠性，τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链，并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。
来源： X：阶跃星辰 StepFun (@StepFun_ai)

3. 小米开源可控视频音效生成模型 ControlFoley，让声音“按你想要的来”

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley，旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现，其代码、模型权重和在线 Demo 均已开放。
来源： IT 之家（RSS）

4. Qwen-VLA：从理解世界到在其中行动

Qwen Studio 提供全面功能，涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具利用及 Artifacts。
来源： Qwen：Blog Retrieval（API）

产品发布/更新

1. Codex 可自主管理对话线程与并行任务

Codex 用于管理 Codex 界面： [引用 @guinnesschen]：如果你厌倦了管理 Codex 对话线程，就让 Codex 自己管理自己吧！Codex 现在可以创建对话线程、搜索它们、整理它们、固定重要的线程，并为并行任务启动工作树。
来源： X：Greg Brockman (@gdb)

2. Gemini Omni 可将草图变为现实

Gemini Omni 甚至能将简单的草图变为新的现实。在 Gemini 应用中亲自尝试。上传一段有人画圆的视频，然后输入这个提示词：当我画完这个圆时，它变成了___。
来源： X：Gemini (@GeminiApp)

3. Codex 现已支持 Windows 端计算机使用功能

Windows 用户，这条消息是给你的。计算机使用功能现已在 Windows 上可用，因此 Codex 可以在你的 Windows 电脑上执行操作。通过 ChatGPT 移动应用中 Codex 的 Windows 支持，你可以在工作继续在 Windows 电脑上进行时，随时随地启动、审查和引导任务。这是一项早期体验，但我们正在努力提供更多方式，让你的工作无论身在何处都能持续进行。
来源：[X：OpenAI ( @OpenAI )]( https://x.com/OpenAI/status/2060428604727771421 )

4. Guardrails：保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具，提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能，旨在保护智能体（Agents）、数据与控制成本。
来源： OpenRouter：Announcements（RSS）

5. Runway API 持续扩展模型与端点支持

我们持续为 Runway API 添加新模型和端点，以便您能将最佳生成能力直接集成到应用、产品和平台中。通过 Runway API，您可以在一个地方获得所需的所有模型，包括 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等更多内容。请通过下方链接开始使用。
来源： X：Runway (@runwayml)

6. OpenRouter 支持模型生成文件补丁

OpenRouter 现已支持 "apply_patch"，这是一个服务器工具，允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议。模型生成一个补丁（创建、更新或删除文件）。OpenRouter 在服务器端验证 diff 语法。
来源： X：OpenRouter (@OpenRouter)

7. ChatGPT 对话目录功能现已上线

对于每个始于“就问一件事”却演变成完整长篇的 ChatGPT 对话：目录功能现已推出。适用于包含 5 条以上回复的对话。
来源： X：ChatGPT (@ChatGPTapp)

8. Gemini 本月更新：全新界面与智能体助手

从全新设计的 Gemini 界面，到 Gemini Spark 提供的全天候智能体辅助，以下是本月 Gemini 更新概览。🧵
来源： X：Gemini (@GeminiApp)

行业动态

1. 中央网信办等四部门：提升全民人工智能素养，加快人才培育、深化普及应用

中央网信办等四部门联合印发《2026 年提升全民数字素养与技能工作要点》，部署了六项重点任务。其中明确要求“提升全民人工智能素养”，具体包括强化人工智能赋能教育、加快人工智能人才培育、深化人工智能普及应用。其他任务涵盖数字资源供给、应用场景建设、普惠包容发展、安全有序网络空间以及协同联动机制。
来源： IT 之家（RSS）

2. 波士顿儿童医院利用 AI 解锁新诊断

波士顿儿童医院通过部署 OpenAI 技术，用于改善患者护理并减轻运营负担，成功帮助诊断了超过 40 种罕见病病例。
来源： OpenAI：官网动态（RSS · 排除企业/客户案例）

3. 滑铁卢大学未来实验室展示 AI 原型

滑铁卢大学未来实验室的学生开发了用于重塑教育和工作未来的 AI 原型，其中包括手语辅导工具。
来源： Google Blog：AI（RSS）

论文研究

1. GPIC：大规模视觉生成基准数据集发布

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋！🤩
来源： X：Fei-Fei Li (@drfeifei, World Labs)

技巧与观点

1. 这个 skill 看着不错，可将文字、URL 或文章直接生成公众号首图、小红书图文卡、教程步骤卡等视觉物料，支持 28 种布局和 10 种主题。

claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片，如公众号首图、小红书图文卡、教程步骤卡等，支持 28 种布局与 10 种主题。其核心价值在于自动化了“写完文章”后最繁琐的流程：自动提炼重点、选择版式、生成 HTML 并截图成 PNG，替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源，适合经常撰写相关内容的创作者尝试。
来源： X：洪明 (@hongming731)

2. 亲测为实：难以置信的推理速度

Kog 团队在标准数据中心 GPU 上实现了极高的单用户推理速度，在 8× AMD MI300X GPUs 上达到 3,000 tokens/s，在 8× NVIDIA H200 上达到 2,100 tokens/s。相比常规推理速度（约 100-300 tokens/s），实现了 10-30 倍提升。其核心思路是将 LLM 解码视为内存流问题，通过协同设计 monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的 Laneformer 模型架构，消除了传统流程的阻塞点。
来源： X：Rohan Paul (@rohanpaul_ai)

3. Adam’s Law：用高频词写 Prompt 效果更好

FaceMind 团队用 100 种语言和四大核心任务实验发现，在语义不变的前提下，使用预训练语料中出现频率更高的词汇（高频表达）来撰写提示词或进行微调，可以显著提升大语言模型的表现。这被总结为 Adam’s Law（文本频率定律），它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作，从而优化输出质量。
来源： X：Berry Xia (@berryxia)

4. Cursor 团队发布《开发者习惯报告》

报告显示，AI 正深刻改变开发工作形态。开发者周均代码产出从约 3.6K 行增至 8.6K 行，更大规模的 PR（千行以上）占比上升。AI 智能体在单次会话中的工具调用数增加约 30%，正在处理更复杂的任务。同时，被接受的 AI 代码在 60 分钟后的留存率从约 76% 提升至约 81%，表明更多 AI 生成内容进入了实际代码库。这些趋势共同指向 AI 已从个人辅助工具，演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。
来源： X：邵猛 (@shao__meng)

5. Claude Code——文档中未提及的所有可配置选项

该篇文章标题涉及“Claude Code”的可配置选项，但提供的正文内容仅包含一张图片和一个外部链接，未给出任何关于模型版本、参数、性能、价格或功能的具体信息。根据规则，无法在摘要中提及原文不存在的细节。
来源： Hacker News 热门（buzzing.cc 中文翻译）

6. 当公司过于"AI 上瘾"时会发生什么？

Box 创始人 Aaron Levie 指出，决定用 AI 替代员工的人往往最不了解工作的实际内容，他将此称为“AI psychosis”。ClickUp 近期为部署 AI 智能体裁员 22% 即是一例。2026 年的科技行业裁员规模已接近 2025 年全年。
来源： TechCrunch：AI（RSS）

7. 特斯拉 FSD 安全性宣称遭质疑

特斯拉声称其全自动驾驶软件（FSD）安全性最高可达人类的 10 倍，但路透社调查发现此数据经不起推敲。参与训练 FSD 的员工表示该技术远未成熟，其安全演示高度依赖人工。统计方法被 11 位交通安全研究人员指出存在缺陷，例如与更广泛的联邦事故数据进行不恰当比较。相比之下，竞争对手 Waymo 采用了更严谨的统计方法。目前，特斯拉 FSD 仍需驾驶员主动监督，安全部署可能还需数年。
来源： IT 之家（RSS）

8. Cognition 的 Scott Wu 表示：AI 编程智能体不应取代人类

Cognition 公司开发了 Devvin，这是一个号称首个且最成功的 AI 编程智能体。其著名程序员创始人 Scott Wu 明确表示，该智能体并非旨在取代人类程序员。
来源： TechCrunch：AI（RSS）

❤️1