AI 日报｜2026-06-17｜Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型｜教育部“阳光志愿”信息服务系统全新升级上线：智能筛选志愿，数据权威可信

1 条回复

13 次浏览

AI 热点日报（2026-06-17）

模型发布/更新

1. Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型

Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型，作为单一实时语音栈，分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首，首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。
来源： X：Testing Catalog (@testingcatalog)

2. Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作（VLA）基础模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38,100 小时预训练语料，涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%，RoboTwin-C2R Hard 达 69.4%，RoboCasa365 Composite-Unseen 达 14.9%，EBench 达 45.6%，RoboTwin-IF 达 72.0%，并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道…
来源： Qwen：Blog Retrieval（API）

3. Qwen-RobotWorld：具身智能体的无界世界

Qwen-RobotWorld 以语言为统一动作接口，采用双流 Multimodal Diffusion Transformer（MMDiT）架构，将 Qwen2.5-VL 作为动作编码器。在 4 个基准测试中取得顶尖成绩，统一 20 余种机器人形态，基于 860 万跨场景训练对和 1300 多项操作技能。语言接口标准化 500 多种动作类别，支持操作、自动驾驶、室内导航的联合训练。还支持 Scene2Robot 人类到机器人转移及 2–4 路多视角几何一致视频生成。
来源： Qwen：Blog Retrieval（API）

4. 成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型，计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍，输出质量相当。图生视频定价 0.023 元/千 tokens，视频生视频 0.014 元/千 tokens，720P 规格下单秒生成成本约 0.5 元，较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。
来源： IT 之家（RSS）

5. Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav，基于 Qwen3-VL 在 15.6M 样本上训练，统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域，无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA：VLN-CE RxR 成功率 76.5%，HM3Dv2 目标导航 75.6%（仅 RGB），EVT-Bench 跟踪率 90.0%，NAVSIM PDMS 91.4，以及三项 EQA 新标杆。模型暴露四个可调轴（视觉 token 预算、时间衰减、相机权重、帧采样模式）。作为智能体系统的一部分，上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%，导航步数减少 …
来源： Qwen：Blog Retrieval（API）

产品发布/更新

1. 教育部“阳光志愿”信息服务系统全新升级上线：智能筛选志愿，数据权威可信

教育部“阳光志愿”信息服务系统今日全新升级上线，依托招生、学籍、就业等海量官方数据，免费为考生和家长提供志愿填报服务。系统支持 31 个省区市本专科普通批次志愿筛选，输入高考成绩、位次及个性化条件即可快速生成合理参考方案。AI 助手“智慧小招”24 小时在线解答政策规则。平台数据由高校直接报送、官方核验，真实可靠。同时推出专业倾向测评和 21 项生涯测评工具，帮助学生认清特长、规划未来。
来源： IT 之家（RSS）

2. Google Cloud 推出 OKF v0.1：供应商中立的 Markdown 规范，为 AI 智能体提供结构化上下文

Google Cloud 发布 Open Knowledge Format (OKF) v0.1，一种供应商中立的 Markdown 规范，为 AI 智能体提供结构化上下文知识。OKF 将知识表示为带 YAML 前置元数据的 markdown 文件目录，每个概念对应一个文件，通过 type、title、description 等少量保留字段实现互操作。无需专有服务、SDK 或运行时，目录可托管在 GitHub、以 tarball 传输或挂载到任意文件系统。OKF 旨在解决组织内部知识碎片化问题——表结构、指标定义、runbook 等散落在不同 catalog 和 wiki 中，各厂商方案互不兼容。遵循最少意见原则，只强制…
来源： MarkTechPost（RSS）

3. Copilot Cowork 全球正式可用，支持多模型

Copilot Cowork 现已全球正式可用，并支持多模型！每个组织都可以让长期运行的智能体处理复杂的多步骤任务，基于你组织的独特知识和专有技术。 https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available/?v=15
来源： X：Satya Nadella (@satyanadella)

4. AI 版支付宝官宣开启邀测：右滑打开“阿宝”，官方放出 100 个邀请码

支付宝今日开启 AI 版邀测，用户可右滑进入新版界面，在对话框或语音中输入指令，由“阿宝”助手代办事项。以查询公积金为例，阿宝自动匹配对应小程序和服务入口，用户点击确认即可完成，将多步跳转折叠为一句指令。所有涉及资金变动和支付的环节均需用户本人确认。首批放出 100 个邀请码。
来源： IT 之家（RSS）

5. 小米 MiMo Claw 正式版发布：旗舰模型+金山办公，全新订阅服务上线

小米推出云端轻量化 Claw 类产品 MiMo Claw 正式版，搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 旗舰模型。该模型原生兼容 MCP 工具调用协议，内置百万级超长上下文，支持单会话千次以上连续工具调用；依托 MTP 三层解码架构，在 OpenClaw 标准 Agent 工作流中吞吐效率提升约 3 倍。ClawEval 测试中任务达标率（Pass³）达 63.8%，Token 消耗较同类产品降低 40%-60%。联动金山办公生态，提供 Word、Excel、PPT、PDF 等格式的 AI 生成、预览与在线编辑一站式服务。免费用户每日单次体验时长从 1 小时升级至 4 小时，面向高频用户推出 TokenPla…
来源：公众号：小米 MiMo

6. Subagent：让模型把琐碎任务委托出去

OpenRouter 推出 openrouter:subagent 服务器工具，允许前沿模型在生成过程中将独立的琐碎任务（如文档总结、结构化数据提取、文本重格式化）委托给更小、更便宜、更快的 worker 模型执行，从而节省前沿模型的 token 消耗。
来源： OpenRouter：Announcements（RSS）

7. Midjourney V8.1 推出 Draft mode 草稿模式与新功能预览

Midjourney V8.1 的 Draft mode 草稿模式每次生成 24 张低分辨率低质量图片。用户可对任意图片点击 "Vary"，将其渲染为全质量、全分辨率版本。草稿任务消耗的快速小时数减半。
来源： Midjourney：Updates（RSS）

8. Grok for PowerPoint 发布：在 Microsoft PowerPoint 内直接生成和编辑幻灯片

xAI 于 6 月 16 日发布 Grok for PowerPoint，作为免费 Microsoft 365 插件上线。用户无需离开应用即可利用 Grok 将大纲转为完整幻灯片，进行内容研究、撰写、排版，并支持添加单张幻灯片、调整样式主题、重构章节。插件还能调用 Grok 连接器，从邮件或 SharePoint 中获取信息。该插件同样适用于 Word 和 Excel。
来源： xAI：News（网页）

行业动态

1. 美国司法部援引国家安全为 xAI 未经许可的燃气轮机辩护

美国司法部在一份驳回诉讼的动议中称，xAI 的聊天机器人 Grok 对军事行动至关重要，以此为其在密西西比州 Southaven 的 Colossus 2 设施运行未经许可的燃气轮机辩护。NAACP 已提起诉讼，指控 xAI 的燃气轮机数量从 4 月的 27 台增至 57 台，导致氮氧化物排放飙升 111%。国防部首席数字与人工智能官 Cameron Stanley 表示，Grok 是支持机密和绝密网络军事任务的四款 AI 模型之一，包括近期针对伊朗的打击。
来源： The Decoder：AI News（RSS）

2. 五角大楼将大部分日常 AI 工作流从 Anthropic 转移，目标 9 月前完全切断

五角大楼宣布已将超 2/3 日常 AI 工作流从 Anthropic 转移，目标 9 月前清零。起因是年初五角大楼要求 Anthropic 签署协议允许 Claude 用于大规模监控和全自动武器，CEO Dario Amodei 以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”，起诉未果。OpenAI 调整立场获得订单。Polymarket 预测 6 月底前和解概率仅 9%。此事件凸显 AI 公司需在原则与政府合作间抉择。
来源： X：阿易 AI Notes (@AYi_AInotes)

3. 微软旗下 GitHub 遭遇 AI 算力短缺，转而向 AWS 寻求支持

微软旗下 GitHub 面临 AI 算力短缺，微软因此转向亚马逊 AWS 寻求计算资源支持。原文来自 Hacker News 热门讨论，标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。
来源： Hacker News 热门（buzzing.cc 中文翻译）

4. 微软考虑为 Copilot Cowork 集成 DeepSeek V4

微软正考虑为 Copilot Cowork 提供微软托管的 DeepSeek V4 版本，作为更便宜的模型选项。Copilot Cowork 将放弃无限定价，转向按使用量计费，原因是成本过高（用户每周执行数百项任务导致费用激增）。若采用 DeepSeek，该模型将是可选的、经过微调与安全防护，并完全托管于 Azure。Axios 报道称微软已微调了一个可用模型，最终决定待定。
来源： X：Kim (@kimmonismus)

5. Fable 遭美国政府封禁，TechCrunch 质疑真正原因并非模型越狱

美国政府对 Anthropic 的模型 Fable 实施封禁，但 TechCrunch 发文质疑，实际原因可能并非此前认为的“模型越狱”问题。该文章在 Hacker News 引发讨论，获得 103 个点赞。
来源： Hacker News 热门（buzzing.cc 中文翻译）

6. SpaceX 以 600 亿美元股票收购 AI 编程公司 Cursor

SpaceX 在历史性 IPO 数天后，同意以 600 亿美元股票收购 AI 编程初创公司 Cursor，旨在帮助其围绕 xAI 构建的 AI 部门追赶主要 AI 实验室。此前 Cursor 正接近完成一轮 20 亿美元融资，估值 500 亿美元，投资方包括 Andreessen Horowitz、Thrive 和 Nvidia。SpaceX 在 IPO 期间向投资者表示，其 AI 产品可寻址市场达 26 万亿美元。交易预计于今年第三季度完成。
来源： TechCrunch：AI（RSS）

7. Anthropic 5 月企业 AI 订阅份额首超 OpenAI，特朗普政府禁令反促采用量创新高

Anthropic 5 月企业 AI 订阅市场份额达 41%，首次超越 OpenAI（39.5%）。公司刚完成 650 亿美元融资、估值 9650 亿美元，并因首次盈利季度秘密提交 IPO。特朗普政府以出口管制为由要求 Anthropic 禁止非美国人访问最新模型 Mythos 5 及 Fable 5，导致两款模型下架。Ramp 首席经济学家指出，类似争议（如 3 月被国防部列为供应链风险）反而推动 Anthropic 企业采用量创纪录。Ramp 数据显示，企业支出主要流向 Claude Opus 模型（最新为 Opus 4.8）。
来源： TechCrunch：AI（RSS）

8. DeepSeek 完成首轮外部融资，估值超 500 亿美元

中国 AI 初创公司 DeepSeek 完成首轮外部融资，募资超 500 亿元人民币（约 74 亿美元），估值超 500 亿美元。投资结构特殊：多数投资者将资金投入 CEO 梁文锋管理的有限合伙企业，无投票权且锁定期五年；仅国资 AI 基金直接投资并保留投票权。创始人梁文锋个人投入约 200 亿元，腾讯和宁德时代为主要外部投资者。梁文锋表示优先基础 AI 研究与 AGI 开发，将继续开源。DeepSeek 去年初凭 V3、R1 模型获全球关注，今年 4 月发布运行于华为芯片的最大开源权重模型 V4，并将 V4 Pro 永久折扣 75%，输入价格约为 OpenAI GPT-5.5 的 1/11，输出价格约为 1/35。
来源： The Decoder：AI News（RSS）

论文研究

1. Anthropic：智能体编码中专业知识回报持续存在

Anthropic 基于约 40 万次 Claude Code 交互会话（2025 年 10 月至 2026 年 4 月）分析发现：人类主导规划决策（做什么），Claude 主导执行决策（怎么做）。领域专业知识越强，模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近；领域专家成功率更高，但与中级用户差距不大。七个月间调试会话占比下降近一半，使用转向端到端智能体任务（部署运行代码、分析数据、编写非代码文档），典型任务价值平均上升约 25%。
来源： Anthropic：Research（发表成果 · 网页）

2. OpenAI 发布 Deployment Simulation 方法：通过模拟部署预测模型发布前行为

OpenAI 近日发布 Deployment Simulation 方法，通过在隐私保护下重放历史对话、用新候选模型重新生成回复，模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中，该方法比传统评估更准确地估计了不良行为频率，发现新型对齐问题，并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限，而 Deployment Simulation 使用真实对话分布缓解了这些问题，但无法测量频率低于每 20 万条消息 1 次的行为。
来源： OpenAI：官网动态（RSS · 排除企业/客户案例）

3. 公开聊天数据能否预测真实世界 AI 失调？

OpenAI 利用 WildChat 公开数据集（2023 年 4 月至 2024 年 5 月收集的 100 万条对话）模拟模型部署，预测 GPT-5.1、GPT-5.2、GPT-5.4 在真实生产环境中的不良行为率。与私有生产数据对比发现，WildChat 模拟的平均预测误差约 3 倍；但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。
来源： OpenAI：Alignment 研究博客（RSS）

技巧与观点

1. Meta 解散工程部门引发热议

6 月 16 日，一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News，获得 110 个点赞。文章指出 Meta 正在解散其工程组织，引发业界广泛讨论。具体原因和后续影响尚未明确。
来源： Hacker News 热门（buzzing.cc 中文翻译）

2. 毕业生陷入 AI 检测荒诞循环：手写摘要被判 99%AI 率，AI 写部分 0%

当前毕业生面临论文 AIGC 率检测荒诞困境。学生手写摘要被判定 99%AI 率，纯 AI 写部分却为 0%。学校要求 AIGC 率不超 40%，学生用 Claude 反复修改并花上百元检测费（维普 20 元/篇，知网/万方 2 元/千字符），最终降至 36.1%。答辩时老师要求改回学术表达，AI 率回升至 37.21%。同一论文在不同平台检测结果差异巨大（48%、44%、59%）。部分平台提供降重收费服务，少数学校已改用 AI 使用声明表替代一刀切检测。
来源：公众号：数字生命卡兹克

3. WorkBuddy 日活飙升至行业第二的 3-4 倍，非技术用户涌入

从 3 月至今，WorkBuddy 日活用户数已达行业第二名的 3-4 倍，用户不再限于开发者，大量 HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展了 Agent 办公场景。同期，Trae Work、QoderWork、Kimi Work 等产品纷纷改名或出新，争夺市场。腾讯云认为这可能是十年一遇的机遇。
来源：公众号：数字生命卡兹克

4. OpenAI 的领先优势正在快速缩小

评论认为 OpenAI 正面临多重危机：缺乏护城河导致市场领先地位下滑；最大投资者微软持续疏远，近期甚至公开考虑将主要产品外包给中国；亏损速度远超预期，年亏损额以 8 倍增长。华盛顿方面可能打压 Anthropic，但也可能反而帮助其崛起，而 Elon Musk 成为另一个潜在的竞标者。
来源： Gary Marcus：The Road to AI We Can Trust（RSS）

5. 前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变：从 InstructGPT 的 SFT→奖励模型→RL 三阶段，到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL，再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation（MOPD）：训练 N 个领域专家（经 SFT 和领域 RL），再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入，DeepSeek V4 与 Nemot…
来源： Nathan Lambert：Interconnects（RSS）