AI 日报｜2026-06-18｜MolmoMotion：语言引导的 3D 运动预测模型｜Vercel 发布开源 AI 智能体框架 Eve：每个智能体就是一个文件目录

0 条回复

6 次浏览

AI 热点日报（2026-06-18）

模型发布/更新

1. MolmoMotion：语言引导的 3D 运动预测模型

MolmoMotion 基于 Molmo 2 骨干网络，输入视频帧、物体上的 3D 点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），预测未来数秒内这些点的 3D 轨迹。提供两个变体：自回归的 MolmoMotion-AR 逐步预测坐标，流匹配的 MolmoMotion-FM 通过连续空间变换处理多可能性运动。同时发布 MolmoMotion-1M 数据集（含 116 万视频的 3D 点轨迹及动作描述）和 PointMotionBench 基准测试（2700 个人工验证视频片段）。模型权重、数据集和基准测试均已开源。
来源： Hugging Face：Blog（RSS）

2. Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日，xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率，支持 100 万 token 上下文窗口，并提供可配置推理努力（none/low/medium/high）。在 Artificial Analysis Omniscience 基准排名第一，在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一，在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元，每美元智能度是其他前沿模型的 2–10 倍。
来源： xAI：News（网页）

产品发布/更新

1. Vercel 发布开源 AI 智能体框架 Eve：每个智能体就是一个文件目录

Vercel 发布开源 AI 智能体框架 Eve（npm 包，Apache-2.0 许可）。Eve 采用文件系统优先设计：每个智能体对应一个磁盘目录，目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力，无需额外注册代码。内置六大生产级能力：持久执行（每步检查点，崩溃后可恢复）、沙箱计算、人机审批、安全连接（支持 MCP 和 OpenAPI）、多通道（Slack、Discord、Teams 等）以及追踪与评估（OpenTelemetry）。Vercel 内部运行了上百个智能体，包括数据分析工具 d0（月处理超 3 万查询）、自动销售代理 Lead Agent（年费约 5000 美元、回报 32 倍）和支持智能体 Vertex（自主解决 9…
来源： MarkTechPost（RSS）

2. Omnigent 开源：AI 智能体团队元框架

编程的未来不是单一智能体，而是一个完整的 AI 团队。 Omnigent 让你在一个实时会话中运行一个智能体团队：Claude Code、Codex、Cursor、Pi，以及你自己的智能体。它是一个面向 AI 智能体的元框架，基于我们内部的 Databricks 开发工具构建，现已开源给所有人。由传奇人物@matei_zaharia 和 Databricks AI 团队打造。没错，Matei 仍然编写大量代码，包括 Omnigent 和我们产品的前端代码。
来源： X：Yuchen Jin (@Yuchenj_UW)

3. Google 发布 99 美元 Gemini 智能音箱

Google 推出首款专为 Gemini 打造的智能音箱 Google Home Speaker，售价 99.99 美元。支持自然语言请求和多步指令，可在说话中途纠正，并具备连续对话功能。内置 10 种新声音。高级 AI 功能需订阅 Google Home Premium（月费 10 美元或年费 100 美元），包括 Gemini Live 自由对话、Nest 摄像头活动摘要等。即日起预售，本月发货。
来源： TechCrunch：AI（RSS）

4. Wolfram 语言和 Mathematica 15 版发布：内置 AI 助手、符号音乐等新功能

在 Mathematica 诞生近 38 年后，Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手，支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找，首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助，支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进，支持…
来源： Hacker News 热门（buzzing.cc 中文翻译）

5. 阿里云发布 HappyOyster 1.0：一句话生成可实时交互的数字世界

6 月 17 日，阿里云发布开放式世界模型 HappyOyster 1.0（快乐生蚝）。该产品基于原生多模态架构，支持多模态输入与音视频联合生成，可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律，保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法：前者可随时叫停改写故事、与虚拟男友实时互动等；后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年 4 月 16 日开放内测，即日起至 7 月 17 日官网不定期掉落体验积分。
来源： IT 之家（RSS）

6. Claude Design 更新：跨项目保持品牌一致，与 Claude Code 协同

6 月 17 日，Claude Design 更新，支持跨项目使用统一设计系统，并与 Claude Code 同步工作流。用户可直接拖拽、对齐和缩放画布元素，编辑器稳定性大幅提升。设计系统可从 GitHub、设计文件或原始上传导入，团队管理员可锁定标准系统防止篡改。新增桌面端侧边栏入口及独立网页端 claude.ai/design。使用限制与聊天、Claude Cowork、Claude Code 共享，每次任务消耗更少 token，错误率下降。支持导出 PDF、PPT，集成 Adobe、Canva、Gamma 等工具。发布首周用户超一百万。
来源： Claude：Blog（网页）

7. Claude Design 与 Replit 联动，设计变应用

在 Claude 中设计。在 Replit 中构建。你现在可以将 Claude Design 中的设计发送到 Replit，将其变成一个可工作的应用。
来源： X：Replit (@Replit)

8. Strands Robots SDK：用单一智能体打通 Hugging Face Hub 到物理机器人

AWS（Apache 2.0）开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools，构建统一智能体。默认用 MuJoCo 模拟（无需硬件），mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub，运行 GR00T 或 LerobotLocal 策略推理，经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致，只需改一个关键字参数。示例可在笔记本（Python 3.12+，Linux/macOS）无硬件、无 GPU 运行。
来源： Hugging Face：Blog（RSS）

行业动态

1. Anthropic 与 DeepMind CEO 呼吁 G7 组建 AI 联盟排除中国

Dario Amodei（Anthropic）与 Demis Hassabis（Google DeepMind）在 G7 闭门会议上呼吁组建美国主导的联盟，为人工智能制定全球规则和标准。Amodei 指出，该联盟应以前沿模型和硬件（包括芯片及其他关键组件）的访问权限为手段，将中国排除在外。这一主张被评论为高技术新冷战的开端，竞争方将从根本上被剥夺参与权。
来源： X：Kim (@kimmonismus)

2. 泄露文件显示 OpenAI 年营收 130 亿但亏损远超收入

OpenAI 2025 年营收 130.7 亿美元（2024 年 37 亿），但研发成本达 191.8 亿（含向微软支付 105.9 亿），收入成本（推理计算）75 亿，销售营销成本 57.3 亿，运营亏损 209.2 亿。2025 年净亏损约 390 亿，扣除约 300 亿一次性会计费用后约 80 亿。2025 年 3 月获 1220 亿融资（估值 8520 亿）。ChatGPT 周活超 9 亿，付费约 5000 万。为控制成本已关闭 Sora 视频模型并削减非核心业务。
来源： Hacker News 热门（buzzing.cc 中文翻译）

3. 消息称 OpenAI 今年一季度现金消耗达 37 亿美元，超同期收入的一半

OpenAI 在 2026 年第一季度现金消耗达 37 亿美元，超过同期 57 亿美元收入的一半。数据来自一份向股东披露的文件，直观体现 AI 大模型研发与规模化落地的巨额成本。OpenAI 正筹备上市，已在美国保密递交 IPO 申请，最早或于 9 月完成，估值最高可达 1 万亿美元。头部 AI 企业持续重金投入算力、模型研发与人才招募以维持竞争优势。
来源： IT 之家（RSS）

4. 中国加紧筹建世界人工智能合作组织

中国正加紧筹建世界人工智能合作组织，欢迎各方加入。2025 年 7 月 26 日，中国政府倡议成立该组织，作为践行多边主义、推动共商共建共享全球治理的举措，旨在弥合数字和智能鸿沟、促进人工智能向善普惠发展。初步考虑总部设在上海。同日，2025 世界人工智能大会发表《人工智能全球治理行动计划》，呼吁各方遵循向善为民、尊重主权、发展导向、安全可控、公平普惠、开放合作的原则，协力推进全球人工智能发展与治理。
来源： IT 之家（RSS）

5. 谷歌发布 Agentic Resource Discovery（ARD）开放规范

Agentic Resource Discovery（ARD）是一项开放规范，用于在 Web 上发布、发现和验证 AI 工具、技能与智能体。它基于两个原语：组织在其自有域名下托管 catalog 描述可用能力，registry 作为搜索引擎索引 catalog 并响应发现请求。ARD 支持加密验证，使客户端与端点连接前确认发布者身份，然后直接通过原生协议调用能力。Google Cloud 的 Gemini Enterprise Agent Platform 通过 Agent Registry 提供企业级支持，包括 URN 命名、出站策略、工具固定和基于 Agent Identity 的信任验证。该规范现已发布，开发者可通过托管ai-catalog.json文件使其服…
来源： Google Developers Blog（RSS）

6. Databricks 扩大对 Snowflake 的领先优势

Databricks 年化经常性收入（ARR）达 69 亿美元，同比增长 80%；同期 Snowflake ARR 约 53 亿美元，增速 34%。两者差距从 3 月的 4.9 亿美元扩大至 16 亿美元。AI 产品年化收入 17 亿美元，占总 ARR 的 25%，六个月前为 10 亿美元。Salesforce 以 36 亿美元收购 Fin，其 AI 智能体年收入 1 亿美元，同样占比约 25%，同比增长 350%。Databricks 私人估值 1340 亿美元，80% 的增长率远超 CrowdStrike（26%）和 Shopify（34%）等同行。
来源： Tomer Tunguz 博客（VC 分析）

7. Claude Opus 4.8 Build Day 黑客马拉松获奖项目揭晓

6 月 13 日，Anthropic 在旧金山举办 12 小时黑客马拉松，310 名参与者使用 Opus 4.8 和$500 credits 完成原型。第一名 Tekton：输入历史建筑照片后，Claude 自动搜集图纸等资料，跨 339 个施工步骤重建 3D 模型，每个构件附带证据链；自纠循环反复检查直至 20 项测试全部通过。第二名 Sim Francisco：基于美国人口普查数据生成 10,000 名合成市民，各具独立世界观，实时对新闻投票，精准预测选举结果。第三名 Custom Universe：用手机拍摄物件照片，Opus 4.8 将其转为可拖放、实时渲染的 3D 物体，支持文本指令重设风格。
来源： Claude：Blog（网页）

8. Anthropic 在首尔开设办公室并宣布多项韩国 AI 生态合作

Anthropic 正式启用首尔办公室，并宣布与韩国 AI 生态的多项合作。NAVER 在全公司部署 Claude Code，数千工程师用于提升编码效率；Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团；Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求；Samsung SDS 向三星电子员工部署 Claude（包括 Claude Cowork 和 Claude Code）。初创公司 Channel Corp 用 Claude 驱动客户 AI 平台 Channel Talk。Anthropic 与韩国…
来源： Anthropic：Newsroom（网页）

论文研究

1. NVIDIA GEAR 实验室发布 ENPIRE：8 个 Codex 智能体自主控制机器人完成物理实验

NVIDIA GEAR 实验室推出 ENPIRE 系统，首次实现物理世界自主研究。系统让 8 个 Codex 智能体控制 8 台机器人，配备 GPU 和 token 预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障，支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结，防止智能体作弊。实时监测机器人利用率（MRU）、token 利用率（MTU）和 GPU 利用率，以 Tokens-to-Success 和 Time-to-Success 评估效率。ENPIRE 自主完成扎带、整理细针、安装 GPU 等高精度任务，发现 8 机器人并行探索显著更快。系统将开源。
来源： X：Jim Fan (@DrJimFan)

2. 用 SGLang-JAX 在 TPU 上优化 Ling-2.6-1T：一个 Pallas 核将 MoE 数据移动隐藏在计算中

SGLang-JAX 现已支持 inclusionAI 的 Ling-2.6-1T（1T 稀疏 MoE，63B 激活参数，256 路由专家，top-8 路由加共享专家）在 TPU v7x 上高效推理。团队开发了 Fused MoE V2——一个融合 scatter、专家 FFN 和 gather 的 Pallas 核，通过将 MoE 数据移动隐藏在计算中，使 MoE 预填充延迟从 5.16ms 降至 2.42ms（降幅 53%），解码核延迟从 0.249ms 降至 0.211ms（降幅约 15%）。仅替换 MoE 核即提升预填充吞吐量 24.8%，解码吞吐量 18.5%–35.3%。在 SGLang 解码基准测试中，16 块 TPU v7x 芯片输出吞吐量达 16 块 H200 GPU 的 1.29 倍（mc=128）至 1…
来源： LMSYS：Blog（Chatbot Arena 团队）

3. LifeSciBench 发布

2026 年 6 月，OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准，涵盖 750 个真实研究任务，覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准（共 19,020 条），评估模型的科学正确性与实用价值。79% 的任务需多步推理，53% 要求解读图表、PDF 等附件数据，旨在衡量 AI 在复杂、不确定的研究任务中的实际能力，而非仅回答结构化问题。
来源： OpenAI：官网动态（RSS · 排除企业/客户案例）

4. Google 医学推理 AI 系统 AMIE 新研究：从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE（Articulate Medical Intelligence Explorer）从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力，整合共情对话智能体和深度思考管理推理智能体，可交叉引用数百页临床指南。在盲测中，AMIE 与 21 名初级保健医生相比，在整体管理推理上匹配临床医生，在计划精确性和指南一致性上得分显著更高。
来源： Google Blog：AI（RSS）

5. OpenAI 与 Molecule.one 合作：GPT‑5.4 自主优化 Chan‑Lam 偶联反应

OpenAI 将 GPT‑5.4 接入 Molecule.one 的自主化学智能体 Maria，用于优化药物化学中的 Chan‑Lam 偶联反应。GPT‑5.4 独立识别伯磺酰胺为高价值挑战性底物，并建议使用 TEMPO 等温和氧化剂。经两轮实验，88% 的硼酸和 83% 的磺酰胺底物产率提升，平均产率从 16.6% 升至 25.2%，产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证，14 对底物中 11 对产率提高，多数提升超两倍。
来源： OpenAI：官网动态（RSS · 排除企业/客户案例）

技巧与观点

1. Matt Pocock 开源 skills v1：将技能描述 Token 成本降低 63%

Matt Pocock（Total TypeScript 作者）开源了 skills v1，将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用，新增 /codebase-design、/domain-modeling、/grilling 三项技能；重写 /writing-great-skills；将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用；新增 /ask-matt 路由技能，帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。
来源： X：阿易 AI Notes (@AYi_AInotes)

2. baoyu-design 本地动画视频导出功能更新

baoyu-design（本地运行 Claude Design 的 Skill）新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计：任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码，每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR（3840×2160）再缩回 1080p，保证细节清晰。95 秒 30fps 动画需 2850 次截图循环，帧帧精确。项目已开源（MIT），获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。
来源： X：宝玉 (@dotey)

3. Google 分享 A2UI 与 MCP Apps 三种集成架构模式

Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式，旨在结合两者优势。A2UI 采用声明式框架，通过 JSON payload 定义 UI，由宿主原生渲染，确保一致性与安全性，但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面，但存在设计碎片化、性能与安全挑战。三种模式包括：通过 MCP 服务器提供 A2UI，利用 MCP Resources 或 Tool 调用传递 JSON，实现“一次编写，原生渲染”的跨平台能力；以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。
来源： Google Developers Blog（RSS）

4. 预训练还不够“苦涩”

Richard Sutton 的“苦涩教训”通常被解读为警告不要在 AI 系统中编码过多人类知识，最终胜出的方法是能吸收更多算力和数据的一般性方法。现代基础模型预训练表面上是这一教训的胜利：采用通用架构、海量数据、简单的自监督目标（语言模型预测下一个 token，视觉模型重建掩码块等）。但问题在于，训练目标仍由人类在训练循环外选定——完成一次大规模预训练后评估下游表现，再调整方案重新运行。这个控制环路非常粗糙。该论文探讨能否让这一环路变得更高效。
来源： CMU：Machine Learning Blog

5. 博客现状，2026 年中

Nathan Lambert 在 Interconnects 博客创办约三年后更新规划。他当前三大目标：为前沿模型演进提供清晰度、创建开放模型生态、建立支撑机构。博客定位为原始、高辨识度的独立声音，避免成为全职分析平台。已披露与 Arcee AI 和 Mercor 签署咨询协议，以深入后训练领域并推动透明评测与开放生态。订阅者突破 7 万，付费约 900 人；运营实体 Interconnects AI, LLC 已成立，但银行账户数月余额接近零，收入再投入业务，近期不打算全职运营。
来源： Nathan Lambert：Interconnects（RSS）

6. 特朗普向 Anthropic 提出不可能的要求

特朗普要求 Anthropic 完成不可能的任务，暴露了生成式 AI 安全护栏的根本困境。早在 2024 年 1 月，Gary Marcus 就指出任何护栏都难以在过于严格和过于宽松之间找到平衡。如今这一判断得到验证：基于 next-token predictor 的大语言模型本质上不适合安全控制。要么对 LLM 加以限制直至出现更好的技术，要么承受后果。问题并非 Anthropic 独有，而是整个生成式 AI 面临的挑战。
来源： Gary Marcus：The Road to AI We Can Trust（RSS）