AI 日报|2026-06-04|Grok Imagine 1.5 预览版发布|Meta 面向 WhatsApp Business 的 AI 智能体现已全球上线
AI 热点日报(2026-06-04)
模型发布/更新
1. Grok Imagine 1.5 预览版发布
Grok Imagine 1.5 预览版已发布,即日起可在 API 中体验。SpaceXAI 正在发力。
来源: X:cb_doge (@cb_doge)
2. MiniMax M3 1M token 解码加速 15.6 倍
15.6× faster decoding at 1M tokens 🔥 感谢 @FireworksAI_HQ 为 M3 提供推理支持。 立即尝试 👇
来源: X:MiniMax (@MiniMax_AI)
3. Miso One 开源语音模型:8B 参数、110ms 延迟、一次语音克隆
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。
来源: X:Kim (@kimmonismus)
4. Ideogram v4.0 发布:2K 分辨率和 JSON 提示支持
介绍 Ideogram v4.0。 原生 2K 分辨率,出色的文字渲染,支持 JSON 提示词。 立即在 Krea 中体验。
来源: X:Krea AI (@krea_ai)
产品发布/更新
1. Meta 面向 WhatsApp Business 的 AI 智能体现已全球上线
Meta 为 WhatsApp Business 打造的 AI 智能体面向全球商家开放,将按照模型 token 使用量向企业收费。
来源: TechCrunch:AI(RSS)
2. NousResearch 发布 Hermes Agent 桌面应用公测版
官方 Hermes Agent 桌面应用现已推出!
来源: X:硅基流动 SiliconFlow (@SiliconFlowAI)
3. xAI Grok 语音模型上线 Vapi 平台
试试 @Vapi_AI 上最自然的 TTS 和性价比最高的 STT API。 来自 @xai 的 Grok STT 和 Grok TTS 现已在企业语音 AI 平台 Vapi 上线。基于 Vapi 构建自定义语音智能体,可让它们用客户的语言交流、在受监管的工作流中捕捉重要细节,并在每次通话中明显更具人性化。
来源:[X:xAI ( @xai )]( https://x.com/xai/status/2062209374039499178 )
4. Grok 模型登陆 Cloudflare AI Gateway
在 @Cloudflare 的 AI Gateway 上尝试 Grok 模型!
来源:[X:xAI ( @xai )]( https://x.com/xai/status/2062294202625696081 )
5. OpenShell v0.0.55 发布:新增 Vertex AI 推理支持
OpenShell v0.0.55 🧩 Google Vertex AI 推理提供者 🔒 基于配置文件的策略可见性 🐳 网关中更好的 Podman 检测 🖥️ 恢复 GPU procfs 基准行为 🔧 CI 与文档修复 运行智能体对接 Vertex AI,同时拥有改进的策略可见性以及更可靠的 Podman 和 GPU 沙箱行为。 https://github.com/NVIDIA/OpenShell/releases/tag/v0.0.55
来源: X:NVIDIA AI (@NVIDIAAI)
6. Replit 上线 SEO Agent 助应用被发现
你发布了你的应用。然后呢? 你的应用可能看起来很棒,但如果没人能找到它,它就依然不可见。 发布只是开始。 认识一下 SEO Agent。它会为你运行一次扫描,并建议修复措施,帮助你的应用在网页搜索和 AI 搜索中被发现。
来源: X:Replit (@Replit)
7. OpenClaw 2026.6.1 发布:新增 Windows 节点与技能工坊
OpenClaw 2026.6.1 已上线 🦞 🪟 原生 Windows 节点主机 🛠️ 用于自主学习型智能体的技能工坊(Skill Workshop) 📋 工作板(Workboard)编排 🧠 支持 MiniMax M3 Windows 加入集群。无需企鹅服。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.1
来源: X:OpenClaw (@openclaw)
8. 黄仁勋与纳德拉共议智能体 AI 时代
智能体 AI 时代来了。 从台北,黄仁勋与@satyanadella 共同出席#MSBuild,展示 NVIDIA 与@Microsoft 如何携手构建,从 Windows 设备到规模化 AI 工厂。 ▶️ 观看对话: https://nvda.ws/4uefQbs
来源: X:NVIDIA (@nvidia)
行业动态
1. 微软与 OpenAI 分道扬镳——如今双方准备正面交锋
微软与 OpenAI 的合作关系已彻底破裂,双方进入正面竞争态势。前 DeepMind 高管、现任微软 AI 主管 Mustafa Suleyman 明确表示,微软现在必须从头证明自己能独立完成所有必需的任务。这标志着两家科技巨头从紧密合作伙伴转变为直接竞争对手。
来源: The Verge:订阅版科技(RSS)
2. Satya Nadella 谈微软 Build 大会主旨演讲
与我们共同构建前沿智能生态系统。 今早我在 Microsoft Build 上的主旨演讲亮点。
来源: X:Satya Nadella (@satyanadella)
3. 欧盟公布全面技术主权计划,推动芯片与 AI 自主发展
欧盟公布一项全面技术主权计划,旨在扩大本土半导体、人工智能和云计算供应链,以减少对美国和亚洲的依赖。该计划覆盖芯片制造、AI 基础设施及云计算服务等多个关键领域,目标是增强欧洲在核心技术上的自主能力。
来源: Bloomberg:Technology(RSS)
4. Sensor Tower:OpenAI 旗下 ChatGPT 月活已破 10 亿,史上最快
据市场情报机构 Sensor Tower 估计,OpenAI 旗下 ChatGPT 全球月活跃用户在 2025 年 5 月突破 10 亿,成为达成此里程碑最快的应用,增速超过 Google Maps、TikTok 等。同期,其竞争对手 Anthropic 的 Claude 月活达 5600 万,同比增幅约 640%,增长势头迅猛。数据显示,部分用户已开始在 Claude 与 ChatGPT 间切换使用。在达成用户里程碑之际,Anthropic 已秘密递交 IPO 申请,OpenAI 也计划筹备上市。
来源: IT 之家(RSS)
5. 消息称 DeepSeek 首轮融资拟筹集 500 亿元,腾讯、宁德时代等参投
DeepSeek 计划在首轮融资中从腾讯、宁德时代等投资方处筹集约 500 亿元人民币。融资落地后,其投后估值预计在 3500 亿至 4000 亿元。创始人梁文峰将出资 200 亿元,腾讯和宁德时代分别拟投资 100 亿元和 50 亿元,成为最大外部投资者。DeepSeek 去年凭借 V3 大模型与 R1 推理模型获得广泛认可。此次融资凸显了中国正打造从大模型到算力能源基建的全链条 AI 产业。
来源: IT 之家(RSS)
6. Suno 完成 4 亿美元 D 轮融资
我们激动地宣布 Suno 的新篇章:4 亿美元 D 轮融资,估值 54 亿美元!🚀 我们的使命一直很简单:让更多人能体验制作音乐的乐趣。非常感谢我们不可思议的社区和投资者与我们共同建设。 点击此处阅读 Mikey 的博客: https://suno.com/blog/series-d-announcement
来源: X:Suno (@suno)
7. Qwen Cloud 全球 AI 黑客马拉松启动
首届 Qwen Cloud 全球 AI 黑客马拉松现已启动! 参与 5 大高级赛道,在全球舞台上挑战 AI 智能体极限。 总奖金池超过 70,000 美元(赛道冠军 1 万美元)。 立即在 Devpost 报名: https://click.qwencloud.com/m/20000000281/
来源: X:阿里云 / Alibaba Cloud (@alibaba_cloud)
8. 宏利香港与阿里云达成 AI 战略合作
宏利香港宣布与阿里云建立战略合作伙伴关系,旨在构建一个专注于推进负责任的 AI 创新,并加速 AI 技术在业务中部署的合作框架。
来源: X:阿里云 / Alibaba Cloud (@alibaba_cloud)
论文研究
1. 斯坦福大学法学院研究:人工智能的表现优于法学教授
斯坦福大学法学院的一项研究表明,人工智能的表现优于法学教授。该发现引发了广泛关注,在 Hacker News 平台获得了 104 个 Points。
来源: Hacker News 热门(buzzing.cc 中文翻译)
2. NVIDIA Research 在 CVPR 2026 发表三篇论文:规模化训练实现抓取、自动驾驶与智能体泛化
NVIDIA Research 在 CVPR 2026 上发表三篇论文,展示规模化训练带来的泛化能力。GraspGen-X 是首个零样本抓取基础模型,基于 20 亿次模拟抓取训练,可为任意末端执行器生成抓取姿态。LCDrive 用紧凑潜在表示替代文本推理,让自动驾驶在嵌入式硬件上更快推理。NitroGen 基于 Isaac GR00T 架构,在大量虚拟环境中训练具身智能体。此外还发布了新的物理 AI 智能体技能,以及配合 GraspGen-X 使用的 CUDA 加速运动规划库 curoboV2 和闭环抓取论文 Grasp-MPC。
来源: NVIDIA AI Blog
3. Anthropic 分析 832 个 AI 恶意账户:中高风险攻击者半年从 33% 跃至 56%
Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户,映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件,6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%,AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台(Claude Code、API、聊天界面)的威胁评估失效,而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。
来源: Anthropic:Research(发表成果 · 网页)
4. 微软研究:装瓶厂 AI 从聊天到决策
一份在中西部装瓶厂进行的三个月试点显示,当 AI 超越聊天进入决策领域时会发生什么——约束条件变化、风险真实、答案必须可靠。 https://msft.it/6015vjYUN
来源: X:Microsoft Research (@MSFTResearch)
技巧与观点
1. 世界模型的功能分类
World Labs 团队与李飞飞发文,梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计,世界模型学习空间与时间统计(如光照、物理规律)。基于部分可观马尔可夫决策过程(POMDP)框架,智能体通过动作影响世界状态,观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影:第一类为渲染器,输出给人眼看的像素,以视觉保真度为核心。文章着重于概念分层,未给出具体模型名、参数或基准分数。
来源: X:Fei-Fei Li (@drfeifei, World Labs)
2. 智能体工程实战窍门全录
该内容源自@mvanhorn 的分享,介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”,中心从 IDE 变为终端与计划文件。方法论遵循 Research → Plan → Work 循环,核心是让 plan.md 约束智能体行为。分享者总结了 22 条实战技巧,涵盖规划、并行执行、输入方式、远程控制等方面,并列出了完整的工具栈。
来源: X:邵猛 (@shao__meng)
3. 优步每月 1,500 美元的 AI 使用上限为 AI 工具定价提供参考
优步将 AI 工具每月使用上限定为 1500 美元,这一做法为行业 AI 工具定价提供了有价值的参考信号。
来源: Hacker News 热门(buzzing.cc 中文翻译)
4. Anthropic 用 Claude 赋能自助数据分析
Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。
来源: Claude:Blog(网页)
5. 洪水韧性新篇章:Google 开源水文建模框架
Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。
来源: Google Research:Blog(网页)
6. Karpathy 的 llm-wiki 项目获超五千星
@karpathy 的 llm-wiki 在几周内获得了 5,000+ 颗星。 其理念是:停止在每个会话中重新发现知识。让一个大语言模型构建并维护一个维基,每次使用时它都会变得更智能。 以下是如何使用 @opencode + @justsisyphus OMO + SiliconFlow 构建你自己的版本 🧵
来源: X:硅基流动 SiliconFlow (@SiliconFlowAI)
7. Reachy Mini 添加 MCP 工具
Reachy Mini 推出了公开的 MCP canary Space,用于远程工具调用。
来源: Hugging Face:Blog(RSS)
8. 超越聊天机器人的直接偏好优化
Dharma-AI 在 Hugging Face 博客发文,探讨直接偏好优化(Direct Preference Optimization,DPO)在聊天机器人之外的更广泛应用场景。
来源: Hugging Face:Blog(RSS)
有 api 吗?