AI 日报|2026-05-29|Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级|在 Claude Code 中引入动态工作流
AI 热点日报(2026-05-29)
模型发布/更新
1. Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
Anthropic 发布了新一代模型 Claude Opus 4.8,作为 Opus 4.7 的升级版本,其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用,价格与前代相同。同步推出的新功能包括:用户可控制任务投入程度、Claude Code 新增“动态工作流”特性,以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%,超越了 Opus 4.7 和 GPT-5.5。此外,其诚实度与对齐表现也得到提升,代码错误漏检率降低了约 75%。
来源: Anthropic:Newsroom(网页)
2. Grok Build 0.1 on API
xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练,支持网页开发、调试和 MCP,同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒,定价为输入 $1/m tokens,输出 $2/m tokens。除编码外,它也适用于通用智能体及工具调用场景,并可通过 OpenRouter 和 Vercel AI Gateway 获取。
来源: xAI:News(网页)
3. Nano Banana Pro 与 Nano Banana 2 正式发布
🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
来源: X:Google AI for Developers (@googleaidevs)
4. 商汤发布信息图生成模型升级,增强多项核心能力
商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为 8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。
来源: X:商汤 SenseTime (@SenseTime_AI)
产品发布/更新
1. 在 Claude Code 中引入动态工作流
Claude Code 推出“动态工作流”功能,使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本,在单个会话中并行运行数十到数百个子智能体来完成工作,并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移(如将 Bun 从 Zig 移植到 Rust)等需要多角度分析的任务。该功能现已在研究预览阶段可用,支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台,面向 Max、Team 及已启用的 Enterprise 计划用户。
来源: Claude:Blog(网页)
2. Perplexity Computer 现已集成微软 Office 套件
Perplexity Computer 现已登陆 Microsoft Excel、Word、PowerPoint 和 Outlook。 您可以在应用程序的侧边栏中直接使用 Computer 来协调工作,起草文档、建模、制作演示文稿并处理电子邮件。 现已推出: https://www.perplexity.ai/hub/products/integrations/microsoft
来源: X:Perplexity (@perplexity_ai)
3. 发布 Search Toolkit
Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时,因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中,使团队能更专注于提升搜索质量。该工具开源,可部署在云端、本地或边缘环境,并支持企业搜索、RAG 等多种检索场景。
来源: Mistral AI:News(网页)
4. MiniMax M2.7 免费智能体编程限时开放
在 @OpenHandsDev 上使用 MiniMax M2.7 进行免费智能体编程? 是的,请给我!限时提供 ⚡👀
来源: X:MiniMax (@MiniMax_AI)
5. Replit Canvas:智能体设计工具发布
最好的设计工作不会在聊天框里发生。你需要空间来探索想法、创建变体并进行迭代。 认识新的 Replit Canvas。 你的智能体设计工具,用于构建精美的网站、应用、营销资产等。
来源: X:Replit (@Replit)
6. 使用 Google Pay & Wallet Developer MCP server 加速你的集成工作流
Google 推出 Google Pay & Wallet Developer MCP server,这是一款开放标准工具,旨在将 AI 开发助手和 IDE 安全连接到实时的 API 与账户上下文。开发者无需离开开发环境,即可搜索官方文档、验证 Wallet pass 定义、检查集成状态以及管理商户账户。该集成旨在通过减少上下文切换并提供实时、可靠的 AI 支持来减少开发摩擦,从而加速开发工作流。
来源: Google Developers Blog(RSS)
7. Sesame,这家由 Oculus 创始人创办的对话式 AI 初创公司,发布其 iOS 应用
由 Oculus 创始人创办的 AI 初创公司 Sesame 发布了其 iOS 应用,该应用将对话式 AI 智能体带给公众。应用提供更自然的来回交互体验,设计上区别于传统聊天机器人,旨在让用户感觉更像在和真人对话。
来源: TechCrunch:AI(RSS)
8. MuleRun 登陆阿里云市场,提供全天候 AI 劳动力
在阿里云市场遇见 MuleRun——一个全天候的 AI 劳动力,用于研究、报告、代码、设计等。功能强大,适合个人使用;企业就绪,适合团队协作——支持 SSO、RBAC、私有网络、团队知识管理和无缝集成。 想得更大。让 MuleRun 处理其余事务。 方案起价 $20/月 → https://int.alibabacloud.com/m/1000413520/ #AlibabaCloud #AIAgents #AIWorkforce #FutureOfWork #EnterpriseAI
来源: X:阿里云 / Alibaba Cloud (@alibaba_cloud)
行业动态
1. Anthropic 完成 650 亿美元 H 轮融资,估值达 9650 亿美元
Anthropic 宣布完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资,投后估值达 9650 亿美元。公司表示其旗舰模型 Claude 的企业部署持续增长,年化收入已突破 470 亿美元。此轮融资将用于推进 AI 安全与可解释性研究、扩展算力以满足 Claude 的需求,并规模化产品与合作伙伴关系。Anthropic 近期已显著扩大计算容量,并宣布 Claude 已登陆 AWS、Google Cloud 和 Microsoft Azure 三大云平台。
来源: Anthropic:Newsroom(网页)
2. DeepSeek 计划在完成融资后立即申请科创板 IPO
独家:DeepSeek 计划在完成当前约 500 亿美元(3500 亿人民币)融资轮后,立即申请科创板(A 股)IPO。 来源:参与本轮融资的一位大型基金经理。
来源: X:X.PIN (@thexpin)
3. 萨姆·阿尔特曼和达里奥·阿莫代伊都纷纷收回了关于 AI 将引发就业危机的预测
来源: Hacker News 热门(buzzing.cc 中文翻译)
4. AI Now Summit 2026
Mistral AI 在 AI Now Summit 2026 上宣布多项进展。其工业 AI 解决方案“Mistral for Industrial Engineering”整合了物理模型与工程知识,正与空客、宝马集团和 ASML 合作,加速工程设计与优化。AI 智能体产品 Vibe 进行了升级,增强了推理和智能体任务能力。此外,公司计划在 2026 年第三季度启用位于 Les Ulis、功率达 10 MW 的新数据中心,专注推理操作以增强算力安全。
来源: Mistral AI:News(网页)
5. Qwen3.7-Max 登顶 OpenRouter 热门大模型榜
Qwen3.7-Max 以 77.3B tokens 的使用量登顶 @OpenRouter 热门大语言模型榜单。 而我们才刚刚开始。 👇 https://int.alibabacloud.com/m/1000413314/
来源: X:阿里云 / Alibaba Cloud (@alibaba_cloud)
6. OpenRouter 获得 1.13 亿美元 B 轮融资
AI 模型聚合平台 OpenRouter 宣布完成 1.13 亿美元 B 轮融资。本轮融资由 CapitalG 领投,NVentures、ServiceNow Ventures 等多家机构参投,现有投资者 Andreessen Horowitz 与 Menlo Ventures 也参与了本轮融资。
来源: OpenRouter:Announcements(RSS)
7. Apple 正努力将庞大的 Gemini 模型塞进 iPhone 以驱动新 Siri
Apple 正尝试将大型 Gemini 模型集成到 iPhone 中,以支持全新的 Siri 功能。由于模型规模庞大,本地处理可能无法完全实现,因此一个云端组件很可能是必然的选择。
来源: Ars Technica:AI(RSS)
8. OpenAI 的前沿治理框架
OpenAI 发布了“前沿治理框架”,阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程。
来源: OpenAI:官网动态(RSS · 排除企业/客户案例)
论文研究
1. hexoai 开源 SIA 框架:AI 智能体实现递归自我改进
hexoai 开源了 SIA(自我改进 AI)框架。该框架展示了 AI 智能体不仅能优化其外部工作流(harness),还能通过任务反馈直接更新自身的模型权重,从而在领域知识和能力上实现自主提升,而非仅依赖人类提供的提示或工具改进。论文报告显示,SIA 在 LawBench 基准上性能提升 56.6%,在 GPU kernels 运行上耗时减少 91.9%,在单细胞 RNA 去噪任务中相比基线提升 502%。
来源: X:Rohan Paul (@rohanpaul_ai)
2. SGLang 团队与 AMD 合作,使 AMD Instinct™ MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力
SGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,比 B200(SGLang)方案低 40%。吞吐量方面,24 块 AMD GPU 达到 2,436 tok/s/GPU,比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括:MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO K…
来源: LMSYS:Blog(Chatbot Arena 团队)
技巧与观点
1. 人民日报专访华为何庭波:今年秋季的新麒麟手机芯片,性能等相比去年是“跳跃性”提升
华为何庭波提出半导体新演进路径“韬(τ)定律”,以“时间缩微”(如逻辑折叠)替代“几何缩微”作为新指导原则。她表示,过去 6 年华为已基于此自主研发 381 款芯片。今年秋季将发布新的麒麟手机芯片,这是首个完整的“韬芯片”,其性能、集成度相比去年是“跳跃性”提升。
来源: IT 之家(RSS)
2. 英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%
英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架(如 Codex CLI、Claude Code、Qwen Code、Pi),通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示,基于 Qwen3.5-4B 模型,Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%(增涨 594.74%)。效率上,其 prefix_merging 技术将训练步骤从 1185 次降至 218 次,速度提升约 5.39 倍,GPU 平均利用率从 20.4% 升至 87.7%。
来源: IT 之家(RSS)
3. pgvector 驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南
本教程在 Google Colab 中构建一个完整的 pgvector 实验环境,展示 PostgreSQL 如何作为向量数据库服务于现代 AI 应用。内容涵盖安装 PostgreSQL、编译 pgvector 扩展、通过 Psycopg 建立连接,并注册向量类型以实现与 Python 的平滑集成。最后使用 SentenceTransformers 创建并存储嵌入向量。
来源: MarkTechPost(RSS)
4. OpenRouter 支持模型现可选 Flex 与 Priority 服务层级
提示:您可以为支持的模型(OpenAI、Google Vertex 等)使用 Flex 和 Priority 层级。 定价信息请查看各模型页面。文档: https://openrouter.ai/docs/guides/features/service-tiers
来源: X:OpenRouter (@OpenRouter)
5. 四步保障 AI 生成应用安全
如何用四步保障你的 vibecoded 应用安全 🔒 速度若无安全加持,便是隐患。以下是使用 Replit 发布应用时,如何避免留下后门的方法。 🧵 展开阅读 ↓
来源: X:Replit (@Replit)
6. 社区如何利用 Tunix 和 TPU 训练 Gemma 学会“思考”
Google 在 Kaggle 举办的 Tunix 黑客马拉松,挑战开发者利用 TPU 和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与 GRPO、SimPO 等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。
来源: Google Developers Blog(RSS)
7. AI 智能体时代下的安全变革
Lemonade 的 CISO Jonathan Jaffe 探讨了 AI 智能体时代的安全新挑战。他指出,AI 对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为 AI 能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如 Lemonade 的安全部门均由工程师组成,并构建了包含智能体的内部 AI 平台。同时,每个智能体(单个终端上可能运行 200 到 10000 个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。
来源: Tomer Tunguz 博客(VC 分析)
8. 我们如何构建 Cloudflare 的数据平台及其上的 AI 智能体
Cloudflare 构建了名为 Town Lake 的统一分析平台,并基于此开发了内部 AI 智能体 Skipper。
来源: Cloudflare Blog