AI 日报｜2026-05-29｜Claude Opus 4.8 发布：在编码、智能体技能与推理方面实现全面升级｜在 Claude Code 中引入动态工作流

0 条回复

15 次浏览

AI 热点日报（2026-05-29）

模型发布/更新

1. Claude Opus 4.8 发布：在编码、智能体技能与推理方面实现全面升级

Anthropic 发布了新一代模型 Claude Opus 4.8，作为 Opus 4.7 的升级版本，其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用，价格与前代相同。同步推出的新功能包括：用户可控制任务投入程度、Claude Code 新增“动态工作流”特性，以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%，超越了 Opus 4.7 和 GPT-5.5。此外，其诚实度与对齐表现也得到提升，代码错误漏检率降低了约 75%。
来源： Anthropic：Newsroom（网页）

2. Grok Build 0.1 on API

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练，支持网页开发、调试和 MCP，同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒，定价为输入 $1/m tokens，输出 $2/m tokens。除编码外，它也适用于通用智能体及工具调用场景，并可通过 OpenRouter 和 Vercel AI Gateway 获取。
来源： xAI：News（网页）

3. Nano Banana Pro 与 Nano Banana 2 正式发布

🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵↓
来源： X：Google AI for Developers (@googleaidevs)

4. 商汤发布信息图生成模型升级，增强多项核心能力

商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为 8B，在四个关键维度进行了优化：文本准确性与可读性增强，减少了重复和不当放大；布局的一致性与合理性提升，背景更稳定；图表与示意图的质量提高；并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。
来源： X：商汤 SenseTime (@SenseTime_AI)

产品发布/更新

1. 在 Claude Code 中引入动态工作流

Claude Code 推出“动态工作流”功能，使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本，在单个会话中并行运行数十到数百个子智能体来完成工作，并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移（如将 Bun 从 Zig 移植到 Rust）等需要多角度分析的任务。该功能现已在研究预览阶段可用，支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台，面向 Max、Team 及已启用的 Enterprise 计划用户。
来源： Claude：Blog（网页）

2. Perplexity Computer 现已集成微软 Office 套件

Perplexity Computer 现已登陆 Microsoft Excel、Word、PowerPoint 和 Outlook。您可以在应用程序的侧边栏中直接使用 Computer 来协调工作，起草文档、建模、制作演示文稿并处理电子邮件。现已推出： https://www.perplexity.ai/hub/products/integrations/microsoft
来源： X：Perplexity (@perplexity_ai)

3. 发布 Search Toolkit

Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时，因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中，使团队能更专注于提升搜索质量。该工具开源，可部署在云端、本地或边缘环境，并支持企业搜索、RAG 等多种检索场景。
来源： Mistral AI：News（网页）

4. MiniMax M2.7 免费智能体编程限时开放

在 @OpenHandsDev 上使用 MiniMax M2.7 进行免费智能体编程？是的，请给我！限时提供 ⚡👀
来源： X：MiniMax (@MiniMax_AI)

5. Replit Canvas：智能体设计工具发布

最好的设计工作不会在聊天框里发生。你需要空间来探索想法、创建变体并进行迭代。认识新的 Replit Canvas。你的智能体设计工具，用于构建精美的网站、应用、营销资产等。
来源： X：Replit (@Replit)

6. 使用 Google Pay & Wallet Developer MCP server 加速你的集成工作流

Google 推出 Google Pay & Wallet Developer MCP server，这是一款开放标准工具，旨在将 AI 开发助手和 IDE 安全连接到实时的 API 与账户上下文。开发者无需离开开发环境，即可搜索官方文档、验证 Wallet pass 定义、检查集成状态以及管理商户账户。该集成旨在通过减少上下文切换并提供实时、可靠的 AI 支持来减少开发摩擦，从而加速开发工作流。
来源： Google Developers Blog（RSS）

7. Sesame，这家由 Oculus 创始人创办的对话式 AI 初创公司，发布其 iOS 应用

由 Oculus 创始人创办的 AI 初创公司 Sesame 发布了其 iOS 应用，该应用将对话式 AI 智能体带给公众。应用提供更自然的来回交互体验，设计上区别于传统聊天机器人，旨在让用户感觉更像在和真人对话。
来源： TechCrunch：AI（RSS）

8. MuleRun 登陆阿里云市场，提供全天候 AI 劳动力

在阿里云市场遇见 MuleRun——一个全天候的 AI 劳动力，用于研究、报告、代码、设计等。功能强大，适合个人使用；企业就绪，适合团队协作——支持 SSO、RBAC、私有网络、团队知识管理和无缝集成。想得更大。让 MuleRun 处理其余事务。方案起价 $20/月 → https://int.alibabacloud.com/m/1000413520/ #AlibabaCloud #AIAgents #AIWorkforce #FutureOfWork #EnterpriseAI
来源： X：阿里云 / Alibaba Cloud (@alibaba_cloud)

行业动态

1. Anthropic 完成 650 亿美元 H 轮融资，估值达 9650 亿美元

Anthropic 宣布完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资，投后估值达 9650 亿美元。公司表示其旗舰模型 Claude 的企业部署持续增长，年化收入已突破 470 亿美元。此轮融资将用于推进 AI 安全与可解释性研究、扩展算力以满足 Claude 的需求，并规模化产品与合作伙伴关系。Anthropic 近期已显著扩大计算容量，并宣布 Claude 已登陆 AWS、Google Cloud 和 Microsoft Azure 三大云平台。
来源： Anthropic：Newsroom（网页）

2. DeepSeek 计划在完成融资后立即申请科创板 IPO

独家：DeepSeek 计划在完成当前约 500 亿美元（3500 亿人民币）融资轮后，立即申请科创板（A 股）IPO。来源：参与本轮融资的一位大型基金经理。
来源： X：X.PIN (@thexpin)

3. 萨姆·阿尔特曼和达里奥·阿莫代伊都纷纷收回了关于 AI 将引发就业危机的预测

来源： Hacker News 热门（buzzing.cc 中文翻译）

4. AI Now Summit 2026

Mistral AI 在 AI Now Summit 2026 上宣布多项进展。其工业 AI 解决方案“Mistral for Industrial Engineering”整合了物理模型与工程知识，正与空客、宝马集团和 ASML 合作，加速工程设计与优化。AI 智能体产品 Vibe 进行了升级，增强了推理和智能体任务能力。此外，公司计划在 2026 年第三季度启用位于 Les Ulis、功率达 10 MW 的新数据中心，专注推理操作以增强算力安全。
来源： Mistral AI：News（网页）

5. Qwen3.7-Max 登顶 OpenRouter 热门大模型榜

Qwen3.7-Max 以 77.3B tokens 的使用量登顶 @OpenRouter 热门大语言模型榜单。而我们才刚刚开始。 👇 https://int.alibabacloud.com/m/1000413314/
来源： X：阿里云 / Alibaba Cloud (@alibaba_cloud)

6. OpenRouter 获得 1.13 亿美元 B 轮融资

AI 模型聚合平台 OpenRouter 宣布完成 1.13 亿美元 B 轮融资。本轮融资由 CapitalG 领投，NVentures、ServiceNow Ventures 等多家机构参投，现有投资者 Andreessen Horowitz 与 Menlo Ventures 也参与了本轮融资。
来源： OpenRouter：Announcements（RSS）

7. Apple 正努力将庞大的 Gemini 模型塞进 iPhone 以驱动新 Siri

Apple 正尝试将大型 Gemini 模型集成到 iPhone 中，以支持全新的 Siri 功能。由于模型规模庞大，本地处理可能无法完全实现，因此一个云端组件很可能是必然的选择。
来源： Ars Technica：AI（RSS）

8. OpenAI 的前沿治理框架

OpenAI 发布了“前沿治理框架”，阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程。
来源： OpenAI：官网动态（RSS · 排除企业/客户案例）

论文研究

1. hexoai 开源 SIA 框架：AI 智能体实现递归自我改进

hexoai 开源了 SIA（自我改进 AI）框架。该框架展示了 AI 智能体不仅能优化其外部工作流（harness），还能通过任务反馈直接更新自身的模型权重，从而在领域知识和能力上实现自主提升，而非仅依赖人类提供的提示或工具改进。论文报告显示，SIA 在 LawBench 基准上性能提升 56.6%，在 GPU kernels 运行上耗时减少 91.9%，在单细胞 RNA 去噪任务中相比基线提升 502%。
来源： X：Rohan Paul (@rohanpaul_ai)

2. SGLang 团队与 AMD 合作，使 AMD Instinct™ MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作，通过一系列全栈优化，使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下，其成本为每百万 token $0.169，比 NVIDIA B200（Dynamo TRT-LLM）方案低 5%，比 B200（SGLang）方案低 40%。吞吐量方面，24 块 AMD GPU 达到 2,436 tok/s/GPU，比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括：MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO K…
来源： LMSYS：Blog（Chatbot Arena 团队）

技巧与观点

1. 人民日报专访华为何庭波：今年秋季的新麒麟手机芯片，性能等相比去年是“跳跃性”提升

华为何庭波提出半导体新演进路径“韬（τ）定律”，以“时间缩微”（如逻辑折叠）替代“几何缩微”作为新指导原则。她表示，过去 6 年华为已基于此自主研发 381 款芯片。今年秋季将发布新的麒麟手机芯片，这是首个完整的“韬芯片”，其性能、集成度相比去年是“跳跃性”提升。
来源： IT 之家（RSS）

2. 英伟达推出 AI 框架 Polar，让 Codex 跑分暴涨 594.74%

英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架（如 Codex CLI、Claude Code、Qwen Code、Pi），通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示，基于 Qwen3.5-4B 模型，Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%（增涨 594.74%）。效率上，其 prefix_merging 技术将训练步骤从 1185 次降至 218 次，速度提升约 5.39 倍，GPU 平均利用率从 20.4% 升至 87.7%。
来源： IT 之家（RSS）

3. pgvector 驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南

本教程在 Google Colab 中构建一个完整的 pgvector 实验环境，展示 PostgreSQL 如何作为向量数据库服务于现代 AI 应用。内容涵盖安装 PostgreSQL、编译 pgvector 扩展、通过 Psycopg 建立连接，并注册向量类型以实现与 Python 的平滑集成。最后使用 SentenceTransformers 创建并存储嵌入向量。
来源： MarkTechPost（RSS）

4. OpenRouter 支持模型现可选 Flex 与 Priority 服务层级

提示：您可以为支持的模型（OpenAI、Google Vertex 等）使用 Flex 和 Priority 层级。定价信息请查看各模型页面。文档： https://openrouter.ai/docs/guides/features/service-tiers
来源： X：OpenRouter (@OpenRouter)

5. 四步保障 AI 生成应用安全

如何用四步保障你的 vibecoded 应用安全 🔒 速度若无安全加持，便是隐患。以下是使用 Replit 发布应用时，如何避免留下后门的方法。 🧵 展开阅读 ↓
来源： X：Replit (@Replit)

6. 社区如何利用 Tunix 和 TPU 训练 Gemma 学会“思考”

Google 在 Kaggle 举办的 Tunix 黑客马拉松，挑战开发者利用 TPU 和有限算力，将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标，该流程结合了监督微调（SFT）与 GRPO、SimPO 等先进对齐技术。比赛结果表明，社区能够借助开源资源成功训练出高能力的结构化推理模型。
来源： Google Developers Blog（RSS）

7. AI 智能体时代下的安全变革

Lemonade 的 CISO Jonathan Jaffe 探讨了 AI 智能体时代的安全新挑战。他指出，AI 对攻击者和防御者同样强大，但可被利用的漏洞窗口正在缩小，因为 AI 能更快地生成、审查和修补代码。为此，安全团队正向工程团队转型，例如 Lemonade 的安全部门均由工程师组成，并构建了包含智能体的内部 AI 平台。同时，每个智能体（单个终端上可能运行 200 到 10000 个）都需要被赋予身份，并在操作点由策略进行更复杂的管控，这超越了当前身份与访问管理系统的能力。
来源： Tomer Tunguz 博客（VC 分析）

8. 我们如何构建 Cloudflare 的数据平台及其上的 AI 智能体

Cloudflare 构建了名为 Town Lake 的统一分析平台，并基于此开发了内部 AI 智能体 Skipper。
来源： Cloudflare Blog