AI 日报|2026-06-16|MiniMax 开源 M3 模型权重及 MSA 技术论文|Flash-KMeans:IO 感知的精确 K-Means,在 GPU 上比 FAISS 快 200 倍以上
AI 热点日报(2026-06-16)
模型发布/更新
1. MiniMax 开源 M3 模型权重及 MSA 技术论文
MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。
来源: 公众号:MiniMax(稀宇科技)
2. 下一代投机解码:DFlash 与 Spec V2
Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3
来源: LMSYS:Blog(Chatbot Arena 团队)
产品发布/更新
1. Flash-KMeans:IO 感知的精确 K-Means,在 GPU 上比 FAISS 快 200 倍以上
UC Berkeley 与 UT Austin 团队开源 Flash-KMeans(Apache 2.0,pip install flash-kmeans),精确实现标准 Lloyd's k-Means,通过重构 GPU 数据流而非改变数学或近似来提速。在 NVIDIA H200 上,端到端速度比最佳基线快 17.9×,比 cuML 快 33×,比 FAISS 快 200×以上。其 FlashAssign 核避免物化完整 N×K 距离矩阵,将 IO 复杂度从 O(NK)降至 O(Nd+Kd),单核加速最高 21.2×;Sort-Inverse Update 核通过排序聚类 ID 减少原子争用,单核加速最高 6.3×。支持 out-of-core 处理,在 1B 数据点、K=32768 时单次迭代…
来源: MarkTechPost(RSS)
2. Grok Build 推出 Agent Dashboard 管理多个编码会话
xAI 为 Grok Build 推出 Agent Dashboard,提供单一屏幕管理多个编码会话。仪表板按状态分组(等待输入、工作中、空闲),每行显示状态标记、名称、分支、权限模式和当前操作。选中会话可打开 peek 面板查看最新输出并直接回复,等待输入的会话支持用箭头键或数字键选择选项。底部输入框用于分派新会话,支持设置模型、启动计划模式或自动批准编辑。通过 grok dashboard、/dashboard 或 Ctrl+\ 打开,关闭后会话继续运行,重新打开即可恢复。
来源: xAI:News(网页)
3. Meta 在 Facebook 上线“AI Mode”,基于平台公开信息合成答案
Meta 宣布在 Facebook 推出“AI Mode”搜索功能,利用 Meta AI 从公开帖子(含群组和 Reels)提取信息并合成答案,用户可用自然语言提问获得摘要。同时新增视频拼贴剪辑、过渡效果及 AI 照片预设(可更换服装、发型和配饰),体育迷可在 Stories 中点击“AI Edit”虚拟穿上队服。这些更新延续了此前动态头像、Marketplace 自动回复和创作者 AI 助手的部署节奏。此外,Meta 近期启动了 Facebook、Instagram 和 WhatsApp 的全球订阅计划(每月 3.99 美元起),更多 AI 订阅层级正在规划中。
来源: TechCrunch:AI(RSS)
4. 6 倍速!Kimi K2.7 Code 高速版已上线
Kimi K2.7 Code 高速版上线,与普通版为同一模型,输出速度约 5-6 倍,常规编程场景约 180 Token/s,短上下文可达 260 Token/s。API 定价为普通版 2 倍,模型 ID:kimi-k2.7-code-highspeed。Kimi Code Plan 用户可通过「抢先体验计划」使用,用量消耗为普通版 3 倍。使用须开启思考模式,关闭会报错或回退至 K2.6。庆祝发布,Kimi API 开放平台推出为期三周充赠活动,充值 500 元及以上享 20%-30% 代金券。相比 K2.6,K2.7 Code 在长上下文编程指令遵循、长程任务性能提升,平均 token 消耗减少 30%,内部基准测试显著提升。普…
来源: 公众号:月之暗面(Kimi)
5. OpenRouter 新增免费模型 gpt-oss-20b 和 Gemma4 26B
OpenRouter 上新增免费容量,由 @eigenlabs 的 Darkbloom 提供:gpt-oss-20b 和 Gemma 4 26B。 今天就开始使用这些模型吧 ↓
来源: X:OpenRouter (@OpenRouter)
6. GitHub 发布新开源数据集,加速多语言 AI 研究与开发
GitHub 在 CC0-1.0 许可下发布了一个仓库级数据集,涵盖多语言开发者内容,包括 README、issue 和 pull request。该数据集旨在帮助研究者和开发者发现并利用跨语言的技术文档与社区讨论,以推动多语言 AI 的构建与优化。
来源: GitHub Blog
7. Claude Code v2.1.178 发布
本次更新新增 Tool(param:value) 语法用于权限规则匹配工具输入参数;嵌套 skills 目录中的技能自动加载,名称冲突时以 <dir>:<name> 形式保留;嵌套 agent、workflow、output-style 冲突时取最近目录。改进自动模式下子 agent 生成前的分类器评估;/doctor 采用扁平树布局;工作流提示词高亮为紫色闪烁,仅触发显式短语;/bug 提交前需填写描述。修复了 CLI 继承过期 WebSocket/OAuth 文件描述符导致的崩溃、Chrome 中 OAuth token 账号不匹配导致连接失败、子 agent 转录显示工具结果、后台恢复不从头重启…
来源: Claude Code:GitHub Releases(RSS)
行业动态
1. Salesforce 以 36 亿美元收购 AI 客服平台 Fin
Salesforce 宣布以 36 亿美元收购 AI 客服平台 Fin(前身为 Intercom)。Fin 提供可跨实时聊天、WhatsApp、短信、电话、Slack 等多渠道解决客户问题的 AI 智能体。Salesforce 计划利用 Fin 的技术和团队增强其企业级 Agentforce 平台,该平台允许企业构建自定义 AI 智能体以自动化任务。交易预计在 Salesforce 2027 财年第四季度(即 2027 年初)完成。Fin 联合创始人兼 CEO Eoghan McCabe 将继续担任 CEO,研发负责人 Des 继续领导研发。
来源: TechCrunch:AI(RSS)
2. Nvidia 加入 AI 债务热潮,发行 200 亿美元债券
Nvidia 计划通过自 2021 年以来的首次债券发行筹集至少 200 亿美元,消息援引知情人士透露。此举标志着 Nvidia 加入 AI 领域的债务融资热潮。
来源: The Decoder:AI News(RSS)
3. Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发
Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。
来源: Cloudflare Blog
4. xAI 宣布 Grok 集成至 Warp 终端开发环境
xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 grok-build-0.1 模型。更多智能体与集成即将推出。
来源: xAI:News(网页)
技巧与观点
1. Skydio CEO Adam Bry:硅谷不应为无人机使用画红线
Skydio 是美国最大的无人机制造商,主攻公共安全、军事、能源、基建巡检等企业市场。CEO Adam Bry 表示,特朗普政府去年底禁止中国产无人机后,廉价消费级无人机几乎消失,Skydio 产品成为主要替代方案。公司认为无人机正从工具转向自主基础设施——通过机库、远程操控和软件整合实现规模化应用,AI 在其中扮演关键角色。访谈还涉及 Skydio 与军方合作的态度,以及自主技术如何带动公司扩张。
来源: The Verge:AI(RSS)
2. AI 裁员浪潮成为火药桶
今年科技公司已累计裁员约 15 万人,日均 974 人,速度比去年快 44%;上月裁员近 4 万创两年新高,AI 连续三个月被列为裁员首要原因。Block 近半数员工被裁后,CEO Jack Dorsey 否认 AI 是根源,Marc Andreessen 则称 AI 只是“银弹借口”。Uber 裁撤 23% 人事部门,但此前 CTO 透露 AI 编码预算四个月内耗尽。与此同时,AI 芯片商 Cerebras 上市首日市值达 670 亿美元,SpaceX 上市市值 2.1 万亿美元,Anthropic 和 OpenAI 估值均约 1 万亿美元。Meta 在扎克伯格购入 1.7 亿美元豪宅后宣布裁员 8000 人。民调显示 65% 选民认为中产阶级生活遥不可及,76% 美国人将生活成本列为首要经济问题。
来源: TechCrunch:AI(RSS)
3. AI 应用黄金时代已至:Fable 被禁、Nadella 的护城河论点与 Salesforce 收购 Fin
美国政府关闭 Anthropic 的 Fable 访问,开源和本地模型成必备;Satya Nadella 主张 AI 生态护城河应是人类专业知识和模型外围系统;Salesforce 以 36 亿美元收购 Fin(前 Intercom),Fin 利用开源模型实现性价比。这三件事标志 AI 应用进入黄金时代。构建 AI 应用的难点:在 Kimi K2.6、Qwen 3.6 27b、GLM 5.1 等不同特性模型中选择;设计智能体系统的 hill-climbing 循环;持续评估模型+循环性能以最大化 token 预算中的智能。掌握这三项技能的公司将主导这一时代。
来源: Tomer Tunguz 博客(VC 分析)
4. GitHub Copilot CLI 初学者指南:常用斜杠命令概览
GitHub Copilot CLI 为初学者提供了常用斜杠命令的概述,帮助用户通过命令控制终端中的 AI 智能体。
来源: GitHub Blog