AI 日报｜2026-06-12｜Gemini Omni Flash 视频任务达 SOTA｜腾讯混元 AI Infra 新开源：HPC-Ops 推理核心算子全面升级

1 条回复

19 次浏览

AI 热点日报（2026-06-12）

模型发布/更新

1. Gemini Omni Flash 视频任务达 SOTA

Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者！
来源： X：Logan Kilpatrick (@OfficialLoganK)

2. Midjourney V8.1 已成为默认模型

Midjourney 已将默认模型从 V7 升级为 V8.1。V8.1 在智能性、连贯性、对详细提示的遵循度以及文本渲染效果上均有提升，HD 模式也已支持。
来源： Midjourney：Updates（RSS）

产品发布/更新

1. 腾讯混元 AI Infra 新开源：HPC-Ops 推理核心算子全面升级

腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库，推出五大核心算子。Attention 采用运行时动态负载调度，长文本最高加速 2.95x，端到端 QPM 提升 17%；Router GEMM 以双 BF16 组合实现 FP32 精度，对比 CuBLAS FP32 最高提速 3.22x；FusedMoE 相对 vLLM、SGLang 性能提升 1.2x～1.6x；Fused AllReduce+Norm 对比主流方案最高提速 1.68x；Sampler 将解码采样融合为 2 个 CUDA Kernel，相对 vLLM 提速 4.0x～7.5x。所有能力均来自生产实践并完全开源。
来源：公众号：腾讯混元

2. Perplexity Computer 集成 Deep Research

我们正在将 Deep Research 作为原生技能集成到 Computer 中。它现在连接到驱动 Computer 的智能体框架，可访问搜索即代码生成、长运行沙箱、连接器、工具和授权数据。 Pro 和 Max 订阅者现已可用。
来源： X：Perplexity (@perplexity_ai)

3. OpenRouter 基准探索器：10 项帕累托曲线

使用我们的基准探索器，为 10 个不同基准绘制帕累托曲线。更多功能即将推出！ https://openrouter.ai/rankings#benchmarks
来源： X：OpenRouter (@OpenRouter)

4. mlx-vlm v0.6.3 发布，Day-0 支持 Google DeepMind DiffusionGemma 和 Cohere North Mini Code 1.0

mlx-vlm v0.6.3 上线，首发支持 DiffusionGemma 和 North Mini Code 1.0。DiffusionGemma 采用全新架构：以 256 token 块为单位并行生成、双向注意力、迭代自纠错；26B MoE 仅激活 3.8B，量化后 18GB 即可运行。North Mini Code 1.0 为 30B MoE，仅激活 3B，BF16 下约 66 tok/s。两款模型均通过深度合作实现 Day-0 MLX 支持，可在 Mac 本地运行。可通过 uv pip install -U mlx-vlm 安装体验。
来源： X：Berry Xia (@berryxia)

5. Cursor 推出 Auto-review 机制：用分类器智能体动态管控智能体自主权限

Cursor 近日推出 Auto-review，通过一个专门的分类器智能体在工具调用前审查动作风险。该分类器根据上下文判断动作是否与用户意图一致，高风险时阻止并返回解释给父智能体，低风险时放行。分类器采用小模型，运行在智能体循环内以避免额外延迟，并能读取工作区文件辅助判断。测试基于约 12 小时内部开发会话生成的 6122 条标签数据，以及针对读取密钥、操作生产数据等危险场景的合成数据。设计目标是在不频繁阻断日常开发的前提下，拦截风险动作。
来源： Cursor Blog

6. Krea 2 推出生成式滑块控制图像属性

推出生成式滑块。现在您可以控制使用 Krea 2 生成的任何图像的强度、复杂度和运动。你希望看到哪些新控制？👇
来源： X：Krea AI (@krea_ai)

7. Deezer 推出面向其他流媒体服务的 AI 音乐检测器

Deezer 将扫描用户在其它流媒体平台的播放列表，检测其中的 AI 生成音乐。Deezer 是最早标记 AI 生成音乐的大型流媒体服务之一，曾向其他平台提供该技术但少有采纳。Deezer CEO Alexis Lanternier 表示，由于没有其他公司跟进，他们决定让用户无论使用哪个平台，都能检查自己的播放列表中是否包含合成音乐。
来源： The Verge：AI（RSS）

8. 千问推出首个足球预测 AI 助手，竞猜赢奖并捐建球场

千问上线首个足球预测 AI 助手，基于海量大数据（含历史比赛、球员数据、伤病、美加墨地貌及天气等）。以 6 月 22 日挪威对塞内加尔为例，预测“1:1 平局”，理由为气候差异。活动：参与全部 104 场竞猜，预测超 80 场且准确率超千问可抽万元大奖（100 个名额）；预测超 32 场可抽千问 AI 眼镜 G1（1000 副），该眼镜支持赛后分析、拍屏识球员及赛事结果订阅。累积积分将向乡村学校捐建足球场，目标至少 50 所。
来源：公众号：千问 APP（阿里）

行业动态

1. 全自主无人机首次击毙了人类士兵

据《新科学家》6 月 10 日报道，全自主无人机首次击毙了人类士兵。这是有记录以来第一次由完全自主运行的无人机执行致命攻击，标志着自主武器系统在实战中的新进展。该报道来自《新科学家》网站，目前尚无更多细节公布。
来源： Hacker News 热门（buzzing.cc 中文翻译）

2. Prometheus 融资 120 亿美元，估值 410 亿美元，定位“人工通用工程师”

杰夫·贝佐斯旗下 AI 公司 Prometheus 在成立仅 7 个月、尚无任何产品交付的情况下，以 410 亿美元估值完成 120 亿美元融资（最初估值 62 亿美元）。该公司定位为“人工通用工程师”，目标是将设计到制造的循环压缩 10 倍以上。但物理经济无法像互联网数据那样抓取，缺乏制造业训练数据。为此，Prometheus 计划斥资 1000 亿美元收购传统工业企业，通过获取工厂生成的数据构建护城河。
来源： X：Kim (@kimmonismus)

3. Anthropic 与 DXC 达成全球联盟，将 Claude 引入关键行业系统

Anthropic 与 IT 服务公司 DXC Technology 达成多年全球联盟。DXC 将培训数万名获得 Claude 认证的前沿部署工程师（FDE），将 Claude 引入其为全球大型银行、航空公司、保险公司及政府机构运营的关键系统。内部部署中，Claude 已成为 DXC OASIS 平台的默认基础模型，该平台超 95% 代码由 Claude 编写，开发速度提升 10 倍，已服务 50 多家客户。DXC 加入 Claude Partner Network，将在保险、现代化服务、网络安全及应用服务四个领域率先推出基于 Claude 的解决方案。
来源： Anthropic：Newsroom（网页）

4. Runway 与 Lionsgate 扩大战略合作

全球内容巨头 Lionsgate 与生成式 AI 研究公司 Runway 今日宣布扩大战略合作。Lionsgate 已取得 Runway 股权，双方将启动联合开发项目，共同创作并制作新 IP，首推一部基于 Lionsgate 现有 IP 和 Runway 生成模型的短剧系列。此外，Lionsgate 将作为主持伙伴参与 6 月举行的 Runway AI 电影节。这是双方继 2024 年 9 月首次合作后的深化，Lionsgate 此前已在预可视化、故事板及最终帧制作中应用 Runway 工具。
来源： Runway：News（网页）

5. AI 浪潮引发中国担忧：官媒呼吁保护劳动者权益

中国工作场所快速采用人工智能，引发官媒异常直白地呼吁保护劳工权利。北京正在考虑如何控制这项新技术带来的风险。
来源： Bloomberg：Technology（RSS）

6. OpenAI 支持欧洲构建可信 AI 生态系统

OpenAI 支持欧盟《AI 内容透明度行为准则》，推进内容溯源标准与工具，帮助用户识别 AI 生成内容。
来源： OpenAI：官网动态（RSS · 排除企业/客户案例）

7. Anthropic 启动 Claude Corps 全国奖学金项目

Anthropic 推出 Claude Corps 奖学金项目，面向早期职业生涯的年轻人，培训 1,000 名研究员使用 Claude，并匹配给美国非营利组织全职工作一年。研究员年薪 85,000 美元及福利，每周接受 5 小时持续培训。Anthropic 初始投入 1.5 亿美元，合作方为 CodePath 和 Social Finance。至少 400 家非营利组织将参与接待，包括 Braven、Code the Dream、Heartland Forward 等。
来源： Anthropic：Newsroom（网页）

8. BBVA 将 AI 置于银行业务核心，与 OpenAI 合作

BBVA 将 ChatGPT Enterprise 推广至 10 万名员工，并与 OpenAI 达成合作，加速全球银行业 AI 驱动的转型。
来源： OpenAI：官网动态（RSS · 排除企业/客户案例）

论文研究

1. 研究模拟显示：LLM 在 95% 的模拟中会使用战术核武器

一项模拟研究显示，大型语言模型（LLM）在 95% 的模拟场景中会选择使用战术核武器。该研究未指明具体模型名称与版本，结果引发对 AI 决策行为的关注。
来源： Hacker News 热门（buzzing.cc 中文翻译）

技巧与观点

1. Claude Fable 5 一句话生成桌面台球游戏

Claude Fable 5 一句话生成的桌面台球！念念不忘的蝗虫群梗彻底终结。提示词：设计一个完整的能玩的 3D 桌球游戏，一个网页就能运行
来源： X：Vista (@vista8)

2. Codex 维护仓库：5 分钟循环并行自治

一个简单的循环：告诉 Codex 维护你的仓库，每 5 分钟唤醒一次，将工作直接分配到线程。这样可以轻松按需并行化和导向工作。我使用一个编排器技能，结合我的分类+自动审查+计算机使用技能，因此部分工作可以自主落地。
来源： X：Peter Steinberger (@steipete)

3. baoyu-design skill 更新：支持导入 Figma 本地文件重建设计系统

baoyu-design skill 更新，现已支持导入 Figma 本地文件（.fig），可在本地重建设计系统，效果与 Claude Design 在线版一致。该功能依赖 Claude Fable 5 辅助（Token 不够用）。安装后提供 Figma 文件路径即可导入为 Design System，后续新建设计项目可复用。同时支持在新建项目时添加已导入的 Design System，保留了 Claude Design 原始的导入和编译方式，用户可通过提问选择设计系统。安装命令：npx skills add JimLiu/baoyu-design。项目地址： https://github.com/jimliu/baoyu-des…
来源： X：宝玉 (@dotey)

4. 在写完这篇文章后我把配图过程蒸馏成了一个「橙线插画」Skill 免费开源安装地址： https://github.com/orange2ai/orange-…

在写完这篇文章后我把配图过程蒸馏成了一个「橙线插画」Skill 免费开源安装地址： https://github.com/orange2ai/orange-line-illustration [引用 @oran_ge]： http://x.com/i/article/2064857003743391744
来源： X：Oran Ge (@oran_ge)

5. Codex Goal 指令生成 Skill 发布：一句话需求转目标

针对如何给 Codex 写 Goal 指令的问题，作者发布了一个 Skill，可将一句话需求自动转化为目标，实现“睡前写指令、模型自动开发、第二天收菜”。安装命令：npx skills add joeseesun/qiaomu-goal-meta-skill。源码免费开源（见评论区），旨在简化 4w 字文档的阅读负担。
来源： X：Vista (@vista8)

6. Replit 专家级提示词技巧

如何像专家一样使用 Replit 进行提示 🤖 模糊的提示词只会导致更多重写。以下是如何让 Agent 第一次就构建出正确的东西。 🧵 展开线程 ↓
来源： X：Replit (@Replit)

7. Hermes Agent Desktop 发布，硅基流动支持一键切换

@NousResearch 发布了 Hermes Agent Desktop——现在通过 @硅基流动 SiliconFlow 使用前沿开源模型更加便捷 🔥 → 一键随时切换模型——DeepSeek-V4、GLM-5.1、Kimi-K2.6、MiniMax-M3 等，均在硅基流动上 ... ... 通过硅基流动开启你的 Hermes 之旅的完整指南 👇🧵
来源： X：硅基流动 SiliconFlow (@SiliconFlowAI)

8. Anthropic CEO 阿莫迪：AI 可能会造成大规模、长期性的岗位流失

Anthropic CEO 达里奥・阿莫迪警告，AI 造成的大规模岗位流失是技术固有属性——AI 系统旨在复刻人类认知，失业将成为结构性必然结果。他提出应对思路：完善劳动力市场监测、推行薪资保障与留岗税收优惠、发放培训补贴；若人力需求永久下降，则需通过征税推行全民基本收入等长期收入保障。Anthropic 目标非削减人力成本，而是帮企业开拓新营收、盘活现有员工产能。
来源： IT 之家（RSS）