小米发布全模态基座模型 MiMo-V2-Omni

3 条回复

65 次浏览

小米发布面向 Agent 时代的全模态基座模型 Xiaomi MiMo-V2-Omni。该模型从底层构建融合文本、视觉、语音的全模态架构，将感知与行动深度绑定，原生支持多模态感知、工具调用、函数执行及 GUI 操作能力。据官方介绍，MiMo-V2-Omni 在音频理解方面支持环境声分类、多说话人分离、音频-视觉联合推理及超 10 小时长音频理解，综合表现超越 Gemini 3 Pro 。图像理解方面，在多学科视觉推理与复杂图表分析任务中超越 Claude Opus 4.6，逼近 Gemini 3 Pro 等闭源 AI 模型水平。视频理解方面支持原生音视频联合输入，具备情境感知与未来推理能力。

咋这就超车这么多了？我还在等 DeepSeek V4 呢 surprise

👍1

也就那样，还不开源，白送都不要 fake_sad

empty_null_nil

MiMo-V2-Pro is partnering with five major agent development frameworks, including OpenClaw, OpenCode, KiloCode, Blackbox, and Cline, to offer one week of free API access for developers worldwide.

说了在 opencode 能免费蹬一周，刚试了发现只有 Mimo-V2-Flash 一个模型选

Sunyin

复制

❯ opencode models
opencode/big-pickle
opencode/gpt-5-nano
opencode/mimo-v2-omni-free
opencode/mimo-v2-pro-free
opencode/minimax-m2.5-free
opencode/nemotron-3-super-free

小米发布全模态基座模型 MiMo-V2-Omni

发表一个评论