MiMo-V2-Omni

MiMo-V2-Omni is Xiaomi's omni foundation model uniting frontier multimodal understanding with strong agentic capability. It fuses dedicated image, video, and audio encoders into a single shared backbone, processing all modalities simultaneously.

PinchBench

81.2%

i
SWE-Bench Verified

74.8%

i
Claw-Eval

54.8%

i
MM-BrowserComp

52.0%

i
OmniGAIA

49.8%

i
GDPval-AA

1,410

i