新榜讯 9月19日消息,小米正式开源首个原生端到端语音模型——Xiaomi - MiMo - Audio。该模型依托创新预训练架构以及上亿小时训练数据,在语音领域首次达成基于ICL的少样本泛化,且在预训练过程中观察到明显的“涌现”行为。 据悉,在通用语音理解及对话等多项标准评测基准里,MiMo - Audio显著超越同参数量的开源模型,取得7B最佳性能。在音频理解基准MMAU的标准测试集上,它成功超越Google闭源语音模型Gemini - 2.5 - Flash。在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo - Audio也超越了OpenAI闭源的语音模型GPT - 4o - Audio - Preview。