小米大模型团队突破音频推理极限,受DeepSeek-R1启发登顶MMAU榜单

AI每日新闻3周前发布 shen
116 0

在人工智能领域,每一次技术的飞跃都预示着未来的无限可能。3月17日,小米技术官方微博发布了一条振奋人心的消息:小米大模型团队在音频推理领域取得了重大突破,成功登顶国际权威的MMAU(Massive Multi-Task Audio Understanding and Reasoning)音频理解评测榜首。这一成就不仅标志着小米在AI技术上的深厚积累,更为音频推理领域的发展开辟了新的道路。

小米此次的突破,不仅得益于团队的深厚技术功底,更受到了DeepSeek-R1的深刻启发。DeepSeek-R1作为近期AI领域的一颗璀璨明星,其Group Relative Policy Optimization(GRPO)方法让模型通过“试错-奖励”机制实现自主进化,展现出了类似人类的反思和多步验证等推理能力。小米团队敏锐地捕捉到了这一技术的潜力,并将其成功应用于音频推理任务中。

面对一段汽车行驶中的座舱录音,AI能否准确判断出汽车是否存在潜在故障?在交响乐演出现场,AI能否推测出作曲家创作音乐时的心情?在早高峰地铁站混乱的脚步声中,AI能否预判闸机口可能发生的冲撞风险?这些问题,在以往看似遥不可及,但如今,随着小米大模型团队的突破,这些问题都有了被AI解答的可能。

MMAU评测集,作为音频推理能力的量化标尺,涵盖了语音、环境声和音乐等多种音频样本,结合人类专家标注的问答对,测试模型在27种技能上的表现。这一评测集难度极高,人类专家的准确率也仅为82.23%。而在此之前,表现最好的模型是来自OpenAI的GPT-4o,准确率为57.3%,紧随其后的是Google DeepMind的Gemini 2.0 Flash,准确率为55.6%。

小米团队在面对这一挑战时,并没有选择传统的离线微调方法,而是大胆尝试将DeepSeek-R1的GRPO算法迁移到Qwen2-Audio-7B模型上。这一决定,无疑是一次大胆的赌博,但结果却令人惊喜。在仅使用AVQA的3.8万条训练样本的情况下,强化学习微调后的模型在MMAU评测集上实现了64.5%的准确率,比目前榜单上第一名的GPT-4o有近10个百分点的优势。小米大模型团队突破音频推理极限,受DeepSeek-R1启发登顶MMAU榜单

这一成绩的取得,不仅证明了强化学习在音频推理领域的独特价值,也揭示了几个与传统认知不同的结论。首先,在微调方法上,强化学习在3.8万条数据集上的表现显著超过了监督学习在57万条数据集上的结果。这说明了强化学习在处理复杂任务时的效率远高于传统监督学习。其次,在参数规模上,小米团队用7B参数的模型通过强化学习展现了强推理能力,打破了千亿级模型才能具备强推理能力的传统认知。最后,在隐式推理上,显式思维链输出反而成为性能瓶颈,这说明在强化学习框架下,模型更倾向于通过隐式推理来解决问题。

值得注意的是,小米团队在实验中还发现,当强制要求模型输出推理过程时,准确率反而下降至61.1%。这一结果进一步证明了显式思维链输出在强化学习框架下的局限性。这一发现对于后续研究具有重要的指导意义,它提醒我们在设计算法时,需要充分考虑模型的学习方式和推理机制,避免盲目追求显式推理过程而忽略了模型本身的特性。

尽管当前准确率已突破64%,但距离人类专家82%的水平仍有差距。小米团队表示,他们将在后续研究中进一步优化强化学习策略,提高训练过程对思维链的引导能力,以期达到更高的准确率。同时,他们也将继续探索强化学习在其他领域的应用潜力,为人工智能的发展贡献更多力量。

此次小米大模型团队的突破,不仅为音频推理领域带来了新的希望,也为整个AI领域注入了新的活力。AI旋风认为,随着技术的不断进步和应用场景的不断拓展,人工智能将在未来发挥更加重要的作用。而小米作为AI领域的重要参与者之一,也将继续发挥其技术优势和创新能力,为推动人工智能的发展贡献更多智慧和力量。

为了让更多学者和从业者能够受益于这一突破,小米团队已经将训练代码、模型参数和技术报告开源,并提供了交互Demo供学术界和产业界参考交流。这一举措无疑将促进音频推理领域的发展,推动更多创新技术的涌现。

AI旋风相信,在未来的日子里,随着AI技术的不断进步和应用场景的不断拓展,人工智能将为我们带来更多惊喜和改变。而小米作为这一领域的佼佼者之一,也将继续引领潮流,为推动人工智能的发展贡献更多力量。让我们共同期待人工智能的美好未来吧!

© 版权声明

相关文章

暂无评论

暂无评论...