小米宣布开源声音理解大模型MiDashengLM-7B

发布时间：2025-12-19 03:25:17

今日

小米

发布和全量开源了 MiDashengLM-7B 模型。MiDashengLM-7B 根据 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器，经过立异的通用音频描绘练习战略，完成了对语音、环境声响和音乐的一致了解，声响了解性能在22个揭露评测集上改写多模态大模型最好成果（SOTA），单样本推理的首 Token 推迟（TTFT）仅为业界先进模型的 1/4，平等显存下的数据吞吐功率是业界先进模型的 20 倍以上。

MiDashengLM 以 Xiaomi Dasheng 音频编码器为中心组件，是 Xiaomi Dasheng 系列模型的重要晋级。在当时版别的基础上，小米已着手对该模型做核算功率的进一步晋级，寻求终端设备上可离线布置，并完善根据用户自然语言提示的声响修改等更全面的功用。

返回资讯列表

新闻详情

相关推荐