新闻详情

小米宣布开源声音理解大模型MiDashengLM-7B

今日

小米

发布和全量开源了 MiDashengLM-7B 模型。MiDashengLM-7B 根据 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,经过立异的通用音频描绘练习战略,完成了对语音、环境声响和音乐的一致了解,声响了解性能在22个揭露评测集上改写多模态大模型最好成果(SOTA),单样本推理的首 Token 推迟(TTFT)仅为业界先进模型的 1/4,平等显存下的数据吞吐功率是业界先进模型的 20 倍以上。

MiDashengLM 以 Xiaomi Dasheng 音频编码器为中心组件,是 Xiaomi Dasheng 系列模型的重要晋级。在当时版别的基础上,小米已着手对该模型做核算功率的进一步晋级,寻求终端设备上可离线布置,并完善根据用户自然语言提示的声响修改等更全面的功用。

返回资讯列表