《IT之家》4日消息,小米自研聲音理解大模型「MiDashengLM-7B」今天正式發布,並全量開源。小米表示,,MiDashengLM-7B速度精度上實現雙突破:單樣本首Token延遲僅為同類模型1/4、同顯存下並發超20倍,在22個公開評測集上刷新多模態大模型最佳成績(SOTA)。
報導稱,MiDashengLM-7B基於Xiaomi Dasheng作為音訊編碼器和Qwen2.5-Omni-7B Thinker作為自回歸解碼器,透過創新的通用音訊描述訓練策略,實現對語音、環境聲音和音樂的統一理解。
2024年,小米發布的Xiaomi Dasheng聲音基座模型,據稱是國際上首次突破AudioSet 50+ mAP,在HEAR Benchmark環境聲、語音、音樂三大領域建立領先優勢並保持至今。
Xiaomi Dasheng在小米的智慧家庭和汽車座艙等場景有超過30個落地應用。業界首發的車外喚醒防禦、手機音箱全天候監控異常聲音、「打個響指」環境音關聯IoT控制能力,以及小米YU7上搭載的增強哨兵模式劃車檢測等,背後都有Xiaomi Dasheng作為核心演算法的賦能。
MiDashengLM的訓練資料由100%的公開資料構成,模型以寬鬆的Apache License 2.0發布,同時支援學術和商業應用。
小米表示,不同於Qwen2.5-Omni等未公開訓練資料細節的模型,MiDashengLM完整公開了77個資料來源的詳細配比,技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。
作為小米「人車家全生態」策略的關鍵技術,MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什麼事情,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。
基於MiDashengLM的模型透過自然語言和用戶交互,為用戶提更人性化的溝通和反饋,例如在用戶練習唱歌或練習外語時提供發音回饋並制定針對性提升方案,又例如在用戶駕駛車輛時實時對用戶關於環境聲音的提問做出解答。
MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件,是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上,小米已著手對該模型做運算效率的進一步升級,尋求終端設備上可離線部署,並完善基於使用者自然語言提示的聲音編輯等更全面的功能。
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 WWDC 2026看這篇就懂!3分鐘掌握Apple最重要3大更新亮點
📢 WWDC 2026除了AI…iOS 27還有7大寶藏功能:鬧鐘音量終於獨立
📢iPhone Fold「最清楚」實機照曝光!蘋果摺疊機改護照式大小、剩1種顏色
📢 LINE免費貼圖7款!日文諧音哏「鼠咪嗎誰」必用 吉娃娃配GUCCI超迷因
📢小米空氣淨化器6開箱!過濾細菌、病毒、甲醛汙染源 過敏族殺菌高CP
📢 舊Apple Watch真的要丟了!Watch OS 27完整支援名單 連旗艦款都說掰掰

討論區