-
小米大模型突然登頂一項測試,用了DeepSeek的方法
-
張廣凱13764468101
3月17日,小米官方透露,其大模型團隊在音頻推理測試集MMAU榜單登頂,并強調(diào)“DeepSeek-R1的發(fā)布為我們在該項任務(wù)上的研究帶來了啟發(fā)”。
MMAU是一個側(cè)重考察音頻大模型理解和復(fù)雜推理能力的測試集,包含27種不同的任務(wù),一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本。
例如,其中一個任務(wù)是要求從一段10多秒的語音中,數(shù)出包含至少一個重讀音素的單詞數(shù)量;另一個任務(wù)是根據(jù)一段美劇《生活大爆炸》中的對話,解釋其中一句話為什么是諷刺。
這是一個難度較高的測試集,人類專家的測試準(zhǔn)確率為82.23%。而目前榜單上最強的大模型是谷歌Gemini 2.0 Flash,準(zhǔn)確率55.6%。
小米大模型則達(dá)到了64.5%的準(zhǔn)確率,較其它大模型有顯著提升。其參數(shù)量更是只有7B,是一個非常輕量化的模型。
不過,小米的大模型倒也不是完全自己研發(fā),而是基于開源的阿里通義大模型Qwen2-Audio-7B,并使用清華大學(xué)發(fā)布的 AVQA 數(shù)據(jù)集進行微調(diào)。Qwen2-Audio-7B自身在這個測試集上的得分是49.2%。
其實,相比于模型本身,小米這一成果的更大意義在于,證明了在音頻模型領(lǐng)域,DeepSeek-R1的Group Relative Policy Optimization (GRPO) 方法,同樣比監(jiān)督微調(diào)(SFT)效果要好得多。
小米方面專門用通俗的語言解釋了這個方法:
“打個比方來說,離線微調(diào)方法,如 SFT,有點像背題庫,你只能根據(jù)已有的題目和答案訓(xùn)練,但遇到新題可能不會做;而強化學(xué)習(xí)方法,如 GRPO,像老師在要求你多想幾個答案,然后老師告訴你哪一個答案好,讓你主動思考,激發(fā)出自身的能力,而不是被“填鴨式”教學(xué)。當(dāng)然,如果訓(xùn)練量足夠,比如有學(xué)生愿意花很多年的時間來死記硬背題庫,也許最終也能達(dá)到不錯的效果,但效率太低,浪費太多時間。而主動思考,更容易快速地達(dá)到舉一反三的效果。強化學(xué)習(xí)的實時反饋可能會幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域,而離線方法需要遍歷整個可能性空間,效率要低得多?!?
此外,小米團隊還發(fā)現(xiàn),如果讓模型像DeepSeek一樣,給出顯性的推理過程,最后的準(zhǔn)確率反而下降到61.1%,也就是說,顯式的思維鏈結(jié)果輸出可能并不利于模型的訓(xùn)練。這是相較于DeepSeek的一個新發(fā)現(xiàn)。
最后,小米方面也指出,盡管當(dāng)前準(zhǔn)確率已突破 64%,但距離人類專家 82% 的水平仍有差距,音頻大模型仍然遠(yuǎn)遠(yuǎn)落后于人類聽覺語言推理。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 張廣凱 
-
人工韌帶有望打破國外壟斷,投資人為何等不及國產(chǎn)替代?
2025-03-17 17:24 觀網(wǎng)財經(jīng)-健康 -
麒麟X90處理器曝光,華為首款PC級CPU來了?
2025-03-17 16:46 觀網(wǎng)財經(jīng)-科創(chuàng) -
3GPP換屆,華為、vivo、中國移動、中國電信獲四個主席席位
2025-03-17 15:33 觀網(wǎng)財經(jīng)-科創(chuàng) -
寧德時代正開發(fā)第二代鈉電池:性能已與磷酸鐵鋰電池接近
2025-03-17 13:50 大公司 -
韓國巨頭減產(chǎn)、美光停電,閃存芯片要漲價了
2025-03-17 13:14 觀網(wǎng)財經(jīng)-科創(chuàng) -
寶馬宣布與華為達(dá)成合作,未來將深度集成華為HiCar
2025-03-17 12:31 華為 -
1688全面松綁“僅退款”
2025-03-17 11:52 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
2月南京新房價格環(huán)比漲幅又跑贏全國,各地房價同比降幅繼續(xù)收窄
2025-03-17 11:17 觀網(wǎng)財經(jīng)-房產(chǎn) -
京東外賣入駐商家已破30萬家,覆蓋全國126城
2025-03-17 10:59 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
3000億國補擴容,滴灌到縣城
2025-03-17 09:57 觀網(wǎng)財經(jīng)-消費 -
華為申請MateRobot商標(biāo)
2025-03-17 09:50 觀網(wǎng)財經(jīng)-科創(chuàng) -
蘋果計劃在AirPods上配備實時對話翻譯功能
2025-03-16 20:57 觀網(wǎng)財經(jīng)-科創(chuàng) -
母豬產(chǎn)后護理難?中國AI已經(jīng)開始“下鄉(xiāng)”了
2025-03-16 12:03 觀網(wǎng)財經(jīng)-科創(chuàng) -
年化利率高達(dá)20倍!借貸寶被暫停運營
2025-03-16 09:38 315維權(quán) -
土巴兔:未與火眼云達(dá)成實質(zhì)性合作
2025-03-16 09:16 315維權(quán) -
即將連虧3年,360用戶體驗何時能提升?
2025-03-15 22:51 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
市場監(jiān)管總局發(fā)聲
2025-03-15 22:21 -
知情人士:偷個人信息的獲客公司每日處理100億條數(shù)據(jù)
2025-03-15 22:21 315維權(quán) -
最高年化利率近6000%!在評論區(qū)一不小心借到“高利貸”...
2025-03-15 21:39 315維權(quán) -
啄木鳥回應(yīng):確認(rèn)屬實將會對師傅進行嚴(yán)格處罰
2025-03-15 21:20 315維權(quán)
相關(guān)推薦 -
-
最新聞 Hot
-
美兩員“大將”施壓未果,日本反倒成了“難啃的骨頭”
-
白宮找補:美國很強,不信去問伊朗
-
終于換了,特朗普:我很滿意
-
何君堯:建議給皇后大道、維多利亞公園改名
-
“美國自毀長城,中企憑高性價比一路高歌猛進”
-
兩國矛盾激化,阿媒突然發(fā)文:收到匿名材料,是俄軍擊中的
-
裝不裝空調(diào),法國政客都能吵起來
-
潛入醫(yī)院裝電詐設(shè)備,騙走30萬!今年已發(fā)生多起
-
美報告炒作:中企占比近10%,“五角大樓供應(yīng)鏈極其脆弱”
-
“歐洲定居者對澳大利亞原住民,犯下種族滅絕罪”
-
好一個“舉賢不避親”,特朗普推薦兒媳參選
-
開庭前妻子墜樓身亡,柯文哲前副手痛哭:臺灣怎么變成這樣
-
美國放風(fēng):伊朗有動作了
-
“中方正考慮邀請李在明出席”
-
“中國洋垃圾禁令震動全球”,馬來西亞也跟了
-
靠萬斯“決勝一票”,“大而美”法案驚險闖關(guān)參議院
-