-
美團(tuán)自研560B大模型并開(kāi)源,性能趕超DeepSeek
最后更新: 2025-09-08 14:42:14文 觀(guān)察者網(wǎng) 呂棟
近日,美團(tuán)正式推出了預(yù)熱已久的龍貓大模型LongCat-Flash-Chat,并在GitHub、Hugging Face等平臺(tái)上同步開(kāi)源。這家被大眾熟知的本地生活巨頭,第一次把5600億參數(shù)的混合專(zhuān)家模型(MoE)放在聚光燈下,讓業(yè)界看到了它在AI賽道的“進(jìn)攻姿態(tài)”。
30天完成20萬(wàn)億token訓(xùn)練、單卡100+token/s的推理速度、每百萬(wàn)token僅0.7美元的成本......龍貓大模型不僅多方面的性能與業(yè)界頂尖模型(如DeepSeek V3.1,Qwen3、GPT 4.1等)旗鼓相當(dāng),部分領(lǐng)域甚至還實(shí)現(xiàn)了超越,引發(fā)開(kāi)源社區(qū)內(nèi)外的大量關(guān)注。
架構(gòu)創(chuàng)新,把計(jì)算資源用在 “刀刃”上
龍貓大模型之所以性能強(qiáng)悍,一個(gè)關(guān)鍵的原因在于它通過(guò)架構(gòu)創(chuàng)新,實(shí)現(xiàn)了對(duì)計(jì)算資源的高效利用。也就是說(shuō),它一系列亮眼表現(xiàn)背后,是把計(jì)算資源分配在了最需要的位置。
比如,龍貓?jiān)贛oE模塊中引入了“零計(jì)算專(zhuān)家機(jī)制”(Zero-Computation Experts),它可以動(dòng)態(tài)分配計(jì)算資源,把類(lèi)似“的、了”、“標(biāo)點(diǎn)”等常見(jiàn)的詞匯和低信息token分配給“零計(jì)算專(zhuān)家”,該“專(zhuān)家”不用進(jìn)行復(fù)雜運(yùn)算,而是直接返回輸出,極大節(jié)省了算力。
在這種機(jī)制下,龍貓大模型雖有5600億參數(shù),但處理每個(gè)任務(wù)時(shí)并不需要全部激活,而是僅需動(dòng)態(tài)激活186億至313億參數(shù)(平均約270億),實(shí)現(xiàn)了成本與效率的高度平衡。
另外,MoE模型雖然能實(shí)現(xiàn)計(jì)算負(fù)載均衡,但復(fù)雜的混合并行策略,讓不同“專(zhuān)家”模塊之間的通信需求驟增,而通信延遲往往會(huì)形成“通信墻”,成為提升模型訓(xùn)推性能的瓶頸。
龍貓大模型的解決辦法是,引入“快捷連接混合專(zhuān)家”(Shortcut-connected MoE,ScMoE)機(jī)制,這種機(jī)制可以有效擴(kuò)大計(jì)算和通信的重疊窗口,讓不同“專(zhuān)家”模塊改變之前計(jì)算完再通信的串行模式,而是可以計(jì)算和通信并行,顯著提升了大模型訓(xùn)推的吞吐量。
為了不僅能“聊天”,還能成為智能體解決復(fù)雜問(wèn)題,龍貓大模型完成了面向智能體能力的多階段訓(xùn)練。該流程包括基座模型訓(xùn)練,增強(qiáng)推理與編碼能力的中期訓(xùn)練,以及專(zhuān)注于對(duì)話(huà)和工具使用能力的后訓(xùn)練,使其在執(zhí)行調(diào)用工具、與環(huán)境交互的復(fù)雜任務(wù)時(shí)表現(xiàn)出色。
性能追平頂尖大模型,速度快的飛起
單卡100+token/s的推理速度、每百萬(wàn)token僅0.7美元的成本、支持128k的長(zhǎng)文本上下文......這些數(shù)據(jù),直觀(guān)反映了龍貓大模型低成本、高性能的強(qiáng)悍實(shí)力。
簡(jiǎn)單實(shí)測(cè)就會(huì)發(fā)現(xiàn),龍貓大模型的推理速度要明顯快于DeepSeek、Kimi、Qwen3等市面上常見(jiàn)的主流模型,并且龍貓大模型還擁有強(qiáng)大的Agent能力,讓它寫(xiě)個(gè)爬蟲(chóng)腳本,不僅代碼寫(xiě)得專(zhuān)業(yè),還會(huì)提示技術(shù)和法律風(fēng)險(xiǎn),推薦學(xué)習(xí)資源,分析數(shù)據(jù)也可以實(shí)現(xiàn)圖文并茂。
在開(kāi)源社區(qū)中,龍貓大模型直接亮出了自己與同行的詳細(xì)性能對(duì)比,它在多個(gè)方面追平了行業(yè)翹楚(如DeepSeek V3.1、Qwen3、Kimi-K2、GPT 4.1等),某些方面還實(shí)現(xiàn)了超越。
- 責(zé)任編輯: 呂棟 
-
-
網(wǎng)絡(luò)炒作在英涉嫌避稅 SHEIN:對(duì)造謠和抹黑會(huì)啟動(dòng)法律程序
2025-09-07 20:47 -
證監(jiān)會(huì):堅(jiān)決擁護(hù)黨中央決定
2025-09-06 21:08 廉政風(fēng)暴 -
易會(huì)滿(mǎn):從“草根行長(zhǎng)”到金融巨虎的墜落
2025-09-06 20:54 金融觀(guān)察 -
-
-
-
-
傳騰訊參與競(jìng)購(gòu)星巴克
2025-09-05 19:44 觀(guān)網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
曝中國(guó)聯(lián)通將支持eSIM版iPhone17
2025-09-05 19:38 觀(guān)網(wǎng)財(cái)經(jīng)-科創(chuàng) -
“雪王”秒了,王冠沉重
2025-09-05 19:36 觀(guān)網(wǎng)財(cái)經(jīng)-消費(fèi) -
熱搜警告:布洛芬配咖啡,傷胃?jìng)I“雙重刺激”
2025-09-05 19:04 觀(guān)網(wǎng)財(cái)經(jīng)-消費(fèi) -
中國(guó)銀聯(lián):終止花旗中國(guó)成員資格
2025-09-05 17:13 金融觀(guān)察 -
三連跌后強(qiáng)勢(shì)反彈,滬指重回3800點(diǎn)
2025-09-05 16:25 觀(guān)網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
-
-
-
追覓入局無(wú)人機(jī),憑什么?
2025-09-04 20:36 觀(guān)網(wǎng)財(cái)經(jīng)-科創(chuàng)
相關(guān)推薦 -
未通過(guò)議會(huì)信任投票,法國(guó)總理貝魯將辭職 評(píng)論 64“這兒只有一個(gè)玩家就是中國(guó),美國(guó)甚至都沒(méi)在房間里” 評(píng)論 29細(xì)節(jié)曝光,“日本將任由特朗普擺布” 評(píng)論 177加政府被懟:誰(shuí)稀罕補(bǔ)貼?還是取消對(duì)華關(guān)稅吧 評(píng)論 47坎貝爾不死心:美國(guó)頭回碰上,單打獨(dú)斗贏不了中國(guó) 評(píng)論 333最新聞 Hot
-
“中德慕尼黑爭(zhēng)霸”,奔馳高管又行了:不用怕中國(guó)
-
美國(guó)又想了餿主意…
-
著名棉花遺傳育種專(zhuān)家喻樹(shù)迅院士逝世,享年73歲
-
時(shí)隔7年會(huì)談重啟,英國(guó)新任商貿(mào)大臣本周將訪(fǎng)華
-
以色列稱(chēng)西班牙“反猶”,西班牙召回駐以大使
-
未通過(guò)議會(huì)信任投票,法國(guó)總理貝魯將辭職
-
“這兒只有一個(gè)玩家就是中國(guó),美國(guó)甚至都沒(méi)在房間里”
-
印尼示威游行后內(nèi)閣大規(guī)模改組:資深財(cái)長(zhǎng)被撤換
-
他信返回泰國(guó),將于9日聽(tīng)取法院裁決
-
槍手系巴勒斯坦人,哈馬斯回應(yīng)
-
譴責(zé)!巴民族權(quán)力機(jī)構(gòu)罕見(jiàn)發(fā)聲
-
細(xì)節(jié)曝光,“日本將任由特朗普擺布”
-
韓國(guó)人還在震驚、憤怒中…
-
歐盟:放心,翻篇了
-
昂山素季被曝健康狀況惡化,緬甸軍方否認(rèn)
-
佩通坦:他信今天肯定回國(guó)
快訊- 學(xué)生被嘲“唐人”,老師當(dāng)場(chǎng)怒斥
- 著名棉花遺傳育種專(zhuān)家喻樹(shù)迅院士逝世,享年73歲
- 上海海事局:10日長(zhǎng)江口一大型船舶深水航道出口實(shí)施交通管制
- 國(guó)安部:夏某表面是愛(ài)心人士,卻悄悄記錄中國(guó)軍事管理區(qū)數(shù)據(jù)
- 小米中國(guó)區(qū)市場(chǎng)部總經(jīng)理王騰因泄密被辭退
- 一箭11星,我國(guó)成功發(fā)射吉利星座05組衛(wèi)星
- 家長(zhǎng)朋友圈發(fā)“因打卡輿情致教育局長(zhǎng)免職”,被拘留
- 以色列稱(chēng)西班牙“反猶”,西班牙召回駐以大使
-