-
美團(tuán)自研560B大模型并開源,性能趕超DeepSeek
最后更新: 2025-09-08 14:42:14文 觀察者網(wǎng) 呂棟
近日,美團(tuán)正式推出了預(yù)熱已久的龍貓大模型LongCat-Flash-Chat,并在GitHub、Hugging Face等平臺上同步開源。這家被大眾熟知的本地生活巨頭,第一次把5600億參數(shù)的混合專家模型(MoE)放在聚光燈下,讓業(yè)界看到了它在AI賽道的“進(jìn)攻姿態(tài)”。
30天完成20萬億token訓(xùn)練、單卡100+token/s的推理速度、每百萬token僅0.7美元的成本......龍貓大模型不僅多方面的性能與業(yè)界頂尖模型(如DeepSeek V3.1,Qwen3、GPT 4.1等)旗鼓相當(dāng),部分領(lǐng)域甚至還實(shí)現(xiàn)了超越,引發(fā)開源社區(qū)內(nèi)外的大量關(guān)注。
架構(gòu)創(chuàng)新,把計(jì)算資源用在 “刀刃”上
龍貓大模型之所以性能強(qiáng)悍,一個關(guān)鍵的原因在于它通過架構(gòu)創(chuàng)新,實(shí)現(xiàn)了對計(jì)算資源的高效利用。也就是說,它一系列亮眼表現(xiàn)背后,是把計(jì)算資源分配在了最需要的位置。
比如,龍貓?jiān)贛oE模塊中引入了“零計(jì)算專家機(jī)制”(Zero-Computation Experts),它可以動態(tài)分配計(jì)算資源,把類似“的、了”、“標(biāo)點(diǎn)”等常見的詞匯和低信息token分配給“零計(jì)算專家”,該“專家”不用進(jìn)行復(fù)雜運(yùn)算,而是直接返回輸出,極大節(jié)省了算力。
在這種機(jī)制下,龍貓大模型雖有5600億參數(shù),但處理每個任務(wù)時并不需要全部激活,而是僅需動態(tài)激活186億至313億參數(shù)(平均約270億),實(shí)現(xiàn)了成本與效率的高度平衡。
另外,MoE模型雖然能實(shí)現(xiàn)計(jì)算負(fù)載均衡,但復(fù)雜的混合并行策略,讓不同“專家”模塊之間的通信需求驟增,而通信延遲往往會形成“通信墻”,成為提升模型訓(xùn)推性能的瓶頸。
龍貓大模型的解決辦法是,引入“快捷連接混合專家”(Shortcut-connected MoE,ScMoE)機(jī)制,這種機(jī)制可以有效擴(kuò)大計(jì)算和通信的重疊窗口,讓不同“專家”模塊改變之前計(jì)算完再通信的串行模式,而是可以計(jì)算和通信并行,顯著提升了大模型訓(xùn)推的吞吐量。
為了不僅能“聊天”,還能成為智能體解決復(fù)雜問題,龍貓大模型完成了面向智能體能力的多階段訓(xùn)練。該流程包括基座模型訓(xùn)練,增強(qiáng)推理與編碼能力的中期訓(xùn)練,以及專注于對話和工具使用能力的后訓(xùn)練,使其在執(zhí)行調(diào)用工具、與環(huán)境交互的復(fù)雜任務(wù)時表現(xiàn)出色。
性能追平頂尖大模型,速度快的飛起
單卡100+token/s的推理速度、每百萬token僅0.7美元的成本、支持128k的長文本上下文......這些數(shù)據(jù),直觀反映了龍貓大模型低成本、高性能的強(qiáng)悍實(shí)力。
簡單實(shí)測就會發(fā)現(xiàn),龍貓大模型的推理速度要明顯快于DeepSeek、Kimi、Qwen3等市面上常見的主流模型,并且龍貓大模型還擁有強(qiáng)大的Agent能力,讓它寫個爬蟲腳本,不僅代碼寫得專業(yè),還會提示技術(shù)和法律風(fēng)險,推薦學(xué)習(xí)資源,分析數(shù)據(jù)也可以實(shí)現(xiàn)圖文并茂。
在開源社區(qū)中,龍貓大模型直接亮出了自己與同行的詳細(xì)性能對比,它在多個方面追平了行業(yè)翹楚(如DeepSeek V3.1、Qwen3、Kimi-K2、GPT 4.1等),某些方面還實(shí)現(xiàn)了超越。
- 責(zé)任編輯: 呂棟 
-
iPhone17 Pro被曝將漲價5%,Air版首發(fā)無國行?
2025-09-08 14:35 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
網(wǎng)絡(luò)炒作在英涉嫌避稅 SHEIN:對造謠和抹黑會啟動法律程序
2025-09-07 20:47 -
證監(jiān)會:堅(jiān)決擁護(hù)黨中央決定
2025-09-06 21:08 廉政風(fēng)暴 -
易會滿:從“草根行長”到金融巨虎的墜落
2025-09-06 20:54 金融觀察 -
王化回應(yīng)小米手機(jī)測試30萬小時
2025-09-06 15:38 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
好利來公子創(chuàng)立的EHB餐廳官宣閉店,曾人均消費(fèi)近萬元
2025-09-06 10:13 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
魏家涼皮被顧客“聯(lián)手做局”?警方通報:老鼠確系25歲男子故意放置
2025-09-06 10:09 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
傳騰訊參與競購星巴克
2025-09-05 19:44 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
曝中國聯(lián)通將支持eSIM版iPhone17
2025-09-05 19:38 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
“雪王”秒了,王冠沉重
2025-09-05 19:36 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
熱搜警告:布洛芬配咖啡,傷胃傷腎“雙重刺激”
2025-09-05 19:04 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
中國銀聯(lián):終止花旗中國成員資格
2025-09-05 17:13 金融觀察 -
三連跌后強(qiáng)勢反彈,滬指重回3800點(diǎn)
2025-09-05 16:25 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
美國AI獨(dú)角獸宣稱停止服務(wù)中國公司,針對DeepSeek?
2025-09-05 16:07 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
時隔近20年,劉強(qiáng)東重啟“用戶見面會”
2025-09-05 14:56 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
業(yè)績雪崩的“徽酒老二”迎駕貢酒,想起來重新聚焦主業(yè)了
2025-09-05 12:45 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
追覓入局無人機(jī),憑什么?
2025-09-04 20:36 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
相關(guān)推薦 -
最新聞 Hot
-
加政府被懟:誰稀罕補(bǔ)貼?還是取消對華關(guān)稅吧
-
“美國人有一句感恩嗎?中國人曾經(jīng)太天真”
-
“美國文憑對中企吸引力下降,不如去港大”
-
殺完雞,特朗普向外企撂話:雇傭、培訓(xùn)美國工人
-
特朗普現(xiàn)身美網(wǎng)決賽,敬禮時遭狂噓,還被拍到…
-
坎貝爾不死心:美國頭回碰上,單打獨(dú)斗贏不了中國
-
英駐美大使焦慮:若中國贏了,咱們生活要變天
-
“美國不是鼓勵韓國投資不選中國嘛,這下好了…”
-
首名!茂木敏充宣布參加自民黨總裁選舉
-
柯文哲已同意交保,預(yù)計(jì)下午出獄
-
“錢凱港已有4個‘中國式’泊位,未來還要造11個”
-
五角大樓資助中國項(xiàng)目?中方回應(yīng)
-
特朗普回應(yīng)石破茂辭職
-
美財(cái)長吹牛:歐洲也制裁買俄油的,搞崩俄羅斯
-
“普京與特朗普將聯(lián)手阻止第三次世界大戰(zhàn)”
-
貝森特:太可怕了,如果輸了要退一半關(guān)稅
-