-
馬斯克搶先一步后,國(guó)產(chǎn)大模型紛紛發(fā)力十萬(wàn)卡集群
-
張廣凱13764468101
國(guó)內(nèi)大模型企業(yè)的十萬(wàn)卡時(shí)代,真的要來了嗎?
9月25日,百度發(fā)布了全面升級(jí)的百舸AI異構(gòu)計(jì)算平臺(tái)4.0,百度智能云事業(yè)群總裁沈抖直言,百舸4.0就是部署十萬(wàn)卡大規(guī)模集群而設(shè)計(jì)的。
百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖觀察者網(wǎng)
而就在幾天前,阿里云宣布其靈駿單網(wǎng)絡(luò)集群已拓展至10萬(wàn)卡級(jí)別。此前,騰訊也發(fā)布了支持十萬(wàn)卡集群的星脈網(wǎng)絡(luò)2.0。
一度還停留在設(shè)想層面的十萬(wàn)卡集群,突然成為輿論焦點(diǎn)是在9月初。馬斯克突然宣布在短短122天內(nèi)建成10萬(wàn)張英偉達(dá)H100顯卡的Colossus集群,意味著其算力可能已經(jīng)超過OpenAI。
由顯卡規(guī)模撐起的算力水平,是決定大模型性能的最重要指標(biāo)之一。一般認(rèn)為,1萬(wàn)枚英偉達(dá)A100芯片,是做好AI大模型的算力門檻。
建一個(gè)萬(wàn)卡集群,單是GPU的采購(gòu)成本就高達(dá)幾十億,因此國(guó)內(nèi)能夠部署萬(wàn)卡規(guī)模集群的,原本就只有阿里、百度等寥寥幾家大廠。而想要部署十萬(wàn)卡集群,其“燒錢”程度可想而知。
除了資金成本,十萬(wàn)卡集群同樣面臨巨大的技術(shù)挑戰(zhàn)。沈抖指出,GPU是一種很敏感的硬件,連一天之內(nèi)氣溫的波動(dòng),都會(huì)影響到GPU的故障率,而且規(guī)模越大,出故障的概率就越高?!癕eta訓(xùn)練llama3的時(shí)候,用了1.6萬(wàn)張GPU卡的集群,平均每3小時(shí)就會(huì)出一次故障?!?
此外,區(qū)別于傳統(tǒng)CPU集群的串行特點(diǎn),大模型訓(xùn)練過程需要全部顯卡同時(shí)參與并行計(jì)算,對(duì)網(wǎng)絡(luò)傳輸能力也提出了更大的挑戰(zhàn)。
相比于美國(guó)同行,中國(guó)大模型企業(yè)還面臨一重特殊的困難,無(wú)法像馬斯克那樣全部采用英偉達(dá)方案,而是需要使用包括國(guó)產(chǎn)GPU在內(nèi)的異構(gòu)芯片。這也意味著,即使同樣十萬(wàn)張顯卡,國(guó)內(nèi)企業(yè)在算力規(guī)模上也很難同美國(guó)企業(yè)匹敵。
在上述三重挑戰(zhàn)之下,國(guó)內(nèi)大模型企業(yè)的進(jìn)步速度也有目共睹。
據(jù)沈抖介紹,百舸4.0在萬(wàn)卡集群上實(shí)現(xiàn)了有效訓(xùn)練時(shí)長(zhǎng)占比99.5%以上,業(yè)界領(lǐng)先,并通過在集群設(shè)計(jì)、任務(wù)調(diào)度、并行策略、顯存優(yōu)化等一系列創(chuàng)新,大幅提升了集群的模型訓(xùn)練效率,整體性能相比業(yè)界平均水平提升高達(dá)30%。
而阿里云CTO周靖人此前也透露,目前阿里云的萬(wàn)卡算力集群可以實(shí)現(xiàn)大于99%以上連續(xù)訓(xùn)練有效時(shí)長(zhǎng),模型算力利用率可提升20%以上。
但隨著性能提升,大模型成本問題只會(huì)越來越引人注目。單從能耗來看,沈抖透露,十萬(wàn)卡集群每天就要消耗大約300萬(wàn)千瓦時(shí)的電力,相當(dāng)于北京市東城區(qū)一天的居民用電量。
一位開發(fā)者向觀察者網(wǎng)直言,盡管在過去一年中大模型廠商的降價(jià)幅度確實(shí)可觀,但這更多是平臺(tái)補(bǔ)貼開發(fā)者的結(jié)果,并非根本解決之道。
對(duì)此,阿里云方面強(qiáng)調(diào),AI發(fā)展仍然處在一個(gè)非常早期的階段,必須要靠降價(jià)帶動(dòng)應(yīng)用爆發(fā),而阿里云搞AI大基建,并不會(huì)只算眼前賬。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
標(biāo)簽 大模型- 責(zé)任編輯: 張廣凱 
-
-
小米要求印度撤回反壟斷報(bào)告:包含商業(yè)機(jī)密
2024-09-25 15:33 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
上證指數(shù)收復(fù)2900點(diǎn)
2024-09-25 13:15 觀網(wǎng)財(cái)經(jīng)-金融 -
三星18億美元投資越南,加工OLED面板模組
2024-09-25 12:06 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
-
在美中概股昨夜集體大漲,華爾街稱漲勢(shì)將持續(xù)
2024-09-25 11:20 觀網(wǎng)財(cái)經(jīng)-金融 -
讀懂央行新政:為居民減負(fù)才是精準(zhǔn)藥方
2024-09-25 08:52 觀網(wǎng)財(cái)經(jīng)-宏觀 -
離岸人民幣兌美元收復(fù)7.0關(guān)口
2024-09-25 08:15 觀網(wǎng)財(cái)經(jīng)-海外 -
金融資產(chǎn)投資公司股權(quán)投資試點(diǎn)范圍擴(kuò)大至18個(gè)城市
2024-09-24 21:25 金融觀察 -
-
中國(guó)糧食75年增產(chǎn)5倍,海外友人:中國(guó)大米比日本和泰國(guó)米更好吃
2024-09-24 20:10 -
-
“純血鴻蒙”即將公測(cè),鴻蒙PC可能也快來了
2024-09-24 18:22 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
3年超越西方30年?
2024-09-24 17:35 觀察者頭條 -
商務(wù)部:對(duì)美國(guó)PVH集團(tuán)啟動(dòng)不可靠實(shí)體清單調(diào)查
2024-09-24 16:30 -
專家解讀:房?jī)r(jià)觸底、緩解提前償債壓力、刺激內(nèi)需、對(duì)沖通縮
2024-09-24 16:19 -
滬指創(chuàng)4年多最大單日漲幅,兩市成交額超9700億
2024-09-24 15:34 -
印度電信巨頭簽36億美元大單,提升4G覆蓋、引入5G
2024-09-24 14:22 觀網(wǎng)財(cái)經(jīng)-海外 -
大促免傭、店播免傭、解綁運(yùn)費(fèi)險(xiǎn)!今年雙11淘寶商家獲“大紅包”!
2024-09-24 13:50 雙11節(jié)
相關(guān)推薦 -
-
“美國(guó)已解除這項(xiàng)對(duì)華出口禁令” 評(píng)論 255家樂福CEO放話:對(duì)中國(guó)小包裹,要學(xué)特朗普征稅100% 評(píng)論 212“2027年起,整個(gè)產(chǎn)業(yè)將拱手讓給中國(guó)” 評(píng)論 126“不如申請(qǐng)成中國(guó)一省” ,德國(guó)鋰企竟如此激將歐盟 評(píng)論 126最新聞 Hot
-
“即使特朗普下臺(tái),美國(guó)政策也不會(huì)變,中日韓要合作”
-
“船到橋頭自然直”,印外長(zhǎng)回應(yīng)美議員
-
俄海軍副總司令陣亡
-
“在越南的中國(guó)制造商松了一口氣”
-
他倒戈后就躲起來了,電話都不接,同僚評(píng)價(jià):聰明
-
“美國(guó)已解除這項(xiàng)對(duì)華出口禁令”
-
“印軍將全面排查中國(guó)產(chǎn)零部件”
-
美國(guó)和盟友鬧掰?“本質(zhì)沒變,中國(guó)需高度警惕”
-
斯塔默不吱聲,英財(cái)相當(dāng)場(chǎng)落淚,“哭崩”市場(chǎng)
-
家樂福CEO放話:對(duì)中國(guó)小包裹,要學(xué)特朗普征稅100%
-
莫迪表態(tài):金磚是重要平臺(tái)
-
“還想阻撓大陸武統(tǒng)?美國(guó)太晚了”
-
受賄數(shù)額特別巨大,齊同生被提起公訴
-
“美國(guó)占一半,中國(guó)分四成,歐洲...”
-
李在明最新涉華表態(tài)
-
叫完“爸爸”又被白宮整活,北約秘書長(zhǎng):驚喜且有趣
-