-
芯片問(wèn)題不用擔(dān)心,華為是如何應(yīng)用“系統(tǒng)論”的?
最后更新: 2025-06-25 10:11:54(文/觀察者網(wǎng) 呂棟)
“芯片問(wèn)題其實(shí)沒(méi)必要擔(dān)心,用疊加和集群等方法,計(jì)算結(jié)果上與最先進(jìn)水平是相當(dāng)?shù)??!苯?,華為總裁任正非的一次公開(kāi)發(fā)聲,增強(qiáng)了社會(huì)各界對(duì)中國(guó)AI發(fā)展的信心。
我們都知道,中國(guó)已經(jīng)形成了“百模千態(tài)”的大模型產(chǎn)業(yè),有多個(gè)大模型走在全球前列。但無(wú)論AI產(chǎn)業(yè)如何發(fā)展,算力都是驅(qū)動(dòng)模型演進(jìn)的根本動(dòng)力。隨著外部技術(shù)封鎖步步緊逼,國(guó)產(chǎn)算力能否擔(dān)當(dāng)大用?是否只能做推理而不能做復(fù)雜訓(xùn)練?很多人其實(shí)心里沒(méi)底。
“我們單芯片還是落后美國(guó)一代,我們用數(shù)學(xué)補(bǔ)物理,非摩爾補(bǔ)摩爾,用群計(jì)算補(bǔ)單芯片,在結(jié)果上也能達(dá)到實(shí)用狀況?!比握堑墓_(kāi)發(fā)聲,給國(guó)內(nèi)AI產(chǎn)業(yè)吃下了一顆“定心丸”。
帶著對(duì)國(guó)產(chǎn)算力發(fā)展的關(guān)心,觀察者網(wǎng)與華為2012實(shí)驗(yàn)室的技術(shù)專家的做了一次交流,我們了解到,昇騰算力不僅實(shí)現(xiàn)推理性能全球領(lǐng)先,同時(shí)系統(tǒng)穩(wěn)定性也保持在高水平,能高效訓(xùn)出世界一流的萬(wàn)億參數(shù)大模型。尤其是CloudMatrix 384超節(jié)點(diǎn)技術(shù),以系統(tǒng)補(bǔ)單點(diǎn),從堆芯片到拼架構(gòu),核心指標(biāo)比肩英偉達(dá),成為中國(guó)AI發(fā)展的堅(jiān)實(shí)算力底座。
芯片問(wèn)題為何不用擔(dān)心?
在外部制裁圍堵下,芯片問(wèn)題就像“達(dá)摩克里斯之劍”一樣,一直懸在中國(guó)產(chǎn)業(yè)界頭上。尤其隨著中美AI競(jìng)爭(zhēng)愈發(fā)激烈,美國(guó)一方面竭力遏制中國(guó)先進(jìn)芯片制造的能力,另一方面又不斷收緊對(duì)英偉達(dá)高端芯片的出口管制,試圖讓中國(guó)AI產(chǎn)業(yè)在“算力囚籠”中止步不前。
但危中也有機(jī)。行業(yè)的發(fā)展趨勢(shì)是,當(dāng)Transformer這樣的大型神經(jīng)網(wǎng)絡(luò)模型橫空出世,萬(wàn)億參數(shù)模型開(kāi)始涌現(xiàn),對(duì)算力和顯存的需求呈爆炸式增長(zhǎng),單個(gè)GPU甚至單個(gè)服務(wù)器都難以招架,集群算力成為大勢(shì)所趨,這也給中國(guó)用系統(tǒng)方法解決算力困境帶來(lái)契機(jī)。
說(shuō)起“系統(tǒng)論”,老一輩中國(guó)人可能并不陌生。錢(qián)學(xué)森的《論系統(tǒng)工程》,核心思想就是把研究對(duì)象看做一個(gè)整體而不是孤立的點(diǎn),通過(guò)整體優(yōu)化彌補(bǔ)單點(diǎn)落后。
華為制裁中突圍,正是受到系統(tǒng)工程的啟發(fā)。技術(shù)專家對(duì)觀察者網(wǎng)表示,算力基礎(chǔ)設(shè)施是復(fù)雜的系統(tǒng),華為把各個(gè)部分打通了,在內(nèi)部組織了算力會(huì)戰(zhàn),把華為云、模型、底座、芯片、硬件工程、基礎(chǔ)軟件的研發(fā)力量集結(jié)在一起,跨部門(mén)作戰(zhàn),深度協(xié)同。這樣的環(huán)境和機(jī)制,能夠產(chǎn)生協(xié)同效應(yīng)和系統(tǒng)工程的整合,實(shí)現(xiàn)了“大雜燴”技術(shù)的有效利用和協(xié)同創(chuàng)新。
基于系統(tǒng)工程,華為構(gòu)建了巨型算力基礎(chǔ)設(shè)施CloudMatrix 384超節(jié)點(diǎn),通過(guò)全對(duì)等高速互聯(lián)架構(gòu),讓384張昇騰卡可以像一臺(tái)計(jì)算機(jī)一樣工作。它的算力總規(guī)模達(dá)300Pflops,是英偉達(dá)旗艦NVL72的1.7倍;網(wǎng)絡(luò)互聯(lián)總帶寬達(dá)269TB/s,比英偉達(dá)NVL72提升107%;內(nèi)存總帶寬達(dá)1229TB/s,比英偉達(dá)NVL72提升113%。更關(guān)鍵的是,它還能擴(kuò)展為包含數(shù)萬(wàn)卡的Atlas 900 SuperCluster超節(jié)點(diǎn)集群,未來(lái)可以支撐更大規(guī)模的模型演進(jìn)。
“超節(jié)點(diǎn)是復(fù)雜系統(tǒng),單卡的技術(shù)指標(biāo)并不代表系統(tǒng)的效能,我們‘系統(tǒng)工程’,要達(dá)到的是系統(tǒng)最佳,而不是單點(diǎn)最強(qiáng)。解決這些超復(fù)雜系統(tǒng)的問(wèn)題需要懂理論,如系統(tǒng)論,控制論,信息論,計(jì)算數(shù)學(xué)等;同時(shí),我們通過(guò)數(shù)學(xué)的方法對(duì)計(jì)算系統(tǒng)進(jìn)行建模、仿真,想辦法把每一部分都用起來(lái),做到不浪費(fèi),各個(gè)部分完美配合,高效協(xié)同?!比A為技術(shù)專家表示。
我們都知道,芯片制造遵循著“摩爾定律”,但前提是獲取先進(jìn)的設(shè)備材料。在制裁圍堵下,華為通過(guò)復(fù)雜系統(tǒng)優(yōu)化,實(shí)現(xiàn)了“非摩爾補(bǔ)摩爾”的效果,讓單芯片短板不再是制約。
華為技術(shù)專家指出,單芯片制程從7納米到5納米、3納米、2納米,每代性能提升不超過(guò)20%,總體能提升50%左右。華為通過(guò)高效的超節(jié)點(diǎn)系統(tǒng),提升了芯片算力利用率?!癕oE大模型訓(xùn)練,我們以前MFU(模型算力利用率)是30%,業(yè)界也是差不多這個(gè)水平,我們最新公布的數(shù)據(jù)提升到41%,實(shí)驗(yàn)室是45%多。從30%提升到45%,利用率相當(dāng)于提升了50%。在硬件什么也沒(méi)有改變的情況下,通過(guò)系統(tǒng)工程的優(yōu)化,資源的高效調(diào)度,一定程度彌補(bǔ)了芯片工藝的不足。”
“西方不斷打補(bǔ)丁,我們重新定義架構(gòu)”
華為被制裁的這幾年,算力產(chǎn)業(yè)其實(shí)也處在變革過(guò)程中。
隨著大模型Scaling Law(尺度定律)的持續(xù)演進(jìn),整個(gè)AI行業(yè)產(chǎn)生了巨量算力需求。但是傳統(tǒng)的計(jì)算集群已經(jīng)出現(xiàn)瓶頸,無(wú)限制的堆卡并不能帶來(lái)算力的線性提升,反而會(huì)產(chǎn)生“內(nèi)存墻”、“規(guī)模墻”和“通信墻”的問(wèn)題。這是因?yàn)樵诩簝?nèi)部,算力卡之間和服務(wù)器之間并不是獨(dú)立工作,而是需要邊計(jì)算邊“溝通”,如果通信能力跟不上,就會(huì)出現(xiàn)算力閑置。
過(guò)去8年間,單卡硬件算力增長(zhǎng)了40倍,但節(jié)點(diǎn)內(nèi)總線帶寬只增長(zhǎng)了9倍,跨節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬只增長(zhǎng)了4倍,這使得集群網(wǎng)絡(luò)通信成為當(dāng)前大模型訓(xùn)練和推理的最大挑戰(zhàn)。因此如果不能提升通信效率,單純把384張昇騰卡堆起來(lái),計(jì)算效果并不一定就比72張英偉達(dá)卡更好,因?yàn)榭ㄩg和服務(wù)器間的通信開(kāi)銷會(huì)抵消算力增加的收益,導(dǎo)致有效算力不升反降。
作為算力產(chǎn)業(yè)先行者,英偉達(dá)早早意識(shí)到這個(gè)問(wèn)題。黃仁勛的做法是,把之前消費(fèi)級(jí)顯卡上的NVLink技術(shù)移植到計(jì)算集群中,相當(dāng)于給GPU之間搭建一條“專用超寬車道”并且把多顆GPU、CPU、高帶寬內(nèi)存、NVLink/NVSwitch等高度集成,打造了NVL72超節(jié)點(diǎn)。
但問(wèn)題是,NVLink只能用于英偉達(dá)自家GPU之間的通信,節(jié)點(diǎn)內(nèi)的NPU、FPGA等非GPU異構(gòu)硬件,并不能走這條“超寬車道”,還是要通過(guò)效率較低的PCIe協(xié)議走CPU中轉(zhuǎn),同時(shí)節(jié)點(diǎn)之間通過(guò)以太網(wǎng)/InfiniBand等協(xié)議跨機(jī)互聯(lián),在巨量計(jì)算中也存在帶寬堵點(diǎn)。
不同于這種做法,華為CloudMatrix 384超節(jié)點(diǎn)對(duì)計(jì)算架構(gòu)進(jìn)行重構(gòu),徹底打破了傳統(tǒng)以CPU為中心的馮諾依曼架構(gòu),創(chuàng)新提出了“全對(duì)等架構(gòu)”。它通過(guò)3168根光纖和6912個(gè)400G光模塊構(gòu)建了高速互聯(lián)總線,并把總線從服務(wù)器內(nèi)部擴(kuò)展到整機(jī)柜、甚至跨機(jī)柜,最終將CPU、NPU、DPU、存儲(chǔ)和內(nèi)存等資源全部互聯(lián)和池化,這樣做就能去除掉了繁多的中轉(zhuǎn)環(huán)節(jié),從而實(shí)現(xiàn)真正的點(diǎn)對(duì)點(diǎn)互聯(lián),進(jìn)而實(shí)現(xiàn)更大的算力密度和互聯(lián)帶寬。
“西方是繼承發(fā)展,任總形象地比喻為‘百納衣’,就是衣服破了以后不斷地打補(bǔ)丁,協(xié)議不同,互通要轉(zhuǎn)換的,包頭套包頭,有效載荷就很小了。我們重新定義了對(duì)等的架構(gòu),統(tǒng)一了所有的通信協(xié)議,互通就不需要轉(zhuǎn)換,提升了有效載荷。”華為技術(shù)專家對(duì)觀察者網(wǎng)說(shuō)道。
“打鐵還需自身硬,充分滿足國(guó)內(nèi)需要”
華為構(gòu)建了這么強(qiáng)大的昇騰算力,實(shí)際應(yīng)用效果怎么樣?尤其是在英偉達(dá)高端算力被封鎖的情況下,昇騰算力到底能不能給中國(guó)AI發(fā)展帶來(lái)底氣和信心?這是行業(yè)內(nèi)外真正關(guān)心的。
- 責(zé)任編輯: 呂棟 
-
“月薪5000不要吃”的巴奴,要赴港講“品質(zhì)火鍋”的故事
2025-06-25 09:05 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
狼爪:一場(chǎng)非典型的“安踏式救贖”
2025-06-24 16:40 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
蘋(píng)果官網(wǎng)首次支持國(guó)補(bǔ),至高省2000元
2025-06-24 15:10 -
興業(yè)銀行聯(lián)手全國(guó)工商聯(lián),民企綠色轉(zhuǎn)型注入金融活水
2025-06-24 14:27 金融觀察 -
何猷君收了王思聰?shù)纳坦芄?,“賭王二代”繼續(xù)押注電競(jìng)產(chǎn)業(yè)
2025-06-24 10:44 電子游戲 -
-
-
-
中國(guó)長(zhǎng)安汽車集團(tuán)更名為“辰致汽車科技集團(tuán)”
2025-06-23 22:24 -
胖東來(lái)將關(guān)閉多家老店,包括半年銷售額8億的“明星門(mén)店”
2025-06-23 21:04 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
奈雪茶包驚現(xiàn)干蛙尸體,消費(fèi)者直呼“惡心到終身陰影”
2025-06-23 19:19 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
雷軍:小米沒(méi)有計(jì)劃造油車
2025-06-23 17:48 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
淘寶閃購(gòu)聯(lián)合餓了么日訂單超六千萬(wàn)
2025-06-23 16:58 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
3年虧損24億,兆芯擬募資超40億研發(fā)新CPU
2025-06-23 16:07 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
1元1店!蘇寧易購(gòu)“白菜價(jià)”甩賣4座家樂(lè)福
2025-06-23 14:54 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
相關(guān)推薦 -
“沒(méi)客戶!”獲47億補(bǔ)貼后,三星在美芯片廠推遲投產(chǎn) 評(píng)論 22“美國(guó)已解除這項(xiàng)對(duì)華出口禁令” 評(píng)論 271家樂(lè)福CEO放話:對(duì)中國(guó)小包裹,要學(xué)特朗普征稅100% 評(píng)論 216“2027年起,整個(gè)產(chǎn)業(yè)將拱手讓給中國(guó)” 評(píng)論 129最新聞 Hot
-
“沒(méi)客戶!”獲47億補(bǔ)貼后,三星在美芯片廠推遲投產(chǎn)
-
約翰遜急著表決,民主黨領(lǐng)袖連續(xù)講了6小時(shí),還沒(méi)?!?/a>
-
“六代機(jī)機(jī)密會(huì)議,扎克伯格突然闖入”,白宮回應(yīng)
-
8年后,默克爾吐槽特朗普:真裝!
-
美軍評(píng)估又變了,“不是幾個(gè)月是兩年”
-
“即使特朗普下臺(tái),美國(guó)政策也不會(huì)變,中日韓要合作”
-
“船到橋頭自然直”,印外長(zhǎng)回應(yīng)美議員
-
俄海軍副總司令陣亡
-
“在越南的中國(guó)制造商松了一口氣”
-
他倒戈后就躲起來(lái)了,電話都不接,同僚評(píng)價(jià):聰明
-
“美國(guó)已解除這項(xiàng)對(duì)華出口禁令”
-
“印軍將全面排查中國(guó)產(chǎn)零部件”
-
美國(guó)和盟友鬧掰?“本質(zhì)沒(méi)變,中國(guó)需高度警惕”
-
斯塔默不吱聲,英財(cái)相當(dāng)場(chǎng)落淚,“哭崩”市場(chǎng)
-
家樂(lè)福CEO放話:對(duì)中國(guó)小包裹,要學(xué)特朗普征稅100%
-
莫迪表態(tài):金磚是重要平臺(tái)
-