-
單芯片最高2400TPS,華為云Tokens服務(wù)全面接入384超節(jié)點(diǎn)
8月27日,在第四屆828 B2B企業(yè)節(jié)開幕式上,華為云宣布其Tokens服務(wù)全面接入CloudMatrix384超節(jié)點(diǎn),通過xDeepServe架構(gòu)創(chuàng)新,單芯片最高可實(shí)現(xiàn)2400TPS、50msTPOT的超高吞吐、低時延的性能,超過業(yè)界水平。
以系統(tǒng)能力打造先進(jìn)算力
過去18個月,中國AI算力需求呈現(xiàn)指數(shù)級增長。數(shù)據(jù)顯示,2024年初中國日均Token的消耗量為1000億,截至今年6月底,日均Token消耗量已突破30萬億,1年半的時間增長了300多倍,反映了我國人工智能應(yīng)用規(guī)模快速增長,也對算力基礎(chǔ)設(shè)施的需求提出了更大的挑戰(zhàn)。
在以往按卡時計(jì)費(fèi)的基礎(chǔ)上,今年3月,華為云正式推出了基于MaaS的Tokens服務(wù)。針對不同應(yīng)用、不同場景的性能和時延要求,還提供了在線版、進(jìn)線版、離線版乃至尊享版等多種服務(wù)規(guī)格,為大模型、Agent智能體等AI工具提供了更為靈活、便捷、低成本的先進(jìn)算力。
而這一次,華為云的Tokens服務(wù)正式接入CloudMatrix384,并通過384原生的xDeepServe框架再次實(shí)現(xiàn)了吞吐量的突破,從年初的1920TPS提升至2400TPS,TPOT僅為50ms。
大算力的構(gòu)建不是單點(diǎn)突破,而是一個從硬件到軟件、從算子到存儲、從推理框架到超節(jié)點(diǎn)的全棧創(chuàng)新,充分依托了華為的“大雜燴”能力。
首先,CloudMatrix384 超節(jié)點(diǎn)以全新的計(jì)算架構(gòu)創(chuàng)新,突破性能瓶頸,構(gòu)筑穩(wěn)固澎湃的算力根基; CANN昇騰硬件使能,優(yōu)化算子與高效通信策略,讓云端的算力能夠以最高效的方式被調(diào)用和組合;EMS彈性內(nèi)存存儲打破AI內(nèi)存墻,突破性地實(shí)現(xiàn)“以存強(qiáng)算”, 徹底釋放了每一顆芯片的算力;xDeepServe 分布式推理框架則以極致分離架構(gòu)Transfomerless讓超節(jié)點(diǎn)釋放出更高效算力。
“拆掉”Transformer,xDeepServe全面激發(fā)算力潛能
作為CloudMatrix384 超節(jié)點(diǎn)的原生服務(wù),xDeepServe以Transformerless 的極致分離架構(gòu),把MoE大模型拆成可獨(dú)立伸縮的 Attention、FFN、Expert三個微模塊,相當(dāng)于在一臺CloudMatrix384上把“大模型”拆成“積木”,并分派到不同的NPU上同步處理任務(wù)。之后,再用基于內(nèi)存語義的微秒級XCCL通信庫與FlowServe 自研推理引擎把它們重新拼成一個超高吞吐的LLM服務(wù)平臺,即Tokens的“超高速流水線”。通過xDeepServe不斷調(diào)優(yōu),最終實(shí)現(xiàn)了從非超節(jié)點(diǎn)單卡吞吐600tokens/s至超節(jié)點(diǎn)單卡吞吐2400tokens/s的提升。
作為硬件加速計(jì)算的中間層,CANN包含多個算子庫和和XCCL這種高性能通信庫等組件,共同支撐AI模型的高效運(yùn)行。其中,XCCL作為專為超節(jié)點(diǎn)上的大語言模型(LLM)服務(wù)而量身打造的高性能通信庫,能夠充分發(fā)揮CloudMatrix384擴(kuò)展后的UB互聯(lián)架構(gòu)(UB fabric)的全部潛力,為 Transformerless的全面分離奠定了帶寬與時延雙重硬底座。
而作為被重構(gòu)的“去中心”式分布式引擎,F(xiàn)lowServe把CloudMatrix384 切成完全自治的DP小組,每個小組自帶 Tokenizer、執(zhí)行器、RTC 緩存與網(wǎng)絡(luò)棧,完全自給自足,做到千卡并發(fā)也不“擁堵”。
目前,xDeepServe已實(shí)現(xiàn)MA分離,而下一步,將把Attention、MoE、Decode全部改成自由流動的數(shù)據(jù)流,并把同樣的拼圖方法復(fù)制到多臺超節(jié)點(diǎn),讓推理吞吐像鋪軌一樣線性延伸,最終或?qū)⒁暰€吞吐量的更大突破,讓每塊 NPU 都高效運(yùn)作,芯片永不排隊(duì),推理永不塞車。
聚焦主流大模型,不斷提升模型性能
目前,華為云MaaS服務(wù)已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平臺。
華為云積累了大量模型性能優(yōu)化、效果調(diào)優(yōu)的技術(shù)和能力,從而實(shí)現(xiàn)“源于開源,高于開源”,讓更多大模型可以在昇騰云上跑得更快更好。以文生圖大模型來說,在輕微損失畫質(zhì)的情況下,通過Int8量化、旋轉(zhuǎn)位置編碼融合算子等方式,在在華為云MaaS平臺實(shí)現(xiàn)了2倍于業(yè)界主流平臺的出圖速度,最大尺寸支持2K×2K。而在文生視頻大模型上,不僅通過量化方式來提速,還通過通算并行等方式,降低延遲與顯存占用,大幅提升視頻生成速度,相較于友商實(shí)現(xiàn)了3.5倍的性能提升。華為云Tokens服務(wù)在性能、模型適配、效果調(diào)優(yōu)方面的基礎(chǔ),也讓更多企業(yè)能夠快速開發(fā)和構(gòu)建AI Agent。
而在應(yīng)用層,華為云已與超過100家伙伴攜手深入行業(yè)場景,共建豐富的Agent,在調(diào)研分析、內(nèi)容創(chuàng)作、智慧辦公、智能運(yùn)維等領(lǐng)域解決產(chǎn)業(yè)難題,讓企業(yè)更便捷地?fù)肀I創(chuàng)新,加速智能化。
如基于MaaS平臺推出的今日人才數(shù)智員工解決方案,集成了先進(jìn)的自然語言處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),能實(shí)現(xiàn)與用戶的智能交互和任務(wù)處理,顯著提升服務(wù)效率與客戶滿意度;而北京方寸無憂科技開發(fā)的無憂智慧公文解決方案可以提升公文處理效能,實(shí)現(xiàn)政企辦公智能化轉(zhuǎn)型。
以Token為動力的智能社會已經(jīng)到來,而華為云將以系統(tǒng)級創(chuàng)新能力和全新的Tokens服務(wù)構(gòu)筑先進(jìn)算力,助力各行各業(yè)加速落地AI。
- 責(zé)任編輯: 張荃 
-
吉林省將實(shí)施境外旅客購物離境退稅政策
2025-08-27 17:15 -
徐州醫(yī)科大學(xué)校長鄭駿年,任上被查
2025-08-27 16:14 廉政風(fēng)暴 -
世界首臺!我國又一領(lǐng)域重要突破
2025-08-27 15:23 能源戰(zhàn)略 -
抗戰(zhàn)勝利80周年紀(jì)念活動新聞中心將舉辦3場記者招待會、3場記者見面會
2025-08-27 13:45 抗戰(zhàn)勝利80周年 -
國臺辦:將邀請臺灣同胞出席九三閱兵
2025-08-27 11:00 抗戰(zhàn)勝利80周年 -
國臺辦:賴清德當(dāng)局,民族敗類
2025-08-27 10:46 臺灣 -
外交部邊海司司長洪亮出任全國政協(xié)副秘書長
2025-08-27 10:39 -
陸委會聲稱大陸誤導(dǎo)民眾、混淆國際社會認(rèn)知,國臺辦回應(yīng)
2025-08-27 10:38 抗戰(zhàn)勝利80周年 -
世界首臺套660兆瓦超超臨界雙拱型燃煤機(jī)組投運(yùn)
2025-08-27 07:53 -
三亞通報(bào):高空墜物砸中路人,致1死2傷
2025-08-26 21:44 安全生產(chǎn) -
周先旺,被撤銷資格
2025-08-26 18:19 廉政風(fēng)暴 -
事關(guān)“AI+”,重磅發(fā)布來了
2025-08-26 17:32 人工智能 -
劉星泰,死緩
2025-08-26 17:12 廉政風(fēng)暴 -
民進(jìn)黨市議員稱應(yīng)在金門儲存核廢料,金門議員:可笑
2025-08-26 15:23 臺灣 -
1.5公斤黃金抵押品被扣14年,沈陽一寄賣行申請國家賠償
2025-08-26 14:09 -
羅志強(qiáng)參選國民黨主席,承諾將征召盧秀燕參選地區(qū)領(lǐng)導(dǎo)人
2025-08-26 12:09 臺灣 -
蘇智良:十個年頭了,日本右翼不斷地設(shè)置障礙阻撓我們的聲音
2025-08-26 12:08 14年抗戰(zhàn)史不容歪曲篡改 -
“兩岸同夢 心光同輝”主題展演在滬舉行
2025-08-26 11:53 -
更加威武!《鋼鐵洪流進(jìn)行曲》等曲目將微調(diào)呈現(xiàn)
2025-08-26 11:16 抗戰(zhàn)勝利80周年 -
地下700米誕生全球第一,江門中微子實(shí)驗(yàn)大科學(xué)裝置正式運(yùn)行
2025-08-26 08:22 科技前沿
相關(guān)推薦 -
大量訂單取消!印官員:拿下中國、拉美市場吧 評論 256“嚇壞了,以為會遭遇‘澤連斯基時刻’”,臺下哄笑 評論 129“中國將為俄羅斯提供技術(shù),美國妄圖撬走生意” 評論 150“法國正處于危險之中”,他選擇賭一把 評論 84最新聞 Hot
-
“幾乎所有中方人士都強(qiáng)調(diào)此事,要求韓方采取措施”
-
“美國在格陵蘭開展秘密行動”,丹麥:不可接受
-
“別自詡為地球皇帝!”盧拉頭戴藍(lán)帽,回?fù)籼乩势?/a>
-
“韓企剛出ICU,能讓美國造船再次偉大嗎?”
-
大量訂單取消!印官員:拿下中國、拉美市場吧
-
印度放話,被潑冷水:對手可是中國
-
俄部長:中國家庭真金白銀支持我們,很自豪
-
伊朗外長:內(nèi)塔尼亞胡這點(diǎn)說對了
-
中國大使先發(fā)制人,前置反擊
-
憋不住了!美石油巨頭被曝多次找俄方商談回歸
-
“特朗普氣急敗壞,但200%關(guān)稅威脅不了中國”
-
憋了一周,馬克龍6頁長信反擊:真是貴國的恥辱!
-
“嚇壞了,以為會遭遇‘澤連斯基時刻’”,臺下哄笑
-
“中國將為俄羅斯提供技術(shù),美國妄圖撬走生意”
-
又改口:不止七架被擊落,可能更多
-
“面對特朗普,歐洲終于體會到中國鴉片戰(zhàn)爭之辱”
-