-
AI落地的關(guān)鍵堵點,華為用“黑科技”打通了
-
呂棟lvdong@guancha.cn
(文/觀察者網(wǎng) 呂棟)
GPT-5的不再驚艷,讓很多人意識到傳統(tǒng)的Scaling Law(尺度定律)已經(jīng)遇到明顯瓶頸。從應(yīng)用需求的角度來講,更多企業(yè)開始關(guān)注模型推理的性能體驗,這關(guān)乎商業(yè)落地和變現(xiàn)。
但在推理這個關(guān)鍵環(huán)節(jié),中國正遭遇瓶頸。不僅基礎(chǔ)設(shè)施投資遠少于美國,同時還要面對算力卡閹割、 HBM(高帶寬內(nèi)存)漲價禁運等困境。尤其是,隨著AI應(yīng)用場景不斷拓展,長文本處理、多輪對話以及復雜業(yè)務(wù)流程的推理需求日益增長,更讓中國AI推理困境凸顯。
現(xiàn)實挑戰(zhàn)下,華為重磅推出了 AI推理加速“黑科技”UCM(推理記憶數(shù)據(jù)管理器,Unified Cache Manager)。這一突破性技術(shù)通過創(chuàng)新架構(gòu)設(shè)計和存儲優(yōu)化,突破了HBM容量限制,提升了國內(nèi)AI大模型推理性能,完善了中國AI推理生態(tài)的關(guān)鍵環(huán)節(jié)。
在英偉達因 “后門”遭遇信任危機之際,華為將UCM主動開放開源,打通了框架、算力、存儲三層協(xié)同,推動國產(chǎn)AI推理告別“堆卡依賴”,走向“體驗提升-用戶增長-企業(yè)加大投資-技術(shù)迭代”的正循環(huán)。這場圍繞“記憶”的技術(shù)突圍,或許正是中國AI行業(yè)落地的關(guān)鍵一役。
推理已成關(guān)鍵,中國瓶頸凸顯
AI技術(shù)的蓬勃發(fā)展,讓大模型訓練成為成本中心,但真正創(chuàng)造價值的是推理過程。
數(shù)據(jù)顯示,當前 AI推理算力需求已超過訓練。GPT-5開放首周API調(diào)用量超20億次/分鐘,70%的請求為復雜認為推理(如代碼生成、多步規(guī)劃等),而國內(nèi)火山引擎的日均token調(diào)用量已達16.4萬億,70%以上來自線上推理而非訓練。
推理性能關(guān)乎用戶體驗和商業(yè)可行性,已成為 AI落地的關(guān)鍵。但隨著AI行業(yè)化落地加深,推理能力也不斷面臨挑戰(zhàn), 尤其是在長文本處理、多輪對話以及復雜業(yè)務(wù)流程的推理需求日益增長的情況下,對推理 性能 的要求愈發(fā)嚴苛。
在此背景下,一種名為 鍵值緩存( KV Cache) 的關(guān)鍵技術(shù)誕生,它可以 優(yōu)化計算效率、減少重復運算 , 即將已生成 token的Key(鍵:表征歷史輸入的特征)和Value(值:基于Key的特征,用于生成當前輸出的參考信息)臨時存儲起來,后續(xù)生成新token時直接復用,無需重新計算 ,可以顯著提升推理效率。
但 問題是 , KV Cache需要占用GPU的顯存(如 高帶寬內(nèi)存 HBM)存儲歷史Key/Value向量,生成的文本越長,緩存的數(shù)據(jù)量越大 ,有可能導致 HBM和DRAM被擠爆。
中國企業(yè)不比美國,一方面中國互聯(lián)網(wǎng)企業(yè)在 AI基礎(chǔ)設(shè)施上的投資只有美國的十分之一,中小企業(yè)預(yù)算少,買不起那么多高端的HBM,另一方面中國還面臨出口管制,無法獲得最先進的算力卡和HBM,不可能無限制地去堆卡。
更關(guān)鍵的是,面對大模型 PB級的天量數(shù)據(jù),傳統(tǒng)推理架構(gòu)過度依賴HBM的瓶頸也日益凸顯。隨著Agentic AI(代理式人工智能)時代到來,模型規(guī)?;瘮U張、長序列需求激增以及推理任務(wù)并發(fā)量增長,推理的KV Cache容量增長已超出HBM的承載能力,頻繁的內(nèi)存溢出,導致推理頻繁出現(xiàn)“失憶”,需要GPU反復計算,造成卡頓遲緩。
多種難題下,國產(chǎn)大模型陷入了 “推不動”、“推得慢”和“推得貴”的困境。
數(shù)據(jù)顯示,國外主流大模型輸出速度為 200 tokens/s區(qū)間(時延5ms),而中國普遍小于60 tokens/s(時延50-100ms),最大差距達到10倍。在上下文窗口上,海外模型普遍支持100萬級Token(如GPT-5、Claude 3.5),而國內(nèi)頭部模型(Kimi)僅50萬,且在長文本分析中,國內(nèi)模型遺漏關(guān)鍵信息的概率超50%。
這種體驗,顯然對中國 AI的規(guī)?;涞夭焕? 長此以往, 甚至會 形成商業(yè)的惡性循環(huán),進一步導致中國企業(yè)投入降低、投資降速,在 AI的國際競爭中 被國外拉開差距 。
怎么在不大幅增加 算力基礎(chǔ)設(shè)施投入的前提下,顯著優(yōu)化推理體驗,推動 AI推理進入商業(yè)正循環(huán) ,成為中國的當務(wù)之急。
華為 “黑科技”,打通推理體驗堵點
前面提到, “Token經(jīng)濟”時代,KV Cache與記憶數(shù)據(jù)管理是優(yōu)化推理性能、降低計算成本的核心,但HBM這種高性能內(nèi)存太貴,且不能無限制堆卡,而SSD(固態(tài)硬盤)的傳輸速率太慢,似乎形成了成本、性能和效果的“不可能三角”。
- 責任編輯: 呂棟 
-
前7月全國固投同比增1.6%,房地產(chǎn)開發(fā)投資降12%
2025-08-15 10:26 宏觀經(jīng)濟 -
全球追索的恒大“二號人物”浮出水面!夏海鈞藏身美國加州爾灣
2025-08-15 10:07 觀網(wǎng)財經(jīng)-消費 -
哈根達斯與星巴克踏入同一條河流
2025-08-15 10:02 觀網(wǎng)財經(jīng)-消費 -
-
唯品會Q2財報:凈營收258億元,SVIP活躍用戶數(shù)同比增15%
2025-08-14 20:08 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
淘天集團“更名”,與餓了么、飛豬為并行關(guān)系
2025-08-14 20:07 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
穩(wěn)定幣第一股不穩(wěn)定:Q2營收增53%,但凈虧損4.82億美元
2025-08-14 20:06 金融觀察 -
傳復星集團在港申請穩(wěn)定幣牌照,此前提交“星幣”商標注冊
2025-08-14 20:05 金融觀察 -
同比少賣了7億元,康師傅上半年飲料業(yè)務(wù)失速
2025-08-14 19:31 觀網(wǎng)財經(jīng)-消費 -
22.4%!京東集團2025年Q2收入同比增速再創(chuàng)近三年新高
2025-08-14 17:53 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
騰訊Q2收入利潤雙增長,AI立大功
2025-08-14 17:50 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
聯(lián)想季度營收1362億,楊元慶:中國制造成本優(yōu)于任何地方
2025-08-14 16:10 觀網(wǎng)財經(jīng)-科創(chuàng) -
非洲市場出現(xiàn)多個人事變動,小米稱是正常調(diào)整
2025-08-14 15:58 觀網(wǎng)財經(jīng)-科創(chuàng) -
時隔六年再現(xiàn)!平安舉牌太保,保險巨頭互買點燃行情
2025-08-14 13:10 金融觀察 -
人形機器人今年產(chǎn)量僅2臺,天鏈機器人IPO可能要被“勸退”
2025-08-14 09:39 科技前沿 -
-
瓜子和豌豆賣不動了,甘源食品凈利潤腰斬
2025-08-13 19:30 觀網(wǎng)財經(jīng)-消費 -
女律師“單挑”王者榮耀,“中國游戲算法訴訟第一案”開庭
2025-08-13 19:26 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
7月DAU過2000萬,《三角洲行動》Q2實現(xiàn)用戶、收入雙線高速增長
2025-08-13 17:38 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
“中國人幾百年來都不精于消費”,怎么理解?
2025-08-13 17:11 觀網(wǎng)財經(jīng)-消費
相關(guān)推薦 -
-
最新聞 Hot
-
時隔13年,日本首相再次提到“反省”
-
從中國返美,AI專家余震難消:這場競賽或許已經(jīng)結(jié)束
-
“嘴硬王者”死犟:拉美樂意找中國就找去唄,我才不擔心…
-
逼辭CEO一周后,特朗普政府轉(zhuǎn)身又要入股英特爾
-
李在明敦促日本政府應(yīng)正視歷史:韓國不能重蹈1905年覆轍
-
“我相信,特朗普最終會讓中企在美建廠造車”
-
“看到了吧,別再為美對抗中國”
-
“俄烏有個共識:普京上大分”
-
印度外長將訪俄,討論盧比本幣計價貿(mào)易
-
石破茂向靖國神社供奉祭祀費
-
“種種舉措表明,中方超級生氣”
-
李在明發(fā)聲后,中國大使:表示贊賞
-
對華貿(mào)易,加總理終于發(fā)聲
-
小泉進次郎“拜鬼”,石破茂閣員首次
-
太倉市副市長童剛?cè)紊媳徊?,一個月前市委書記落馬
-
特朗普:“特普會”可能幾分鐘就散場,重點是下一場
-