-
AI落地的關(guān)鍵堵點(diǎn),華為用“黑科技”打通了
-
呂棟lvdong@guancha.cn
那能不能根據(jù)記憶熱度,在 HBM、DRAM、SSD等存儲介質(zhì)中分級緩存數(shù)據(jù),讓模型能記住的KV Cache數(shù)據(jù)更多,同時(shí)能更智能、更快速的調(diào)用數(shù)據(jù)?就像人類一樣,可以把“記憶”放在大腦、書本和電腦等不同地方,按需快速調(diào)取。
華為這次推出的 “黑科技”UCM就是類似的思路。
UCM的全稱是“推理記憶數(shù)據(jù)管理器”( Unified Cache Manager ),它 是一款以 KV Cache為中心的推理加速套件,融合了多類型緩存加速算法工具, 可以 分級管理推理過程中產(chǎn)生的 KV Cache記憶數(shù)據(jù),擴(kuò)大推理上下文窗口,以實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),降低每Token推理成本。
比如為了解決 “推得慢”的問題,UCM將 歷史已處理過的結(jié)果、歷史對話、語料庫、 RAG知識庫的數(shù)據(jù)以KV Cache的形式緩存至第三層的高性能外置共享存儲上,遇到已推理過、已緩存過的信息 不用再重新推理, 而是只用從外置存儲中查詢并調(diào)用即可,實(shí)現(xiàn)大幅推理加速,將首 token延遲降低90% , 也節(jié)省了 token by token的時(shí)間。
有了這種能力,大模型還可以記住更多的歷史內(nèi)容和對話,不用再 “重復(fù)勞動”,以前生成內(nèi)容需要10秒,現(xiàn)在可能1秒就能搞定,顯著改善推理體驗(yàn)。
這還不是這項(xiàng) “黑科技”的全部。
關(guān)注大模型的都知道,隨著推理任務(wù)越來越長,長序列推理讓大模型常常 “只有七秒鐘記憶”,比如在分析一篇萬字長文時(shí),由于HBM容量有限,緩存到前2000字可能就裝不下了,這就容易出現(xiàn)推理失敗、關(guān)鍵關(guān)聯(lián)信息丟失的情況,形成“推不動”的困境。
華為是如何解決的?
UCM通過一系列智能算法突破,對長序列內(nèi)容進(jìn)行切片,并把已處理的切片卸載到更大的DRAM或外置共享存儲,相當(dāng)于擴(kuò)充了HBM的容量,讓上下文窗口擴(kuò)大10倍、滿足長序列推理需求。換言之,模型的“記憶能力”從“記3頁紙”提升至“記30頁紙”。
更關(guān)鍵的是, 華為采用了注意力稀疏及相關(guān)技術(shù),可以識別大量 KV Cache數(shù)據(jù)的重要程度、相關(guān)性和熱度,將重要的/不重要的、相關(guān)的/不相關(guān)的數(shù)據(jù) , 分層分級地進(jìn)行緩存并流動。在下一次推理過程中,只需要把關(guān)鍵的、合適的向量提取出來即可,這也就降低了向量推理過程中向量的數(shù)量,提升整體吞吐量。
“ 面向推理加速的 KV數(shù)據(jù),一定會有熱/溫/冷,不可能都用最貴的介質(zhì),去存儲所有數(shù)據(jù)。我們做存儲系統(tǒng)有很深的體會,每類數(shù)據(jù)都有這個特征,都有一個生命周期,一定會用多層介質(zhì)解決性能問題,又平衡成本問題。 ”華為技術(shù)專家對觀察者網(wǎng)說道。
在存算協(xié)同能力深度加持下,通過多層介質(zhì)平衡性能和成本, “推得貴”也不再是難題。華為表示,無需過多投資,UCM就可以讓長序列場景下TPS(每秒處理token數(shù))提升2-22倍,相當(dāng)于降低每Token推理成本,為企業(yè)減負(fù)增效。
UCM的意義,更像是華為的另一種“系統(tǒng)補(bǔ)單點(diǎn)”,它不是為了取代HBM,而是降低了對HBM的依賴,把HBM的優(yōu)勢發(fā)揮在更合適的地方。
在這種技術(shù)加持下,企業(yè)可以維持算力投入不變,僅花銷小部分外置存儲的投資,讓緩存原地 “升級”,改善推理效率、攤薄每token推理成本,進(jìn)而形成“用戶流量增大-企業(yè)收益-進(jìn)一步擴(kuò)大AI投資-技術(shù)快速迭代”的正循環(huán),拉動中國整體AI水平提升。
聯(lián)合創(chuàng)新,驗(yàn)證技術(shù)價(jià)值
任何技術(shù)只有真正落地才能產(chǎn)生價(jià)值。華為UCM推出后,已經(jīng)攜手中國銀聯(lián)率先在金融典型場景開展UCM技術(shù)試點(diǎn)應(yīng)用。
|舉報(bào)-
違反法律法規(guī) -
垃圾信息、廣告 -
色情、淫穢信息 -
人身攻擊 -
謠言、不實(shí)信息 -
冒充,冒用信息 -
破壞社區(qū)秩序 -
其他 -
涉未成年人有害信息
- 責(zé)任編輯: 呂棟 
-
前7月全國固投同比增1.6%,房地產(chǎn)開發(fā)投資降12%
2025-08-15 10:26 宏觀經(jīng)濟(jì) -
全球追索的恒大“二號人物”浮出水面!夏海鈞藏身美國加州爾灣
2025-08-15 10:07 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
哈根達(dá)斯與星巴克踏入同一條河流
2025-08-15 10:02 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
-
淘天集團(tuán)“更名”,與餓了么、飛豬為并行關(guān)系
2025-08-14 20:07 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
穩(wěn)定幣第一股不穩(wěn)定:Q2營收增53%,但凈虧損4.82億美元
2025-08-14 20:06 金融觀察 -
傳復(fù)星集團(tuán)在港申請穩(wěn)定幣牌照,此前提交“星幣”商標(biāo)注冊
2025-08-14 20:05 金融觀察 -
同比少賣了7億元,康師傅上半年飲料業(yè)務(wù)失速
2025-08-14 19:31 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
騰訊Q2收入利潤雙增長,AI立大功
2025-08-14 17:50 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
聯(lián)想季度營收1362億,楊元慶:中國制造成本優(yōu)于任何地方
2025-08-14 16:10 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
非洲市場出現(xiàn)多個人事變動,小米稱是正常調(diào)整
2025-08-14 15:58 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
時(shí)隔六年再現(xiàn)!平安舉牌太保,保險(xiǎn)巨頭互買點(diǎn)燃行情
2025-08-14 13:10 金融觀察 -
人形機(jī)器人今年產(chǎn)量僅2臺,天鏈機(jī)器人IPO可能要被“勸退”
2025-08-14 09:39 科技前沿 -
-
瓜子和豌豆賣不動了,甘源食品凈利潤腰斬
2025-08-13 19:30 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
女律師“單挑”王者榮耀,“中國游戲算法訴訟第一案”開庭
2025-08-13 19:26 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
“中國人幾百年來都不精于消費(fèi)”,怎么理解?
2025-08-13 17:11 觀網(wǎng)財(cái)經(jīng)-消費(fèi)
相關(guān)推薦 -
-
俄美過招!這出戲怎么演?各持什么籌碼? 評論 0被特朗普“豎中指”,盟友“迄今最大反擊”來了 評論 76最新聞 Hot
-
卸任后狂吐槽,“誰來說說,我訪華怎么就威脅國安了?”
-
俄美過招!這出戲怎么演?各持什么籌碼?
-
“要是不算上中國,全球進(jìn)度為0…”
-
海爾老總周云杰到福耀科技大學(xué),與曹德旺、王樹國面談
-
時(shí)隔13年,日本首相再次提到“反省”
-
特朗普和普京有過哪幾次見面,聊了些啥?
-
英國防部承認(rèn):核潛艇基地發(fā)生過“嚴(yán)重核事故”
-
從中國返美,AI專家余震難消:這場競賽或許已經(jīng)結(jié)束
-
“嘴硬王者”死犟:拉美樂意找中國就找去唄,我才不擔(dān)心…
-
特朗普政府考慮入股,英特爾股價(jià)飆漲7%
-
李在明敦促日本政府應(yīng)正視歷史:韓國不能重蹈1905年覆轍
-
“我相信,特朗普最終會讓中企在美建廠造車”
-
“看到了吧,別再為美對抗中國”
-
“俄烏有個共識:普京上大分”
-
印度外長將訪俄,討論盧比本幣計(jì)價(jià)貿(mào)易
-
石破茂向靖國神社供奉祭祀費(fèi)
-