-
AI落地的關(guān)鍵堵點(diǎn),華為用“黑科技”打通了
-
呂棟lvdong@guancha.cn
為什么會(huì)率先選擇金融場(chǎng)景?
華為技術(shù)專家告訴觀察者網(wǎng),金融行業(yè)大模型推理有三個(gè)核心難題。首先是 “推不動(dòng)”,無論生產(chǎn)環(huán)境的投研分析,還是輿情分析,都會(huì)涉及非常多的長(zhǎng)序列輸入,像一份投研報(bào)告可能就是上兆級(jí)別的,精準(zhǔn)營(yíng)銷需要輸入的上下文基本也是長(zhǎng)序列,容易出現(xiàn)關(guān)鍵信息丟失;其次是“推得慢”,核心是并發(fā)上不去,上去之后每token時(shí)延特別長(zhǎng);最后“推得貴”,原因是需要耗費(fèi)大量的算力,做KV Cache的重復(fù)計(jì)算。
“難題是長(zhǎng)序列推理,我們與客戶的對(duì)話時(shí)長(zhǎng)非常長(zhǎng),轉(zhuǎn)化成文字之后會(huì)形成大量歷史對(duì)話和內(nèi)容,通過KV Cache的方式會(huì)擠占我們的顯存,瓶頸就變成了顯存,因?yàn)槲覀円彺娲罅康腒V Cache,但是我們顯存有限?!敝袊?guó)銀聯(lián)相關(guān)負(fù)責(zé)人說道。
于是,華為和中國(guó)銀聯(lián)開展了 UCM技術(shù)聯(lián)合創(chuàng)新。一方面是將計(jì)算過的KV Cache數(shù)據(jù),從顯存分片卸載到內(nèi)存和存儲(chǔ),緩解顯存的壓力,使其能處理更長(zhǎng)序列的數(shù)據(jù);另一方面是使用注意力稀疏技術(shù),讓大模型可以區(qū)分KV Cache緩存中,有哪些數(shù)據(jù)是和這次推理相關(guān)度最高的,只要把關(guān)鍵的向量獲取出來,就可以降低推理時(shí)間,提高吞吐量。
就是在這種聯(lián)合創(chuàng)新技術(shù)試點(diǎn)中, UCM的技術(shù)價(jià)值得到了充分驗(yàn)證。
在中國(guó)銀聯(lián) “客戶之聲”業(yè)務(wù)場(chǎng)景下,借助UCM技術(shù)及工程化手段,大模型推理速度提升125倍,僅需10秒即可精準(zhǔn)識(shí)別客戶高頻問題。在“營(yíng)銷策劃”場(chǎng)景中,過去需要數(shù)分鐘才能生成一份的營(yíng)銷策劃案,現(xiàn)在縮短至10秒以內(nèi),且單臺(tái)服務(wù)器可支持超過5名營(yíng)銷人員同時(shí)在線協(xié)作。而在“辦公助手”場(chǎng)景中,對(duì)于超過17萬Token的超長(zhǎng)會(huì)議語音進(jìn)行轉(zhuǎn)寫和紀(jì)要生成,借助UCM也能輕松應(yīng)對(duì),擺脫了“推不動(dòng)”的困境。
那 UCM未來能否應(yīng)用到其他場(chǎng)景,助推AI落地千行百業(yè)?華為技術(shù)專家給出肯定答復(fù)。
“ 隨著 Agentic AI時(shí)代 到來 ,信息量爆炸,體現(xiàn)在模型側(cè)是顯存不足以及推理 Token成本的問題。 UCM方案 是去解決這一類的問題,不是一個(gè)單點(diǎn),只是在金融行業(yè)首先應(yīng)用起來,未來在各行各業(yè)一旦 AI發(fā)揮真正的價(jià)值 , 都會(huì)走向這個(gè)領(lǐng)域。 ”他對(duì)觀察者網(wǎng)說道。
填補(bǔ)生態(tài)短板,華為再度開源
隨著推理性能的重要性不斷提升,業(yè)界其實(shí)也都在探索 KV Cache分級(jí)緩存管理技術(shù)。比如英偉達(dá)今年5月就推出了分布式推理服務(wù)框架Dynamo,支持將KV Cache緩存從GPU內(nèi)存卸載到CPU、SSD甚至網(wǎng)絡(luò)存儲(chǔ),解決大模型顯存瓶頸,避免重復(fù)計(jì)算。
- 責(zé)任編輯: 呂棟 
-
前7月全國(guó)固投同比增1.6%,房地產(chǎn)開發(fā)投資降12%
2025-08-15 10:26 宏觀經(jīng)濟(jì) -
全球追索的恒大“二號(hào)人物”浮出水面!夏海鈞藏身美國(guó)加州爾灣
2025-08-15 10:07 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
哈根達(dá)斯與星巴克踏入同一條河流
2025-08-15 10:02 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
-
淘天集團(tuán)“更名”,與餓了么、飛豬為并行關(guān)系
2025-08-14 20:07 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
穩(wěn)定幣第一股不穩(wěn)定:Q2營(yíng)收增53%,但凈虧損4.82億美元
2025-08-14 20:06 金融觀察 -
傳復(fù)星集團(tuán)在港申請(qǐng)穩(wěn)定幣牌照,此前提交“星幣”商標(biāo)注冊(cè)
2025-08-14 20:05 金融觀察 -
同比少賣了7億元,康師傅上半年飲料業(yè)務(wù)失速
2025-08-14 19:31 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
騰訊Q2收入利潤(rùn)雙增長(zhǎng),AI立大功
2025-08-14 17:50 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
-
時(shí)隔六年再現(xiàn)!平安舉牌太保,保險(xiǎn)巨頭互買點(diǎn)燃行情
2025-08-14 13:10 金融觀察 -
人形機(jī)器人今年產(chǎn)量?jī)H2臺(tái),天鏈機(jī)器人IPO可能要被“勸退”
2025-08-14 09:39 科技前沿 -
-
瓜子和豌豆賣不動(dòng)了,甘源食品凈利潤(rùn)腰斬
2025-08-13 19:30 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
女律師“單挑”王者榮耀,“中國(guó)游戲算法訴訟第一案”開庭
2025-08-13 19:26 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
“中國(guó)人幾百年來都不精于消費(fèi)”,怎么理解?
2025-08-13 17:11 觀網(wǎng)財(cái)經(jīng)-消費(fèi)
相關(guān)推薦 -
-
俄美過招!這出戲怎么演?各持什么籌碼? 評(píng)論 0AI落地的關(guān)鍵堵點(diǎn),華為用“黑科技”打通了 評(píng)論 96倒計(jì)時(shí)1天!普京表態(tài):美方積極努力 評(píng)論 62被特朗普“豎中指”,盟友“迄今最大反擊”來了 評(píng)論 76最新聞 Hot
-
卸任后狂吐槽,“誰來說說,我訪華怎么就威脅國(guó)安了?”
-
俄美過招!這出戲怎么演?各持什么籌碼?
-
“要是不算上中國(guó),全球進(jìn)度為0…”
-
海爾老總周云杰到福耀科技大學(xué),與曹德旺、王樹國(guó)面談
-
時(shí)隔13年,日本首相再次提到“反省”
-
特朗普和普京有過哪幾次見面,聊了些啥?
-
英國(guó)防部承認(rèn):核潛艇基地發(fā)生過“嚴(yán)重核事故”
-
從中國(guó)返美,AI專家余震難消:這場(chǎng)競(jìng)賽或許已經(jīng)結(jié)束
-
“嘴硬王者”死犟:拉美樂意找中國(guó)就找去唄,我才不擔(dān)心…
-
特朗普政府考慮入股,英特爾股價(jià)飆漲7%
-
李在明敦促日本政府應(yīng)正視歷史:韓國(guó)不能重蹈1905年覆轍
-
“我相信,特朗普最終會(huì)讓中企在美建廠造車”
-
“看到了吧,別再為美對(duì)抗中國(guó)”
-
“俄烏有個(gè)共識(shí):普京上大分”
-
印度外長(zhǎng)將訪俄,討論盧比本幣計(jì)價(jià)貿(mào)易
-
石破茂向靖國(guó)神社供奉祭祀費(fèi)
快訊- 中方在世貿(mào)組織起訴加拿大,商務(wù)部回應(yīng)
- 國(guó)防部:美方得了“健忘癥”?
- 《求是》發(fā)表習(xí)近平總書記重要文章《促進(jìn)民營(yíng)經(jīng)濟(jì)健康發(fā)展、高質(zhì)量發(fā)展》
- 我駐日使館表態(tài)
- 哈佛學(xué)者馬丁·普克納對(duì)談宋明煒、黃峪:人類文明如何在交流與傳承中迸發(fā)新的活力?
- 專業(yè)人士:“追蹤定位”功能,就是植入“后門”的一種
- 匯源控制權(quán)爭(zhēng)奪戰(zhàn)升級(jí),國(guó)民果汁何去何從?
- 九識(shí)智能成立數(shù)月就實(shí)現(xiàn)無人車量產(chǎn),京東報(bào)警了
-