-
華為昇騰推出高性能保精度量化方案,更好適配DeepSeek
-
萬肇生Guanchazhewanxgun
(文/萬肇生 編輯/張廣凱)
近日,華為公開了昇騰服務(wù)器上部署DeepSeek V3/R1推理的最佳實(shí)踐,并介紹了一系列創(chuàng)新技術(shù)。
其中,華為在降低計(jì)算資源需求方面,創(chuàng)新提出了昇騰親和的低比特量化解決方案OptiQuant,最終實(shí)現(xiàn)了INT8量化模式與FP8的模型推理精度持平。
由于DeepSeek V3/R1模型是基于英偉達(dá)生態(tài)訓(xùn)練,并推薦使用FP8精度推理,而國產(chǎn)芯片普遍沒有原生支持FP8精度,導(dǎo)致國產(chǎn)芯片對DeepSeek的適配不佳。華為昇騰的上述研究應(yīng)該就是為了解決這一問題。
通常情況下,在模型推理階段,進(jìn)行量化(如FP8量化為INT8)可以顯著降低模型對硬件的存儲需求和計(jì)算復(fù)雜度,但也會造成模型推理精度的損失以及邏輯錯誤等問題。因此如何保持推理精度,是低比特量化滿足不同平臺部署需求時的前提。
據(jù)華為介紹,基于BF16的DeepSeek需要1.3TB的顯存空間,同時導(dǎo)致極大的算力和跨機(jī)通信開銷。而校準(zhǔn)集的泛化性缺失導(dǎo)致了在很多任務(wù)上難以達(dá)到與原有模型相近的精度水平,甚至在某些場景下精度下降十分嚴(yán)重。同時,還要考慮如何設(shè)計(jì)昇騰親和的量化算法,以發(fā)揮硬件性能。
針對上述問題,華為提出了OptiQuant量化框架,一種高性能保精度量化方案,設(shè)計(jì)了層間自動混精、自動混合校準(zhǔn)、離群值抑制、可學(xué)習(xí)的截?cái)嗪蚐SZW參數(shù)量化算法。除了支持業(yè)界主流量化算法功能之外,它還新增支持三個功能:接入自定義量化算法和數(shù)值類型,可以將多種量化算法的自由組合搭配使用;支持業(yè)內(nèi)主流評測數(shù)據(jù)集和用戶自定義的數(shù)據(jù)校準(zhǔn)集;支持?jǐn)?shù)據(jù)并行和流水并行,針對不同大小的大語言模型實(shí)現(xiàn)精度驗(yàn)證性能加速。
OptiQuant框架主要由以下幾個模塊組成:
量化類型和數(shù)值類型:OptiQuant支持了Int2/4/8和FP8/HiFloat8等數(shù)據(jù)類型,支持業(yè)界的Qserve,HQQ,LUT等量化方法,在此基礎(chǔ)上提出了可學(xué)習(xí)截?cái)嗪土炕瘏?shù)優(yōu)化等算法,進(jìn)一步減少了量化誤差。
多樣化測試數(shù)據(jù)集和用戶自定義校準(zhǔn)集:多樣化測試數(shù)據(jù)集和用戶自定義校準(zhǔn)集:OptiQuant支持了判斷題,問答題,代碼題和數(shù)學(xué)題等多種測試類別,語種上支持了十種常見語言。此外,OptiQuant支持用戶自定義校準(zhǔn)集,提升模型量化過程中的泛化性。
量化權(quán)重生成:OptiQuant提出了自適應(yīng)層間混精算法,并且根據(jù)對應(yīng)的量化配置生成對應(yīng)的權(quán)重參數(shù),通過去冗余技術(shù)減少參數(shù)保存的參數(shù)量;OptiQuant進(jìn)一步提出了FlexSQ等算法,在數(shù)據(jù)校準(zhǔn)過程中,對大模型激活異常值進(jìn)行了平滑處理,有助于對激活做低比特量化。
最終,基于Atlas 800I A2服務(wù)器的精度測試實(shí)驗(yàn)結(jié)果顯示,對于DeepSeek-V3-0324模型,W8A8C16和W4A8C16均采用Per-channel量化,實(shí)現(xiàn)了推理精度與FP8-GPU持平。
華為表示,在DeepSeek R1/V3大模型推理場景中,實(shí)現(xiàn)了INT8量化模式與FP8的模型推理精度持平,而且進(jìn)一步發(fā)揮了華為Atlas 800I A2和CloudMatrix384集群推理硬件性能。而相關(guān)代碼也將逐步開源。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 萬肇生 
-
“去耐克化”,滔搏想做運(yùn)動品牌的“MCN”
2025-05-24 16:53 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
茶咖日報(bào)|霸王茶姬計(jì)劃內(nèi)地新增1000家門店
2025-05-23 20:06 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
餓了么上線“國補(bǔ)”,下單最高可享2000元補(bǔ)貼
2025-05-23 20:05 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
加速出海!天貓618淘寶包郵區(qū)將擴(kuò)容至全球12站
2025-05-23 20:05 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
BOSS直聘一季報(bào):營收19.23億元,凈利潤5.12億元
2025-05-23 20:03 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
美團(tuán)外賣“神搶手”日訂單量突破1000萬單
2025-05-23 17:19 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
“投資中國就是投資未來!”,多位國際品牌高管財(cái)報(bào)季密集發(fā)聲
2025-05-23 17:06 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
特朗普想換鮑威爾?美最高法院出手:美聯(lián)儲是“獨(dú)特”實(shí)體
2025-05-23 15:00 -
-
聯(lián)想楊元慶:堅(jiān)持中國作為大本營,全球化沒有終結(jié)
2025-05-23 13:20 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
近40萬臺Windows電腦被感染,微軟起訴
2025-05-23 10:33 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
黑芝麻智能華山A1000芯片助力東風(fēng)奕派2025款eπ007智雅領(lǐng)航,型動上市!
2025-05-23 10:15 -
凈利率連年走低的“燕麥第一股”,寄希望于老齡化市場突圍
2025-05-23 10:05 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
相比3納米SoC,小米自研4G基帶更值得關(guān)注
2025-05-23 09:43 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
老鋪黃金港股狂飆,潮宏基能否復(fù)制“黃金股神話”?
2025-05-22 21:11 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
雷軍:小米芯片跑分超300萬,不可能上來就吊打蘋果
2025-05-22 20:51 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
傳快手要求員工每天刷1小時短視頻,內(nèi)部人士回應(yīng)
2025-05-22 19:15 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
相關(guān)推薦 -
-
最新聞 Hot
-
“7年前就發(fā)現(xiàn)問題了,一直沒修”
-
“不如申請成中國一省” ,德國鋰企竟如此激將歐盟
-
終于換了,特朗普:我很滿意
-
要跟中國對著干?“剛果(金),別斷送發(fā)展機(jī)遇”
-
美兩員“大將”施壓未果,日本反倒成了“難啃的骨頭”
-
白宮找補(bǔ):美國很強(qiáng),不信去問伊朗
-
何君堯:建議給皇后大道、維多利亞公園改名
-
“美國自毀長城,中企憑高性價(jià)比一路高歌猛進(jìn)”
-
兩國矛盾激化,阿媒突然發(fā)文:收到匿名材料,是俄軍擊中的
-
裝不裝空調(diào),法國政客都能吵起來
-
潛入醫(yī)院裝電詐設(shè)備,騙走30萬!今年已發(fā)生多起
-
美報(bào)告炒作:中企占比近10%,“五角大樓供應(yīng)鏈極其脆弱”
-
“歐洲定居者對澳大利亞原住民,犯下種族滅絕罪”
-
好一個“舉賢不避親”,特朗普推薦兒媳參選
-
開庭前妻子墜樓身亡,柯文哲前副手痛哭:臺灣怎么變成這樣
-
美國放風(fēng):伊朗有動作了
-