-
潘禺:理解DeepSeek的中國式創(chuàng)新,要先回顧深度學(xué)習(xí)的歷史
注意力機(jī)制與Transformer的誕生
如果說CNN和RNN各司其職,那么2017年的Transformer則是一場徹底的革命。由Vaswani等人提出的Transformer,用“自注意力機(jī)制”取代了傳統(tǒng)的RNN結(jié)構(gòu),實現(xiàn)了序列數(shù)據(jù)的并行處理。
什么是注意力機(jī)制?2014年,Bahdanau等人提出了注意力機(jī)制(Attention Mechanism),用于機(jī)器翻譯任務(wù)。
這一機(jī)制的提出針對的是傳統(tǒng)序列到序列(seq2seq)模型的不足,特別是在長序列輸入的情況下,模型在生成翻譯時往往難以有效捕捉到輸入序列的關(guān)鍵信息。前面所說的RNN及其變體LSTM都可以被歸類為傳統(tǒng)的seq2seq模型。
在傳統(tǒng)的seq2seq模型中,通常使用編碼器-解碼器結(jié)構(gòu),其中編碼器將整個輸入序列壓縮成一個固定長度的上下文向量,這個向量隨后被解碼器用于生成輸出序列。然而,編碼器將所有信息映射到一個固定長度的向量,導(dǎo)致對長序列的信息壓縮不足,使得模型在處理長文本時喪失了重要的上下文信息。此外,固定長度的上下文向量限制了模型的表達(dá)能力,導(dǎo)致性能下降。
Dzmitry Bahdanau
Bahdanau等人的注意力機(jī)制允許模型在解碼時,根據(jù)當(dāng)前生成的詞動態(tài)地關(guān)注輸入序列中的不同部分,這樣就可以有效地捕捉到與輸出相關(guān)的輸入信息,而不是依賴于一個固定的上下文向量,從而提升了性能。注意力機(jī)制使得模型更容易捕捉長距離依賴關(guān)系,因為模型在每個時間步都可以選擇關(guān)注距離較遠(yuǎn)的輸入部分。
注意力機(jī)制的核心思想是為輸入序列的每個元素分配一個權(quán)重,這些權(quán)重表示在生成輸出時各元素的重要性。通過這種方式,模型可以在許多輸入中判斷出哪些是最相關(guān)的。
注意力機(jī)制的設(shè)計理念直接影響了后來的Transformer架構(gòu),使得Transformer能夠利用注意力機(jī)制進(jìn)行高效的序列處理。
2017年,Ashish Vaswani等人提出了Transformer模型,這一模型在自然語言處理(NLP)領(lǐng)域取得了革命性的進(jìn)展。Transformer的提出,標(biāo)志著從循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)到基于注意力機(jī)制的新一代序列處理架構(gòu)的轉(zhuǎn)變。其論文《Attention is All You Need》不僅明確了Transformer的結(jié)構(gòu)和功能,還展現(xiàn)了如何利用注意力機(jī)制來取代傳統(tǒng)的RNN結(jié)構(gòu)。
Ashish Vaswani
在Transformer出現(xiàn)之前,自然語言處理中廣泛使用的架構(gòu)是基于RNN(如LSTM和GRU)的方法。RNN使用序列方式處理信息,這意味著模型一次只處理一個單詞或一個時間步。這種方式效率較低,并且難以捕捉長距離詞匯之間的關(guān)系。這就像在看一本書時,每次只能看一頁,而無法快速把上下文全部整合起來。
盡管RNN能夠有效處理序列數(shù)據(jù),具有遞歸性質(zhì)的網(wǎng)絡(luò)結(jié)構(gòu)在長序列任務(wù)時卻存在一些問題。由于RNN的時間步依賴性,訓(xùn)練時必須依次處理輸入序列,造成并行化處理的困難。此外,在從一個固定長度的上下文向量中提取信息時,RNN會損失許多關(guān)鍵信息。最后,盡管LSTM部分解決了梯度消失問題,但對于長距離依賴的捕捉仍然有限,特別在處理非常長的文本時表現(xiàn)不佳。
LSTM通過遞歸的方式處理序列數(shù)據(jù),使用隱藏狀態(tài)和細(xì)胞狀態(tài)來捕捉時間上的依賴關(guān)系。它的每個輸出都依賴于前一個時間步的狀態(tài)。
Transformer使用自注意力機(jī)制并行處理輸入序列,允許所有位置的輸入在同一時間步內(nèi)相互聯(lián)系。該機(jī)制支持模型對所有輸入位置的動態(tài)關(guān)注。
Transformer模型通過完全依賴自注意力機(jī)制解決了上述問題。Attention機(jī)制是Transformer的核心。它允許模型在處理單詞時,根據(jù)上下文的其他單詞的相關(guān)性動態(tài)調(diào)整關(guān)注點。具體來說,Attention可以回答這樣一個問題:“在生成這個單詞時,哪些其他單詞我需要特別關(guān)注?”
Transformer就像是一個高效的團(tuán)隊,每位專家在開會時可以直接和其他所有專家討論,快速解決問題,而不需要逐層傳遞消息。
每位專家就是輸入序列中的一個詞,例如,你有一句話:“The cat sat on the mat”。每個詞可以看作一個專家,每位專家都關(guān)心自己和其他詞的關(guān)系。自注意力機(jī)制使得模型能夠根據(jù)輸入的每個位置動態(tài)地關(guān)注其他位置的信息。在生成每個輸出時,模型會計算與所有輸入位置的相關(guān)性,從而選擇性地聚焦在相關(guān)信息上。
通過并行計算多個自注意力機(jī)制,Transformer能夠在不同的子空間中學(xué)習(xí)信息。就像每位專家可以從多個角度分析問題。例如,一個頭關(guān)注語法結(jié)構(gòu),另一個頭關(guān)注語義關(guān)聯(lián),最終結(jié)合所有角度得出更完整的結(jié)論。這種多角度思考就是多頭注意力(Multi-Head Attention)。
每位專家會根據(jù)問題的重要性計算一個“交流表”,這個表告訴他們應(yīng)該重點關(guān)注哪些同事。例如,“on”可能需要重點聽取“sat”和“mat”的信息,而不需要過多關(guān)注“the”。如果說交流表就是Attention,那么同時討論就是并行處理,所有專家可以同時查看“交流表”,并綜合其他人的意見,更新自己的理解。這種并行討論比傳統(tǒng)的逐個傳遞信息(如 RNN)更快。為了避免開會討論變得混亂,每次更新專家意見時,都要保留原始信息,并對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
理解了多頭注意力(Multi-Head Attention),就能理解被稱道的中國大模型創(chuàng)業(yè)公司DeepSeek,在模型架構(gòu)上進(jìn)行的深度創(chuàng)新是什么。DeepSeek推出了一種新的多頭潛在注意力(MLA)機(jī)制,與傳統(tǒng)的多頭注意力(MHA)架構(gòu)相比,其顯存占用了過去最常用的MHA架構(gòu)的5%-13%。
在MHA中,輸入被映射為查詢(Query)、鍵(Key)和值(Value),然后通過計算這些向量之間的相似性來生成注意力權(quán)重,最終通過加權(quán)求和獲得輸出。這種機(jī)制的優(yōu)點在于能夠捕捉輸入數(shù)據(jù)中的局部和全局信息,但其缺點在于對顯存和計算資源的需求較高。
而MLA架構(gòu)引入了一個潛在化的概念,意味著它在處理輸入信息時會利用一些更高效的計算方式以減少資源占用。在這個架構(gòu)中,有效的對輸入進(jìn)行一定的預(yù)處理,從而在生成查詢、鍵和值時減少了相關(guān)的數(shù)據(jù)量。MLA架構(gòu)還在分配注意力時采用了一種更靈活的方式,使得在處理不同輸入時,系統(tǒng)能夠更加智能地選擇關(guān)注的特征,而不是一味地產(chǎn)生多個頭部的注意力。這種動態(tài)選擇能力不僅可以優(yōu)化計算資源的使用,同時也提升了模型的性能。
此外,通過對輸入信息進(jìn)行選擇性地壓縮和簡化,MLA能夠顯著減少需要存儲和計算的維度,也就是減少了參數(shù)的數(shù)量,使得模型能夠在保留信息的前提下大幅降低對顯存的需求。
沒有終點的深度學(xué)習(xí)探險
以自注意力機(jī)制為核心思想的Transformer,在深度學(xué)習(xí)歷史上有著革命性的地位。
Transformer模型相較于傳統(tǒng)RNN具有顯著的優(yōu)勢,因為Transformer模型不再依賴于時間序列的遞歸結(jié)構(gòu),而是使用矩陣運算實現(xiàn)自注意力,高效的并行計算可以在訓(xùn)練時大幅提高計算效率。通過自注意力機(jī)制,Transformer可以直接關(guān)注輸入序列的任意部分,從而顯著增強了模型對長距離依賴關(guān)系的建模能力。
從上述介紹中不難理解,Transformer架構(gòu)天然適合處理語言任務(wù)。Transformer的提出迅速改變了NLP領(lǐng)域的格局,催生了一系列新型模型。GPT(Generative Pre-trained Transformer)就是一系列基于Transformer架構(gòu)的生成式預(yù)訓(xùn)練模型,專門用于自然語言處理(NLP)任務(wù)。
GPT具體使用Transformer中的解碼器部分。其主要由多層自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)組成,強調(diào)的是生成能力,適用于文本生成、對話系統(tǒng)和其他自然語言生成任務(wù)。GPT的輸入是上下文文本,輸出則是生成的下一個Token(單詞或字符),通過逐步生成文本來實現(xiàn)完整的文本。
GPT采用了預(yù)訓(xùn)練的方式,使用大量未標(biāo)記文本進(jìn)行訓(xùn)練,以捕捉語言的基本特性和結(jié)構(gòu)。這一過程使得模型能夠理解語言特征,對計算機(jī)生成語言能力的提升至關(guān)重要。在特定任務(wù)上,GPT通常會在預(yù)訓(xùn)練之后進(jìn)行微調(diào),使之在特定NLP任務(wù)(如文本分類、問答、對話生成等)中表現(xiàn)更好。微調(diào)依賴于特定任務(wù)的標(biāo)記數(shù)據(jù),確保模型能夠適應(yīng)新的應(yīng)用場景。
從感知機(jī)到Transformer,深度學(xué)習(xí)的每一步都在不斷突破技術(shù)極限。如今,得益于GPU的進(jìn)步和大規(guī)模數(shù)據(jù)集(如ImageNet)的支持,深度學(xué)習(xí)已經(jīng)從實驗室走向現(xiàn)實世界。盡管我們已經(jīng)看到了深度學(xué)習(xí)的巨大潛力,但它的未來依然充滿挑戰(zhàn)與可能?;蛟S,下一個改變世界的創(chuàng)新,就在這條探險之路上等待著被發(fā)現(xiàn)。
本文系觀察者網(wǎng)獨家稿件,文章內(nèi)容純屬作者個人觀點,不代表平臺觀點,未經(jīng)授權(quán),不得轉(zhuǎn)載,否則將追究法律責(zé)任。關(guān)注觀察者網(wǎng)微信guanchacn,每日閱讀趣味文章。
標(biāo)簽 心智觀察所- 原標(biāo)題:理解DeepSeek的中國式創(chuàng)新,要先回顧深度學(xué)習(xí)的歷史 本文僅代表作者個人觀點。
- 責(zé)任編輯: 李昊 
-
探索宇宙線起源之謎再添“觀天”利器
2025-01-21 20:09 天文 -
最大載重1.9噸,國產(chǎn)大型無人機(jī)首次實現(xiàn)量產(chǎn)交付
2025-01-20 22:12 中國精造 -
我國成功發(fā)射云遙一號37~40星等5顆衛(wèi)星
2025-01-20 21:59 航空航天 -
新跨越!中國“人造太陽”創(chuàng)造“億度千秒”世界紀(jì)錄
2025-01-20 21:26 能源戰(zhàn)略 -
“畫地為牢,作繭自縛”,這八個字將在美國身上應(yīng)驗
2025-01-20 08:24 心智觀察所 -
英偉達(dá),只是時代的偶然?
2025-01-16 09:36 人工智能 -
全球唯一!中國率先將美國學(xué)者設(shè)想變?yōu)楝F(xiàn)實
2025-01-16 09:28 科技前沿 -
全國首例!跨市自動駕駛公交來了
2025-01-14 19:49 -
我國建立世界第一套微波亮溫度國家計量基準(zhǔn)
2025-01-13 15:38 科技前沿 -
2025開年大戲:馬斯克揚言奮不顧身一戰(zhàn)的背后
2025-01-09 08:13 心智觀察所 -
國內(nèi)首次!這一技術(shù)應(yīng)用于管道研究,測試完成
2025-01-06 17:40 科技前沿 -
公眾對低空經(jīng)濟(jì)的認(rèn)知度仍不高,如何解決?
2025-01-06 08:42 心智觀察所 -
我國腦機(jī)接口技術(shù)實現(xiàn)漢語實時編解碼重大突破
2025-01-06 07:57 科技前沿 -
研制成功!我國這一關(guān)鍵技術(shù)實現(xiàn)重大突破
2024-12-30 14:59 中國精造 -
華為:懸賞300萬元
2024-12-30 10:08 華為 -
我國新一代智能高鐵有望2027年落地
2024-12-30 09:02 高鐵世紀(jì) -
“量子”狼不再嚇崩比特幣
2024-12-30 08:24 心智觀察所 -
又添一大國利器!“探索三號”正式入列
2024-12-29 10:44 中國精造 -
我國首次實現(xiàn)!又一重大突破
2024-12-28 21:08 航空航天 -
嫦娥五號月球樣品向公眾開放!
2024-12-28 16:12 航空航天
相關(guān)推薦 -
最新聞 Hot
-
特朗普要求“大搞特搞”,美團(tuán)體急了:沒中國不行
-
“美國人,真正該擔(dān)心的時候到了”
-
涉及中國,韓企與美國“一拍即合”
-
歐洲學(xué)者:現(xiàn)在,中國能不能反過來幫幫我們?
-
印度“硬剛”:將報復(fù)美國
-
“歐洲同行都覺得,未來十年誰將主導(dǎo)已無懸念,不會是美國”
-
普京:全世界都想進(jìn)入中國市場
-
馬斯克:對!全面公布所有文件
-
美方恢復(fù)出口,“不是恩賜也不是讓步,是我們斗爭來的”
-
想得真美!“美越協(xié)議這一條,旨在孤立中國…”
-
“美國政府像青少年,拿信用卡揮霍,直到…”
-
“聽到東方驚雷了嗎?那是14億中國人在笑話美國”
-
“以色列和俄羅斯正進(jìn)行秘密會談”
-
佩通坦基本盤還穩(wěn)嗎?泰國權(quán)力天平傾向何方
-
“不同于西方,中國正建設(shè)由技術(shù)驅(qū)動的福利模式”
-
中國駐泰國大使館:被騙至緬甸的男模特已獲救
-