-
潘禺:理解DeepSeek的中國式創(chuàng)新,要先回顧深度學習的歷史
【文/觀察者網(wǎng)專欄作者 潘禺】
深度學習,這個在科技圈的熱門詞匯,究竟為何讓人如此著迷?它就像一個數(shù)據(jù)的探險家,借助深層神經網(wǎng)絡(DNN)在信息的海洋中探尋奧秘。而這里的“深度”就意味著一個層層深入的學習過程,能從復雜的數(shù)據(jù)中自動提取有價值的特征,無需人類費勁心力去設計。
不論是圖像識別還是自然語言處理,深度學習已經成為它們的幕后英雄。然而,當你聽到GPT或Transformer的名字時,是不是總忍不住想知道它們背后的秘密?
近來在網(wǎng)上被熱捧的中國“AI界拼多多”DeepSeek,以模型架構的創(chuàng)新,在性能表現(xiàn)出眾的同時節(jié)約了顯存和計算資源,證明了中國人不是只能做從1-10的應用創(chuàng)新,也能做從0-1的技術創(chuàng)新。你也許聽說過其創(chuàng)新的架構設計,叫多頭潛在注意力(MLA)機制,想粗淺理解一下這是什么意思?
這正是本文的目的——用通俗易懂的語言,心智觀察所帶你回顧深度學習的發(fā)展史,從感知機的萌芽到GPT的輝煌,揭開那些重要的技術突破。
從感知機到深度神經網(wǎng)絡
讓我們回到1958年,那時候,F(xiàn)rank Rosenblatt提出了感知機,這可是神經網(wǎng)絡的鼻祖。感知機就像一個簡單的開關,接收信號,加權計算,然后通過一個神奇的激活函數(shù)決定是開還是關。這就像是在說:“嘿,這個圖像是貓還是狗?”如果信號足夠強,它就會說:“是貓!”否則就是:“不是貓!”通過學習,感知機能夠調整自己的權重,變得越來越聰明。
感知機的基本結構類似于生物神經元,它接收多個輸入信號,并通過加權計算生成一個輸出信號。每個輸入代表一個特定的特征,例如圖像中的像素值。每個輸入都有一個與之關聯(lián)的權重,感知機會將所有輸入乘以相應的權重,并將結果求和。
求和后的結果通過一個激活函數(shù),決定輸出是0還是1。例如,如果和超過某個閾值,感知機輸出1,表示屬于某個類別;否則輸出0。通過一組已標注的訓練數(shù)據(jù),感知機可以調整輸入的權重,以不斷優(yōu)化其判斷的準確性。
感知機特別適合用于處理線性可分的問題,比如簡單的分類任務,例如判斷一封電子郵件是“垃圾郵件”還是“正常郵件”。然而,感知機也有其局限性,它只能處理線性可分的情況,也就是說,對于一些更加復雜的非線性問題(例如某些圖像識別任務),單層感知機無法得到正確的分類。
盡管感知機有其局限性,但它的提出標志著神經網(wǎng)絡技術的開端,隨后更復雜的多層神經網(wǎng)絡得到了發(fā)展。
多層神經網(wǎng)絡(也稱為深度神經網(wǎng)絡)通常由多個層次構成,包括輸入層、隱藏層和輸出層。每一層由多個神經元組成,神經元之間通過權重連接,形成一個復雜的網(wǎng)絡結構。當輸入數(shù)據(jù)通過網(wǎng)絡時,逐層進行處理和變換,從而實現(xiàn)最終的輸出。
到了1986年,三位大師Rumelhart、Hinton和Williams推出了反向傳播(Backpropagation)算法,為訓練多層神經網(wǎng)絡開辟了新天地。這套算法的核心理念是:當模型預測錯了,就通過誤差信息“反向追蹤”,告訴每一層網(wǎng)絡的權重該如何調整。
Geoffrey Hinton
想象一下,反向傳播就像是老師在批改作業(yè),指出學生的錯誤并給予具體的改進建議。它通過鏈式法則計算梯度,逐層調整權重,最終讓模型的預測誤差越來越小。
梯度計算的目的是為了找到損失函數(shù)的最小值。損失函數(shù)衡量了網(wǎng)絡預測輸出與實際輸出之間的差異,優(yōu)化的過程就是通過調整網(wǎng)絡中的權重和偏差來使得損失函數(shù)的值不斷降低,從而提高模型的預測性能。
反向傳播算法的核心在于通過鏈式法則有效地計算每個參數(shù)(權重)的梯度,從而優(yōu)化網(wǎng)絡的性能。
整個過程中,在網(wǎng)絡中輸入數(shù)據(jù),神經元通過激活函數(shù)計算輸出,從輸入層一路傳播到輸出層。預測輸出與實際輸出之間的誤差(損失函數(shù))被計算出來,這個誤差將用于后續(xù)的權重更新。
反向傳播從輸出層開始,首先,計算輸出層每個神經元的誤差,通常使用均方誤差(MSE)等損失函數(shù)來衡量。然后,通過鏈式法則將輸出層的誤差向后傳播到每一個隱藏層。對每一層神經元的各個權重進行求導,計算出每個權重對應的梯度。最后,使用計算得到的梯度信息,通過優(yōu)化算法(如梯度下降法),調整網(wǎng)絡中的權重,以減小預測誤差。這一過程會反復進行,直至網(wǎng)絡收斂到一個較低的誤差水平。
盡管這一算法解決了訓練深層網(wǎng)絡的技術難題,但受限于當時的計算資源和數(shù)據(jù)量,深度學習的發(fā)展仍然步履蹣跚。
梯度消失也是一個問題,隨著網(wǎng)絡層數(shù)的增加,反向傳播過程中,誤差的梯度可能會逐漸減小至接近零,導致權重更新變得非常緩慢,影響模型的學習效果。
卷積神經網(wǎng)絡與循環(huán)神經網(wǎng)絡
面對深度學習的瓶頸,科學家們開始研發(fā)針對不同任務的專用網(wǎng)絡模型。其中,卷積神經網(wǎng)絡(CNN)和循環(huán)神經網(wǎng)絡(RNN)成為了兩大明星。
卷積神經網(wǎng)絡(CNN)是為了解決傳統(tǒng)深度神經網(wǎng)絡在處理圖像數(shù)據(jù)時的效率和精度問題而提出的。CNN通過引入卷積操作,優(yōu)化了網(wǎng)絡結構,有效地解決了一系列圖像處理中的挑戰(zhàn)。
想象一下,你是一位偵探,正在分析一幅復雜的地圖(例如城市的俯視圖)。這幅地圖包含許多細節(jié):道路、建筑物、河流等。為了找到重要的信息,你不會一次性看完整張地圖,而是使用一個“放大鏡”逐步掃描地圖的不同區(qū)域。
放大鏡就是卷積核,放大鏡是一個固定大小的工具(例如 3x3 的矩陣),你用它覆蓋地圖的一個小區(qū)域(感受野),捕捉局部特征(如建筑物形狀或道路交叉口)。
逐步移動放大鏡就是卷積操作,你會逐步移動放大鏡(滑動窗口),掃描整張地圖。每次移動時,你記錄下當前區(qū)域的特征。每個小區(qū)域的分析結果都會形成一張“總結表”(特征圖),告訴你哪些區(qū)域更重要。多層放大鏡就是多層卷積,你可以用不同的放大鏡(卷積核)關注不同的細節(jié),例如一個看建筑形狀,另一個看道路模式。經過多層分析后,你能更全面地理解整張地圖。
與CNN不同,循環(huán)神經網(wǎng)絡(RNN)是為了解決序列數(shù)據(jù)學習任務而提出的,它特別適合處理時間序列或序列數(shù)據(jù)(如文本、音頻等)。
想象你正在閱讀一本小說,而不是一口氣看完整本書,你會逐句閱讀,并不斷記住之前的信息,以便理解當前的情節(jié)。
當前句子就是當前時間步的數(shù)據(jù),每次你只看一小段內容(一個時間步的輸入,例如一個單詞或一句話)。你的記憶力就是隱藏狀態(tài)(Hidden State),你會用“記憶力”記住之前的內容(例如上一章發(fā)生了什么),并結合當前句子的內容,理解當前的情節(jié)。每次閱讀新的句子時,你的理解依賴于之前的記憶。
例如,讀到“她突然哭了”時,你需要記得前面提到她失去了最好的朋友。這種前后依賴就是循環(huán)結構。如果你的記憶力有限(梯度消失問題),可能會忘記很久之前的細節(jié)。例如,剛讀完的句子影響最大,而幾章之前的內容逐漸淡忘。遺忘舊信息,對應于模型中的信息遺忘機制。
CNN就像一位用放大鏡掃描圖片的偵探,逐步提取局部信息并整合成全局理解,非常適合處理圖像數(shù)據(jù)。RNN就像一個讀者,逐步讀取和理解時間序列數(shù)據(jù)(例如文本或語音),通過記憶力捕捉前后文的關聯(lián)。
RNN在處理時間序列數(shù)據(jù)時,會遇到的梯度消失和梯度爆炸問題。梯度消失是指,在反向傳播過程中,隨著時間步的增加,梯度值可能不斷減小,最終導致網(wǎng)絡難以更新前面時刻的權重。這使得模型無法有效學習長程依賴的信息。相反,某些情況下,梯度可能會迅速增大,導致數(shù)值不穩(wěn)和模型難以訓練,這就是梯度爆炸。
另外,傳統(tǒng)RNN在處理上下文關聯(lián)時,較難捕捉到長時間間隔的依賴關系。例如,在分析一段文本時,可能需要理解更早時間位置的信息,而標準RNN的設計無法保證。
為了解決這些問題,Sepp Hochreiter和Jürgen Schmidhuber在1997年提出一種特殊類型的遞歸神經網(wǎng)絡(RNN),也就是長短時記憶網(wǎng)絡(LSTM,Long Short-Term Memory)。LSTM通過引入門控機制,有效解決了上述問題。
Jürgen Schmidhuber
想象你在聽一場漫長的演講。速記員需要快速記錄演講中的關鍵內容,同時避免被冗長的信息淹沒。
速記員有一本筆記本,專門用來記錄重要的內容(長期記憶),但他必須謹慎選擇哪些信息應該保留。筆記本就是細胞狀態(tài)(Cell State),可以理解為記憶單元,能夠存儲信息,并在序列處理過程中通過門控機制進行調整。記憶單元的狀態(tài)可以在長時間內保持,不易受到梯度消失的影響。
速記員會根據(jù)當前聽到的話,判斷哪些信息值得記錄。如果是重要內容(例如演講的核心觀點),就寫入筆記本;如果是無關信息(例如冗長的細節(jié)),就忽略。速記員的耳朵就是輸入門(Input Gate),輸入門控制信息的流入,即決定哪些新信息需要加入到記憶單元。它通過激活函數(shù)的組合來實現(xiàn),輸出值在0到1之間,控制著輸入的程度。
為了保持筆記簡潔,速記員會定期用橡皮擦擦掉不再重要的信息。例如,早前提到的背景內容可能在后續(xù)的演講中已經無用。速記員的橡皮擦就是遺忘門(Forget Gate),遺忘門用于控制記憶單元中信息的丟棄程度,決定哪些信息是多余的或不需要保持的。它也是通過激活函數(shù)來實現(xiàn),輸出值越接近1,表示越應該保留信息。
每當有人問速記員演講的核心內容時,他會從筆記本中提取關鍵點,用清晰的語言表達出來。速記員的總結就是輸出門(Output Gate),輸出門決定從記憶單元中輸出哪些信息,它根據(jù)當前輸入和前一個隱狀態(tài)來設置輸出的權重。
LSTM就像一位精明的速記員,通過門控機制管理信息流動,在長時間的任務中高效記錄關鍵內容,忽略無用的細節(jié)。LSTM的關鍵是能有效地記住長期重要的信息,同時舍棄無用的內容,因此比普通的RNN更聰明,因為它解決了普通RNN記憶力短、容易忘記長距離依賴問題的缺點。其獨特的結構和功能使其在捕捉長程依賴和順序信息上具有顯著優(yōu)勢,廣泛應用于語音識別、自然語言處理、時間序列分析等多個領域。
隨著硬件(GPU)的進步和大規(guī)模數(shù)據(jù)集(如 ImageNet)的興起,深度學習得到突破。ImageNet是一個由超過1400萬標注圖像構成的大型圖像數(shù)據(jù)庫,涵蓋了多種類別的物體。它為深度學習研究提供了豐富的數(shù)據(jù)支持。2012年,AlexNet利用CNN在ImageNet比賽中取得革命性成果,標志著深度學習的全面復興。
在AlexNet之前,計算機視覺領域主要依賴傳統(tǒng)的特征提取技術,這些技術通常需要手動設計特征提取算法。盡管一些基本的機器學習算法(如支持向量機)被應用于圖像分類,但在復雜性的處理上受到了限制。在2010年及之前,雖然已有的深度學習模型在一些任務上取得了成功,但大規(guī)模數(shù)據(jù)集的處理能力以及計算資源的短缺限制了深度學習方法的推廣與發(fā)展。
在2012年的ILSVRC比賽中,AlexNet以超過15.3%的錯誤率取得了第一名,而第二名的錯誤率為25.7%。AlexNet的架構設計中包含了一些重要的創(chuàng)新點,如更深的神經網(wǎng)絡、訓練過程中的數(shù)據(jù)增強與圖像預處理、充分利用了圖形處理單元(GPU)進行并行計算,大幅提高了訓練速度。這成功展示了卷積神經網(wǎng)絡在圖像分類中的強大能力,也為后續(xù)深度學習研究與應用創(chuàng)造了廣闊的前景。
標簽 心智觀察所- 原標題:理解DeepSeek的中國式創(chuàng)新,要先回顧深度學習的歷史 本文僅代表作者個人觀點。
- 責任編輯: 李昊 
-
探索宇宙線起源之謎再添“觀天”利器
2025-01-21 20:09 天文 -
最大載重1.9噸,國產大型無人機首次實現(xiàn)量產交付
2025-01-20 22:12 中國精造 -
我國成功發(fā)射云遙一號37~40星等5顆衛(wèi)星
2025-01-20 21:59 航空航天 -
新跨越!中國“人造太陽”創(chuàng)造“億度千秒”世界紀錄
2025-01-20 21:26 能源戰(zhàn)略 -
“畫地為牢,作繭自縛”,這八個字將在美國身上應驗
2025-01-20 08:24 心智觀察所 -
英偉達,只是時代的偶然?
2025-01-16 09:36 人工智能 -
全球唯一!中國率先將美國學者設想變?yōu)楝F(xiàn)實
2025-01-16 09:28 科技前沿 -
全國首例!跨市自動駕駛公交來了
2025-01-14 19:49 -
我國建立世界第一套微波亮溫度國家計量基準
2025-01-13 15:38 科技前沿 -
2025開年大戲:馬斯克揚言奮不顧身一戰(zhàn)的背后
2025-01-09 08:13 心智觀察所 -
國內首次!這一技術應用于管道研究,測試完成
2025-01-06 17:40 科技前沿 -
公眾對低空經濟的認知度仍不高,如何解決?
2025-01-06 08:42 心智觀察所 -
我國腦機接口技術實現(xiàn)漢語實時編解碼重大突破
2025-01-06 07:57 科技前沿 -
研制成功!我國這一關鍵技術實現(xiàn)重大突破
2024-12-30 14:59 中國精造 -
華為:懸賞300萬元
2024-12-30 10:08 華為 -
我國新一代智能高鐵有望2027年落地
2024-12-30 09:02 高鐵世紀 -
“量子”狼不再嚇崩比特幣
2024-12-30 08:24 心智觀察所 -
又添一大國利器!“探索三號”正式入列
2024-12-29 10:44 中國精造 -
我國首次實現(xiàn)!又一重大突破
2024-12-28 21:08 航空航天 -
嫦娥五號月球樣品向公眾開放!
2024-12-28 16:12 航空航天
相關推薦 -
操心中國,美國“黑手”又要伸向馬來西亞和泰國 評論 91特朗普要求“大搞特搞”,美團體急了:沒中國不行 評論 124“美國人,真正該擔心的時候到了” 評論 174“美國政府像青少年,拿信用卡揮霍,直到…” 評論 142最新聞 Hot
-
操心中國,美國“黑手”又要伸向馬來西亞和泰國
-
“特朗普要想訪華,先把臺灣問題說清楚”
-
“對以色列感到憤怒和警惕,沙特將與伊朗保持和解”
-
特朗普又給日本背后捅刀,逼得臺積電沒法了…
-
“大而美”法案通過,馬斯克表態(tài)
-
朱時茂自曝被騙錢,“我還是反詐大使”
-
英F-35“趴窩”印度機場20天,快被“玩壞”了…
-
特朗普要求“大搞特搞”,美團體急了:沒中國不行
-
“美國人,真正該擔心的時候到了”
-
涉及中國,韓企與美國“一拍即合”
-
歐洲學者:現(xiàn)在,中國能不能反過來幫幫我們?
-
印度“硬剛”:將報復美國
-
“歐洲同行都覺得,未來十年誰將主導已無懸念,不會是美國”
-
普京:全世界都想進入中國市場
-
馬斯克:對!全面公布所有文件
-
美方恢復出口,“不是恩賜也不是讓步,是我們斗爭來的”
-