-
潘禺:在這迷人又壯美的科學(xué)領(lǐng)域,“中國玩家”能奮起直追嗎?
最后更新: 2024-10-10 08:34:47為了搞清楚這些問題,至少必須先用實(shí)驗(yàn)確定蛋白質(zhì)的結(jié)構(gòu)。科學(xué)家將蛋白質(zhì)培育成晶體,用X射線轟擊它們,并測量射線的彎曲,這就是X射線晶體學(xué)。20世紀(jì)60年代,生物學(xué)家馬克斯·佩魯茨和約翰·肯德魯用這種方法確定了血紅蛋白和肌紅蛋白的3D結(jié)構(gòu),又一項(xiàng)獲得諾貝爾獎(jiǎng)的工作產(chǎn)生了。
隨著更多蛋白質(zhì)結(jié)構(gòu)被發(fā)現(xiàn),科學(xué)家們在1971年建立了蛋白質(zhì)結(jié)構(gòu)的免費(fèi)檔案庫——蛋白質(zhì)數(shù)據(jù)銀行。最初,只包含了七種蛋白質(zhì)的結(jié)構(gòu)。近50年后,谷歌DeepMind使用它來訓(xùn)練AlphaFold時(shí),已經(jīng)包含了超過140000種。
因?yàn)榉椒ǖ姆爆?,為蛋白質(zhì)銀行添磚加瓦的過程,曾經(jīng)是非常艱難痛苦的??茖W(xué)家們先要?jiǎng)?chuàng)建蛋白質(zhì)電子密度圖,在電子聚集的區(qū)域可能包含一個(gè)原子。將電子密度圖打印到塑料片上,一個(gè)個(gè)堆疊起來,就創(chuàng)建了蛋白質(zhì)地理的“等高線圖”。然后,科學(xué)家們要將地圖轉(zhuǎn)換為物理模型,將塑料地圖放入理查茲盒中,這個(gè)設(shè)備以發(fā)明者牛津大學(xué)生物物理學(xué)家理查茲的名字命名,在理查茲盒內(nèi),一定角度的鏡子將地圖反射到工作區(qū),使科學(xué)家能準(zhǔn)確看到每個(gè)原子的相對(duì)位置。然后,科學(xué)家們就用球和棍子物理構(gòu)建他們的模型。
為了研究并模擬磷酸化酶,科學(xué)家不得不爬上梯子進(jìn)入一個(gè)特別建造的、有兩層樓高的理查茲盒中。這種蛋白質(zhì)擁有842個(gè)氨基酸,是當(dāng)時(shí)人們研究過的最大的蛋白質(zhì)。由于進(jìn)展的煎熬和緩慢,蛋白質(zhì)銀行成立的20年后,有信心確定而被提交的蛋白質(zhì)結(jié)構(gòu)也不過七百多種。
實(shí)驗(yàn)主義與計(jì)算主義
主張計(jì)算方法的科學(xué)家,已經(jīng)厭倦了實(shí)驗(yàn)派的做法,他們希望另辟蹊徑。
正如安芬森的教條,蛋白質(zhì)的結(jié)構(gòu)應(yīng)該能從其氨基酸序列中預(yù)測出來。計(jì)算生物學(xué)家編寫計(jì)算機(jī)算法,希望可以給程序輸入一串氨基酸,生成正確的蛋白質(zhì)結(jié)構(gòu)。對(duì)計(jì)算方法來說,蛋白質(zhì)的三維結(jié)構(gòu)預(yù)測問題,可以看成這樣一個(gè)問題,輸入是一個(gè)字符串,輸出是每個(gè)字符(殘基)對(duì)應(yīng)的三個(gè)扭轉(zhuǎn)角?、ψ和ω,看起來簡潔漂亮。注意,這看起來和AI處理的一些經(jīng)典問題,如序列標(biāo)注、機(jī)器翻譯等問題很像。
計(jì)算派的做法是在虛擬世界構(gòu)建自己的模型,設(shè)計(jì)自己的算法,比如假定原子以某種方式粘在一起,蛋白質(zhì)總是這樣向右或向左折疊,但這些模型逐漸遠(yuǎn)離現(xiàn)實(shí)。
實(shí)驗(yàn)主義者工作精確但速度慢;計(jì)算主義者工作迅速,但與生物物理現(xiàn)實(shí)脫節(jié),常常出錯(cuò)。兩種方法的優(yōu)點(diǎn),必須結(jié)合起來。實(shí)驗(yàn)派和計(jì)算派的科學(xué)家,必須牽手合作。
物理學(xué)家普朗克有過一句名言:“一個(gè)新的科學(xué)真理的成功,并不是因?yàn)樗鞣四切┓磳?duì)者并使他們頓悟,它的成功是因?yàn)樗哪切┓磳?duì)者最終逝去,而心向新理論的新生代最終成長起來?!?
普朗克說的應(yīng)該是科學(xué)理論,是有哲學(xué)高度的理論解釋?;蛟S正因?yàn)槔碚撨€難以建立,在蛋白質(zhì)生物學(xué)的發(fā)展歷程中,我們看到的并不是這樣殘酷的規(guī)律,而是反對(duì)派之間的合作共進(jìn)。在20世紀(jì)90年代,科學(xué)家們組成了社區(qū),實(shí)驗(yàn)主義者提供最新的蛋白質(zhì)氨基酸序列清單,計(jì)算主義者則盡其所能,用他們想要的任何方法來預(yù)測蛋白質(zhì)的結(jié)構(gòu)。一個(gè)獨(dú)立的科學(xué)家小組,通過將計(jì)算派的模型與實(shí)驗(yàn)確認(rèn)的結(jié)構(gòu)進(jìn)行比較,來評(píng)估模型。
這個(gè)名為CASP的社區(qū),成了解決蛋白質(zhì)折疊問題各種計(jì)算方法的試驗(yàn)場,最后實(shí)際上已經(jīng)變成了一場競賽。在美國加州的一座老教堂里,計(jì)算主義者可以在會(huì)議中談?wù)撍麄兊姆椒?,組織者鼓勵(lì)與會(huì)者,如果不喜歡他們聽到的內(nèi)容就在木地板上跺腳。據(jù)一位生物學(xué)家回憶:“一開始,有很多跺腳,幾乎就像打鼓一樣?!?
一些方法的表現(xiàn)比預(yù)期好,比如“同源建模”,比較已知蛋白質(zhì)的結(jié)構(gòu)來推斷未知蛋白質(zhì)的結(jié)構(gòu)。其他的則完全沒有用。在1998年的比賽中,大衛(wèi)·貝克用他的算法羅塞塔(Rosetta)大放異彩,羅塞塔算法模擬了氨基酸分子間原子的相互作用,以預(yù)測它們將如何折疊。盡管還不夠準(zhǔn)確,無法實(shí)用,但人們看到了計(jì)算預(yù)測蛋白質(zhì)結(jié)構(gòu)的曙光。
2008年,貝克創(chuàng)建了一個(gè)名為Foldit的免費(fèi)在線電腦游戲,也就是本文開頭所說的那個(gè)游戲。在當(dāng)時(shí),人類玩家模擬蛋白質(zhì)超過了羅塞塔,但人類的領(lǐng)先優(yōu)勢不會(huì)持續(xù)太久。
如果兩個(gè)氨基酸一起突變,它們可能有某種聯(lián)系,可能在空間上很接近,這一概念被稱為共同進(jìn)化。在清除了統(tǒng)計(jì)方法引入的錯(cuò)誤后,科學(xué)家提高了對(duì)哪些氨基酸共同進(jìn)化的預(yù)測準(zhǔn)確度,基于此,羅塞塔算法能更準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu),這可能是深度學(xué)習(xí)之前推動(dòng)該領(lǐng)域進(jìn)步的最大里程碑之一。但共同進(jìn)化需要大量相似的蛋白質(zhì)進(jìn)行比較,而實(shí)驗(yàn)主義者解析蛋白質(zhì)結(jié)構(gòu)的速度不足以滿足計(jì)算主義者的需求。
新玩家上場
2016年,谷歌DeepMind的人工智能團(tuán)隊(duì)以深度學(xué)習(xí)算法在圍棋中擊敗了人類冠軍,轟動(dòng)了世界。
深度學(xué)習(xí)本身就是計(jì)算機(jī)科學(xué)受到生物學(xué)啟發(fā)的范例。在大腦皮層中,分子信息被發(fā)送到神經(jīng)元相互連接的網(wǎng)絡(luò)中。神經(jīng)元有叫作突觸的小臂,它們抓住鄰近神經(jīng)元發(fā)出的分子,這些分子告訴接收神經(jīng)元要么發(fā)射并傳播信號(hào),要么不發(fā)射。
將電子位連接起來創(chuàng)建“神經(jīng)網(wǎng)絡(luò)”的想法,早在20世紀(jì)50年代就已經(jīng)在計(jì)算機(jī)科學(xué)中產(chǎn)生。神經(jīng)網(wǎng)絡(luò)中的每個(gè)單元是一個(gè)節(jié)點(diǎn),可以比作神經(jīng)元:一個(gè)神經(jīng)元從其他神經(jīng)元接收信息,然后計(jì)算是否向接下來的神經(jīng)元發(fā)射。在神經(jīng)網(wǎng)絡(luò)中,信息在多層神經(jīng)元中傳播,以產(chǎn)生特定的結(jié)果,比如圖像識(shí)別。神經(jīng)元層數(shù)越多,可以執(zhí)行的計(jì)算就越復(fù)雜。
這一靈感正是來自大腦。神經(jīng)科學(xué)發(fā)現(xiàn),我們的大腦會(huì)通過逐步抽象的方式來分析眼睛所看到的事物。在AI應(yīng)用中,輸入數(shù)據(jù)的傳感器可以是鏡頭、麥克風(fēng)或者其他測量儀器。而我們?nèi)祟愌劬χ械膫鞲衅饔直环Q為視錐細(xì)胞和視桿細(xì)胞,它們會(huì)探測那些令其進(jìn)入激發(fā)狀態(tài)的光線,得到光線的亮度和顏色。這相當(dāng)于計(jì)算機(jī)圖像中每一個(gè)像素的亮度和顏色。人類的第二層神經(jīng)元會(huì)連接著眼睛的視錐細(xì)胞和視桿細(xì)胞,一般會(huì)衡量相鄰像素之間的相關(guān)度,根據(jù)上一層神經(jīng)元的激活情況來計(jì)算。下一層神經(jīng)元可以在眼睛看到的圖像中找出明顯的線條,再下一層,會(huì)將線條結(jié)合起來,得知圖像中的基本對(duì)象,比如綿羊的耳朵。再之后的層次,繼而將這些基本對(duì)象結(jié)合起來,確定更深層次的結(jié)構(gòu),比如圖像中是否存在綿羊。
2010年代初,計(jì)算機(jī)科學(xué)家已經(jīng)能更好構(gòu)建神經(jīng)網(wǎng)絡(luò),允許更多層的可靠訓(xùn)練。網(wǎng)絡(luò)深度從之前的兩三層,躍升到數(shù)千層。為了區(qū)分過去淺層的做法,人們開始用“深度學(xué)習(xí)”這個(gè)更時(shí)髦的名字來稱呼。深度學(xué)習(xí)改變了人工智能,算法不僅在圖像和聲音的識(shí)別上表現(xiàn)出色,在圍棋這樣的游戲中也能擊敗人類。近年來,基于深度學(xué)習(xí)的自然語言處理模型GPT,則在文本生成上又一次震撼了世界。
這里多說幾句題外話,當(dāng)前的人工智能革命,還與一種概率論思想——貝葉斯方法(Bayesian methods)有關(guān)。貝葉斯方法的核心思想是根據(jù)觀測數(shù)據(jù)更新先驗(yàn)概率,得到后驗(yàn)概率分布。貝葉斯方法將不確定性視為概率分布,能夠量化模型的不確定性。在深度學(xué)習(xí)中,許多問題涉及到對(duì)不確定性的建模,例如參數(shù)估計(jì)、預(yù)測的置信度等。用貝葉斯方法,能夠更加靈活地處理這些問題。
一些科學(xué)家甚至相信,我們的大腦就是一個(gè)能對(duì)貝葉斯公式進(jìn)行各種各樣近似計(jì)算的計(jì)算器,也就是貝葉斯大腦,貝葉斯公式很可能在人類認(rèn)知中處于核心位置。貝葉斯主義者的信念也深刻影響了當(dāng)前人工智能的發(fā)展??傊?,“生物學(xué)太重要了,不能只留給生物學(xué)家”,為了努力理解不同的蛋白質(zhì)如何折疊,人們不僅要研究生物,還要研究數(shù)學(xué)、物理、化學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)……
百圖生科首席AI科學(xué)家宋樂在談到其大模型時(shí)就說過:“不單單需要AI人才,也有工程人才的參與,此外還需要一些很了解生物知識(shí)、對(duì)生物數(shù)據(jù)分析很有經(jīng)驗(yàn)的人才。這種團(tuán)隊(duì)的內(nèi)部合作不容易,但如果成功也會(huì)收效頗豐?!?
隨著谷歌DeepMind進(jìn)入蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域,受生物學(xué)啟發(fā)的深度學(xué)習(xí),現(xiàn)在要來解決生物學(xué)中的難題了。
AlphaFold的小小震撼
DeepMind的這個(gè)項(xiàng)目稱為AlphaFold,來自統(tǒng)計(jì)學(xué)、結(jié)構(gòu)生物學(xué)、計(jì)算化學(xué)、軟件工程等領(lǐng)域的專家,在DeepMind共同研究蛋白質(zhì)折疊問題。在學(xué)術(shù)界,專家們通常相互隔離,各自獨(dú)立進(jìn)行項(xiàng)目,很少有這樣的合作,更沒有谷歌龐大的財(cái)務(wù)和計(jì)算資源支持。2017年,蛋白質(zhì)數(shù)據(jù)銀行已經(jīng)擁有超過140000種結(jié)構(gòu),DeepMind團(tuán)隊(duì)用這些數(shù)據(jù)訓(xùn)練他們的算法。
其領(lǐng)導(dǎo)者約翰·賈姆珀(John Jumper)正是在物理、化學(xué)、生物學(xué)和計(jì)算機(jī)方面有著多樣化的背景。賈姆珀從小自學(xué)了編程,本科學(xué)習(xí)數(shù)學(xué)和物理,先攻讀凝聚態(tài)物理學(xué)博士,后來退學(xué)在紐約的一家公司用超級(jí)計(jì)算機(jī)從事蛋白質(zhì)的模擬,通過理解蛋白質(zhì)的運(yùn)動(dòng)和變化,希望更好地理解各種疾病,如肺癌的機(jī)制。此后又在芝加哥大學(xué)學(xué)習(xí)理論化學(xué),完成了博士學(xué)位。
約翰·賈姆珀(John Jumper)
2018年春天,AlphaFold已經(jīng)準(zhǔn)備好參加CASP,人工智能要與真正的蛋白質(zhì)科學(xué)家競爭了。CASP組織者最終帶來的消息是,AlphaFold表現(xiàn)得非常好,在預(yù)測蛋白質(zhì)結(jié)構(gòu)方面,比第二名的團(tuán)隊(duì)好大約2.5倍。但這離解決蛋白質(zhì)折疊問題還很遠(yuǎn)。
標(biāo)簽 心智觀察所- 原標(biāo)題:在這迷人又壯美的科學(xué)領(lǐng)域,“中國玩家”能奮起直追嗎? 本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯: 袁以衡 
-
我國科技成果轉(zhuǎn)化問題到了必須要解決的地步
2024-10-08 16:58 心智觀察所 -
2024年諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)揭曉
2024-10-07 17:45 諾貝爾獎(jiǎng) -
跨越7公里!我科學(xué)家研究分布式光量子計(jì)算獲重要進(jìn)展
2024-10-07 10:00 科技前沿 -
潘建偉:明年計(jì)劃發(fā)射2-3顆低軌衛(wèi)星,10年內(nèi)建成量子星座
2024-10-04 09:43 科技前沿 -
國際首次!我國科研團(tuán)隊(duì)完成超導(dǎo)太赫茲通信實(shí)驗(yàn)
2024-10-03 19:57 科技前沿 -
突破!我科研人員在高溫超導(dǎo)研究領(lǐng)域取得新進(jìn)展
2024-10-03 10:23 科技前沿 -
打破國外壟斷!全球最大,成功下線
2024-09-30 11:26 中國精造 -
新突破!自主可控,首試成功
2024-09-27 20:41 科技前沿 -
2024全球創(chuàng)新指數(shù)發(fā)布:中國居第11
2024-09-27 07:11 -
重要突破!我國科研人員發(fā)現(xiàn)能強(qiáng)效抑制艾滋病病毒的納米抗體
2024-09-26 08:06 科技前沿 -
全球首座!我國海上稠油熱采關(guān)鍵技術(shù)取得重大突破
2024-09-25 08:34 能源戰(zhàn)略 -
一箭五星!力箭一號(hào)遙四商業(yè)運(yùn)載火箭發(fā)射成功
2024-09-25 08:04 航空航天 -
“蛟龍?zhí)枴笔状未钶d外籍科學(xué)家進(jìn)行下潛作業(yè)
2024-09-25 07:41 科技前沿 -
中國將在月球上建無線網(wǎng)
2024-09-24 19:44 嫦娥奔月 -
為了美國的“新質(zhì)生產(chǎn)力”,雷蒙多操碎了心
2024-09-24 12:01 心智觀察所 -
月背“土特產(chǎn)”將開放申請!先發(fā)給國內(nèi)科學(xué)家研究
2024-09-24 09:06 科技前沿 -
可用上千年!效率最高的輻光伏核電池在我國面世
2024-09-24 07:22 能源戰(zhàn)略 -
42.02萬高斯!我國打破美國創(chuàng)造的世界紀(jì)錄
2024-09-22 17:00 科技前沿 -
美國開始重新審視量子計(jì)算機(jī),這對(duì)中國很重要
2024-09-20 08:45 心智觀察所 -
俄羅斯擁抱西方的舊夢:“瓦森納協(xié)定”正走向歷史垃圾堆
2024-09-18 07:45 心智觀察所
相關(guān)推薦 -
“美國已解除這項(xiàng)對(duì)華出口禁令” 評(píng)論 258家樂福CEO放話:對(duì)中國小包裹,要學(xué)特朗普征稅100% 評(píng)論 213“2027年起,整個(gè)產(chǎn)業(yè)將拱手讓給中國” 評(píng)論 126“不如申請成中國一省” ,德國鋰企竟如此激將歐盟 評(píng)論 126最新聞 Hot
-
“即使特朗普下臺(tái),美國政策也不會(huì)變,中日韓要合作”
-
“船到橋頭自然直”,印外長回應(yīng)美議員
-
俄海軍副總司令陣亡
-
“在越南的中國制造商松了一口氣”
-
他倒戈后就躲起來了,電話都不接,同僚評(píng)價(jià):聰明
-
“美國已解除這項(xiàng)對(duì)華出口禁令”
-
“印軍將全面排查中國產(chǎn)零部件”
-
美國和盟友鬧掰?“本質(zhì)沒變,中國需高度警惕”
-
斯塔默不吱聲,英財(cái)相當(dāng)場落淚,“哭崩”市場
-
家樂福CEO放話:對(duì)中國小包裹,要學(xué)特朗普征稅100%
-
莫迪表態(tài):金磚是重要平臺(tái)
-
“還想阻撓大陸武統(tǒng)?美國太晚了”
-
受賄數(shù)額特別巨大,齊同生被提起公訴
-
“美國占一半,中國分四成,歐洲...”
-
李在明最新涉華表態(tài)
-
叫完“爸爸”又被白宮整活,北約秘書長:驚喜且有趣
-