近日,谷歌旗下DeepMind團(tuán)隊(duì)一周之內(nèi)搞了兩件“大事情”。而華盛頓大學(xué)戴維·貝克團(tuán)隊(duì)的羅塞塔折疊(RosettaFold)也搭載阿爾法折疊(AlphaFold2)的便車風(fēng)光了一把。
這兩款智能程序相繼開(kāi)源昭示著,智能程序正在開(kāi)啟結(jié)構(gòu)生物學(xué)的新未來(lái)。
大事情
幾天前,DeepMind團(tuán)隊(duì)在《自然》發(fā)表文章,公布了第十四屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽(CASP14)中奪冠的AlphaFold2的源代碼。
同一天,華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所戴維·貝克團(tuán)隊(duì)在《科學(xué)》刊文,推出一款名為 RosettaFold 的人工智能程序。該程序基于深度學(xué)習(xí),能根據(jù)有限的信息快速、準(zhǔn)確地預(yù)測(cè)出目標(biāo)蛋白質(zhì)的結(jié)構(gòu),“達(dá)到與 AlphaFold2 不相上下的準(zhǔn)確度”。
2020年5月至7月,在CASP14上,AlphaFold2以排名第一的準(zhǔn)確性轟動(dòng)一時(shí)。一時(shí)間,AlphaFold 2“顛覆”“革命性突破”“諾獎(jiǎng)級(jí)成果”等美譽(yù)加身。
很多結(jié)構(gòu)生物學(xué)家還未完全從AlphaFold2開(kāi)源和RosettaFold誕生帶來(lái)的震撼中回過(guò)神來(lái)。7月22日,DeepMind團(tuán)隊(duì)和歐洲生物信息學(xué)研究所(EMBL-EBI)聯(lián)合在《自然》發(fā)表論文,公開(kāi)AlphaFold2預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)(AlphaFold DB)。初始的AlphaFold DB涵蓋了屬于人類以及其他20個(gè)重要物種的大多數(shù)具有較大價(jià)值的蛋白質(zhì), 包含超過(guò)35萬(wàn)個(gè)不同的蛋白結(jié)構(gòu),最終將增加到約1.3億個(gè)三維結(jié)構(gòu)。
“這會(huì)讓結(jié)構(gòu)生物學(xué)乃至整個(gè)生命科學(xué)上個(gè)大臺(tái)階。”清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心執(zhí)行主任王宏偉對(duì)《中國(guó)科學(xué)報(bào)》說(shuō),“原來(lái)大家要用很多實(shí)驗(yàn)手段去解析單鏈蛋白質(zhì)的結(jié)構(gòu),現(xiàn)在由于高水平結(jié)構(gòu)預(yù)測(cè)軟件的出現(xiàn),對(duì)單鏈蛋白質(zhì)實(shí)驗(yàn)解析的需求可能沒(méi)以前那么高了。但另一方面,對(duì)多個(gè)蛋白質(zhì)或核酸分子形成的復(fù)合體進(jìn)行結(jié)構(gòu)解析的迫切性會(huì)更強(qiáng),所以對(duì)冷凍電鏡的技術(shù)需求量會(huì)更大。”
王宏偉認(rèn)為,這兩款軟件的開(kāi)源預(yù)示著結(jié)構(gòu)生物學(xué)進(jìn)入新時(shí)代,“未來(lái)結(jié)構(gòu)生物學(xué)的研究對(duì)象和研究方式上都會(huì)發(fā)生較大變化,這實(shí)際上是給整個(gè)結(jié)構(gòu)生物學(xué)領(lǐng)域的升級(jí)帶來(lái)了新的機(jī)會(huì)”。
“我們已經(jīng)買新電腦了。”北京大學(xué)生命科學(xué)學(xué)院教授孔道春告訴《中國(guó)科學(xué)報(bào)》。
這兩款軟件開(kāi)源后,孔道春團(tuán)隊(duì)就迅速配備了顯卡更好的電腦。
“我已經(jīng)讓學(xué)生用起來(lái)了。”孔道春說(shuō),“利用傳統(tǒng)實(shí)驗(yàn)方法解析蛋白結(jié)構(gòu)需要跨越諸多障礙,不僅耗時(shí)、費(fèi)力,還不一定能解析出來(lái)。與核磁共振、X射線晶體或冷凍電鏡等類似,這些軟件是新的、革命性的工具,將極大推動(dòng)人們對(duì)蛋白質(zhì)/酶的結(jié)構(gòu)和生化作用機(jī)理的理解,將對(duì)生命科學(xué)、醫(yī)藥研究起到極大推動(dòng)作用,甚至?xí)蟠蠹铀偃祟愇拿鞯倪M(jìn)程。”
“本尊”和“復(fù)現(xiàn)者”
“這兩款軟件的基本原理都是利用神經(jīng)網(wǎng)絡(luò),依托現(xiàn)有的大數(shù)據(jù)進(jìn)行訓(xùn)練,當(dāng)然也包括很多專業(yè)的算法,把這幾方面整合到一起,應(yīng)該說(shuō)是現(xiàn)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)精確度最高的兩款軟件。”王宏偉說(shuō)。
“兩個(gè)軟件各有所長(zhǎng),各有自己的特點(diǎn)。”中國(guó)科學(xué)院大學(xué)人工智能學(xué)院教授、中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室研究員楊戈對(duì)《中國(guó)科學(xué)報(bào)》說(shuō),“可以從三個(gè)方面對(duì)它們進(jìn)行比較。”
一是準(zhǔn)確度。兩者相較而言,AlphaFold2的準(zhǔn)確度更高。AlphaFold2預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的精度已經(jīng)達(dá)到埃(長(zhǎng)度單位,1埃相當(dāng)0.1納米)級(jí),這是它的最大優(yōu)勢(shì)。
二是預(yù)測(cè)蛋白的復(fù)雜程度。這點(diǎn)RosettaFold略勝一籌。AlphaFold2只能預(yù)測(cè)單個(gè)蛋白質(zhì),即一個(gè)氨基酸鏈的蛋白,而RosettaFold可以預(yù)測(cè)蛋白質(zhì)復(fù)合體,即兩個(gè)乃至數(shù)個(gè)有相互作用的蛋白質(zhì)。
三是對(duì)計(jì)算資源的要求方面,AlphaFold2的要求較高。“AlphaFold2在模型訓(xùn)練階段對(duì)計(jì)算資源的要求一般計(jì)算中心才能滿足,普通的實(shí)驗(yàn)室不大可能使用。”而RosettaFold的要求通常單個(gè)實(shí)驗(yàn)室就能滿足,“具備稍好一些的計(jì)算機(jī)系統(tǒng)就可以‘跑’起來(lái)”。
清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心研究員龔海鵬介紹說(shuō),AlphaFold的第一版和RosettaFold之前的版本,包括其他團(tuán)隊(duì)的思路都差不多,比如,先預(yù)測(cè)氨基酸殘基之間的距離,通過(guò)一些圖像識(shí)別算法識(shí)別,然后再去折疊蛋白。
“那時(shí)候雖然大家的調(diào)參能力不同,但相互之間沒(méi)有本質(zhì)的區(qū)別。”龔海鵬說(shuō),“但AlphaFold2采用了全新的架構(gòu),從去年參加CASP14開(kāi)始就嶄露頭角。”
2020年12月,AlphaFold2的主要研發(fā)者John Jumper作了一次報(bào)告,簡(jiǎn)單介紹了一下他們的思路,但很多細(xì)節(jié)并沒(méi)有披露出來(lái)。
“因?yàn)锳lphaFold2的準(zhǔn)確率非常高,當(dāng)時(shí)幾乎所有研究組都想知道他們是怎么做的,有很多人想去復(fù)現(xiàn)它。RosettaFold是過(guò)去幾個(gè)月里復(fù)現(xiàn)得比較快的,也是復(fù)現(xiàn)得最好的,他們根據(jù)AlphaFold2釋放出來(lái)的一些信息,相當(dāng)于做了一個(gè)簡(jiǎn)化版本。”龔海鵬說(shuō),“很多研究組都進(jìn)行過(guò)測(cè)試,我覺(jué)得在預(yù)測(cè)精度和準(zhǔn)確程度上,RosettaFold離AlphaFold2還有一定的距離,其效果并沒(méi)有宣稱的那樣好。”
這兩款軟件開(kāi)源完全版后,龔海鵬團(tuán)隊(duì)對(duì)比發(fā)現(xiàn),兩者主體思想雖然差不多,但還是能看出有較大的區(qū)別。“有很多細(xì)節(jié),AlphaFold2的設(shè)計(jì)更合理,因此它的效果也更好。”而現(xiàn)在一些自媒體和宣傳材料稱兩者功能相當(dāng),甚至RosettaFold的某些方面表現(xiàn)更好,配置要求更低,“這可能會(huì)有些誤導(dǎo)”。
“AlphaFold2對(duì)顯卡的要求并不是特別高,預(yù)測(cè)的時(shí)候,如果不是特別長(zhǎng)的蛋白鏈,比如,預(yù)測(cè)幾百個(gè)殘基、上千個(gè)殘基, 1080Ti這樣的顯卡就能‘跑’了。但要預(yù)測(cè)2000多個(gè)殘基的蛋白鏈,就需要市面上最好的A100顯卡。”龔海鵬說(shuō),“在預(yù)測(cè)方面,RosettaFold并沒(méi)有太大優(yōu)勢(shì),它在訓(xùn)練上要求的資源少一些。從雙方發(fā)表的文章來(lái)看,AlphaFold2在訓(xùn)練的時(shí)候,資源占用大概是RosettaFold的十幾倍,但模型訓(xùn)練好后,真正預(yù)測(cè)的時(shí)候兩者對(duì)資源的要求并沒(méi)有太大區(qū)別。”
堅(jiān)持“搞事情”
軟件技術(shù)的進(jìn)步使蛋白質(zhì)結(jié)構(gòu)變得“唾手可得”,這將對(duì)結(jié)構(gòu)生物學(xué)的研究范式產(chǎn)生重大影響。
“預(yù)計(jì)會(huì)有一批實(shí)驗(yàn)室轉(zhuǎn)換研究方向,不再做結(jié)構(gòu)預(yù)測(cè)的方法研究,轉(zhuǎn)而研究下游的一些問(wèn)題,比如怎么用這個(gè)工具去做一些事情。但我們還會(huì)沿著這條路走下去。”龔海鵬說(shuō),“一是因?yàn)锳lphaFold2的思路不是唯一的解法。二是受其他因素影響,國(guó)內(nèi)的研究團(tuán)隊(duì)不能隨時(shí)和谷歌合作,很難用上谷歌最新的模型,所以我們需要有一個(gè)自己的版本。”
“對(duì)這個(gè)領(lǐng)域來(lái)說(shuō), AlphaFold2可以說(shuō)改變了不少人的理念。以前生物學(xué)家可能覺(jué)得人工智能只是一個(gè)好的工具,但現(xiàn)在,說(shuō)它將對(duì)這個(gè)領(lǐng)域帶來(lái)革命性的影響一點(diǎn)都不過(guò)。”楊戈說(shuō)。
2019年,在美國(guó)學(xué)習(xí)生活了20多年的楊戈回國(guó),到中科院自動(dòng)化所從事計(jì)算生物學(xué)方面的研究?;貒?guó)后他發(fā)現(xiàn),國(guó)內(nèi)的生物技術(shù)研究、原創(chuàng)性制藥行業(yè)遠(yuǎn)遠(yuǎn)沒(méi)有發(fā)展起來(lái),甚至有些學(xué)生認(rèn)為生物學(xué)是個(gè)避之不及的“天坑專業(yè)”。
“如果不能很好地抓住發(fā)展機(jī)會(huì),計(jì)算生物學(xué)可能就會(huì)成為我們的‘卡脖子’問(wèn)題,其背后的新藥開(kāi)發(fā)研制都會(huì)被‘卡脖子’。”楊戈說(shuō)。
龔海鵬認(rèn)為,DeepMind團(tuán)隊(duì)的人才、硬件、軟件方面的能力都很強(qiáng),它能解決的訓(xùn)練問(wèn)題一般的實(shí)驗(yàn)室或小團(tuán)隊(duì)很難去復(fù)現(xiàn)。我們拿它直接去訓(xùn)練,多半訓(xùn)練不出來(lái),所以我們只能參考它的方法,開(kāi)發(fā)出一些訓(xùn)練代價(jià)較小的等價(jià)方法。
“達(dá)到同一個(gè)目的,不會(huì)只有一條路。”龔海鵬說(shuō),“我們還會(huì)一直做下去,包括我了解的幾個(gè)課題組都是這樣,大家會(huì)從不同的角度汲取它的優(yōu)點(diǎn),融入自己的方法中繼續(xù)發(fā)展。”
標(biāo)簽: 結(jié)構(gòu) 生物 未來(lái) 研究