版權歸原作者所有,如有侵權,請聯(lián)系我們
導讀:5月9日,AlphaFold 3重磅問世,準確性遠超以往水平。在很多學者看來,這相當于給他們“戴上一副高清眼鏡”,對生物分子系統(tǒng)結構進行更準確的預測。
此次發(fā)布的AlphaFold 3能預測蛋白質與其他蛋白質、核酸、小分子、離子、修飾蛋白質殘基的復合物,以及抗體-抗原的相互作用,準確性顯著超過當前的預測工具。
我們第一時間聯(lián)系深圳灣實驗室系統(tǒng)與物理生物學研究所副所長、資深研究員周耀旗老師,早在去年11月,周耀旗通過對Deepmind與Isomorphic Labs 共同發(fā)布了的新聞稿對新一代AlphaFold模型:
AlphaFold3進行評論,他指出“AlphaFold3改變了以前AlphaFold2只能用于蛋白質結構預測的局限性,而使它能夠預測跟其它分子的復合物結構,包括小分子配體、多肽、多糖、蛋白質、核酸(DNA 和 RNA)以及含有翻譯后修飾(PTM)的生物分子,可以說是包羅萬象了?!笨梢哉f,提早就預判了AlphaFfold3的主要特點。
今天,周耀旗老師將為我們解答AlphaFold3究竟厲害在哪里?
葉水送 | 采訪
周耀旗(深圳灣實驗室)| 嘉賓
為什么蛋白質結構預測很重要?
問:為什么蛋白質結構預測很重要?
周耀旗:我們生命體系的存在和發(fā)展主要靠幾類重要的生物大分子的協(xié)同相互作用。其中一條重要中心法則是包含遺傳信息的DNA分子,通過RNA分子,翻譯生成蛋白質分子。蛋白質分子是一個幾乎全能的分子機器,有記錄在案的就有一萬多種功能,包括分子馬達、結構支持、信號傳遞、運輸、加速生命必需化學反應、以及抵抗病毒、細菌侵入的抗體等等。
從化學組成來講,蛋白質是一個非常簡單的線性高分子,由20個氨基酸排列組合而成,不同氨基酸排列就構成了不同功能的蛋白質。這跟我們的英語單詞很相似,每個字是20個字母所組成,不同數量字母的組合,形成不同意義的單詞。
跟英語單詞不一樣的地方是,蛋白質之所以能夠具有各種各樣的功能,是因為多數蛋白質能夠自己折疊成一個穩(wěn)定的、獨特的三維結構來執(zhí)行它的功能。譬如有的蛋白質在細胞膜內能夠形成一個通道,控制某些分子在細胞內部的進進出出。因此知道蛋白質所形成的結構形狀就可以知道蛋白質這個分子機器是干什么的,怎么工作的。知道蛋白質怎么工作非常重要,因為人類的大多數疾病是由于一個或者一些蛋白質出了問題,把這些出了問題的蛋白質關掉是治病的手段之一。因此,高精度的蛋白質結構是藥物設計的一個重要組成部分。
長期以來,蛋白質所形成的結構主要靠非常昂貴的儀器,非常耗時耗人工的實驗方法來解析,主要的儀器是核磁共振,X射線晶體衍射,冷凍電鏡。60年來,也才解析了20萬個蛋白質,是已知蛋白質數目的千分之一,所以全部用實驗手段來解析所有的蛋白質結構,無論是金錢上還是時間上都是不現實的, 因此,計算生物學家一直在努力發(fā)展計算方法來預測蛋白質結構,促進我們對生命機制的理解和疾病的藥物開發(fā)。
回顧AlphaFold發(fā)展歷程
問:自2020年11月AlphaFold問世,現在已更新至第三代,每一次都令人驚艷,它是如何一步步發(fā)展過來的?每一代都有哪些特色?您能否簡單回顧下
周耀旗:AlphaFold的第一次問世是2018年,它參加了每兩年一度的第13屆蛋白質結構雙盲預測比賽,所謂雙盲就是計算生物學家進行結構預測的時候,大家都不知道結構是長什么樣的,因為測定這些結構的實驗還沒有公布。而在實驗結構出來之后,評估預測結構的準確性的科學家也不知道是那個計算生物學家做的預測,可以避免主觀的因素。
從1996年第二屆比賽開始,到2016年的22年,進展非常慢,特別是對那些難度大,沒有已知結構來作為模板的從頭預測方法, 100分滿分,預測結構的分數22年才從27分進展到32分左右,要想達到85分以上的實驗精確度,估計還要200多年。
AlphaFold的2018年第一次問世把分數提到了>60及格以上,而2020年問世AlphaFold2一下子提到了85分,優(yōu)秀。第一代的AlphaFold解的是一個1+2=3的問題,用神經網絡來預測一維主鏈的二面角走向,以及二維的主鏈原子間的接觸距離,然后把預測的一維角度概率和二維距離概率轉化成蛋白質的能量函數,對該蛋白的3維結構進行能量最小化的優(yōu)化。第二代的AlphaFold解的也是一個1+2=3的問題,不同的是它完全避開了能量函數,把整個體系搬到的神經網絡里面,進行了所謂的端-到-端的訓練和預測,通過蛋白質序列和結構的大數據,以及高達9千萬參數的大模型,實現了蛋白質結構的高精度預測的飛躍。
AlphaFold 3有哪些優(yōu)勢和短板?
問:第三代和之前有何不同?有哪些新突破,還有何待發(fā)展之處?
周耀旗:剛剛問世的第三代AlphaFold跟以前的AlphaFold的最大不同是它不再局限于單個蛋白質結構的預測,而是努力成為一個通用模型,可以用于蛋白質與其他分子相互作用復合物結構的預測,包括蛋白質的修飾,DNA分子,RNA分子,以及各種各樣的小分子。
除了應用能力的擴展,它在計算方法上也有創(chuàng)新。把第二代AlphaFold中的進化模塊改成效率更高的成對模塊,把第二代AlphaFold中的結構模塊變成直接產生三維坐標的擴散模塊,大幅度降低了計算的復雜度。
這個方法主要在蛋白質-小分子配體,蛋白質-蛋白質,抗體-抗原結構,蛋白質- RNA/DNA復合物結構上比當前最好方法前進了一大步,在蛋白質修飾后的結構預測實現了0到1的突破。但在RNA結構預測方面,還不如基于我們BRiQ能量函數的AIchemy-RNA2方法。此外,在蛋白質單體結構預測上也沒有新的突破,還是嚴重依賴于同源序列的多少和質量。
人工智能在研究領域還有哪些應用?
問:AI for Science的概念這兩年被反復提及,人工智能在研究領域(以生物醫(yī)學為主)還有哪些應用?
周耀旗:除了剛剛所說的AlphaFold在分子結構預測這個的基礎研究以及它對新藥物開發(fā)設計這方面的應用之外,人工智能也將徹底改變了生物醫(yī)學其他的方方面面。幾個明顯的例子是:
首先,醫(yī)學影像分析:人工智能將用于分析醫(yī)學影像,如X射線、MRI、CT掃描和組織病理學切片。
其次,個性化醫(yī)學:人工智能算法分析病人數據,包括遺傳信息、病史和生活方式因素,能夠識別疾病風險因素、預測疾病進展,為病人制定個體化治療方案,將改善治療效果并減少不良反應。
還有,虛擬健康助手和聊天機器人:人工智能驅動的聊天機器人和虛擬健康助手為病人提供個性化的健康建議、癥狀評估、用藥提醒和隨時隨地獲取醫(yī)療信息。
此外,還有健康監(jiān)測與可穿戴設備,電子健康記錄的數據挖掘,醫(yī)療機器人和手術等等。這些只是人工智能如何改變生物醫(yī)學領域的一些例子,不斷進行的研究和創(chuàng)新將帶來新的應用和進展,這僅僅是開始,未來將有全方位的顛覆性變化。
與ChatGPT、Sora有何異同點?
問:alphafold 3也用到生成式AI,和現在被熱議的chatgpt、sora等,它們有什么異同點?
周耀旗:在alphafold 3和Sora一樣,都是利用擴散模型架構來進行結構或者視頻的生成。擴散模型架構從隨機噪聲開始,逐步對其進行細化以生成最終結果。 而語言模型ChatGPT基于 Transformer 架構,這是一種已經成為大型語言模型標準的深度學習架構。
本文為科普中國·星空計劃扶持作品
團隊/作者:深究科學
審核:陶寧 中國科學院生物物理研究所副研究員
葉盛 北京航天航空大學 研究員
出品:中國科協(xié)科普部
監(jiān)制:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司
歡迎掃碼關注深i科普!
我們將定期推出
公益、免費、優(yōu)惠的科普活動和科普好物!