碾壓AlphaFold?Meta預(yù)測(cè)蛋白質(zhì)元宇宙的“暗物質(zhì)”

原文作者:Ewen Callaway
來(lái)自土壤、海水和人體的微生物分子是這個(gè)地球上非常神秘的蛋白質(zhì)。
當(dāng)倫敦的DeepMind公司在今年公布約2.2億個(gè)蛋白質(zhì)預(yù)測(cè)結(jié)構(gòu)時(shí),幾乎覆蓋了DNA數(shù)據(jù)庫(kù)中已知生物的全部蛋白質(zhì)?,F(xiàn)在,另一個(gè)科技巨頭揭示了這個(gè)蛋白質(zhì)宇宙的“暗物質(zhì)”。
Meta(前身為Facebook,總部位于美國(guó)加州的門(mén)洛帕克)的研究團(tuán)隊(duì)利用人工智能(AI)預(yù)測(cè)了約6億個(gè)蛋白質(zhì)的結(jié)構(gòu),這些蛋白質(zhì)來(lái)自此前從未被表征過(guò)的細(xì)菌、病毒和其他微生物。
Meta AI蛋白質(zhì)團(tuán)隊(duì)負(fù)責(zé)人Alexander Rives說(shuō):“這些結(jié)構(gòu)是我們最不了解的結(jié)構(gòu)。它們是非常神秘的蛋白質(zhì)。我相信它們有潛力為生物學(xué)研究帶來(lái)巨大啟示?!?/p>

ESM宏基因組圖(ESM Metagenomic Atlas)數(shù)據(jù)庫(kù)包含對(duì)6.17億個(gè)蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)。來(lái)源:ESM Metagenomic Atlas (CC BY 4.0)
研究結(jié)果于11月1日以預(yù)印本[1]的形式發(fā)布。該團(tuán)隊(duì)利用一個(gè)“大型語(yǔ)言模型”進(jìn)行預(yù)測(cè),這類AI是那些只需幾個(gè)字母或單詞就能預(yù)測(cè)文本的工具的技術(shù)基礎(chǔ)。
通常來(lái)說(shuō),語(yǔ)言模型需要使用大量文本進(jìn)行訓(xùn)練。為了把它們應(yīng)用到蛋白質(zhì)上,Rives和同事給它們輸入已知蛋白質(zhì)的序列,這些序列可以用一條由20種不同氨基酸組成的鏈表示,每個(gè)氨基酸都用一個(gè)字母表示。隨后,這個(gè)網(wǎng)絡(luò)會(huì)學(xué)習(xí)如何在部分氨基酸不可知的情況下“自動(dòng)補(bǔ)全”蛋白質(zhì)。
蛋白質(zhì)“自動(dòng)補(bǔ)全”
Rives說(shuō),這種訓(xùn)練能讓該網(wǎng)絡(luò)獲得對(duì)蛋白質(zhì)序列的直覺(jué)理解,而蛋白質(zhì)序列能透露蛋白質(zhì)結(jié)構(gòu)的信息。第二步——受到DeepMind開(kāi)創(chuàng)性蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)AI“AlphaFold”的啟發(fā)——是將這類理解與已知蛋白質(zhì)結(jié)構(gòu)和序列之間的關(guān)系相結(jié)合,根據(jù)蛋白質(zhì)序列生成結(jié)構(gòu)預(yù)測(cè)。
Meta的這個(gè)網(wǎng)絡(luò)名為ESMFold。Rives的團(tuán)隊(duì)在今年夏天早些時(shí)候表示[2],該網(wǎng)絡(luò)的準(zhǔn)確度不如AlphaFold,但預(yù)測(cè)速度快了60倍。“這意味著我們可以把結(jié)構(gòu)預(yù)測(cè)拓展到更大的數(shù)據(jù)庫(kù)?!?/p>
作為測(cè)試,他們決定將模型用在一個(gè)批量測(cè)序的“宏基因組”DNA數(shù)據(jù)庫(kù)上,這些DNA來(lái)自環(huán)境中的土壤、海水、人體腸道、皮膚和其他微生物生境。這些DNA信息——可編碼潛在蛋白質(zhì)——的絕大多數(shù)都來(lái)自從來(lái)沒(méi)有培養(yǎng)過(guò)、科學(xué)界未知的生物體。
Meta團(tuán)隊(duì)總共預(yù)測(cè)了超過(guò)6.17億個(gè)蛋白質(zhì)的結(jié)構(gòu),而且只用了2周時(shí)間(AlphaFold生成單個(gè)預(yù)測(cè)一般需要幾分鐘)。這些預(yù)測(cè)結(jié)構(gòu)和模型的底層代碼都可免費(fèi)獲取。
在這6.17億個(gè)預(yù)測(cè)結(jié)構(gòu)中,模型認(rèn)為有1/3以上的結(jié)構(gòu)屬于高質(zhì)量結(jié)構(gòu),讓研究人員可以信任整個(gè)蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確性,而且在某些情況下還能分辨原子水平的細(xì)節(jié)。在這些預(yù)測(cè)中,有幾百萬(wàn)個(gè)結(jié)構(gòu)是全新的,與針對(duì)已知生物的實(shí)驗(yàn)解析蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)和AlphaFold數(shù)據(jù)庫(kù)中的結(jié)構(gòu)都不一樣。
AlphaFold數(shù)據(jù)庫(kù)中的一大部分結(jié)構(gòu)幾乎是完全相同的,而“宏基因組”數(shù)據(jù)庫(kù)“應(yīng)能覆蓋一大片之前未曾見(jiàn)過(guò)的蛋白質(zhì)宇宙”,首爾大學(xué)計(jì)算生物學(xué)家Martin Steinegger說(shuō),“這是揭開(kāi)這些暗物質(zhì)面紗的大好機(jī)會(huì)。”
哈佛大學(xué)演化生物學(xué)家Sergey Ovchinnikov對(duì)于ESMFold預(yù)測(cè)的數(shù)億個(gè)置信度較低的結(jié)構(gòu)感到好奇。有些預(yù)測(cè)可能缺少清晰的結(jié)構(gòu),至少單獨(dú)看起來(lái)如此,其他預(yù)測(cè)可能是將非編碼DNA錯(cuò)誤當(dāng)成了某種編碼蛋白質(zhì)的物質(zhì)。他說(shuō):“蛋白質(zhì)宇宙好像還有一大半是我們完全未知的。”
更清晰、更簡(jiǎn)單、更便宜
慕尼黑工業(yè)大學(xué)的計(jì)算生物學(xué)家Burkhard Rost對(duì)于Meta模型在速度和準(zhǔn)確度上的綜合表現(xiàn)非常贊賞。但他懷疑這個(gè)模型在預(yù)測(cè)宏基因組數(shù)據(jù)庫(kù)中的蛋白質(zhì)時(shí),是否具有超越AlphaFold精確度的優(yōu)勢(shì)。基于語(yǔ)言模型的預(yù)測(cè)方法——包括他的團(tuán)隊(duì)開(kāi)發(fā)的一種方法[3]——更適合用來(lái)快速確定突變?nèi)绾胃淖兞说鞍踪|(zhì)結(jié)構(gòu),而AlphaFold做不到這點(diǎn)。他說(shuō):“今后的結(jié)構(gòu)預(yù)測(cè)會(huì)更清晰、更簡(jiǎn)單、更便宜,為新發(fā)現(xiàn)敞開(kāi)了大門(mén)?!?/p>
DeepMind公司的一名代表表示,公司目前沒(méi)有在數(shù)據(jù)庫(kù)中加入宏基因組結(jié)構(gòu)預(yù)測(cè)的計(jì)劃,但不排除未來(lái)會(huì)公布這類信息。不過(guò),Steinegger與合作者已經(jīng)利用AlphaFold的一個(gè)版本預(yù)測(cè)了約3000萬(wàn)個(gè)宏基因組蛋白的結(jié)構(gòu)。他們希望通過(guò)尋找新形式的基因組復(fù)制酶,發(fā)現(xiàn)新型RNA病毒。
Steinegger認(rèn)為這類工具的下一個(gè)使命是網(wǎng)羅生物學(xué)的暗物質(zhì)。“我相信對(duì)這些宏基因組結(jié)構(gòu)的分析很快將迎來(lái)一次井噴。”
參考文獻(xiàn):
1. Lin, Z. et al. Preprint at BioRxiv https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2 (2022).
2. Lin, Z. et al. Preprint at BioRxiv https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1 (2022).
3. Weissenow, K., Heinzinger, M. & Rost, B. Structure 30, 1169–1137 (2022).
原文以AlphaFold’s new rival? Meta AI predicts shape of 600 million proteins為標(biāo)題發(fā)表在2022年11月1日《自然》的新聞版塊上
? nature
doi: 10.1038/d41586-022-03539-1
點(diǎn)擊閱讀原文查看英文原文
推廣 | 哈爾濱工業(yè)大學(xué)生命科學(xué)中心誠(chéng)邀海內(nèi)外優(yōu)秀青年人才

>> 點(diǎn)擊圖片查看原文推文 <<
版權(quán)聲明:
本文由施普林格·自然上海辦公室負(fù)責(zé)翻譯。中文內(nèi)容僅供參考,一切內(nèi)容以英文原版為準(zhǔn)。歡迎轉(zhuǎn)發(fā)至朋友圈,如需轉(zhuǎn)載,請(qǐng)郵件[email protected]。未經(jīng)授權(quán)的翻譯是侵權(quán)行為,版權(quán)方將保留追究法律責(zé)任的權(quán)利。
? 2022 Springer Nature Limited. All Rights Reserved
星標(biāo)我們??,記得點(diǎn)贊、在看+轉(zhuǎn)發(fā)哦!
