<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          快了一個(gè)0!Meta祭出150億參數(shù)蛋白質(zhì)大模型,碾壓AlphaFold2

          共 2850字,需瀏覽 6分鐘

           ·

          2022-07-25 21:32



            新智元報(bào)道  

          編輯:好困 拉燕
          【新智元導(dǎo)讀】Meta的蛋白質(zhì)預(yù)測(cè)模型ESMFold來(lái)了!整整150億參數(shù),堪稱又大又快又好。

          迄今為止規(guī)模最大的蛋白質(zhì)語(yǔ)言模型問(wèn)世了!

          一年前,DeepMind開(kāi)源AlphaFold2連登Nature、Science,刷爆生物和AI學(xué)界。

          一年后,Meta帶著速度快一個(gè)數(shù)量級(jí)的ESMFold來(lái)了。

          不光速度快,模型還足足有150億個(gè)參數(shù)。


          LeCun發(fā)推稱贊,這是Meta-FAIR蛋白質(zhì)團(tuán)隊(duì)的偉大新成果。


          共同一作Zeming Lin透露,30億參數(shù)的大模型在256個(gè)GPU上訓(xùn)練了3個(gè)星期,而ESMfold在128個(gè)GPU上用了10天。至于150億參數(shù)的版本,目前還不清楚。

          他還表示,代碼隨后肯定會(huì)開(kāi)源,敬請(qǐng)關(guān)注!?


          又大又快!?


          今天,我們的主角是ESMFold,一個(gè)從蛋白質(zhì)個(gè)體的序列,直接進(jìn)行高準(zhǔn)確度、端對(duì)端、原子層級(jí)結(jié)構(gòu)預(yù)測(cè)的模型。

          論文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1

          150億個(gè)參數(shù)帶來(lái)的好處不必多說(shuō)——通過(guò)訓(xùn)練,如今的大模型可以在原子大小的精度上預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。

          從準(zhǔn)確度上看,ESMFold和AlphaFold2、RoseTTAFold差不多。

          但是,ESMFold推測(cè)速度要比AlphaFold2快一個(gè)數(shù)量級(jí)!

          一下說(shuō)數(shù)量級(jí)可能不好理解三者之間速度的對(duì)比,看看下面這張圖就懂了。


          有啥區(qū)別?


          雖說(shuō)AlphaFold2和RoseTTAFold在原子分辨率結(jié)構(gòu)預(yù)測(cè)問(wèn)題上取得了突破性的成功,但它們也依賴于使用多序列比對(duì)(MSA)和類似的蛋白質(zhì)結(jié)構(gòu)模板來(lái)實(shí)現(xiàn)最佳性能。

          相比之下,通過(guò)利用語(yǔ)言模型的內(nèi)部表征,ESMFold只用一個(gè)序列作為輸入就能生成相應(yīng)的結(jié)構(gòu)預(yù)測(cè),從而大大加快了結(jié)構(gòu)預(yù)測(cè)的速度。


          研究人員發(fā)現(xiàn),ESMFold對(duì)低復(fù)雜度序列的預(yù)測(cè)與當(dāng)下最先進(jìn)的模型相當(dāng)。

          而且,結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性與語(yǔ)言模型的復(fù)雜度息息相關(guān),也就是說(shuō),當(dāng)語(yǔ)言模型能更好地理解序列時(shí),便可以更好地理解結(jié)構(gòu)。


          目前,有數(shù)十億結(jié)構(gòu)和功能未知的蛋白質(zhì)序列,其中許多來(lái)自元基因組測(cè)序。

          利用ESMFold,研究人員只需6個(gè)小時(shí),就能折疊完成100萬(wàn)個(gè)元基因組序列的隨機(jī)樣本。


          其中很大一部分具有高置信度,并且與任何已知的結(jié)構(gòu)不同(在數(shù)據(jù)庫(kù)中沒(méi)有記錄)。

          研究人員認(rèn)為,ESMFold可以幫助理解那些超出現(xiàn)有認(rèn)知的蛋白質(zhì)結(jié)構(gòu)。


          此外,由于ESMFold的預(yù)測(cè)速度比現(xiàn)有的模型快一個(gè)數(shù)量級(jí),因此研究人員便可借助ESMFold來(lái)協(xié)助填補(bǔ)快速增長(zhǎng)的蛋白質(zhì)序列數(shù)據(jù)庫(kù)與進(jìn)展緩慢的蛋白質(zhì)結(jié)構(gòu)和功能數(shù)據(jù)庫(kù)之間的鴻溝。

          150億參數(shù)的蛋白質(zhì)語(yǔ)言模型


          接下來(lái)我們就來(lái)具體說(shuō)說(shuō)Meta這款全新的ESMFold。

          ESM-2是一個(gè)基于Transformer的語(yǔ)言模型,并使用注意力機(jī)制來(lái)學(xué)習(xí)輸入序列中成對(duì)氨基酸之間的相互作用模式。

          相對(duì)于上一代模型ESM-1b,Meta對(duì)模型結(jié)構(gòu)、訓(xùn)練參數(shù)進(jìn)行了改進(jìn),并增加了計(jì)算資源和數(shù)據(jù)。同時(shí),相對(duì)位置嵌入的加入,使模型能夠推廣到任意長(zhǎng)度的序列。

          從結(jié)果來(lái)看,具有1.5億個(gè)參數(shù)的ESM-2模型比具有6.5億個(gè)參數(shù)的ESM-1b模型表現(xiàn)得更好。

          此外,在結(jié)構(gòu)預(yù)測(cè)的基準(zhǔn)上,ESM-2也超過(guò)了其他的蛋白質(zhì)語(yǔ)言模型。這種性能的提高與大型語(yǔ)言建模領(lǐng)域建立的規(guī)律是一致的。


          隨著ESM-2規(guī)模的增加,可以觀察到語(yǔ)言建模的精度有很大的提高。


          端到端的單序列結(jié)構(gòu)預(yù)測(cè)


          SMFold和AlphaFold2的一個(gè)關(guān)鍵區(qū)別是,ESMFold使用語(yǔ)言模型表示,消除了對(duì)明確的同源序列(以MSA的形式)作為輸入的需要。

          ESMFold通過(guò)用一個(gè)處理序列的Transformer模塊取代處理MSA的計(jì)算昂貴的網(wǎng)絡(luò)模塊,簡(jiǎn)化了AlphaFold2中的Evoformer。這種簡(jiǎn)化意味著ESMFold的速度大大提高,遠(yuǎn)高于基于MSA的模型。

          折疊主干的輸出接下來(lái)又被一個(gè)結(jié)構(gòu)模塊處理,它負(fù)責(zé)輸出最終的原子級(jí)結(jié)構(gòu)和預(yù)測(cè)的置信度。


          研究人員將ESMFold與AlphaFold2和RoseTTAFold在CAMEO(2022年4月至2022年6月)和CASP14(2020年5月)測(cè)試集上進(jìn)行比較。

          當(dāng)只給單一序列輸入時(shí),ESMFold的表現(xiàn)要比Alphafold 2好得多。

          而當(dāng)使用完整的管道時(shí),AlphaFold2在CAMEO和CASP14上分別達(dá)到了88.3和84.7。ESMFold在CAMEO上取得了與RoseTTAfold相當(dāng)?shù)臏?zhǔn)確率,其平均TM分?jǐn)?shù)為82.0。


          結(jié)論


          研究人員發(fā)現(xiàn),以無(wú)監(jiān)督學(xué)習(xí)為目標(biāo)的語(yǔ)言模型在一個(gè)大型的進(jìn)化多樣化的蛋白質(zhì)序列數(shù)據(jù)庫(kù)中訓(xùn)練,能夠?qū)Φ鞍踪|(zhì)結(jié)構(gòu)進(jìn)行原子級(jí)的分辨率預(yù)測(cè)。

          將語(yǔ)言模型的參數(shù)擴(kuò)大到15B,就可以系統(tǒng)地研究規(guī)模對(duì)蛋白質(zhì)結(jié)構(gòu)學(xué)習(xí)的影響。

          我們看到,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的非線性曲線是模型規(guī)模的函數(shù),并且觀察到了語(yǔ)言模型對(duì)序列的理解程度與結(jié)構(gòu)預(yù)測(cè)之間的強(qiáng)烈聯(lián)系。

          ESM-2系列的模型是迄今為止訓(xùn)練的最大的蛋白質(zhì)語(yǔ)言模型,其參數(shù)僅比最近開(kāi)發(fā)的最大文本模型少一個(gè)數(shù)量級(jí)。

          而且,ESM-2比以前的模型有非常大的改進(jìn),即使在150M的參數(shù)下,ESM-2也比ESM-1代語(yǔ)言模型在6.5億的參數(shù)下捕捉到更準(zhǔn)確的結(jié)構(gòu)圖。

          研究人員表示,ESMFold性能的最大驅(qū)動(dòng)力是語(yǔ)言模型。由于語(yǔ)言模型的迷惑性和結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性之間有很強(qiáng)的聯(lián)系,他們發(fā)現(xiàn)當(dāng)ESM-2能較好地理解蛋白質(zhì)序列時(shí),就可以獲得與目前最先進(jìn)的模型相當(dāng)?shù)念A(yù)測(cè)結(jié)果。

          ESMFold獲得了準(zhǔn)確的原子分辨率結(jié)構(gòu)預(yù)測(cè),推理時(shí)間還比AlphaFold2快了一個(gè)數(shù)量級(jí)。

          在實(shí)踐中,速度的優(yōu)勢(shì)甚至還要更大。因?yàn)镋SMFold不需要搜索和進(jìn)化相關(guān)的序列來(lái)構(gòu)建MSA。

          雖說(shuō)有更快的方法可以減少搜索時(shí)間,但再怎么減少還是可能會(huì)很長(zhǎng)。

          而推理時(shí)間的極大縮短帶來(lái)的利好不言自明——速度的提高將使繪制大型元基因組學(xué)序列數(shù)據(jù)庫(kù)的結(jié)構(gòu)空間成為可能。

          除了基于結(jié)構(gòu)的工具來(lái)識(shí)別遠(yuǎn)端同源性和保護(hù)性之外,用ESMFold進(jìn)行快速準(zhǔn)確的結(jié)構(gòu)預(yù)測(cè),還能在大量新序列集合的結(jié)構(gòu)和功能分析中發(fā)揮重要作用。

          在有限的時(shí)間內(nèi)獲得數(shù)以百萬(wàn)計(jì)的預(yù)測(cè)結(jié)構(gòu),有利于發(fā)現(xiàn)對(duì)天然蛋白質(zhì)的廣度和多樣性的新認(rèn)識(shí),并能發(fā)現(xiàn)全新的蛋白質(zhì)結(jié)構(gòu)和蛋白質(zhì)功能。

          作者介紹


          本文的共同一作是來(lái)自Meta AI的Zeming Lin。


          據(jù)個(gè)人主頁(yè)介紹,Zeming在紐約大學(xué)攻讀博士學(xué)位,并在Meta AI擔(dān)任研究工程師(訪問(wèn)),主要負(fù)責(zé)后端基礎(chǔ)設(shè)施的工作。

          他本碩都就讀于弗吉尼亞大學(xué),在那里,他和Yanjun Qi大佬一同做有關(guān)機(jī)器學(xué)習(xí)應(yīng)用的研究,尤其是在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面。

          感興趣的領(lǐng)域?yàn)樯疃葘W(xué)習(xí)、結(jié)構(gòu)預(yù)測(cè),以及信息生物學(xué)。

          ?
          參考資料:
          https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1.full.pdf



          瀏覽 27
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美SS久久久 | 亚洲欧洲在线观看高清 | 日韩视频精品 | 国产成人久久精品77777综合 | 日本无码一级A片毛 |