<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Google Research進軍蛋白質(zhì)結(jié)構(gòu)預(yù)測:為Pfam數(shù)據(jù)庫新增680萬標注數(shù)據(jù)

          共 2837字,需瀏覽 6分鐘

           ·

          2022-03-10 14:27



          ??新智元報道??

          編輯:LRS

          【新智元導讀】用深度學習模型來預(yù)測蛋白質(zhì)的結(jié)構(gòu)和功能已經(jīng)取得了不小的進展,但還缺乏優(yōu)質(zhì)的數(shù)據(jù)。最近Google開源了一個模型ProtENN,提供了680萬條蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)Pfam-E,約等于之前十年的工作量。

          ?

          蛋白質(zhì)是所有生物體中的重要分子,在我們身體的結(jié)構(gòu)和功能中都發(fā)揮著核心作用。并且從藥物到洗衣粉等日常生活用品中,蛋白質(zhì)也無處不在。

          ?

          雖然每個蛋白質(zhì)都是由氨基酸構(gòu)成的鏈,但不同的氨基酸序列導致了不同的蛋白質(zhì)結(jié)構(gòu),也導致了不同蛋白質(zhì)具有不同的功能。

          ?

          了解蛋白質(zhì)的結(jié)構(gòu)和功能之間的關(guān)系,是一項具有深遠科學意義的長期研究。

          ?

          ?

          2018年,DeepMind推出第一版AlphaFold模型,采用深度學習+傳統(tǒng)算法結(jié)合的方式,借助大算力的優(yōu)勢,成功取得第13屆蛋白質(zhì)結(jié)構(gòu)預(yù)測CASP競賽的冠軍,AlphaFold僅需數(shù)天即可完成科學家數(shù)年的工作。

          ?

          而后2020年的AlphaFold2模型則使用更大的算力,訓練更大的模型,準確率遠遠超越其他競爭對手,也正式掀起了大規(guī)模深度學習模型進行蛋白質(zhì)結(jié)構(gòu)預(yù)測的熱潮。

          ?

          ?

          除了廣為人知的AlphaFold外,科學界在使用計算工具直接從序列中推斷蛋白質(zhì)功能方面也有很長的歷史。

          ?

          例如,著名的蛋白質(zhì)家族數(shù)據(jù)庫Pfam包含許多高度詳細的計算注釋,描述了一個蛋白質(zhì)域的功能,如球蛋白和胰蛋白酶家族。

          ?

          ?

          雖然現(xiàn)有的方法已經(jīng)成功地預(yù)測了數(shù)以億計的蛋白質(zhì)的功能,但仍然有許多功能未知的蛋白質(zhì),研究顯示,至少有三分之一的微生物蛋白質(zhì)沒有得到可靠的注釋。

          ?

          隨著公共數(shù)據(jù)庫中蛋白質(zhì)序列的數(shù)量和多樣性繼續(xù)迅速增加,準確預(yù)測高度多樣化氨基酸序列的功能變得越來越緊迫。

          ?

          ?

          最近,Google Research在Nature Biotechnology(近兩年影響因子54.908)上發(fā)表了一篇論文,提出了一個機器學習模型ProtENN,能夠可靠地預(yù)測蛋白質(zhì)的功能,并且為Pfam新增了大約680萬條蛋白質(zhì)功能注釋,大約相當于過去十年進展的總和。研究人員把新數(shù)據(jù)集發(fā)布為Pfam-N。

          ?

          ?

          為了鼓勵在這個方向上的進一步研究,研究人員發(fā)布了ProtENN模型和一篇類似distill的交互式文章。用戶只需要在該互動工具輸入一個序列,就能夠在瀏覽器中實時獲得預(yù)測的蛋白質(zhì)功能的結(jié)果,而不需要其他設(shè)置。

          ?

          ?

          結(jié)構(gòu)預(yù)測就是分類


          在計算機視覺中,常用的流程就是先為圖像分類任務(wù)訓練一個模型,如CIFAR-100,然后將其作為預(yù)訓練模型再擴展到更具體的任務(wù),如物體檢測和定位。

          ?

          研究人員也采用這種模式,先開發(fā)了一個蛋白質(zhì)結(jié)構(gòu)域的分類模型,作為下一步對整個蛋白質(zhì)序列進行分類的模型的預(yù)訓練。

          ?

          在訓練過程中,把這個問題看作是一個多類分類任務(wù),類別標簽包含所有從Pfam數(shù)據(jù)庫中提取的17929個類。

          ?

          ?

          下一步就需要一個模型將蛋白質(zhì)序列與蛋白質(zhì)功能聯(lián)系起來。

          ?

          雖然目前有許多模型可用于蛋白質(zhì)結(jié)構(gòu)域分類,但它們都一個明顯的缺點:基于線性序列的排列,而沒有考慮蛋白序列中不同部分的氨基酸之間的相互作用。蛋白質(zhì)并不只是停留在一排氨基酸上,它們會自行折疊,這樣不相鄰的氨基酸就會對彼此產(chǎn)生強烈的影響。

          ?

          一些sota模型會將新的查詢序列(query sequence)與一個或多個具有已知功能的序列進行比對。

          ?

          但如果新序列與任何具有已知功能的序列高度不相似的話,那這種對具有已知功能的序列的依賴性就會使得預(yù)測一個新序列的蛋白質(zhì)功能更具有挑戰(zhàn)性。

          ?

          此外,基于對齊的方法是計算密集型的,如果想要把這個算法應(yīng)用于大型數(shù)據(jù)集,如元基因組數(shù)據(jù)庫MGnify,其中包含超過10億條蛋白質(zhì)序列,成本過高的話就失去了實用價值。

          ?

          為了應(yīng)對這些挑戰(zhàn),研究人員建議使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),很適合于模擬非局部的成對氨基酸相互作用,并且可以在GPU硬件上快速運行。

          ?

          研究人員訓練一維CNN來預(yù)測蛋白質(zhì)序列的分類,稱之為ProtCNN;以及多個獨立訓練的ProtCNN的集成模型,稱之為ProtENN。

          ?

          ?

          這種方法的目的是通過開發(fā)一種可靠的ML方法,補充傳統(tǒng)的基于對齊的方法,為了證明效果,研究人員還提出了一種方法來測量預(yù)測準確性。

          ?

          蛋白質(zhì)的進化也要考慮


          與其他領(lǐng)域的分類問題類似,蛋白質(zhì)功能預(yù)測的挑戰(zhàn)不在于為任務(wù)開發(fā)一個全新的模型,而在于創(chuàng)建公平的、大規(guī)模的訓練和測試集,以確保模型對未見過的數(shù)據(jù)做出準確的預(yù)測。

          ?

          由于蛋白質(zhì)基本都是從共同的祖先演變而來的,不同的蛋白質(zhì)往往共享其氨基酸序列中的相當大的一部分。如果沒有特意調(diào)整數(shù)據(jù)分布,測試集可能會被與訓練數(shù)據(jù)高度相似的樣本所支配,這也可能會導致模型通過簡單地「記憶」訓練數(shù)據(jù)就能準確預(yù)測,而沒有學會更廣泛地歸納。

          ?

          ?

          為了防止這種情況的出現(xiàn),必須使用多個獨立的設(shè)置來評估模型的性能。對于每一次評估,研究人員將模型的準確性作為每個被保留的測試序列與訓練集中最近的序列之間的相似性的函數(shù)來分層。

          ?

          第一個評估包括一個聚類的分割訓練和測試集,蛋白質(zhì)序列樣本按序列相似度進行聚類,整個聚類被放入訓練集或測試集。因此,每個測試實例與每個訓練實例至少有75%的差異。這個任務(wù)下的更強的性能表明,一個模型可以概括地對分布外的數(shù)據(jù)做出準確的預(yù)測。

          ?

          在第二個評估中,研究人員使用隨機分割的訓練和測試集,根據(jù)對實例分類難度的估計對其進行分層。難度的衡量標準包括測試例子和最近的訓練例子之間的相似性,以及來自真實類別的訓練例子的數(shù)量(只給少量的訓練例子,要準確預(yù)測功能就更難了)。

          ?

          ?

          除此之外,研究人員還與Pfam團隊合作,測試文中提出的方法學概念證明是否可用于標記真實世界的序列。結(jié)果證明了ProtENN可以學習到基于對齊的方法的補充信息,比任何一個方法學到的信息都要多。

          ?

          在看到這些方法和分類任務(wù)的成功后,研究人員還建立了一個工具,使用戶能夠探索模型預(yù)測、embedding和輸入序列之間的關(guān)系,在前文提到的交互式網(wǎng)頁中可以體驗這項功能,可以發(fā)現(xiàn)類似的序列在embedding空間中被聚在一起。

          ?

          ?

          從AlphaFold和CAFA到會議上專門討論這一主題的大量研討會和研究報告,深度學習預(yù)測蛋白質(zhì)的相關(guān)工作也逐漸增加。

          ?

          研究人員認為在這項工作的基礎(chǔ)上,可以繼續(xù)與整個領(lǐng)域的科學家合作,利用他們的專業(yè)知識和數(shù)據(jù),結(jié)合機器學習模型的進步,將幫助人類進一步揭示蛋白質(zhì)的世界。


          參考資料:

          https://ai.googleblog.com/2022/03/using-deep-learning-to-annotate-protein.html

          https://google-research.github.io/proteinfer/



          瀏覽 17
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  69免费观看视频 | 国产黄片免费在线观看 | 大屌肏屄视频在线播放。 | 北条麻妃无码在线播放 | 精品国产人妻一区二区三区 |