<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          DeepMind 利用無監(jiān)督學(xué)習(xí)開發(fā) AlphaMissense,預(yù)測(cè) 7100 萬種基因突變

          共 7781字,需瀏覽 16分鐘

           ·

          2023-10-13 09:54

             
             

          本文約3300字,建議閱讀7分鐘

          本文介紹了錯(cuò)義突變。


          人類基因組共有 31.6 億個(gè)堿基對(duì),無時(shí)無刻不在經(jīng)歷復(fù)制、轉(zhuǎn)錄和翻譯,也隨時(shí)有著出錯(cuò)突變的風(fēng)險(xiǎn)。

          錯(cuò)義突變是基因突變中的一種常見形式,然而人類目前只觀察到了其中的一小部分,能夠解讀的更是只有 0.1%。

          準(zhǔn)確預(yù)測(cè)錯(cuò)義突變的作用,對(duì)于罕見病、遺傳病的研究和防治有著重要作用。這次,DeepMind 又出手了。



          人類基因組共有 31.6 億個(gè)堿基對(duì)。這些堿基對(duì)每天會(huì)經(jīng)歷復(fù)制、轉(zhuǎn)錄、翻譯,最終表達(dá)成為蛋白質(zhì),調(diào)控人類日常生理活動(dòng)。

          在如此龐大的工作量下,即使是精細(xì)的人體也很難做到毫無差錯(cuò)。稍有不慎,堿基對(duì)就可能配位錯(cuò)誤,導(dǎo)致基因突變,日積月累甚至引發(fā)癌癥。

          錯(cuò)義突變 (Missense Mutation) 是一種常見的基因突變形式。由于 DNA 中堿基突變,翻譯得到的氨基酸發(fā)生了變化,最終導(dǎo)致整個(gè)蛋白質(zhì)功能被破壞。

          圖 1:錯(cuò)義突變示意圖
          由于 DNA 中腺嘌呤核苷酸突變?yōu)轼B嘌呤核苷酸
          翻譯得到的氨基酸由谷氨酰胺變?yōu)榻z氨酸

          目前人類觀察到了 400 多萬種錯(cuò)義突變,但僅能將 2% 的錯(cuò)義突變歸類為致病突變或是良性突變。

          準(zhǔn)確預(yù)測(cè)錯(cuò)義突變的作用能夠加深人類對(duì)于罕見病的理解,并針對(duì)潛在的遺傳病進(jìn)行預(yù)防和治療。雖然變異效應(yīng)多重分析 (MAVEs) 可以對(duì)蛋白質(zhì)的突變進(jìn)行系統(tǒng)的分析,并準(zhǔn)確預(yù)測(cè)其臨床效果,但這一方法需要大量的人力物力,難以對(duì)所有錯(cuò)義突變可能進(jìn)行全面的分析。

          為此,DeepMind 通過 AlphaFold 分析了蛋白質(zhì)的整體結(jié)構(gòu),并結(jié)合弱標(biāo)簽學(xué)習(xí)和無監(jiān)督學(xué)習(xí)開發(fā)了 AlphaMissense,對(duì)錯(cuò)義突變的后果進(jìn)行了系統(tǒng)的分析。AlphaMissense 利用 ClinVar 數(shù)據(jù)集進(jìn)行了驗(yàn)證,預(yù)測(cè)正確率達(dá)到 90%。

          隨后,AlphaMissense 對(duì)人類可能出現(xiàn)的 7,100 萬種錯(cuò)義突變進(jìn)行了預(yù)測(cè),其中 32% 可能為致病性突變,57% 可能為良性突變。這些結(jié)果將極大促進(jìn)分子生物學(xué)、基因組學(xué)、臨床醫(yī)學(xué)等學(xué)科的發(fā)展。這一成果已發(fā)表于「Science」。

          圖 2:AlphaMissense 對(duì) 7,100 萬種錯(cuò)義突變的預(yù)測(cè)結(jié)果(上)及人類目前觀察到和確認(rèn)的結(jié)果(下)

          相關(guān)成果已發(fā)表于「Science」

          論文鏈接:

          https://www.science.org/doi/10.1126/science.adg7492


          實(shí)驗(yàn)過程

          AlphaMissense AlphaFold + 微調(diào)

          將一串氨基酸序列輸入 AlphaMissense 后,它會(huì)對(duì)序列中任一氨基酸變化的致病性進(jìn)行預(yù)測(cè)。AlphaMissense 的實(shí)現(xiàn)和 AlphaFold 非常相似,只在架構(gòu)上做了細(xì)微的調(diào)整。

          圖 3:AlphaMissense 的結(jié)構(gòu)示意圖

          AlphaMissense 的訓(xùn)練集來源廣泛,但主要來自于人類和非人靈長類。其中,來源于人類的良性錯(cuò)義突變有 1,248,533 個(gè),致病錯(cuò)義突變則從可能出現(xiàn)但尚未被觀察到的 65,314,044 個(gè)突變中抽取。

          AlphaMissense 的訓(xùn)練包括兩步。首先,同 AlphaFold 一樣,AlphaMissense 需要預(yù)測(cè)多序列對(duì)比 (Multiple Sequence Alignments) 中被隨機(jī)掩碼的氨基酸,進(jìn)而預(yù)測(cè)單鏈蛋白質(zhì)的結(jié)構(gòu),并進(jìn)行蛋白質(zhì)語言建模。

          隨后,研究人員利用人類蛋白質(zhì)對(duì) AlphaMissense 進(jìn)行微調(diào) (fine-tuning),并設(shè)定了模型的輸出目標(biāo),即錯(cuò)義突變的致病性。

          由于未被觀察到的錯(cuò)義突變中存在相當(dāng)數(shù)量的良性突變,但在訓(xùn)練過程中都將其歸為了致病突變,因此 AlphaMissense 訓(xùn)練集的噪音很大。為了提升訓(xùn)練集的數(shù)量和質(zhì)量,研究人員使用自蒸餾 (self-distillation) 的方式對(duì)數(shù)據(jù)進(jìn)行了過濾。

          臨床數(shù)據(jù)驗(yàn)證 不同數(shù)據(jù)集中的表現(xiàn)

          訓(xùn)練完成后,利用標(biāo)注后的臨床數(shù)據(jù) (ClinVar 數(shù)據(jù)集)、罕見發(fā)育障礙患者中的新發(fā)突變 (de novo variants) 和 ProteinGym 中的 MAVE 結(jié)果對(duì) AlphaMissense 進(jìn)行驗(yàn)證。

          首先,研究人員對(duì) AlphaMissense 在 ClinVar 數(shù)據(jù)集中的表現(xiàn)進(jìn)行了評(píng)價(jià)。在對(duì) 18,924 個(gè)突變位點(diǎn)進(jìn)行分析后,AlphaMissense 的 auROC 為 0.940,較之前最先進(jìn)的進(jìn)化模型 (EVE) 有所提升 (0.911)。

          在對(duì)錯(cuò)義突變進(jìn)行臨床評(píng)價(jià)時(shí),人們一般會(huì)關(guān)注特定疾病相關(guān)的基因。因此,分辨出這些基因中良性和致病的錯(cuò)義突變尤為重要。研究人員利用 AlphaMissense 對(duì) ClinVar 中的 612 個(gè)基因進(jìn)行分析,其 auROC 為 0.950,優(yōu)于 EVE 的 0.921。

          最后,研究人員分析了 AlphaMissense 在解密發(fā)育障礙 (DDD, Deciphering Developmental Disorders) 數(shù)據(jù)集中的預(yù)測(cè)結(jié)果。AlphaMissense 的 auROC 為0.809,與 PrimateAI 的 0.797 相當(dāng)。

          圖 4:AlphaMissense 和其他模型在不同數(shù)據(jù)集中性能對(duì)比

          A:對(duì) ClinVar 中突變位點(diǎn)的分析;
          B:對(duì) ClinVar 中基因的分析;
          C:對(duì) DDD 數(shù)據(jù)集的分析。

          同時(shí),AlphaMissense 對(duì) Cancer Hotspots、ACMG (American College of Medical Genetics) 和其他 MAVE 數(shù)據(jù)的預(yù)測(cè)結(jié)果也較其他模型更為優(yōu)異。上述結(jié)果說明,AlphaMissense 在多個(gè)數(shù)據(jù)集中表現(xiàn)優(yōu)于現(xiàn)有模型。

          總體預(yù)測(cè)性能 反映蛋白質(zhì)突變趨勢(shì)

          用臨床數(shù)據(jù)對(duì) AlphaMissense 進(jìn)行驗(yàn)證之后,研究人員利用 AlphaMissense 對(duì) 2.16 億個(gè)氨基酸在人類常見的 19,233 個(gè)蛋白質(zhì)中可能發(fā)生的突變進(jìn)行了預(yù)測(cè),最終得到了 7,100 萬種錯(cuò)義突變的預(yù)測(cè)結(jié)果。

          AlphaMissense 的致病性預(yù)測(cè)結(jié)果在 0-1 之間,越接近 1 說明致病可能性越高。由于絕大多數(shù)預(yù)測(cè)結(jié)果接近 0 和 1,因此 0.2 至 0.8 之間的數(shù)據(jù)可能不太準(zhǔn)確。最終,他們將預(yù)測(cè)結(jié)果分為三類:可能致病、可能良性和無法確定。

          為對(duì) AlphaMissense 的預(yù)測(cè)性能進(jìn)行整體評(píng)價(jià),研究人員計(jì)算了所有蛋白質(zhì)的單個(gè)氨基酸致病性。結(jié)果顯示,芳香族氨基酸和半胱氨酸的突變更容易引發(fā)疾病,與實(shí)際結(jié)果一致,因?yàn)檫@兩種氨基酸起到了維持蛋白質(zhì)結(jié)構(gòu)的作用。

          圖 5:AlphaMissense 的預(yù)測(cè)結(jié)果熱圖
          色塊代表 2.16 億個(gè)氨基酸變化在蛋白質(zhì)組中的平均致病性

          將 AlphaMissense 的預(yù)測(cè)結(jié)果和 AlphaFold 預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)可視化之后,我們可以看到這些蛋白質(zhì)的突變趨勢(shì)。比如,蛋白質(zhì)結(jié)構(gòu)紊亂的區(qū)域與良性突變的發(fā)生區(qū)域相對(duì)應(yīng),這與蛋白質(zhì)組學(xué)的預(yù)測(cè)結(jié)果也是一致的。

          圖 6:ACMG 和 MAVE 數(shù)據(jù)集中部分蛋白質(zhì)的可視化結(jié)果

          左側(cè)為 AlphaMissense 預(yù)測(cè)的致病性,可能致病的錯(cuò)義突變?yōu)榧t色,可能良性的錯(cuò)義突變?yōu)樗{(lán)色,已被收錄于 ClinVar 數(shù)據(jù)集的突變以實(shí)心圓標(biāo)注。右側(cè)為 AlphaFold 預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu),不同顏色表示這一區(qū)域突變致病性,與 AlphaMissense 相對(duì)應(yīng)。

          預(yù)測(cè)準(zhǔn)確率 與 MAVE 結(jié)果一致性

          為調(diào)查 AlphaMissense 和 MAVE 結(jié)果之間的一致性,研究人員利用 AlphaMissense 對(duì)兩組 MAVE 數(shù)據(jù)進(jìn)行了分析。與其他預(yù)測(cè)方法相比,AlphaMissense 與 MAVE 數(shù)據(jù)最為接近。

          圖 7:AlphaMissense 和其他模型與 MAVE 預(yù)測(cè)結(jié)果的斯皮爾曼相關(guān)系數(shù)
          其中AlphaMissense 結(jié)果最好

          隨后,他們又將 AlphaMissense 的預(yù)測(cè)數(shù)據(jù)和實(shí)驗(yàn)驗(yàn)證過的錯(cuò)義突變致病性進(jìn)行了對(duì)比。SHOC2 蛋白可以與 MRAS 和 PP1C 蛋白形成復(fù)合物,激活 Ras-MAPK 癌癥通路。AlphaMissense 與 MAVE 對(duì)這一突變和 Ras 癌癥細(xì)胞的相關(guān)性進(jìn)行了預(yù)測(cè),得到的斯皮爾曼相關(guān)系數(shù)為 0.47,優(yōu)于其他模型 (ESM1v: 0.41, ESM1b: 0.40, EVE: 0.32)。

          圖 8:不同模型對(duì) MAVE 數(shù)據(jù)集中錯(cuò)義突變的預(yù)測(cè)結(jié)果

          進(jìn)一步的,研究人員探究了 AlphaMissense 對(duì) SHOC2 蛋白不同區(qū)域氨基酸錯(cuò)義突變致病性的預(yù)測(cè)結(jié)果。在 SHOC2 的前 80 個(gè)氨基酸中,MAVE 預(yù)測(cè)第 63-74 號(hào)氨基酸突變是致病的,因?yàn)檫@一區(qū)域會(huì)通過 RVxF 與 PP1C 蛋白結(jié)合。AlphaMissense 是唯一一個(gè)識(shí)別出這一重要區(qū)域的模型。

          圖 9:AlphaMissense 對(duì) SHOC2 蛋白的預(yù)測(cè)結(jié)果

          A:不同模型對(duì) SHOC2 蛋白前 200 氨基酸突變致病性的預(yù)測(cè)結(jié)果。自上而下分別為實(shí)際情況 (MAVE)、AlphaMissense 和 EVE;
          B:SHOC2 蛋白(紅色和藍(lán)色)和 MRAS(黃色)、PP1C(金色)蛋白組成的復(fù)合體結(jié)構(gòu)圖。

          而且,AlphaMissense 能夠反映出不同種類氨基酸錯(cuò)義突變后的結(jié)果。對(duì)于 SHOC2 蛋白而言,AlphaMissense 的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果最為接近。


          圖 10:不同模型對(duì) SHOC2 中氨基酸突變致病性預(yù)測(cè)與 MAVE 結(jié)果的相關(guān)性

          上述結(jié)果共同說明,AlphaMissense 的預(yù)測(cè)結(jié)果與 MAVE 相當(dāng),能夠?qū)蝈e(cuò)義突變的結(jié)果進(jìn)行準(zhǔn)確的預(yù)測(cè)。

          最后,Deepmind 將這一模型和預(yù)測(cè)結(jié)果都開源公布在了社區(qū)中,希望這種結(jié)論能夠?yàn)槠渌麑W(xué)科的研究提供幫助。

          模型鏈接:
          https://github.com/deepmind/alphamissense

          基因突變:遙不可及又如影隨形

          提到基因突變,我們很容易想到 X 光、核輻射、亞硝酸鹽等危險(xiǎn)元素,或者是電影生化危機(jī)、綠巨人之中的橋段,覺得這些離我們過于遙遠(yuǎn)。誠然,我們?cè)谏钪薪佑|到的輻射非常少,但基因突變還是發(fā)生在生活中的每時(shí)每刻,也切實(shí)地改變了我們的生活。

          在生活中,我們不可避免地會(huì)接觸到輻射源,比如太陽光。太陽光中 6% 的輻射來源于紫外線,而紫外線就是致癌因素之一,因此長時(shí)間暴曬會(huì)增加皮膚癌的危險(xiǎn)。

          即使不接觸輻射源,DNA 在復(fù)制、轉(zhuǎn)錄、翻譯的時(shí)候也不可避免地犯一些錯(cuò)誤,引起基因突變,只是這些突變可能是良性的,或是被免疫機(jī)制及時(shí)清除了。

          但同時(shí),基因突變也為我們的生活提供了便利,尤其是在農(nóng)業(yè)生產(chǎn)中。農(nóng)作物突變體能夠提高作物的產(chǎn)量,提升作物耐鹽堿的能力,甚至幫助防治蟲害。對(duì)這些突變體進(jìn)行繁育篩選后,這些優(yōu)良的特性就能保留下來,提升糧食產(chǎn)量。

          圖 11:不同品種的玉米突變體

          然而,人體基因突變的可能性太多,我們目前了解到的不過滄海一粟。借助 AlphaMissense,我們能夠?qū)蛲蛔兊慕Y(jié)果進(jìn)行相對(duì)可靠的預(yù)測(cè),再加以反推,也許就能找到遺傳病、罕見病背后的機(jī)制,為疾病的防治提供新方法。

          同時(shí),AlphaMissense 還為其他領(lǐng)域的研究提供了素材。也許不久之后,我們就能看到 AlphaMissense 對(duì)其他物種基因突變的解讀,進(jìn)而合理利用基因突變,讓基因工程為我們的生活帶來更多福祉。

          參考鏈接:

          [1]https://www.science.org/doi/10.1126/science.abj6987

          [2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indicates-route-to-much-higher-yields-in-maize-staple-crops/


          編輯:王菁

          瀏覽 614
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  婷婷性爱五月天 | 三级黄色成人网站国产操花 | 天天日天天摸天天操 | 亚洲日、韩aⅴ | 中文字幕在线视频观看 |