<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          GSEA富集分析:從概念理解到界面實(shí)操

          共 2246字,需瀏覽 5分鐘

           ·

          2020-05-21 23:22

          GSEA定義

          Gene Set Enrichment Analysis (基因集富集分析)用來評(píng)估一個(gè)預(yù)先定義的基因集的基因在與表型相關(guān)度排序的基因表中的分布趨勢(shì),從而判斷其對(duì)表型的貢獻(xiàn)。


          輸入數(shù)據(jù)包含兩部分:

          • 一是已知功能的基因集 (可以是GO注釋、MsigDB的注釋或其它符合格式的基因集定義);

          • 一是表達(dá)矩陣,軟件會(huì)對(duì)基因根據(jù)其于表型的關(guān)聯(lián)度(可以理解為表達(dá)值的變化)從大到小排序,然后判斷基因集內(nèi)每條注釋下的基因是否富集于表型相關(guān)度排序后基因表的上部或下部,從而判斷此基因集內(nèi)基因的協(xié)同變化對(duì)表型變化的影響。


          (The gene sets are defined based on prior biological knowledge, e.g., published information about biochemical pathways or coexpression in previous experiments. The goal of GSEA is to determine whether members of a gene set?S?tend to occur toward the?top?(or bottom) of the listL, in which case the gene set is correlated with the phenotypic class distinction.)


          這與之前講述的GO富集分析不同。GO富集分析是先篩選差異基因,再判斷差異基因在哪些注釋的通路存在富集;這涉及到閾值的設(shè)定,存在一定主觀性并且只能用于表達(dá)變化較大的基因,即我們定義的顯著差異基因。


          而GSEA則不局限于差異基因,從基因集的富集角度出發(fā),理論上更容易囊括細(xì)微但協(xié)調(diào)性的變化對(duì)生物通路的影響。

          GSEA原理

          給定一個(gè)排序的基因表L和一個(gè)預(yù)先定義的基因集S?(比如編碼某個(gè)代謝通路的產(chǎn)物的基因, 基因組上物理位置相近的基因,或同一GO注釋下的基因)。


          GSEA的目的是判斷S里面的成員sL里面是隨機(jī)分布還是主要聚集在L的頂部或底部。


          這些基因排序的依據(jù)是其在不同表型狀態(tài)下的表達(dá)差異,若研究的基因集S的成員顯著聚集在L的頂部或底部,則說明此基因集成員對(duì)表型的差異有貢獻(xiàn),也是我們關(guān)注的基因集。


          aa89045eea424f127d595de9f1bffd6a.webp


          GSEA計(jì)算中幾個(gè)關(guān)鍵概念:


          1. 計(jì)算富集得分?(ES, enrichment score). ES反應(yīng)基因集成員s在排序列表L的兩端富集的程度。計(jì)算方式是,從基因集L的第一個(gè)基因開始,計(jì)算一個(gè)累計(jì)統(tǒng)計(jì)值。當(dāng)遇到一個(gè)落在s里面的基因,則增加統(tǒng)計(jì)值。遇到一個(gè)不在s里面的基因,則降低統(tǒng)計(jì)值。每一步統(tǒng)計(jì)值增加或減少的幅度與基因的表達(dá)變化程度(更嚴(yán)格的是與基因和表型的關(guān)聯(lián)度)是相關(guān)的。富集得分ES最后定義為最大的峰值。正值ES表示基因集在列表的頂部富集,負(fù)值ES表示基因集在列表的底部富集。

          2. ?評(píng)估富集得分(ES)的顯著性。通過基于表型而不改變基因之間關(guān)系的排列檢驗(yàn) (permutation test)計(jì)算觀察到的富集得分(ES)出現(xiàn)的可能性。若樣品量少,也可基于基因集做排列檢驗(yàn) (permutation test),計(jì)算p-value。

          3. ?多重假設(shè)檢驗(yàn)矯正。首先對(duì)每個(gè)基因子集s計(jì)算得到的ES根據(jù)基因集的大小進(jìn)行標(biāo)準(zhǔn)化得到Normalized Enrichment Score (NES)。隨后針對(duì)NES計(jì)算假陽性率。(計(jì)算NES也有另外一種方法,是計(jì)算出的ES除以排列檢驗(yàn)得到的所有ES的平均值)

          4. ?Leading-edge subset,對(duì)富集得分貢獻(xiàn)最大的基因成員。

          GSEA分析

          軟件和基因集下載:http://software.broadinstitute.org/gsea/downloads.jsp

          181aae286eab87cc91e97942ec79f8ae.webp

          0d9ab4ec02083e7ad642e77cbcb408aa.webp


          輸入數(shù)據(jù)準(zhǔn)備


          1. ?表達(dá)矩陣。常見表達(dá)矩陣格式,tab鍵分割,txt格式,第一列為基因名字(名字與注釋數(shù)據(jù)庫一致,同為GeneSymbol或EntrezID或其它自定義名字),第一行為標(biāo)題行,含樣品信息。也可為gct文件,具體見?http://blog.genesino.com/2014/08/GSEA-usages/


            cf4f95218e6e75d152441834753deb82.webp

          2. 樣品分組信息

            decdc6f2983fc23399568f3928549886.webp

            分組信息示例


            b9e8242f9c6a57f07dace2fe5fb85588.webp

          3. 基因集信息

            6c856495f209b0b66969bf8cf0459238.webp

            基因集信息示例


            7e191564a6e78431e4f8301f17fc189d.webp

          軟件運(yùn)行 (每一步的步驟如有不明確的參考文后第一個(gè)鏈接)


          1. 導(dǎo)入數(shù)據(jù)


            3bc3eb7e18af745ac3b9cd41a79c01d1.webp


          2. 運(yùn)行GSEA?(若每組樣品都有多于7個(gè)樣品,則Permutation type選擇phenotype,結(jié)果理論上更好;否則選擇gene_set)


            7c62bb52524a69ca777939d56eaadbdd.webp


          3. 設(shè)置好參數(shù)后,點(diǎn)擊正下方的run,等待運(yùn)行結(jié)束,左側(cè)出現(xiàn)success


            04f5932d2c878ecee4e18113bebda871.webp


          4. 點(diǎn)擊success,查看結(jié)果


            8fa838e8a635b8615b7701c19c302c61.webp

          順著網(wǎng)頁的導(dǎo)航一步步去查看結(jié)果,有耐心就好。主要的解釋下,最常見的這種圖。

          32bc55aef340e8085d2d74e32bc3385c.webp


          1. 圖最上面部分展示的是ES的值計(jì)算過程,從左至右每到一個(gè)基因,計(jì)算出一個(gè)ES值,連成線。最高峰為富集得分(ES)。在最左側(cè)或最右側(cè)有一個(gè)特別明顯的峰的基因集通常是感興趣的基因集。

          2. 圖中間部分每一條先代表基因集中的一個(gè)基因,及其在基因列表中的排序位置。

          3. 最下面部分展示的是基因與表型關(guān)聯(lián)的矩陣,紅色為與第一個(gè)表型(MUT)正相關(guān),在MUT中表達(dá)高,藍(lán)色與第二個(gè)表型(WT)正相關(guān),在WT中表達(dá)高。

          4. Leading-edge subset,對(duì)富集得分貢獻(xiàn)最大的基因成員。若富集得分為正值,則是峰左側(cè)的基因;若富集得分為負(fù)值,則是峰右側(cè)的基因。

          5. FDR,GSEA默認(rèn)提供所有的分析結(jié)果,并且設(shè)定FDR<0.25為可信的富集,最可能獲得有功能研究?jī)r(jià)值的結(jié)果。但如果樣品數(shù)目少,而且選擇了gene_set作為Permumation type則需要使用更為嚴(yán)格的標(biāo)準(zhǔn),比如FDR<0.05。

          Leading-edge分析

          主要對(duì)篩選感興趣的基因有意義;選擇一個(gè)或多個(gè)顯著富集的基因集,查看其內(nèi)Leading-edge基因的表達(dá)和重疊狀態(tài)。


          d67a9c53c96b1815bb8c970b12b869e9.webp

          1f02dd3c449b13aa5396c7448d6c39ad.webp


          MSigDB

          GSEA團(tuán)隊(duì)整理好的基因集,可用于注釋,也可下載下來搜尋自己感興趣的方向的基因作為一個(gè)補(bǔ)充。每個(gè)注釋都提供了基于Gene SymbolEntrez ID的索引表格。

          1ca3278747dc843ea0d62d7b188b7a73.webp

          參考

          1. 較早記錄的一篇GSEA的使用,有腳本可以轉(zhuǎn)換表達(dá)矩陣為gct,?cls文件作為GSEA的輸入。文檔為英文,但軟件操作步驟還算詳細(xì),可配合著看:

            http://blog.genesino.com/2014/08/GSEA-usages/

          2. 最開始學(xué)習(xí)的教程,每一步操作都比較詳細(xì):

            http://www.baderlab.org/Software/EnrichmentMap/Tutorial

          3. GSEA軟件和數(shù)據(jù)集下載:

            http://software.broadinstitute.org/gsea/downloads.jsp

          4. 原文對(duì)GSEA原理的講解是很清晰的,可以讀下,關(guān)鍵的內(nèi)容也都摘錄在第一個(gè)鏈接里:

            https://www.ncbi.nlm.nih.gov/pubmed/16199517


          推薦閱讀

          往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)

          620cfc27a62010537af24b0754f9b7e3.webp

          f5361c0e4aa1d87e76b40b623ee40133.webp

          0b6cebdd21a6926117c9ffd0c1d2c862.webp

          6b1aa65bbf6d96813eccad98ac5c4e14.webp

          239a552ad2ef960d5c4efd3daec675a9.webp

          cb20bdda6d078010f9d8c12936ddf097.webp

          3e2dac826a7ec8550e00e68a77a0fb47.webp

          4f2bda3c33ca2cc7c14ff71be46bef78.webp

          c9eac0f23dccd79ec3f0e561bea54f07.webp

          8ec09f8a38570212e28b4974a403ec8b.webp

          593d26de6efacded43d83e724d04f1bf.webp

          41ca5a099defe2c8a7336fa57eeb8477.webp

          149548054d6035bfd932bfed011a6b44.webp

          0a509223598476f82e5870f2f5383ae7.webp

          f62a1352acc6592239957514c2a3711d.webp

          7c8ded0a698c6020ee915ac423efbd9c.webp

          eedd81d7398376ffcc7e2dd6a7a20828.webp

          418df2af3b6eefcb9f5b6e42bd150217.webp

          614459a26f9b822eec9d99f6f2b027ca.webp

          09fc1e565ce64e2839029fe59bc7d1b1.webp

          970157b3ea11ceff0f9067b9ee769413.webp

          a48acbdea450dfde65358e10cac5c26d.webp

          a17474de5d2e01bb89dcfedc4fc5acb2.webp

          656cc9caec87a2bc65ed8bfd83cef077.webp

          57c9a88d52e91103d70a60f04b9334c3.webp

          73ed32260d7b801991a409ee8d8ff9b8.webp

          ac5a8e28758087c4f7072c72772652be.webp

          708ccee5f4b88708971565cda8b5fab2.webp


          后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集

          642c8111ca588b2e9aae67d0e0098cbb.webp





          瀏覽 130
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  在线永久 | 樱桃香蕉视频 | 在线视频韩国一区 | 91成人精品在线视频 | 亚洲无码免费电影 |