GSEA富集分析:從概念理解到界面實(shí)操
GSEA定義
Gene Set Enrichment Analysis (基因集富集分析)用來評(píng)估一個(gè)預(yù)先定義的基因集的基因在與表型相關(guān)度排序的基因表中的分布趨勢(shì),從而判斷其對(duì)表型的貢獻(xiàn)。
其輸入數(shù)據(jù)包含兩部分:
一是已知功能的基因集 (可以是GO注釋、MsigDB的注釋或其它符合格式的基因集定義);
一是表達(dá)矩陣,軟件會(huì)對(duì)基因根據(jù)其于表型的關(guān)聯(lián)度(可以理解為表達(dá)值的變化)從大到小排序,然后判斷基因集內(nèi)每條注釋下的基因是否富集于表型相關(guān)度排序后基因表的上部或下部,從而判斷此基因集內(nèi)基因的協(xié)同變化對(duì)表型變化的影響。
(The gene sets are defined based on prior biological knowledge, e.g., published information about biochemical pathways or coexpression in previous experiments. The goal of GSEA is to determine whether members of a gene set?S?tend to occur toward the?top?(or bottom) of the listL, in which case the gene set is correlated with the phenotypic class distinction.)
這與之前講述的GO富集分析不同。GO富集分析是先篩選差異基因,再判斷差異基因在哪些注釋的通路存在富集;這涉及到閾值的設(shè)定,存在一定主觀性并且只能用于表達(dá)變化較大的基因,即我們定義的顯著差異基因。
而GSEA則不局限于差異基因,從基因集的富集角度出發(fā),理論上更容易囊括細(xì)微但協(xié)調(diào)性的變化對(duì)生物通路的影響。
GSEA原理
給定一個(gè)排序的基因表L和一個(gè)預(yù)先定義的基因集S?(比如編碼某個(gè)代謝通路的產(chǎn)物的基因, 基因組上物理位置相近的基因,或同一GO注釋下的基因)。
GSEA的目的是判斷S里面的成員s在L里面是隨機(jī)分布還是主要聚集在L的頂部或底部。
這些基因排序的依據(jù)是其在不同表型狀態(tài)下的表達(dá)差異,若研究的基因集S的成員顯著聚集在L的頂部或底部,則說明此基因集成員對(duì)表型的差異有貢獻(xiàn),也是我們關(guān)注的基因集。

GSEA計(jì)算中幾個(gè)關(guān)鍵概念:
計(jì)算富集得分?(ES, enrichment score). ES反應(yīng)基因集成員
s在排序列表L的兩端富集的程度。計(jì)算方式是,從基因集L的第一個(gè)基因開始,計(jì)算一個(gè)累計(jì)統(tǒng)計(jì)值。當(dāng)遇到一個(gè)落在s里面的基因,則增加統(tǒng)計(jì)值。遇到一個(gè)不在s里面的基因,則降低統(tǒng)計(jì)值。每一步統(tǒng)計(jì)值增加或減少的幅度與基因的表達(dá)變化程度(更嚴(yán)格的是與基因和表型的關(guān)聯(lián)度)是相關(guān)的。富集得分ES最后定義為最大的峰值。正值ES表示基因集在列表的頂部富集,負(fù)值ES表示基因集在列表的底部富集。?評(píng)估富集得分(ES)的顯著性。通過基于表型而不改變基因之間關(guān)系的排列檢驗(yàn) (permutation test)計(jì)算觀察到的富集得分(ES)出現(xiàn)的可能性。若樣品量少,也可基于基因集做排列檢驗(yàn) (permutation test),計(jì)算p-value。
?多重假設(shè)檢驗(yàn)矯正。首先對(duì)每個(gè)基因子集
s計(jì)算得到的ES根據(jù)基因集的大小進(jìn)行標(biāo)準(zhǔn)化得到Normalized Enrichment Score (NES)。隨后針對(duì)NES計(jì)算假陽性率。(計(jì)算NES也有另外一種方法,是計(jì)算出的ES除以排列檢驗(yàn)得到的所有ES的平均值)?Leading-edge subset,對(duì)富集得分貢獻(xiàn)最大的基因成員。
GSEA分析
軟件和基因集下載:http://software.broadinstitute.org/gsea/downloads.jsp


輸入數(shù)據(jù)準(zhǔn)備
?表達(dá)矩陣。常見表達(dá)矩陣格式,
tab鍵分割,txt格式,第一列為基因名字(名字與注釋數(shù)據(jù)庫一致,同為GeneSymbol或EntrezID或其它自定義名字),第一行為標(biāo)題行,含樣品信息。也可為gct文件,具體見?http://blog.genesino.com/2014/08/GSEA-usages/
樣品分組信息

分組信息示例

基因集信息

基因集信息示例

軟件運(yùn)行 (每一步的步驟如有不明確的參考文后第一個(gè)鏈接)
導(dǎo)入數(shù)據(jù)

運(yùn)行GSEA?(若每組樣品都有多于7個(gè)樣品,則Permutation type選擇
phenotype,結(jié)果理論上更好;否則選擇gene_set)
設(shè)置好參數(shù)后,點(diǎn)擊正下方的
run,等待運(yùn)行結(jié)束,左側(cè)出現(xiàn)success
點(diǎn)擊
success,查看結(jié)果
順著網(wǎng)頁的導(dǎo)航一步步去查看結(jié)果,有耐心就好。主要的解釋下,最常見的這種圖。

圖最上面部分展示的是ES的值計(jì)算過程,從左至右每到一個(gè)基因,計(jì)算出一個(gè)ES值,連成線。最高峰為富集得分(ES)。在最左側(cè)或最右側(cè)有一個(gè)特別明顯的峰的基因集通常是感興趣的基因集。
圖中間部分每一條先代表基因集中的一個(gè)基因,及其在基因列表中的排序位置。
最下面部分展示的是基因與表型關(guān)聯(lián)的矩陣,紅色為與第一個(gè)表型(
MUT)正相關(guān),在MUT中表達(dá)高,藍(lán)色與第二個(gè)表型(WT)正相關(guān),在WT中表達(dá)高。Leading-edge subset,對(duì)富集得分貢獻(xiàn)最大的基因成員。若富集得分為正值,則是峰左側(cè)的基因;若富集得分為負(fù)值,則是峰右側(cè)的基因。FDR,GSEA默認(rèn)提供所有的分析結(jié)果,并且設(shè)定FDR<0.25為可信的富集,最可能獲得有功能研究?jī)r(jià)值的結(jié)果。但如果樣品數(shù)目少,而且選擇了gene_set作為Permumation type則需要使用更為嚴(yán)格的標(biāo)準(zhǔn),比如FDR<0.05。
Leading-edge分析
主要對(duì)篩選感興趣的基因有意義;選擇一個(gè)或多個(gè)顯著富集的基因集,查看其內(nèi)Leading-edge基因的表達(dá)和重疊狀態(tài)。


MSigDB
GSEA團(tuán)隊(duì)整理好的基因集,可用于注釋,也可下載下來搜尋自己感興趣的方向的基因作為一個(gè)補(bǔ)充。每個(gè)注釋都提供了基于Gene Symbol和Entrez ID的索引表格。

參考
較早記錄的一篇GSEA的使用,有腳本可以轉(zhuǎn)換表達(dá)矩陣為
gct,?cls文件作為GSEA的輸入。文檔為英文,但軟件操作步驟還算詳細(xì),可配合著看:http://blog.genesino.com/2014/08/GSEA-usages/
最開始學(xué)習(xí)的教程,每一步操作都比較詳細(xì):
http://www.baderlab.org/Software/EnrichmentMap/Tutorial
GSEA軟件和數(shù)據(jù)集下載:
http://software.broadinstitute.org/gsea/downloads.jsp
原文對(duì)GSEA原理的講解是很清晰的,可以讀下,關(guān)鍵的內(nèi)容也都摘錄在第一個(gè)鏈接里:
https://www.ncbi.nlm.nih.gov/pubmed/16199517
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集





























