輕松在線差異基因/物種分析和可視化
7.1 limma用于轉(zhuǎn)錄組reads-count數(shù)據(jù)差異基因分析
做轉(zhuǎn)錄組差異分析,我們通常是基于reads-count數(shù)據(jù),這個(gè)數(shù)據(jù)可以來(lái)源于Salmon的結(jié)果、STAR的結(jié)果或從網(wǎng)上下載的數(shù)據(jù)。
這個(gè)數(shù)據(jù)怎么獲取,具體見(jiàn)下方的教程。
7.1.1 輸入數(shù)據(jù)1:reads-count數(shù)據(jù)
現(xiàn)在假如我們已經(jīng)拿到了8個(gè)樣品的reads-count數(shù)據(jù)。點(diǎn)擊下載ehbio_trans.Count_matrix.txt。
這是TAB鍵分割的文本文件:
第一列是基因名字,基因名可以是
ENSEMBL ID、Gene symbol或任意其它ID,但不允許有重復(fù)的名字。第一行除第一列
ENSG(第一列的名字可以是任意字符,不影響)外,其它列都是樣本名字。樣本名字建議只包括數(shù)字,字母和下劃線。尤其是不能有-,不能以數(shù)字開(kāi)頭,最好下劃線都不要有。數(shù)據(jù)矩陣中的其它內(nèi)容都是整數(shù)。
從第二行起,每一行代表一個(gè)基因在每個(gè)樣品里面的原始
reads-count值。
## untrt_N61311 untrt_N052611 untrt_N080611 untrt_N061011
## ENSG00000227232 13 25 23 24
## ENSG00000278267 0 5 3 4
## ENSG00000241860 3 11 1 5
## ENSG00000279457 46 90 73 49
## ENSG00000228463 5 4 13 6
## ENSG00000237094 0 16 7 2
## trt_N61311 trt_N052611 trt_N080611 trt_N061011
## ENSG00000227232 12 12 22 22
## ENSG00000278267 2 4 3 1
## ENSG00000241860 3 2 0 2
## ENSG00000279457 52 46 89 31
## ENSG00000228463 5 0 11 4
## ENSG00000237094 1 3 3 27.1.2 輸入數(shù)據(jù)2:樣本分組信息 (sampleFile)
既然做差異基因分析,通常是2組或多組之間的比較。如果是多組,也是兩兩組之間的組合比較。在上面的reads-count矩陣中只有樣本名稱,但不知道哪些樣本是來(lái)源于一個(gè)生物處理組的,如對(duì)照組或處理組等。所以需要提供這樣一個(gè)文件,指示樣本的屬性信息,如所屬組信息。這里有一個(gè)示例數(shù)據(jù),sampleFile2.txt:
## conditions individual sizeFactor SV1 SV2 SV3
## untrt_N61311 untrt N61311 1.0211325 -0.101 -0.494 -0.316
## untrt_N052611 untrt N052611 1.1803986 0.018 -0.170 0.588
## untrt_N080611 untrt N080611 1.1796083 -0.429 0.376 -0.089
## untrt_N061011 untrt N061011 0.9232642 0.535 0.241 -0.176
## trt_N61311 trt N61311 0.8939275 -0.125 -0.496 -0.366
## trt_N052611 trt N052611 0.6709229 0.036 -0.151 0.591需要注意的有一下幾點(diǎn):
樣本分組信息
sampleFile文件至少需要有2列。第一列表示樣本名字,需要與
reads-count文件中的第一行中的樣本名字能對(duì)應(yīng)上。順序沒(méi)有關(guān)系。大小寫(xiě)要一致。比如在sampleFile中樣本名寫(xiě)做untrt_N61311,而在reas-count文件中寫(xiě)做UNtrt_N61311或untrt N61311,大小寫(xiě)不一致是不對(duì)的。一定注意是完全一致。第二列表示樣本分組信息。示例中前4個(gè)文件屬于
untrt組,后4個(gè)文件屬于trt組。一個(gè)組的樣本不要求必須挨著。樣本的組名不要有除數(shù)字,字母和下劃線之外的字符。其它列都是樣本的屬性信息,可有可無(wú)。有時(shí)也會(huì)用到,后面會(huì)有例子演示。
7.1.3 導(dǎo)入數(shù)據(jù),設(shè)置參數(shù)
表達(dá)矩陣通常比較大,在1M左右或更大,直接粘貼進(jìn)入瀏覽器的文本域會(huì)導(dǎo)致瀏覽器變卡。這不是網(wǎng)站速度慢的問(wèn)題,是瀏覽器自身問(wèn)題,不適合承載太大的數(shù)據(jù)。這里建議用上傳的方式,免費(fèi)注冊(cè)一個(gè)賬戶,按下圖所示上傳數(shù)據(jù)。

數(shù)據(jù)上傳好之后,需要刷新工具頁(yè)面,才可以看到新上傳的數(shù)據(jù)。選擇相應(yīng)的數(shù)據(jù),如下圖

依次設(shè)置參數(shù):
Input way設(shè)置為Select uploaded fileUpload main expression data (Gene X Sample)選擇上傳的reads-count文件Select sample attributes file (first column must match first row of expression data matrix)選擇上傳的sampleFile2.txt文件選擇
Expression data type為Raw reads count選擇
Group為conditions(sampleFile2.txt中表示分組的列)

其它參數(shù)可以暫時(shí)先不管。
點(diǎn)擊提交,獲得結(jié)果。
7.1.4 差異分析結(jié)果報(bào)告
默認(rèn)輸出一個(gè)結(jié)果文檔,1個(gè)大章節(jié),2個(gè)小章節(jié),分別是整體豐度圖譜比較和差異分析結(jié)果。點(diǎn)擊各個(gè)子章節(jié)可以展開(kāi)查看具體內(nèi)容。

7.1.4.1 1.1 所有樣品豐度圖譜展示 (聚類(lèi)熱圖和PCA)
1.1.1 是樣品表達(dá)圖譜聚類(lèi)熱圖,一幅下三角熱圖,一幅交互式熱圖。展示樣本之間的相似性關(guān)系。標(biāo)準(zhǔn)化后的表達(dá)值也可從這下載。該工具主要定位是差異分析,可視化也有一些,不過(guò)都不能調(diào)整參數(shù)。如果需要進(jìn)一步可視化,可以基于這里提供的表達(dá)數(shù)據(jù),通過(guò)BIC的其它工具進(jìn)行進(jìn)一步可視化分析。后面我們會(huì)講到。

Figure 7.3: 點(diǎn)擊理解圖形解讀 1. 這個(gè)熱圖上面的樹(shù)是根據(jù)系統(tǒng)發(fā)育關(guān)系畫(huà)的嗎? 2. 圖形解讀系列 | 給你5個(gè)示例,你能看懂常用熱圖使用嗎?
1.1.2 是樣本表達(dá)圖譜的PCA圖譜繪制(靜態(tài)圖和交互圖),在PC1軸上樣品按處理和對(duì)照分成2簇,在PC2軸上,樣品的分布與個(gè)體來(lái)源相關(guān)(這里是一個(gè)信號(hào),我們后面會(huì)提到,感興趣的可以先看下高通量數(shù)據(jù)中批次效應(yīng)的鑒定和處理 - 系列總結(jié)和更新)。默認(rèn)出圖不太美觀,數(shù)據(jù)可以下載下來(lái),用我們的PCoA工具進(jìn)行進(jìn)一步繪制。

Figure 7.4: 點(diǎn)擊理解圖形解讀 1. 一文讀懂PCA分析 (原理、算法、解釋和可視化) 2. 一文學(xué)會(huì)PCA/PCoA相關(guān)統(tǒng)計(jì)檢驗(yàn)(PERMANOVA)和可視化
7.1.4.2 1.2 差異分析結(jié)果
因?yàn)橹挥幸粋€(gè)比較組,所以只有1.2.1的結(jié)果;如果有多個(gè)比較組,還會(huì)有1.2.2 DE analysis results (A vs B), 1.2.3 DE analysis results (A vs C)等。
主要展現(xiàn)的是交互式差異火山圖,鼠標(biāo)懸浮可直接查看差異基因?;鹕綀D的數(shù)據(jù)也可以拿下來(lái)用BIC繪圖平臺(tái)定制繪制。

Figure 7.5: Volcano plot | 別再問(wèn)我這為什么是火山圖
差異分析的表格數(shù)據(jù)可下載用于進(jìn)一步地分析和可視化。如下包括繪制火山圖的數(shù)據(jù)、上調(diào)基因的表達(dá)矩陣、下調(diào)基因的表達(dá)矩陣、差異基因的列表等。

往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集




























