高通量數(shù)據(jù)中批次效應(yīng)的鑒定和處理(二)
前文講了什么是批次效應(yīng)和有哪些影響,我們繼續(xù)往下看……
怎么確認(rèn)數(shù)據(jù)有無(wú)受到批次效應(yīng)影響
通過(guò)樣品的層級(jí)聚類熱圖+樣品屬性信息的注釋來(lái)展示樣品聚類結(jié)果有無(wú)受批次效應(yīng)的影響。如下面右圖中可見(jiàn)WT_1樣品在聚類分支上與其它樣品處于不同的分支,而從列注釋圖可以看到WT_1的seqPlatform和batch信息與其它樣品不同,這是給我們的一個(gè)提示可能存在批次效應(yīng)影響。

通常我們?cè)谡隙嗵讛?shù)據(jù)集進(jìn)行展示時(shí)也會(huì)加上數(shù)據(jù)來(lái)源信息以展示自己的分析結(jié)果未受批次等因素影響。如下圖每一列是一個(gè)樣品,每一行是一個(gè)菌群;列注釋中有一行為Dataset指示樣品來(lái)源于 2 個(gè)數(shù)據(jù)集,并且聚類結(jié)果沒(méi)有明顯受到數(shù)據(jù)集來(lái)源的影響(四個(gè)大的聚類分支中樣品來(lái)源分布沒(méi)有明顯偏好性);

通過(guò)主成分分析PCA查看有無(wú)批次效應(yīng)的影響。如下左圖,樣品在PC1和PC2組成的空間中按數(shù)據(jù)集而非樣本類型聚在一起,表示數(shù)據(jù)來(lái)源對(duì)樣本檢測(cè)結(jié)果的影響超出了樣本類型的影響,提示存在批次效應(yīng)。如右圖,批次效應(yīng)移除后,在PC1軸上樣品基本按正常-癌旁-腫瘤分布,表示當(dāng)前樣品差異的主要影響因素是樣本類型。這時(shí)可以繪制樣品在更多PC軸上的分布,如PC1-PC3、PC1-PC4等構(gòu)成的空間中樣品差異的主要因素是什么,也可以進(jìn)一步判斷批次效應(yīng)移除的程度怎樣。

通過(guò)樣本整體表達(dá)分布查看有無(wú)批次影響。不同來(lái)源的樣本一般是各自進(jìn)行標(biāo)準(zhǔn)化(尤其是芯片數(shù)據(jù)),合并在一起后,可以簡(jiǎn)單的從整體表達(dá)分布來(lái)查看是否存在明顯的偏移。如下左圖存在明顯的偏移,則提示有批次效應(yīng)的存在。校正后,如右圖,看上去樣本的整體表達(dá)分布均一了。但是否批次影響就被移除了,卻很難據(jù)此下結(jié)論。

通過(guò)部分基因集的表達(dá)變化查看有無(wú)批次效應(yīng)影響。不同來(lái)源的數(shù)據(jù)一起標(biāo)準(zhǔn)化之后,如果標(biāo)準(zhǔn)化效果好的話,樣品整體表達(dá)分布也會(huì)是均一的(如下面左數(shù)第二幅圖)。但從中隨機(jī)抽取數(shù)百基因卻發(fā)現(xiàn)其表達(dá)收到了批次的影響(如下面左數(shù)第三幅圖,只展示了數(shù)個(gè)基因),而且聚類結(jié)果也把兩組正常樣品分到了各自來(lái)源相對(duì)應(yīng)的分支上。

