哈佛大學(xué)單細(xì)胞課程|筆記匯總 (五)
生物信息學(xué)習(xí)的正確姿勢
NGS系列文章包括NGS基礎(chǔ)、在線繪圖、轉(zhuǎn)錄組分析 (Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析 (ChIP-seq基本分析流程)、單細(xì)胞測序分析 (重磅綜述:三萬字長文讀懂單細(xì)胞RNA測序分析的最佳實(shí)踐教程)、DNA甲基化分析、重測序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step))、批次效應(yīng)處理等內(nèi)容。
(五)Count Normalization and Principal Component Analysis
獲得高質(zhì)量的單細(xì)胞后,單細(xì)胞RNA-seq(scRNA-seq)分析工作流程的下一步就是執(zhí)行聚類。聚類的目標(biāo)是將不同的細(xì)胞類型分成獨(dú)特的細(xì)胞亞群。為了進(jìn)行聚類,我們確定了在細(xì)胞之間表達(dá)差異最大的基因。
數(shù)值標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化最重要的目的就是使表達(dá)水平在細(xì)胞之間和/或細(xì)胞內(nèi)更具有可比性。那么在標(biāo)準(zhǔn)化中主要需要處理的因素包括:
測序深度:考慮測序深度是比較細(xì)胞之間基因表達(dá)的必要條件。在下面的示例中,每個基因在細(xì)胞2中的表達(dá)似乎都增加了一倍,但這是細(xì)胞2具有兩倍測序深度的結(jié)果。

因此,要準(zhǔn)確比較細(xì)胞之間的表達(dá),有必要對測序深度進(jìn)行標(biāo)準(zhǔn)化 (什么?你做的差異基因方法不合適?)。
基因長度:需要基因長度來比較同一細(xì)胞內(nèi)不同基因之間的表達(dá)?;蜷L度越長比對到的reads理論上會越多。如下圖所示:低表達(dá)的較長基因測序到的reads數(shù)與較高表達(dá)的短基因相差不大。

如果進(jìn)行的是5’末端或3’末端測序,則不需要考慮基因長度的影響;
如果使用全長測序則需要考慮。
主成分分析(PCA)
PCA是對數(shù)據(jù)降維的技術(shù),可以用來展示樣品差異和相似性,這里推薦一個學(xué)習(xí)視頻:StatQuest's video(https://www.youtube.com/watch?v=_UVHneBUBW0)
下面是PCA的示例模擬過程,幫助理解:
如果你已經(jīng)定量了兩個樣本(或細(xì)胞)中四個基因的表達(dá),則可以繪制這些基因的表達(dá)值,其中一個樣本在x軸上表示,另一個樣本在y軸上表示,如下所示:

我們可以沿代表最大變化的方向在數(shù)據(jù)上畫一條線,在此示例中為對角線,數(shù)據(jù)中變化第一大的變量。數(shù)據(jù)集中的最大變異是在組成兩個端點(diǎn)的基因。我們還看到基因在該線的上方和下方有些不同。我們可以在該條線的中點(diǎn)繪制另一條與其垂直的線,代表數(shù)據(jù)中變化第二大的變量。

末端附近的基因 (B, C)是變異最大的基因。這些基因在數(shù)學(xué)上對線的方向影響最大。

例如,基因C值的微小變化將極大地改變較長線的方向,而基因A或基因D的微小變化對其幾乎沒有影響。

我們還可以旋轉(zhuǎn)整個圖,保證線條方向是從左到右和從上到下。現(xiàn)在,可以將這些線視為代表變化的軸。這些軸本質(zhì)上是“主成分”,其中PC1代表數(shù)據(jù)的最大差異,PC2代表數(shù)據(jù)的第二大差異。

如果有N個細(xì)胞,以此類推。。。(PCA主成分分析實(shí)戰(zhàn)和可視化 | 附R代碼和測試數(shù)據(jù))
確定PCs后,則需要對每個PC進(jìn)行評分,按照以下步驟對所有樣本PC對(sample-PC pairs)計(jì)算分?jǐn)?shù):
(1)首先,根據(jù)基因?qū)γ總€PC的影響程度,為其分配“影響力”評分。對給定PC沒有任何影響的基因得分接近零,而具有更大影響力的基因得分更高。PC線末端的基因?qū)a(chǎn)生更大的影響,因此它們將獲得更大的分?jǐn)?shù),但兩端的符號相反。

(2)確定影響分?jǐn)?shù)后,使用以下公式計(jì)算每個樣本的分?jǐn)?shù):
Sample1 PC1 score = (read count * influence) + ... for all genes
以我們的2個樣本示例,以下是分?jǐn)?shù)的計(jì)算方式:
## Sample1
PC1 score = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51
PC2 score = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7
## Sample2
PC1 score = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21
PC2 score = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5
(3)一旦為各個樣本的所有PC計(jì)算了這些分?jǐn)?shù),就可以將其繪制在簡單的散點(diǎn)圖上。下面是示例圖:

對于具有大量樣本或細(xì)胞的數(shù)據(jù)集,通常會繪制每個樣本/細(xì)胞的PC1和PC2分?jǐn)?shù)。由于這些PC解釋了數(shù)據(jù)集中最大的變化,因此更相似的樣本/細(xì)胞將在PC1和PC2聚在一起。請參見下面的示例:

Image credit: https://github.com/AshwiniRS/Medium_Notebooks/blob/master/PCA/PCA_Iris_DataSet.ipynb
對于我們的單細(xì)胞數(shù)據(jù),我們最終會選擇10-100 PC去對細(xì)胞進(jìn)行聚類分析,而不是全部基因。
往期精品(點(diǎn)擊圖片直達(dá)文字對應(yīng)教程)
后臺回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集




























