Nature Biotechnology | 單細胞轉錄組不同建庫及數(shù)據(jù)分析方法的測評結果

單細胞轉錄組技術實現(xiàn)對單個細胞進行詳細的轉錄組分析,其在解析細胞異質(zhì)性和鑒定新型細胞亞群層面具有獨特的優(yōu)勢。目前,該技術已廣泛應用于生物醫(yī)學領域,比如解析腫瘤微環(huán)境細胞組成、哺乳動物胚胎發(fā)育等。
隨著測序技術的飛速發(fā)展,單細胞轉錄組測序技術也已成為實驗室常規(guī)工具之一。然而,研究人員在試圖應用單細胞轉錄組技術的時候也面臨著令人困惑的選擇,比如說選擇哪種建庫測序平臺,使用哪種分析方法以及后續(xù)的生物信息學分析方法的選擇等等。
此前,來自人類細胞圖譜聯(lián)盟的研究人員進行了一項綜合性多中心研究,通過使用包含人類、小鼠和狗細胞的參考樣本,比較了13種單細胞轉錄組測序流程的異同。結果發(fā)現(xiàn)不同流程在量化基因表達和識別細胞類型層面存在著顯著差異。
近日,美國羅馬琳達大學基因組學中心的研究團隊在Nature Biotechnology發(fā)表了題為“A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples”的研究性文章,研究人員設計了一項綜合性的多中心研究,用以評估技術平臺、樣品組成和生物信息學方法(包括預處理、歸一化和批次效應校正)的影響,并在最后為科研人員解決科學問題的技術平臺和生物信息方法的結合提供了實踐指導。

該研究使用了四種測序平臺:10x Genomics,F(xiàn)luidigm C1, Fluidigm C1 HT和Takara Bio ICELL8;測序工作分別由四個研究中心完成:Loma Linda University(LLU), the National Cancer Institute(NCI), the US Food and Drug Administration(FDA)和Takara BioUSA(TBU)。樣本層面,他們使用了有兩個特征明顯的參考細胞系:來自同一供者的乳腺癌細胞系(樣本A)和“正?!盉淋巴細胞系(樣本B)。然后使用3 '或全長單細胞轉錄組測序方法對30,693個單細胞進行了測序,共生成了20個數(shù)據(jù)集。
針對產(chǎn)生的這20個數(shù)據(jù)集,研究人員對不同的數(shù)據(jù)預處理方法、數(shù)據(jù)標準化方法、批次效應矯正方法等進行了評估。

圖1. 研究總體設計示意圖。來源:Nature Biotechnology
測序深度與檢測基因數(shù)的關系
首先,研究人員對序列深度與檢測到的基因數(shù)量的關系進行了評估。正如預期的那樣,隨著測序深度的增加,檢測到的基因數(shù)逐漸升高并最終趨于穩(wěn)定。另外,對于癌細胞(樣本A)和B淋巴細胞(樣本B),隨著測序深度的增加,每個細胞檢測到的基因數(shù)量迅速增加,特別是Fluidigm C1平臺。然而,對于全長測序技術(C1_LLU和ICELL8),在10萬次讀取后,飽和速率較慢,在相同的測序深度增加情況下,與基于3’的測序技術相比,額外能夠檢測到的基因較少。

圖2. 不同測序平臺檢測的基因數(shù)及與測序深度的關系。來源:Nature Biotechnology
數(shù)據(jù)預處理方法的比較
對基于UMI(Unique Molecular Identifier)的單細胞轉錄組測序數(shù)據(jù),他們比較了三種預處理方法:Cell Ranger 3.1(10x Genomics)、UMI-tools和zUMIs。結果顯示,三種方法在識別細胞數(shù)量和每個細胞檢測到的基因數(shù)量層面都存在差異。不過,Cell Ranger V3是最靈敏的細胞條形碼識別方法,UMI-tools和zUMIs可以過濾大多數(shù)低基因或轉錄表達的細胞,但每個細胞內(nèi)可檢測到更多的基因。
對非基于UMI的單細胞轉錄組測序數(shù)據(jù),他們比較了另外三種預處理方法:featureCounts、kallisto和RSEM。這些數(shù)據(jù)預處理流程包括去除低質(zhì)量測序數(shù)據(jù)、基因組比對和基因計數(shù)。結果表明,三個不同的預處理方法檢測到的基因數(shù)量的差異比較大。kallisto在全長轉錄組測序數(shù)據(jù)中發(fā)現(xiàn)了每個細胞中更多的基因。此外,基于Fluidigm C1 HT 3’測序方法產(chǎn)生的數(shù)據(jù)中,kallisto方法檢測到的每個細胞的基因數(shù)與其它兩個管道生成的基因序列有顯著差異。?

圖3. 數(shù)據(jù)預處理方式對檢測到的基因數(shù)量的影響。來源:Nature Biotechnology
不同批次矯正算法的比較
如上所述,數(shù)據(jù)集之間的差異可能來自技術層面或生物因素,針對這些技術層面帶來的差異,在進行數(shù)據(jù)分析時是需要矯正的,否則將會影響最終的結論。研究者對七種校正批次效應的算法進行基準測試:Seurat version 3、fastMNN、mutual nearest neighbors(MNN)、Scanorama、BBKNN、Harmony、limma和ComBat。
他們通過四種不同的樣本組合評估這些算法的性能,組合1包含所有單細胞轉錄組數(shù)據(jù)集,包括混合和純合數(shù)據(jù)集;組合2只包含了乳腺癌細胞系數(shù)據(jù);組合3分別對B細胞系來源數(shù)據(jù)進行評估;組合4中,數(shù)據(jù)由將5%或10%的乳腺癌細胞(樣本A)加入到B淋巴細胞(樣本B)中,用10x Genomics平臺橫跨兩個中心測序得到。
結果顯示,在去除批次效應和從B淋巴細胞中分離乳腺癌細胞方面,BBKNN、fastMNN和Harmony是最有效的;Seurat V3是將不同批次的相似細胞聚集在一起的最佳方法之一,特別是對乳腺癌細胞,但也會存在過度校正的現(xiàn)象,比如將兩種高度不同的細胞類型融合在一起。另外,當只分析來自10x平臺的數(shù)據(jù)時,Scanorama既能清晰地分離不同的細胞,又能很好地將相似的細胞組合在一起。

圖4. 比較分析不同工具的批次矯正效果。來源:Nature Biotechnology?
綜合上述的分析結果,研究人員對這些預處理方法和算法進行了綜合排序,如圖5所示,基于UMI的數(shù)據(jù)可以用文中所列的任何方法進行預處理,而kallisto則更適用于全長轉錄組測序數(shù)據(jù)的預處理。?
在跨中心數(shù)據(jù)集,特別是當數(shù)據(jù)集中存在大量不相似細胞時,BBKNN表現(xiàn)最好,而limma和ComBat在兩種類型的細胞的跨平臺、跨中心分離中表現(xiàn)最差。Seurat V3、fastMNN和Harmony都能很好地混合來自不同平臺和位點的生物相同或相似樣本的單細胞轉錄組數(shù)據(jù)。

圖5. 生物信息學指標的性能排名。來源:Nature Biotechnology
綜上所述,該研究比較分析了6種單細胞轉錄組數(shù)據(jù)預處理流程、8種歸一化方法和7種批次校正算法,結果表明,單細胞轉錄組數(shù)據(jù)之間的確存在批次效應,不過,跨中心和不同平臺的數(shù)據(jù)差異可以通過適當?shù)挠嬎惴椒ㄟM行糾正。同時,該研究也強調(diào)了選擇適合的測序技術平臺和分析數(shù)據(jù)算法的重要性。如下圖所示,他們也根據(jù)本研究結果為科研人員選擇最適合解決科學問題的技術平臺和生物信息方法的結合提供了實踐指導。

圖6. 最佳分析推薦方案。來源:Nature Biotechnology
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

?
(請備注姓名-學校/企業(yè)-職務等)



























