16款測序平臺性能大PK,華大表現(xiàn)不俗!基于人類和細(xì)菌基因組DNA水平的多平臺測序數(shù)據(jù)研究成果發(fā)布
生物信息學(xué)習(xí)的正確姿勢
NGS系列文章包括NGS基礎(chǔ)、轉(zhuǎn)錄組分析 (Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析 (ChIP-seq基本分析流程)、單細(xì)胞測序分析 (重磅綜述:三萬字長文讀懂單細(xì)胞RNA測序分析的最佳實(shí)踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內(nèi)容。
DNA是生命遺傳信息的載體,獲取DNA序列信息對于基礎(chǔ)科研和臨床診斷都至關(guān)重要。自1977年第一代測序技術(shù)問世以來,經(jīng)過四十余年的探索,DNA測序技術(shù)取得了重大進(jìn)展。隨著對測序成本降低的需求,以高通量為特點(diǎn)的第二代測序技術(shù)(NGS)應(yīng)運(yùn)而生并逐步成熟,以單分子測序?yàn)樘攸c(diǎn)的第三代測序技術(shù)也已經(jīng)誕生。DNA大規(guī)模平行測序已然成為基因組學(xué)研究和臨床診斷的重要工具
目前,能夠完成DNA大規(guī)模平行測序的平臺,除了基于邊合成邊測序原理的Illumina平臺和基于半導(dǎo)體測序法的Thermo Fisher平臺外,作為新興測序平臺代表的華大智造DNBSEQ平臺異軍突起,長讀長平臺Oxford Nanopore也呈飛躍式發(fā)展。
各家測序儀的“霸主之爭”由來已久,在人類和細(xì)菌基因組DNA層面的測序性能到底如何,不同的檢測需求又該如何進(jìn)行平臺選擇?到底應(yīng)該如何看待各個(gè)平臺的錯誤模式?
近日,由生物分子資源設(shè)施協(xié)會(Association of Biomolecular Resource Facilities ,ARBF)支持的ABRF NGS II期研究成果發(fā)布于預(yù)印本平臺BioRxiv。此研究分析了在文庫制備和生物信息可控下, 各大測序平臺的數(shù)據(jù),將平臺的性能和測序錯誤模式一一揭示,為各大平臺的“霸主之爭”提供真實(shí)全面的參考依據(jù)。
1
ABRF NGS II 期研究,規(guī)模宏大
ABRF于1989年正式組建,成員包括來自41個(gè)國家/地區(qū)、340個(gè)不同核心實(shí)驗(yàn)室的1000多位科學(xué)家,成員來自工業(yè)界、政府、學(xué)術(shù)界以及研究機(jī)構(gòu)。ABRF致力于通過研究、交流和教育推進(jìn)生物技術(shù)實(shí)驗(yàn)室的核心競爭力和研究。
在ABRF NGS II期研究中,研究者在多個(gè)實(shí)驗(yàn)室內(nèi),基于16款測序平臺,對一個(gè)人類基因組家族、三個(gè)單獨(dú)的菌株和十種細(xì)菌的宏基因組混合物測序,并將各平臺數(shù)據(jù)進(jìn)行多角度比較。
這些平臺包括6款I(lǐng)llumina平臺、3款ThermoFisher Ion Torrent平臺, 2款DNBSEQ平臺(BGISEQ-500和MGISEQ-2000)以及Oxford Nanopore平臺和Genapsys平臺等。數(shù)據(jù)分析包括各平臺的reads mapping能力,不同平臺的測序覆蓋度、復(fù)雜區(qū)域的測序錯誤率、不同突變類型的檢出影響因素等。
2
以25X均一化測序深度后,長讀長和短讀長平臺的基因組覆蓋度均較好。
按照UCSC的 RepeatMask分類,DNA重復(fù)序列分為Alu、L1、L2、LTR、微衛(wèi)星、簡單重復(fù)和端粒區(qū)域。測序數(shù)據(jù)顯示,對于DNA重復(fù)序列的檢測,平臺各有所長:BGISEQ-500、HiSeq4000 、NovaSeq 2x150bp在捕獲Alu區(qū)域時(shí)具有優(yōu)勢,HiSeq 2500、HiSeq X10和NovaSeq 2x150bp在捕獲L1、L2和低復(fù)雜度區(qū)域表現(xiàn)最佳,PacBio CCS和NovaSeq在微衛(wèi)星區(qū)域和簡單重復(fù)區(qū)域的測序中表現(xiàn)最好, PromethION平臺的特長則在端粒區(qū)域的捕獲。
分析結(jié)果顯示,測序錯誤率與基因組GC含量具有直接相關(guān)性。在GC含量比較高的區(qū)域(75%-100%),各平臺的錯誤率均比較高。就錯誤模式而言,華大智造的DNBSEQ平臺和Illumina平臺更傾向于核苷酸替代,而且這兩個(gè)平臺比較,靈敏度相當(dāng),但華大智造的精度略好;Genapsys平臺和長讀長平臺最主要錯誤來源是插入/缺失。
SNV(單核苷酸變異)和INDEL(插入/缺失突變)是生物DNA常見的突變類型。
在SNV的檢出中, 華大智造的DNBSEQ平臺最為靈敏,其次是NovaSeq 2x250bp、NovaSeq 2x150bp、HiSeq 2500、HiSeq X10和HiSeq4000平臺。對INDEL的檢出中,所有平臺靈敏度均達(dá)到99.5%,華大智造的DNBSEQ平臺和NovaSeq的檢出相似,優(yōu)于其他平臺。PacBio、Nanopore平臺對于SNV和INDEL的捕獲能力均較弱。
數(shù)據(jù)表明, SV(結(jié)構(gòu)變異)的檢出與多因素相關(guān),如SV類型、測序平臺、實(shí)驗(yàn)室間的操作等。
在各平臺數(shù)據(jù)中,HiSeqX10檢測到SVs數(shù)量最多,其次是HiSeq4000和HiSeq2500。檢出假陽性最多的平臺依次是HiSeq2500, HiSeqX10和HiSeq4000。
此研究對于GC不平衡的原核細(xì)菌基因組進(jìn)行了測序分析,包括三種單一菌種和十種細(xì)菌的混合物,各樣本分別于MiSeq、Ion PGM和 Ion S5平臺測序。
細(xì)菌基因組捕獲的影響因素主要為菌種差異和測序平臺差異。在各個(gè)平臺中,ThermoFisher的Ion PM和 S5平臺在錯誤率角度略勝一籌。對于復(fù)雜的宏基因組樣本,所有平臺都能夠識別混合物中的所有菌株,但對基因突變的捕獲水平差異較大。
3
ABRF NGS II期研究是迄今為止最全面的DNA測序分析研究之一,此研究跨越不同基因組大小和核苷酸組成,多角度分析揭示了測序平臺之間的特征差異,以及同一平臺的可變性和可重復(fù)性。
綜合各項(xiàng)數(shù)據(jù),樣本的GC含量是影響測序錯誤率的主要因素。對單一樣本的DNA測序而言,成熟的平臺如Illumina的表現(xiàn)依舊名列前茅,新興平臺的多項(xiàng)性能已經(jīng)和成熟平臺不相上下。但就特定區(qū)域如Alu的捕獲能力,對SNV、INDEL的檢出和錯誤模式的評估,來自華大智造的DNBSEQ平臺,受益于其獨(dú)特的測序文庫方法學(xué),已經(jīng)獨(dú)具優(yōu)勢。
不可忽略的是,“對于宏基因組樣本,各平臺對樣本變異的捕獲能力差異較大,這表明在復(fù)雜背景下對于特定突變的捕獲,仍存在挑戰(zhàn)”, 論文作者、威爾康奈爾醫(yī)學(xué)院Jonathan Foox教授如是說。
多年來,DNA大規(guī)模平行測序的市場一直由Illumina和ThermoFisher等寡頭壟斷。通過此研究,我們欣喜的發(fā)現(xiàn),越來越多的新興測序平臺依托精益求精的性能指標(biāo),在“霸主之爭”中不可小覷。
參考資料:
Jonathan Foox .et al,Multi-Platform Assessment of DNA Sequencing Performance using Human and Bacterial Reference Genomes in the ABRF Next-Generation Sequencing Study , bioRxiv ,2020,doi:https://doi.org/10.1101/2020.07.23.218602
往期精品(點(diǎn)擊圖片直達(dá)文字對應(yīng)教程)
后臺回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集




























