外顯子和基因組基本概念(一)
基因組(Genome):分子生物學(xué)和遺傳學(xué)領(lǐng)域中指生物體所有遺傳物質(zhì)的總和,包括DNA或RNA(病毒)。DNA具體包含編碼DNA、非編碼DNA、線粒體DNA和葉綠體DNA。研究基因組的科學(xué)稱為基因組學(xué)。
同源染色體(Homologous Chromosomes):一個物種中形態(tài)和結(jié)構(gòu)基本相同的染色體。在二倍體生物細胞中,同源染色體在減數(shù)第一次分裂的四分體時期中彼此聯(lián)會(若是三倍體及其他奇數(shù)倍體生物細胞,聯(lián)會時會發(fā)生紊亂),最后分開到不同的生殖細胞中。子代的一對染色體其中的一條來自母方,另一條來自父方。
參考基因組(Reference Genome, REF):又稱參考(序列)組裝(A Reference Assembly),是一個電子化的核酸序列數(shù)據(jù)庫(A digital nucleic acid sequence database)。它由多個科學(xué)家和研究單位協(xié)作組裝、維護和更新,用以作為一個物種的一個理想化的個體的、全基因組序列的典型代表或案例(但不能保證可以精準地代表某個地球上存在過的生物體)。人類、病毒、細菌、真菌、植物和動物理論上都有各自的參考基因組,目前只有部分物種被測通和公布。NGS基礎(chǔ) - 參考基因組和基因注釋文件
人類基因組由23對染色體、約60億個堿基(或核苷酸)組成。正常人類基因組是以2個拷貝存在(是指同源染色體,而非姐妹染色單體),分別來自父母。人類的基因組有幾個不同的版本名,目前比較常用的有hg19、hg38、GRCh37、GRCh38。hg系列是UCSC的叫法,GRCh系列是NCBI和Ensembl的叫法。同一版本的序列是一樣的,hg19對應(yīng)GRCh37,hg38對應(yīng)GRCh38(坐標與hg19/GRCh37不同)。
參考基因組的實體是一個文本文件(.fasta),通常是個單倍體(除了性染色體),含有染色體號和核酸(A/T/G/C)序列,可壓縮與索引,且包含一系列的配套文件(例如:GTF文件,記錄每個基因名稱及其各種元器件的位置)。參考基因組可提供來自每個供體不同DNA序列的單倍體鑲嵌(A haploid mosaic of different DNA sequences from each donor)。
事實上,基因組學(xué)、高通量測序以及相關(guān)的生信分析技術(shù),很大程度上得益于人類基因組計劃(Human Genome Project, HGP)。HGP是一項與曼哈頓原子彈計劃和阿波羅計劃相提并論的規(guī)模宏大、跨國跨學(xué)科的科學(xué)探索工程。旨在測定組成人類染色體(指單倍體)中所包含的30億個堿基對組成的核苷酸序列,從而繪制人類基因組圖譜,并且辨識其載有的基因及其序列,達到破譯人類遺傳信息的最終目的。
全基因組測序(Whole Genome Sequencing, WGS):是指利用高通量測序平臺對生物的不同個體(或群體)、同一個體的不同器官(或組織、細胞)進行全基因組測序,并進行生物信息學(xué)分析(主要是利用統(tǒng)計方法獲取影響表型或經(jīng)濟性狀的候選基因或功能突變)。
高通量測序(High-Throughput Sequencing, HTS):是對傳統(tǒng)Sanger測序(也稱為一代測序技術(shù))革命性的改變, 一次(一輪反應(yīng)或拍照)對幾十萬到幾百萬條核酸分子進行序列測定,故又稱下一代測序技術(shù)(Next Generation Sequencing,NGS)。
高通量測序也被稱為深度測序(Deep Sequencing),是人類歷史上多學(xué)科、基礎(chǔ)研究、資本運作與商業(yè)化結(jié)合的成功案例之一,直接導(dǎo)致了高通量測序儀(當前世界最尖端的大型設(shè)備之一)的發(fā)明與革新,使得對一個物種的基因組和轉(zhuǎn)錄組進行高效、細致、全貌的分析成為常規(guī)操作。高通量測序作為分子群體遺傳學(xué)和個人基因組學(xué)研究的有力工具,對21世紀前半葉的生命科學(xué)研究、生產(chǎn)、疾病的診斷和治療起到巨大作用,也對生物信息學(xué)的進一步發(fā)展起到重要的推動作用。
基因結(jié)構(gòu):真核生物的基因和基因調(diào)控大致分為4個區(qū)域,1)編碼區(qū),包括外顯子與內(nèi)含子;2)前導(dǎo)區(qū),位于編碼區(qū)上游,相當于RNA 5’末端非編碼區(qū)(非翻譯區(qū));3)尾部區(qū),位于RNA 3’編碼區(qū)下游,相當于末端非編碼區(qū)(非翻譯區(qū));4)調(diào)控區(qū),包括啟動子和增強子等?;蚓幋a區(qū)的兩側(cè)也稱為側(cè)翼順序。一個典型的模式圖:

外顯子組(Exome):全部外顯子稱為“外顯子組”(Exome)。外顯子(Exon)作為真核生物基因的一部分,包含著合成蛋白質(zhì)(生命活動的承擔者)所需要的核心信息。外顯子組約占全基因組序列的1%,大多數(shù)與疾病相關(guān)的變異位于外顯子區(qū)。與全基因組測序相比,外顯子組測序不僅費用較低,數(shù)據(jù)分析也更為簡單,廣泛應(yīng)用于孟德爾遺傳病、罕見綜合征及復(fù)雜疾病的研究中。
全外顯子組測序 (Whole Exome Sequencing, WES):是指利用序列捕獲技術(shù)(主要是核酸探針)將全基因組外顯子區(qū)域DNA捕捉并富集后進行高通量測序的基因組分析方法。產(chǎn)品主要由Agilent等幾家公司把控,不同公司的靶位點略有不同。
變異(Variation):通常指在不同個體、或同一個體的不同細胞之間,基因組或外顯子組上的堿基序列的不同。
研究變異的意義。變異位點作為分子遺傳標記,在人類復(fù)雜疾病、動植物經(jīng)濟性狀和育種研究及物種起源、馴化、群體歷史動態(tài)等方面具有重大的指導(dǎo)意義。所謂指導(dǎo)意義,通常是“一項研究或機制研究的起點”。研究“變異”的一個哲學(xué)觀或方法論,請查看聊生信之前的一篇評述類文章(點我)。
單核苷酸多態(tài)性(Single Nucleotide Polymorphism, SNP):主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態(tài)性。多態(tài)性是群體基因組或比較基因組研究中的一個概念,有一定的發(fā)生和分布規(guī)律。因此SNP本身是針對“群體”而言的(within a population),應(yīng)該在群體中占一定的比例(e.g. > 1%),即一般用來描述一個群體內(nèi)不那么罕見的堿基突變。
“二態(tài)性”(biallelic)。即C>T,C>G,C>A等兩種“狀態(tài)”之間的變異。偶爾也存在三態(tài)或四態(tài)之間的變異(需要排除測序帶來的假陽性)。
SNV(Single Nucleotide Variant):即單核苷酸變異,但頻率沒有任何限制,可用于描述任意一個可以被測序檢測到的堿基突變。除了整個個體或生殖細胞,SNV也可能出現(xiàn)在體細胞中。體細胞的單核苷酸變異(例如腫瘤組織)也可以稱為“Single Nucleotide Alteration”。對于少數(shù)變異位點的討論,可直接使用“點突變”(Point Mutation)。
SNP與SNV。二者概念的界限并不是非常明晰,日常交流時甚至一些高水平期刊上也會將這二者混用。SNP更偏向于群體研究,頻率可能也較高(但又不絕對,一些SNP的頻率也可能極低)。通常SNP數(shù)據(jù)庫的位點總數(shù)遠低于SNV。在存儲SNV的數(shù)據(jù)時,應(yīng)盡可能地保留所有樣本的全部變異信息(如gVCF文件),這對數(shù)據(jù)的存儲帶來了極大的挑戰(zhàn),但對于尋找有意義的罕見位點的變異非常重要。
利用轉(zhuǎn)錄組數(shù)據(jù)分析變異。事實上除了外顯子組或基因組,轉(zhuǎn)錄組也可以鑒定SNP或SNV等變異。這就要求在設(shè)計轉(zhuǎn)錄組的實驗方案時,小心地將“性狀”、“個體”、“器官、組織或細胞”等因素也納入,最終不僅可以獲得基因表達數(shù)據(jù),也能獲得遺傳變異相關(guān)的分析結(jié)果,并可繼續(xù)做一些關(guān)聯(lián)分析(如eQTL)。最終測序數(shù)據(jù)能反映更多的組學(xué)信息,提高研究質(zhì)量。
胚系突變(Germline Variant):又叫生殖細胞突變,是來源于精子或卵子的突變(父母的其它細胞也含有這樣的突變),因此通常個體的所有細胞都帶有突變。胚系突變可以遺傳,一般用于分析遺傳病。
新發(fā)突變(De novo Mutations):這種突變是指父母本身沒有的突變,大多是父母配子(精子、卵子)生成時產(chǎn)生并攜帶的變異,或受精卵發(fā)育過程中的自發(fā)突變。每個人身上都會有這樣的變異,一般不會帶來功能性的問題,但有一些先天的小兒疾病,部分新發(fā)突變剛好落在了一個重要的基因上。
體細胞突變(Somatic mutation):又叫獲得性突變,是體細胞(如肺、皮膚,肝臟,骨髓,眼睛等)在生長發(fā)育過程中或者環(huán)境因素影響下后天獲得的突變,通常身上只有部分細胞帶有突變。體細胞突變通常不會遺傳給后代,通常涉及在腫瘤研究中。單有腫瘤樣本時無法(直接)區(qū)分胚系突變和體細胞突變,只有加入健康樣本(健康組織、血液)才能過濾掉胚系突變。
克隆性造血(clonal hematopoiesis):是近幾年提出的概念,指造血干細胞亞克隆所攜帶的突變,可能會對血液樣本的WGS或WES變異檢測帶來一定的影響??寺⌒栽煅呢摵膳c年齡的增長呈正相關(guān),但突變豐度較低(90%的克隆性造血豐度<1%),跟來源于生殖細胞的胚系突變具有顯著差異(胚系突變突變豐度一般在50%或者100%)。但對于腫瘤等體細胞突變研究影響較大,且具有個體特異性,因此必須通過同深度配對的白細胞進行過濾以及優(yōu)化的生信算法等將其過濾,消除干擾??寺⌒栽煅獛в械幕蜃儺愐话闶欠菒盒缘?,且對靶向治療基因的影響很小,主要發(fā)生在DNMT3A、TET2等與靶向治療無關(guān)的基因。
插入缺失(Insertion/Deletion, InDel):是指基因組中小片段(核酸序列)的插入或缺失。
結(jié)構(gòu)變異(Structure Variation, SV):通常指基因組上大長度的序列變化和位置關(guān)系變化?;蚪M結(jié)構(gòu)性變異類型很多,包括長度在50bp以上的長片段序列插入或刪除、串聯(lián)重復(fù)、染色體倒位(Inversion)、染色體內(nèi)部或染色體之間的序列易位(Translocation)、拷貝數(shù)變異(CNV)以及復(fù)雜的嵌合性變異等。SV也可以發(fā)生在兩條染色體之間,可使用Circos等軟件展示。
拷貝數(shù)變異(Copy Number Variation, CNV):是由基因組發(fā)生重排而導(dǎo)致的一種染色體結(jié)構(gòu)變異,一般指長度為1 kb以上的基因組大片段的拷貝數(shù)增加或者減少(Can be as large as megabases or smaller than 1,000 base pairs), 主要表現(xiàn)為一個群體中的不同個體或同一個體的不同細胞之間亞顯微水平的缺失和重復(fù),即數(shù)量上與參考基因組或?qū)φ战M的拷貝數(shù)不同。CNV的概念提出只是高通量短序列測序(二代測序)數(shù)據(jù)分析時,發(fā)現(xiàn)有些區(qū)間的覆蓋度顯著高于其它區(qū)間(或者是顯著低于期望),但通常并不清楚他們被拷貝到了哪些地方,以及是作為整體還是被分段拷貝。

CNV的分類與分布:二倍體生物的CNV可分為:正常(2拷貝)、缺失(1或0拷貝)和重復(fù)(>2拷貝)。CNV在染色體上的存在形式主要有:2條同源染色體拷貝數(shù)同時出現(xiàn)缺失(或同時出現(xiàn)重復(fù));1條同源染色體發(fā)生缺失,另1條正常(或重復(fù));1條同源染色體出現(xiàn)拷貝數(shù)重復(fù),另1條正常。
InDel vs CNV。目前主流的相關(guān)分析工具(BWA,bowtie2等)和算法(Smith-Waterman的local-alignment等)能夠直接鑒定出來的插入和刪除(InDel),檢測的范圍一般是從1bp到50bp。至于更大尺度的丟失和獲得,主要是通過分析序列的覆蓋度鑒定為CNV。
拷貝數(shù)多態(tài)性(Copy Number Polymorphism, CNP):一個CNV在群體中的頻率超過1%時通常成為CNP。類似的比較可參考上文的SNP vs SNV。
SD區(qū)域(Segment Duplication Region)或串聯(lián)重復(fù)區(qū)域(Tandem Repeat Region):串聯(lián)重復(fù)是由序列相近的一些DNA片段串聯(lián)組成。例如在人類染色體22號和Y染色體上的大量SD序列。
往期精品(點擊圖片直達文字對應(yīng)教程)
后臺回復(fù)“生信寶典福利第一波”或點擊閱讀原文獲取教程合集




























