NGS基礎(chǔ) - 參考基因組和基因注釋文件
參考基因組和基因注釋文件獲取
通常測(cè)序生成的reads要與參考基因組或參考轉(zhuǎn)錄組進(jìn)行比對(duì),或Pseudo-alignment。所以首先需要獲取參考基因組和參考轉(zhuǎn)錄組信息。
Ensembl(http://www.ensembl.org/info/data/ftp/index.html)是常用的信息齊全的參考基因組和GTF文件下載網(wǎng)站。
下圖列出了幾個(gè)常用動(dòng)物物種的DNA序列和GTF格式的基因組注釋。

Ensembl提供的參考基因組有2種組裝形式和3種重復(fù)序列處理方式, 分別是primary, toplevel和unmasked (dna)、soft-masked (dna_sm)和masked (dna_rm)。一般選擇dna.primary或dna_sm.primary。
為什么選擇
PrimaryPrimary assembly contains all toplevel sequence regions excluding haplotypes and patches. This file is best used for performing sequence similarity searches?where patch and haplotype sequences would confuse analysis.
為什么不選擇
maskedMasked基因組是指所有重復(fù)區(qū)和低復(fù)雜區(qū)被
N代替的基因組序列,這樣比對(duì)時(shí)就不會(huì)有reads比對(duì)到這些區(qū)域。一般不推薦用masked的基因組,因?yàn)樗斐闪诵畔⒌膩G失,由此帶來的一個(gè)問題是uniquely比對(duì)到masked基因組上的reads實(shí)際上可能不是unique的。而且masked基因組還會(huì)帶來比對(duì)錯(cuò)誤,使得在允許錯(cuò)配的情況下,本來來自重復(fù)區(qū)的reads比對(duì)到基因組的其它位置。
另外檢測(cè)重復(fù)區(qū)和低復(fù)雜區(qū)的軟件不可能是完美的,這就造成遮蓋住的重復(fù)序列和低復(fù)雜區(qū)并不一定是100%準(zhǔn)確和敏感的。
soft-masked基因組是指把所有重復(fù)區(qū)和低復(fù)雜區(qū)的序列用小寫字母標(biāo)出的基因組,由于主要的比對(duì)軟件,比如
BWA、bowtie2等都忽略這些soft-mask,直接把小寫字母當(dāng)做大寫字母比對(duì),所以使用soft-masked基因組的比對(duì)效果和使用unmasked基因組的比對(duì)效果是相同的。
基因注釋GTF文件在分析轉(zhuǎn)錄組數(shù)據(jù)時(shí)會(huì)用到,也從這獲取,GTF文件的解釋見文件格式部分。
ENSEMBL的基因注釋文件與GeneCode(http://www.gencodegenes.org/)V26版本一致。
ENSEMBL中基因組和GTF文件中染色體的名字都沒有添加chr,最好收到添加,以保持與UCSC或下游操作一致。(本地安裝UCSC基因組瀏覽器)
下載基因功能和結(jié)構(gòu)注釋信息
ENSEMBL數(shù)據(jù)庫的BioMart (http://www.ensembl.org/biomart/martview)工具為下載基因的功能信息、序列信息、結(jié)構(gòu)信息、ID的轉(zhuǎn)換等提供了很大的便利。
注意在BioMart的Attribute選項(xiàng)里如果選擇了蛋白相關(guān)的選項(xiàng),得到的結(jié)果中只有蛋白編碼基因的信息。如果要下載所有基因信息,請(qǐng)不要選擇蛋白相關(guān)的選項(xiàng)。
具體使用如下,下載基因相關(guān)信息,首先選擇Ensembl Genes 89數(shù)據(jù)集

以Human為例,選擇Human genes (GRCh38.p10)

如果下載全部的基因信息,Filters部分可以略過不填。如果只想下載比如說某個(gè)GO通路的基因或給定列表的基因信息,可以在Filters中指定對(duì)應(yīng)的GO ID。

Attribute中包含基因的名字、位置、注釋、在不同數(shù)據(jù)庫中的名字、GO注釋、KEGG注釋、功能域信息等,按需選擇下載。


選擇好后,點(diǎn)擊Results,獲取結(jié)果。

Export al results to選擇存儲(chǔ)到文件中。如果特別大,而自己網(wǎng)速又比較慢,可以選擇通過郵件發(fā)送下載鏈接。

也可以通過Biomart提取基因結(jié)構(gòu)信息,比如5’ UTR、3’ UTR、外顯子、內(nèi)含子的坐標(biāo)等。

Biomart下載很方便,但一個(gè)點(diǎn)擊也比較麻煩,可以看到截圖中存在XML按鈕,點(diǎn)擊打開看到選擇的下載信息都記錄在了這個(gè)文件中。

使用wget -O result.txt 'http://www.ensembl.org/biomart/martservice?query= + XML中的內(nèi)容 (調(diào)整為一行,并且行尾加一個(gè)單引號(hào))即可反復(fù)使用。如果想換一個(gè)物種,只需修改對(duì)應(yīng)的Dataset name即可。Linux命令系統(tǒng)學(xué)習(xí)見生信寶典文章集錦。
轉(zhuǎn)錄組研究
39個(gè)轉(zhuǎn)錄組分析工具,120種組合評(píng)估(轉(zhuǎn)錄組分析工具哪家強(qiáng)-導(dǎo)讀版)
39個(gè)轉(zhuǎn)錄組分析工具,120種組合評(píng)估(轉(zhuǎn)錄組分析工具大比拼 (完整翻譯版))
RNA-seq最強(qiáng)綜述名詞解釋&思維導(dǎo)圖|關(guān)于RNA-seq,你想知道的都在這(續(xù))
高顏值免費(fèi)在線繪圖
往期精品
心得體會(huì)?TCGA數(shù)據(jù)庫?Linux?Python?
高通量分析?免費(fèi)在線畫圖?測(cè)序歷史?超級(jí)增強(qiáng)子
生信學(xué)習(xí)視頻?PPT?EXCEL?文章寫作?ggplot2
自學(xué)生信?2019影響因子?GSEA?單細(xì)胞?
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
