<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          NGS基礎(chǔ) - 參考基因組和基因注釋文件

          共 3066字,需瀏覽 7分鐘

           ·

          2019-12-07 23:29

          參考基因組和基因注釋文件獲取

          通常測(cè)序生成的reads要與參考基因組或參考轉(zhuǎn)錄組進(jìn)行比對(duì),或Pseudo-alignment。所以首先需要獲取參考基因組和參考轉(zhuǎn)錄組信息。


          Ensembl(http://www.ensembl.org/info/data/ftp/index.html)是常用的信息齊全的參考基因組和GTF文件下載網(wǎng)站。


          下圖列出了幾個(gè)常用動(dòng)物物種的DNA序列GTF格式的基因組注釋。


          4c51c2bc135994900abf5dbec083fad0.webp


          Ensembl提供的參考基因組有2種組裝形式和3種重復(fù)序列處理方式, 分別是primary, toplevelunmasked (dna)、soft-masked (dna_sm)和masked (dna_rm)。一般選擇dna.primarydna_sm.primary。


          • 為什么選擇Primary


            Primary assembly contains all toplevel sequence regions excluding haplotypes and patches. This file is best used for performing sequence similarity searches?where patch and haplotype sequences would confuse analysis.


          • 為什么不選擇masked



            Masked基因組是指所有重復(fù)區(qū)和低復(fù)雜區(qū)被N代替的基因組序列,這樣比對(duì)時(shí)就不會(huì)有reads比對(duì)到這些區(qū)域。


            一般不推薦用masked的基因組,因?yàn)樗斐闪诵畔⒌膩G失,由此帶來的一個(gè)問題是uniquely比對(duì)到masked基因組上的reads實(shí)際上可能不是unique的。而且masked基因組還會(huì)帶來比對(duì)錯(cuò)誤,使得在允許錯(cuò)配的情況下,本來來自重復(fù)區(qū)的reads比對(duì)到基因組的其它位置。


            另外檢測(cè)重復(fù)區(qū)和低復(fù)雜區(qū)的軟件不可能是完美的,這就造成遮蓋住的重復(fù)序列和低復(fù)雜區(qū)并不一定是100%準(zhǔn)確和敏感的。


            soft-masked基因組是指把所有重復(fù)區(qū)和低復(fù)雜區(qū)的序列用小寫字母標(biāo)出的基因組,由于主要的比對(duì)軟件,比如BWAbowtie2等都忽略這些soft-mask,直接把小寫字母當(dāng)做大寫字母比對(duì),所以使用soft-masked基因組的比對(duì)效果和使用unmasked基因組的比對(duì)效果是相同的。


          基因注釋GTF文件在分析轉(zhuǎn)錄組數(shù)據(jù)時(shí)會(huì)用到,也從這獲取,GTF文件的解釋見文件格式部分。


          ENSEMBL的基因注釋文件與GeneCode(http://www.gencodegenes.org/)V26版本一致。


          ENSEMBL中基因組和GTF文件中染色體的名字都沒有添加chr,最好收到添加,以保持與UCSC或下游操作一致。(本地安裝UCSC基因組瀏覽器)


          下載基因功能和結(jié)構(gòu)注釋信息

          ENSEMBL數(shù)據(jù)庫的BioMart (http://www.ensembl.org/biomart/martview)工具為下載基因的功能信息、序列信息、結(jié)構(gòu)信息、ID的轉(zhuǎn)換等提供了很大的便利。


          注意在BioMart的Attribute選項(xiàng)里如果選擇了蛋白相關(guān)的選項(xiàng),得到的結(jié)果中只有蛋白編碼基因的信息。如果要下載所有基因信息,請(qǐng)不要選擇蛋白相關(guān)的選項(xiàng)。


          具體使用如下,下載基因相關(guān)信息,首先選擇Ensembl Genes 89數(shù)據(jù)集


          28bad01a0eefb8d838a048175fafc94c.webp


          以Human為例,選擇Human genes (GRCh38.p10)


          aa7c73d45f0d1bb60e90ecc2b46de051.webp


          如果下載全部的基因信息,Filters部分可以略過不填。如果只想下載比如說某個(gè)GO通路的基因或給定列表的基因信息,可以在Filters中指定對(duì)應(yīng)的GO ID


          28d336190fbbdf27e460d70b779accb6.webp


          Attribute中包含基因的名字、位置、注釋、在不同數(shù)據(jù)庫中的名字、GO注釋、KEGG注釋、功能域信息等,按需選擇下載。


          495ea257e28873fbd9c13b3c8d530fe1.webp

          c1a97b8f9bb3cd2b7823b59032dfadf2.webp


          選擇好后,點(diǎn)擊Results,獲取結(jié)果。


          d95592ae293251e5916f8304afae25b4.webp


          Export al results to選擇存儲(chǔ)到文件中。如果特別大,而自己網(wǎng)速又比較慢,可以選擇通過郵件發(fā)送下載鏈接


          b15ad5f64901ac0c3ce1c957a684da92.webp


          也可以通過Biomart提取基因結(jié)構(gòu)信息,比如5’ UTR、3’ UTR、外顯子、內(nèi)含子的坐標(biāo)等。


          a9d20dd4077c14120692c4a15b9dd83d.webp


          Biomart下載很方便,但一個(gè)點(diǎn)擊也比較麻煩,可以看到截圖中存在XML按鈕,點(diǎn)擊打開看到選擇的下載信息都記錄在了這個(gè)文件中。


          cf534a8609e600f78c9d6d36b9a0c892.webp


          使用wget -O result.txt 'http://www.ensembl.org/biomart/martservice?query= + XML中的內(nèi)容 (調(diào)整為一行,并且行尾加一個(gè)單引號(hào))即可反復(fù)使用。如果想換一個(gè)物種,只需修改對(duì)應(yīng)的Dataset name即可。Linux命令系統(tǒng)學(xué)習(xí)見生信寶典文章集錦。



          轉(zhuǎn)錄組研究


          高顏值免費(fèi)在線繪圖




          往期精品

          畫圖三字經(jīng)?生信視頻?生信系列教程?

          心得體會(huì)?TCGA數(shù)據(jù)庫?Linux?Python?

          高通量分析?免費(fèi)在線畫圖?測(cè)序歷史?超級(jí)增強(qiáng)子

          生信學(xué)習(xí)視頻?PPT?EXCEL?文章寫作?ggplot2

          海哥組學(xué)?可視化套路?基因組瀏覽器

          色彩搭配?圖形排版?互作網(wǎng)絡(luò)

          自學(xué)生信?2019影響因子?GSEA?單細(xì)胞?

          后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集




          瀏覽 39
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产精品无码白浆高潮 | 久久国产精品国产色婷婷 | 无码毛片在线看 | 日本国产操逼网 | 色情视频在线观看 |