<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          NGS基礎(chǔ):測(cè)序原始數(shù)據(jù)批量下載

          共 3564字,需瀏覽 8分鐘

           ·

          2021-01-28 22:18

          生物或醫(yī)學(xué)中涉及高通量測(cè)序的論文,一般會(huì)將原始測(cè)序數(shù)據(jù)上傳到公開的數(shù)據(jù)庫(kù),上傳方式見測(cè)序文章數(shù)據(jù)上傳找哪里;并在文章末尾標(biāo)明數(shù)據(jù)存儲(chǔ)位置和登錄號(hào),如 The data from this study was deposited in NCBI Sequence Read Archive under accession SRA: SRP114962.

          NCBI的SRA (Sequence Read Archive) 數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov/sra/) 是最常用的存儲(chǔ)測(cè)序數(shù)據(jù)的數(shù)據(jù)庫(kù)。目前SRA數(shù)據(jù)的組織方式分為下面4個(gè)層次:

          1. Studies—研究課題;

          2. Experiments—實(shí)驗(yàn)設(shè)計(jì);

          3. Runs—測(cè)序結(jié)果集;

          4. Samples—樣品信息。

          進(jìn)入SRA官網(wǎng):https://www.ncbi.nlm.nih.gov/sra, Search框中輸入SRA編號(hào)(SRP114962),獲得如下圖的界面:

          點(diǎn)擊第一個(gè)樣品即可查看其詳細(xì)信息。

          當(dāng)樣品比較多時(shí),可以點(diǎn)擊Send results to Run selector(圖中畫圈的位置)進(jìn)入篩選頁(yè)面。

          從圖中可發(fā)現(xiàn),測(cè)序平臺(tái)是Illumina HiSeq 4000,5748個(gè)Runs,每個(gè)Run的名字、樣本名、測(cè)序類型(全基因組/外顯子組等)、tissue、treatment等。

          在如此多的Runs中,假設(shè)我們想獲取其中兩個(gè)病人的化療前和化療后的外顯子組測(cè)序數(shù)據(jù),觀察其化療前后究竟有哪些基因突變以及突變的頻率怎么樣。數(shù)據(jù)來自于文章 腫瘤化療無效是對(duì)預(yù)先存在的突變的選擇還是誘發(fā)新突變,Cell給你答案。

          5748個(gè)Runs,有116Page,怎么找呢?

          Facets下拉框中先勾選Assay Type,等待頁(yè)面相應(yīng)后勾選wxs,即全外顯子組數(shù)據(jù),等待頁(yè)面相應(yīng)。

          Facets下拉框中勾選Sample name,等待頁(yè)面相應(yīng)后勾選ktn102ktn134兩個(gè)病人的分別四個(gè)樣本(四種treatment:pre、2cycleschemo、operative和blood),如圖。等待頁(yè)面相應(yīng)。獲得Run編號(hào)(藍(lán)色框):SRR5908363、SRR5908362…

          然后使用NCBI提供的工具SRAToolkit下載。

          SRA toolkit https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software, 根據(jù)服務(wù)器操作系統(tǒng)類型下載對(duì)應(yīng)的二進(jìn)制編碼包,下載解壓放到環(huán)境變量即可使用。

          使用NCBI提供的SRA-toolkit中的工具fastq-dump直接下載SRR文件,并轉(zhuǎn)換為FASTQ格式,--split-3參數(shù)表示如果是雙端測(cè)序就自動(dòng)拆分,如果是單端不受影響。--gzip轉(zhuǎn)換fastq為壓縮文件,節(jié)省空間。

          下載的數(shù)據(jù)集一般比較大,放入后臺(tái)不中斷下載 (nohup cmd &)。

          nohup fastq-dump -v --split-3 --gzip SRR5908360 &
          nohup fastq-dump -v --split-3 --gzip SRR5908361 &
          nohup fastq-dump -v --split-3 --gzip SRR5908362 &
          nohup fastq-dump -v --split-3 --gzip SRR5908363 &
          nohup fastq-dump -v --split-3 --gzip SRR5906250 &
          nohup fastq-dump -v --split-3 --gzip SRR5906251 &
          nohup fastq-dump -v --split-3 --gzip SRR5906252 &
          nohup fastq-dump -v --split-3 --gzip SRR5906253 &

          注意:如果數(shù)據(jù)量很大可能需要下載1-2天。數(shù)據(jù)下載完會(huì)在~/ncbi下面存在緩存的sra文件,記得定時(shí)清空。

          按照上述步驟下載完畢后可看到很多個(gè)fastq.gz格式測(cè)序文件。

          數(shù)據(jù)比較多時(shí),一個(gè)個(gè)手動(dòng)寫也比較麻煩?怎么處理呢?



          下載上面的metadata后自己生成一個(gè)批量下載并重命名的腳本。下下來的metadat文件通常名字是SraRunTable.txt,列很多,且是CSV文件,分隔符是逗號(hào),某一個(gè)字段里面還有逗號(hào)的存在。Linux命令直接不好處理。

          先寫一個(gè)單行R腳本提取RunSample Name列,并另存到文件SraRunTable.tsv。

          Rscript -e 'write.table(read.table("SraRunTable.txt",sep=",", header=T, row.names=NULL)[,c("Run","Sample.Name")],"SraRunTable.tsv",sep="\t", quote=F,col.names=T, row.names=F)'


          然后用awk就可以讀取第一列批量下載并結(jié)合第二列批量重命名就可以了。


          awk 'FNR>1{system("fastq-dump -v --split-3 --gzip "$1"; rename "$1" "$2" "$1"*");}' SraRunTable.tsv

          等同于手動(dòng)輸入了如下命令

          fastq-dump -v --split-3 --gzip SRR12603383; rename SRR12603383 PFER12d1 SRR12603383*
          fastq-dump -v --split-3 --gzip SRR12603384; rename SRR12603384 PFER12d3 SRR12603384*
          fastq-dump -v --split-3 --gzip SRR12603385; rename SRR12603385 PFER12d2 SRR12603385*
          fastq-dump -v --split-3 --gzip SRR12603386; rename SRR12603386 PFER12d1 SRR12603386*
          fastq-dump -v --split-3 --gzip SRR12603387; rename SRR12603387 PFER9d3 SRR12603387*
          fastq-dump -v --split-3 --gzip SRR12603388; rename SRR12603388 PFER9d2 SRR12603388*
          fastq-dump -v --split-3 --gzip SRR12603389; rename SRR12603389 PFER9d1 SRR12603389*
          fastq-dump -v --split-3 --gzip SRR12603390; rename SRR12603390 PFER9d3 SRR12603390*


          這個(gè)為生信學(xué)習(xí)和生信作圖打造的開源R教程真香?。?!

          這個(gè)為生信學(xué)習(xí)打造的開源Linux教程真香?。?!



          往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)


          后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集

           

          (請(qǐng)備注姓名-學(xué)校/企業(yè)-職務(wù)等)


          瀏覽 83
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产成人一区 | 欧美成人精品激情在线观看 | 操碰欧美 | 黄色成人在线免费播放 | 午夜精品久久久久久久 |