GPB | GenBase:匯交、存儲(chǔ)、管理與共享核酸和蛋白質(zhì)序列的基因序列數(shù)據(jù)庫
共 7221字,需瀏覽 15分鐘
·
2024-07-28 21:00
引言
基因序列和注釋信息(包括DNA、RNA和蛋白序列信息)是支撐基因功能研究的核心基礎(chǔ)數(shù)據(jù)之一。伴隨生物學(xué)的迅猛發(fā)展,在過去幾十年中,我國生命科學(xué)領(lǐng)域的科學(xué)家產(chǎn)出了海量的基因序列數(shù)據(jù),其中許多已經(jīng)提交到了國際核酸序列共享聯(lián)盟(International Nucleotide Sequence Database Collaboration,INSDC)。目前,中國和其他國家/地區(qū)的研究人員嚴(yán)重依賴INSDC進(jìn)行序列提交和檢索。同時(shí),測序技術(shù)的快速發(fā)展導(dǎo)致序列數(shù)據(jù)量的快速增加,這為及時(shí)有效的提交和共享帶來了巨大挑戰(zhàn)。為保障我國基因序列數(shù)據(jù)的主權(quán)和安全,滿足我國科研人員在基因序列數(shù)據(jù)匯交、管理和共享過程中的現(xiàn)實(shí)需求,對標(biāo)美國國家生物信息中心NCBI的GenBank數(shù)據(jù)庫,我們完成了基因序列數(shù)據(jù)庫GenBase的開發(fā)(https://ngdc.cncb.ac.cn/genbase/)。
GenBase是國家基因組科學(xué)數(shù)據(jù)中心的核心資源,它采用GenBank的數(shù)據(jù)模型,通過在線的雙語提交系統(tǒng)支持提交多種數(shù)據(jù)類型,包括基因組DNA、mRNA、ncRNA,以及來源于細(xì)胞器、病毒、質(zhì)粒和噬菌體的核酸序列。此外,GenBase集成了所有來自GenBank的序列,并保持每日更新,提供免費(fèi)且公開可訪問的數(shù)據(jù),支持國際數(shù)據(jù)集的分發(fā)和共享,促進(jìn)中國研究人員的數(shù)據(jù)訪問。
數(shù)據(jù)模型和數(shù)據(jù)訪問
GenBase的數(shù)據(jù)模型與INSDC數(shù)據(jù)模型兼容,并允許與兩個(gè)CNCB-NGDC元數(shù)據(jù)描述數(shù)據(jù)庫關(guān)聯(lián):BioProject 和BioSample。GenBase允許用戶一次性批量提交來自多個(gè)物種的核酸序列。提交后,系統(tǒng)將生成一個(gè)帶有 “sub” 前綴的唯一編號。經(jīng)過質(zhì)量控制,每個(gè)核酸序列被分配一個(gè)以“C_”開頭,后跟2個(gè)字母、6個(gè)數(shù)字和序列版本號后綴的訪問編號。同時(shí),與給定核酸序列相關(guān)的每個(gè)蛋白質(zhì)序列會(huì)分配一個(gè)以“C_”開頭,后跟3個(gè)字母、5個(gè)數(shù)字和序列版本號后綴的訪問編號(圖1)。每當(dāng)序列發(fā)生變化時(shí),序列版本號就會(huì)修改。序列以ASN.1格式生成并存儲(chǔ),并以GBFF格式在線顯示,這兩種格式通常由GenBank使用。
圖1 GenBase數(shù)據(jù)模型
數(shù)據(jù)提交和驗(yàn)證
通用序列
GenBase構(gòu)建了一個(gè)用戶友好、同時(shí)支持中英文的通用序列在線提交系統(tǒng),包含九個(gè)部分,即提交者、出版信息、測序技術(shù)、序列、集合或批次、類別、元信息、特征和結(jié)果預(yù)覽(圖2)。該提交系統(tǒng)支持全面的實(shí)時(shí)驗(yàn)證。
圖2 GenBase整體架構(gòu)
在“序列”階段(步驟4),GenBase會(huì)對用戶上傳的序列文件進(jìn)行在線校驗(yàn),包括序列格式、序列內(nèi)容、物種名稱、分子類型和遺傳密碼。在“元信息”階段(步驟7),GenBase基于Excel格式收集序列相關(guān)的57個(gè)元數(shù)據(jù)信息,并對其進(jìn)行實(shí)時(shí)校驗(yàn)。例如,對采樣地、細(xì)胞器/位置等字段進(jìn)行受控詞匯表校驗(yàn),對收集日期和經(jīng)緯度進(jìn)行特定格式校驗(yàn)。在“特征”階段(步驟8),GenBase支持三種格式的注釋文件:5列GenBank特征表、GFF3和Excel格式。用戶可選擇其中一種格式進(jìn)行序列注釋。GenBase會(huì)對用戶提交的注釋文件進(jìn)行實(shí)時(shí)驗(yàn)證。例如,驗(yàn)證注釋文件中的所有序列ID是否與核酸序列文件中的ID完全匹配,坐標(biāo)是否為整數(shù),基因注釋是否符合INSDC規(guī)范。目前,已有768個(gè)特征及其相應(yīng)的注釋信息可用于序列注釋。用戶在“結(jié)果預(yù)覽”頁面確認(rèn)所有信息后,GenBase使用table2asn(https://www.ncbi.nlm.nih.gov/genbank/table2asn/)對提交的序列進(jìn)行最終檢查,并生成高質(zhì)量的序列文件(例如:GBFF和SQN文件)。
SARS-CoV-2序列
為了提高SARS-CoV-2序列的匯交效率,GenBase設(shè)計(jì)了一個(gè)專用的SARS-CoV-2序列提交模塊。該模塊的提交過程與通用序列類似,但集成了VADR程序,可實(shí)現(xiàn)對SARS-CoV-2序列進(jìn)行自動(dòng)注釋。此外,GenBase為SARS-CoV-2提供了專用的元數(shù)據(jù)Excel文件格式,確保與INSDC和全球共享所有流感數(shù)據(jù)倡議(Global Initiative on Sharing All Influenza Data, GISAID)的兼容性。
統(tǒng)計(jì)信息
自2023年3月24日正式上線以來,GenBase實(shí)現(xiàn)了數(shù)據(jù)量的快速增長(圖3A和B)。截至2024年4月16日,GenBase已整合并更新了來自GenBank的270,606,796條核酸序列和305,810,135條蛋白質(zhì)序列(圖3C)。截至2024年4月16日,GenBase已接收用戶提交的67,399條核酸序列和681,930條蛋白質(zhì)序列,涵蓋393個(gè)物種(圖3C)。提交的數(shù)據(jù)中,62,988條核酸序列(93%)和613,351條注釋蛋白質(zhì)序列(90%)已釋放。值得注意的是,在54,884條提交的具有標(biāo)準(zhǔn)化注釋的SARS-CoV-2基因組序列中,已有52,147條被發(fā)布。
圖3 GenBase數(shù)據(jù)統(tǒng)計(jì)(截至2024年4月16日)
檢索和下載
在GenBase中,用戶可以使用具有31個(gè)搜索字段的高級搜索功能進(jìn)行檢索,同時(shí),高級搜索設(shè)有保留歷史記錄功能,便于查看歷史檢索信息。用戶可以使用物種、數(shù)據(jù)來源、數(shù)據(jù)類型等過濾條件細(xì)化搜索結(jié)果,以及使用不同的排序選項(xiàng)(例如,訪問編號、修改日期、生物體和序列長度)進(jìn)行結(jié)果排序。GenBase提供四種數(shù)據(jù)顯示格式,并支持批量下載,以滿足不同的使用需求。為了便于批量下載FASTA文件,開發(fā)了REST API(如https://ngdc.cncb.ac.cn/genbase/api/file/fasta?acc=C_AA001108.1)。此外,還提供了FTP站點(diǎn)(https://download2.cncb.ac.cn/genbase/daily/),方便用戶下載GenBase每日發(fā)布的核酸和蛋白質(zhì)序列。
未來發(fā)展
GenBase立足中國,服務(wù)全球,接收來自全球科研人員的數(shù)據(jù)提交,可為基因序列數(shù)據(jù)的匯交、存儲(chǔ)、發(fā)布和共享提供一站式的Web服務(wù)。未來,GenBase將持續(xù)致力于努力推進(jìn)生物領(lǐng)域的研究和發(fā)展,包括改進(jìn)數(shù)據(jù)提交、檢索和展示的Web界面,擴(kuò)大服務(wù)范圍,包括基因組注釋,例如病毒、線粒體和葉綠體基因組,確保下游數(shù)據(jù)分析的準(zhǔn)確性。此外,我們還將整合用戶友好的在線工具,方便序列數(shù)據(jù)分析,如物種鑒定。最后,我們將通過與INSDC成員共享和交換所有公開可用的核酸序列來促進(jìn)合作,從而為全球研究人員提供全面的數(shù)據(jù)資源。
審校人:
GPB青年編委周展
GPB論文:
GenBase: A Nucleotide Sequence DatabaseGenomics, Proteomics & Bioinformatics [基因組蛋白質(zhì)組與生物信息學(xué)報(bào)(英文),簡稱GPB] 于2003年創(chuàng)刊,是由中國科學(xué)院主管、中國科學(xué)院北京基因組研究所(國家生物信息中心)與中國遺傳學(xué)會(huì)共同主辦的英文學(xué)術(shù)期刊,由牛津大學(xué)出版社金色開放獲取(Gold Open Access)出版。刊載來自世界范圍內(nèi)組學(xué)、生物信息學(xué)及相關(guān)領(lǐng)域的優(yōu)質(zhì)稿件。現(xiàn)為中國科學(xué)引文數(shù)據(jù)庫(CSCD)和中國科技論文與引文數(shù)據(jù)庫(CSTPCD)核心期刊,被SCIE、PubMed/MEDLINE、Scopus等數(shù)據(jù)庫收錄。2024年公布的官方數(shù)據(jù)顯示,CiteScore為14.3;2年和5年Impact Factor分別為11.5和10.3;2023 JCI為2.58,排名WoS遺傳學(xué)領(lǐng)域6/191。期刊由科技部等七部門聯(lián)合實(shí)施的“中國科技期刊卓越行動(dòng)計(jì)劃“資助(2019–2023)。
