推薦幾個常用的通路數(shù)據(jù)庫
生物通路數(shù)據(jù)庫簡介
什么是生物通路?
生物通路是細胞內(nèi)分子之間的一系列相互作用,導致細胞內(nèi)的某種產(chǎn)物或改變。這種通路可以觸發(fā)新的分子的組裝,比如脂肪或蛋白質(zhì)。通路也可以開啟或關(guān)閉基因,或者刺激細胞移動。一些最常見的生物通路涉及到新陳代謝、基因表達的調(diào)節(jié)和信號的傳遞。通路在基因組學的高級研究中起著關(guān)鍵作用。
通路數(shù)據(jù)庫
通路信息可通過大量數(shù)據(jù)庫獲得,從專業(yè)策展人創(chuàng)建的高質(zhì)量數(shù)據(jù)庫到海量數(shù)據(jù)庫,涵蓋了通過自然語言處理和摘要文本挖掘創(chuàng)建的大量假定通路。由于大小、質(zhì)量和/或?qū)傩缘牟煌斜匾獮橛脩舻哪康氖褂谜_的數(shù)據(jù)庫,無論它是用于商業(yè)還是公共使用。
主要通路數(shù)據(jù)庫
通路數(shù)據(jù)庫正在世界各地創(chuàng)建。每個數(shù)據(jù)庫都強烈地反映了其構(gòu)建者的意圖和目的。有詳細的代謝通路數(shù)據(jù)庫,而其他數(shù)據(jù)庫有詳細的信號通路。大多數(shù)數(shù)據(jù)庫是由閱讀論文和提取通路信息的管理員創(chuàng)建的,這些信息將與數(shù)據(jù)庫中的通路圖一起組織起來。還有一些是使用自然語言處理和文本挖掘技術(shù)創(chuàng)建的,這些技術(shù)從論文中提取各種生物關(guān)系,比如基因調(diào)節(jié)關(guān)系,并將它們組織到數(shù)據(jù)庫中。
KEGG
KEGG(Kyoto Encyclopedia of Genes and Genomes)是由京都大學生物信息學中心和東京大學人類基因組中心共同開發(fā)的一系列數(shù)據(jù)庫。正如名字百科全書所暗示的,數(shù)據(jù)庫包括系統(tǒng)理解生物學所必需的信息,如基因組序列和化學信息。KEGG的“通路”部分主要包括代謝通路。對于非商業(yè)用途,許可證是免費的,而對于商業(yè)用途,許可證由path Solutions Inc.出售。
KEGG的獨特之處在于其對酵母,小鼠和人類代謝通路的關(guān)注和覆蓋。目前,細胞周期和凋亡的信號通路正在擴展。閱讀和總結(jié)相關(guān)文獻的專業(yè)人士(策展人)創(chuàng)造了新的通路。數(shù)據(jù)庫以KEGGML的格式存儲。由于通路隨后顯示為GIF文件,用戶無法輕松編輯通路信息。
BioCyc
BioCyc是SRI國際提供的通路數(shù)據(jù)庫。
該數(shù)據(jù)庫最初由SRI國際生物信息學研究小組建立,是一個專注于代謝通路的高質(zhì)量數(shù)據(jù)庫。與BioCyc相關(guān)的有EcoCyc、MetaCyc、HumanCyc數(shù)據(jù)庫。許可證對學術(shù)和非營利組織都是免費的。人類和大腸桿菌是主要的生物體,還有其他各種生物體。EcoCyc主要是大腸桿菌代謝通路的數(shù)據(jù)庫。這些反應以化學方程式的形式顯示出來。EcoCyc也包含少量的信號通路。策展人從文獻中提取了通路知識。使用專用格式描述通路。
此外,還列出了代謝通路上游的基因調(diào)控信息。換句話說,代謝通路與基因編碼酶及其調(diào)節(jié)因子之間存在聯(lián)系。通路圖顯示在細節(jié)級別上是分開的。在最詳細的層面上,代謝產(chǎn)物以化學方程式的形式顯示出來。
Reactome
Reactome是一個包含細胞代謝和信號通路的通路數(shù)據(jù)庫。冷泉港實驗室(Cold Spring Harbor Laboratory,)、歐洲生物信息學研究所(EuropeanBioinformatics Institute)和基因本體聯(lián)合會(Gene Ontology Consortium)是該項目的主要開發(fā)者。雖然人類是被分類的主要生物,但它有22種其他物種的數(shù)據(jù),比如老鼠(mouse)和大鼠(rat)。Reactome的通路和反應可以觀看,但不能通過網(wǎng)頁瀏覽器編輯。雖然存儲格式是專有的,但大量的通路可以以多種格式獲得。
WikiPathways
WikiPathways是一個致力于貢獻和維護生物通路內(nèi)容的社區(qū)資源。任何維基通路的注冊用戶都可以貢獻,任何人都可以成為注冊用戶。貢獻是由一組管理員監(jiān)控的,但是大部分的同行評審、編輯管理和維護是用戶社區(qū)的責任。WikiPathways是使用MediaWiki軟件,一個自定義的圖形通路編輯工具(PathVisio)和涵蓋主要基因、蛋白質(zhì)和代謝物系統(tǒng)的BridgeDb數(shù)據(jù)庫構(gòu)建的。
商業(yè)通路數(shù)據(jù)庫
Ingenuity Pathways Knowledge Base
Ingenuity Pathways Knowledge Base (IPKB)是Ingenuity Systems Inc創(chuàng)建的通路數(shù)據(jù)庫。所有的許可,包括學術(shù)許可和非營利性許可,都需要付費。該數(shù)據(jù)庫包括基因調(diào)控和信號通路。策展人從這個數(shù)據(jù)庫的文獻中提取知識,該數(shù)據(jù)庫目前包含人類、小鼠和大鼠的遺傳信息。
ResNet
ResNet是由Ariadne基因組公司創(chuàng)建的pathway數(shù)據(jù)庫。學術(shù)和商業(yè)執(zhí)照都需要付費。ResNet的通路主要包括基因調(diào)控通路和信號轉(zhuǎn)導通路。與其他數(shù)據(jù)庫不同,ResNet是通過計算機分析構(gòu)建的。換句話說,這些通路和網(wǎng)絡是通過對相關(guān)文獻進行自然語言處理而形成的。MedScan用于這個自然語言處理過程。數(shù)據(jù)庫主要是由PubMed中的摘要構(gòu)建的,但也有一些條目使用了全文。此外,還有少量由策展人創(chuàng)作的作品。由MedScan創(chuàng)建的通路數(shù)據(jù)可以通過查看工具pathway Studio查看。與其他數(shù)據(jù)庫類似,MedScan使用自己的專有格式。
Meta-datadatabases
Meta-data數(shù)據(jù)庫實現(xiàn)了對各種數(shù)據(jù)庫中所包含的知識的整合。PathGuide是一個交互和通路相關(guān)資源的綜合目錄,目前在它的Meta-數(shù)據(jù)庫中列出了超過702個資源。PathwayCommons和consensus suspathdb是存放集成的生物通路數(shù)據(jù)的數(shù)據(jù)庫的例子。特別是前者,從不同的供應商收集數(shù)據(jù),并以標準化的格式表示itin。這些Meta-data數(shù)據(jù)庫特別適合分析合并通路信息。

生物數(shù)據(jù)庫的局限性
雖然生物數(shù)據(jù)庫對數(shù)據(jù)組織和存儲至關(guān)重要,但它帶來的挑戰(zhàn)是多方面的。首先,數(shù)據(jù)庫集成存在本體層次上的不一致性;因此,非標準化的命名法需要一種變通方法,這就需要使用映射。另一個主要問題是,數(shù)據(jù)可能是不完整的,模棱兩可的,包含錯誤,冗余或不一致的文獻。隨著新知識的到來,可能還需要定期更新。專用數(shù)據(jù)庫的問題包括通路數(shù)據(jù)庫中的通路圖,通常在本質(zhì)上是靜態(tài)的,只代表生物學的一個快照。重要的是,在某種程度上評估和考慮這種可變性,以便這些數(shù)據(jù)庫的最終用戶能夠從它們的實用性中獲益。
結(jié)論
盡管通路數(shù)據(jù)庫很多,但即使是理想的統(tǒng)一版本也遠遠不夠完善。大多數(shù)數(shù)據(jù)庫提供者都將重點放在特定類型的生物過程上,反映出特定群體的研究興趣和專業(yè)知識。數(shù)據(jù)庫的內(nèi)容,質(zhì)量和完整性差異很大。此外,資源的缺乏限制了大多數(shù)數(shù)據(jù)庫提供者提供最新通路知識的能力,因為要消化的科學文獻非常多并且不斷積累。當前,通路數(shù)據(jù)庫中存儲的信息仍落后于科學文章中介紹的知識。把它們綜合起來的方法似乎是解決問題的直接方法。然而,它受到諸如異構(gòu)數(shù)據(jù)模型和缺乏標準化數(shù)據(jù)訪問方法之類的問題的阻礙。已經(jīng)開發(fā)了各種數(shù)據(jù)交換標準來輔助通路信息的存儲,組織和交換。但是,它們?nèi)蕴幱谠缙陂_發(fā)階段。
