BioJava生物信息學(xué)基礎(chǔ)庫
BioJava – 開源的生物信息學(xué)基礎(chǔ)庫
生物信息學(xué),從字面上理解,這是一門與生命科學(xué)和信息科學(xué)這兩個當(dāng)今熱點(diǎn)領(lǐng)域都相關(guān)的學(xué)科。
那到底什么是生物信息學(xué)?在這里,我只能很遺憾地告訴大家,對于這樣一門新興的、而且正在不斷發(fā)展和變化中的學(xué)科,我很難給出一個精確的定義。
廣義地說,生物信息學(xué)從事對基因組研究相關(guān)生物信息的獲取、加工、儲存、分配、分析和解釋。這一定義包括了兩層含義,一是對海量數(shù)據(jù)的收集、整理與服務(wù),也就是管好這些數(shù)據(jù);另一個是從中發(fā)現(xiàn)新的規(guī)律,也就是用好這些數(shù)據(jù)。
具 體地說,生物信息學(xué)是把基因組 DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質(zhì)和 RNA基因的編碼區(qū);同時,闡明基因組中大量存在的非編碼區(qū)的信息實(shí)質(zhì),破譯隱藏在 DNA序列中的遺傳語言規(guī)律;在此基礎(chǔ)上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而認(rèn)識代謝、發(fā)育、分化、進(jìn)化的規(guī) 律。
信息技術(shù)的發(fā)展和應(yīng)用使得幾乎所有的人受益,研究DNA、RNA和蛋白質(zhì)的分子生物學(xué)家也不例外。很難相信,離開信息技術(shù),分子生物 學(xué)家可以完成人類基因組的測序(事實(shí)上,大規(guī)模測序中所使用的鳥槍法確實(shí)依賴于計(jì)算技術(shù)),如果沒有信息技術(shù)和計(jì)算分子生物學(xué)的理論支持,研究SARS的 病毒學(xué)家也不可能在短時間內(nèi)判斷SARS病毒的種類歸屬(除非他們火眼精精能夠從數(shù)以百萬計(jì)的AGCT這幾個符號的雜亂無章的排列中找出規(guī)律)。
生物信息學(xué)的本質(zhì)即使用各種信息技術(shù)來支持生命科學(xué)的研究與開發(fā)。
BioJava簡介
生物信息學(xué)在理論和工程上面臨許多挑戰(zhàn)。而要開發(fā)出復(fù)雜的生物序列分析系統(tǒng),需要一些基礎(chǔ)庫的支持,BioJava就是這樣的一套基礎(chǔ)庫。
BioJava是使用Java語言開發(fā)的、用于分析和表示生物序列(如DNA、RNA和蛋白質(zhì))的基礎(chǔ)庫。BioJava提供了生物序列處理功能(如轉(zhuǎn)錄與翻譯)、文件格式轉(zhuǎn)換功能和一些簡單的科學(xué)計(jì)算(如隱馬爾科夫模型)。
