生物信息學資料庫
1. 生物信息學MPSS資料庫是什麼,有什麼作用
生物信息學中kog資料庫是什麼意思
根據需要從一級資料庫中搜集對象的相關數據集合而成的就是二級資料庫.
像genebank,EMBL這種都是不加選擇的一級資料庫,只要是實驗獲得的,不管什麼東西的序列,哪怕是不完整的序列都能上傳,而且它們的數據也有可能有重復.如果有某個人專門研究細菌的鑒定,需要用到正式被認可的16srDNA序列,為了研究方便,把這些一級資料庫的各個種類細菌的公認標准16srDNA序列的數據進行整理,重新構建了一個資料庫,這就是所謂的二級資料庫.如果不構建,直接用一級資料庫做blast,就會得出很多未被承認甚至不完整的序列,還要人工一個個看過去,找出公認的標准序列,這樣就很麻煩.我舉得例子在現實中就是韓國的EzTaxon.
2. 向genbank提交數據的軟體有幾種,各有什麼的特點
兩種。
GenBank是由美國國立生物信息中心(NCBI)創建維護的核酸序列資料庫,在世界三大生物信息學資料庫中數據存儲量最大,應用最為廣泛.本研究採用文檔處理語言Perl,設計開發針對GenBank序列記錄檢索及處理軟體GenScalpel,這一應用對生物學實驗室是迫切的.利用正則表達式設計及E-utilities等技術,GenScalpel應用程序對GenBank序列格式(GBF)進行解析,實現的主要功能包括有序列數據在線檢索及本地獲取,特徵序列(集)類歸及提取,序列文件批處理等.GenScalpel應用程序具備友好的圖形用戶界面,並符合Entrez數據檢索系統最新介面標准,經測試,能夠穩定,高效地為生物學家提供工具應用。
3. 生物信息學實驗教學中如何巧用資料庫
生物信息學中數學佔了很大的比重。統計學,包括多元統計學,是生物信息學的數學基礎之一;概率論與隨機過程理論,如隱馬爾科夫鏈模型(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理論或多或少在生物學研究中起到了相應的作用.但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學和度量空間為例來說明. Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工智慧和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法. 問題規模不同的處理:Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BLAST,FASTA. 綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密。在處理大規模數據方面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全明了,這使得生物信息學的研究短期內很難有突破性的結果。那麼,要得到真正的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從數學上的新思路來獲得本質性的動力。毫無疑問,正如Dulbecco1986年所說:人類的DNA序列是人類的真諦,這個世界上發生的一切事情,都與這一序列息息相關。但要完全破譯這一序列以及相關的內容,我們還有相當長的路要走。
4. 生物信息學角度解釋已知有一條未知序列,如何預測它的功能
摘要 1.生物信息資料庫:是用於生物信息學研究的原始數據,是生物信息學賴以生存和發展的基礎。生物資料庫主要是對生物信息的收集、存儲和管理的研究,包括國際基本的生物信息庫和生物信息傳輸國際物聯網系統的建立,生物信息資料庫質量的評估與檢測系統的建立,生物數據可視化和專家系統,生物信息工具開發。NCBI是推動基因組、計算生物學和數據分析方面的軟體開發,發布生物醫學領域的信息,為生物醫學和生命科學研究提共了大量分析所需要的數據和工具。
5. 什麼是生物信息學中的二級資料庫
一、生物信息學資料庫的種類
分子生物信息資料庫種類繁多。歸納起來,大體可以分為4個大類:
基因組資料庫
核酸和蛋白質一級結構資料庫
生物大分子(主要是蛋白質)三維空間結構資料庫
由上述3類資料庫和文獻資料為基礎構建的二級資料庫
一級資料庫(一次資料庫) :基因組資料庫來自基因組作圖,序列資料庫來自序列測定,結構資料庫來自X射線衍射和核磁共振等結構測定。這些資料庫是分子生物學的基本數據資源,通常稱為基本資料庫、初始資料庫,也稱一次資料庫。
二級資料庫(二次資料庫) :是在一級資料庫、實驗數據、理論分析的基礎上,衍生整理而得。它是根據生命科學不同研究領域的實際需要,對基因組圖譜、核酸和蛋白質序列、蛋白質結構以及文獻等數據進行分析、整理、歸納、注釋,構建具有特殊生物學意義和專門用途的資料庫。
一般說來,一級資料庫的數據量大,更新速度快,用戶面廣,通常需要高性能的計算機伺服器、大容量的磁碟空間和專門的資料庫管理系統支撐。
二級資料庫的容量則小得多,更新速度也不像一次資料庫那樣快,也可以不用大型商業資料庫軟體支持,這類針對不同問題開發的二次資料庫的最大特點是使用方便,特別適用於計算機使用經驗不太豐富的生物學家。
序列資料庫是分子生物信息資料庫中最基本的資料庫,包括核酸和蛋白質兩類,以核苷酸鹼基順序或氨基酸殘基順序為基本內容,並附有注釋信息。
GenBank:由美國國家生物技術信息中心(National Center for Biotechnology Information, NCBI)建立(1979-1982)。該中心隸屬於美國國家醫學圖書館,位於美國家衛生研究院(NIH)內。
EMBL:由歐洲分子生物學實驗室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre)建立(1982),主要位於英國劍橋Cambridge和德國漢堡Hamburg。
DDBJ:日本DNA資料庫(DNA Data Bank of Japan)。由the National Institute of Genetics建立(1984-1987), NIG主管。
二級資料庫的形式:大多以web界面為基礎,具有文字信息、表格、圖形、圖表等方式顯示資料庫內容。
一級資料庫與二級資料庫之間並無明確的界限。(例如:GDB、AceDB、SCOP、CATH等都已經具有二級資料庫的特色)。
6. 生物信息學資料庫的主要數據類型
生物信息學資料庫的主要數據類型有哪些的呢?
這些數據的類型估計都是一些講述生物的種類、特性、生長、發育和再生等。