生物學資料庫
Ⅰ 什麼是生物信息學中的二級資料庫
一、生物信息學資料庫的種類
分子生物信息資料庫種類繁多。歸納起來,大體可以分為4個大類:
基因組資料庫
核酸和蛋白質一級結構資料庫
生物大分子(主要是蛋白質)三維空間結構資料庫
由上述3類資料庫和文獻資料為基礎構建的二級資料庫
一級資料庫(一次資料庫) :基因組資料庫來自基因組作圖,序列資料庫來自序列測定,結構資料庫來自X射線衍射和核磁共振等結構測定。這些資料庫是分子生物學的基本數據資源,通常稱為基本資料庫、初始資料庫,也稱一次資料庫。
二級資料庫(二次資料庫) :是在一級資料庫、實驗數據、理論分析的基礎上,衍生整理而得。它是根據生命科學不同研究領域的實際需要,對基因組圖譜、核酸和蛋白質序列、蛋白質結構以及文獻等數據進行分析、整理、歸納、注釋,構建具有特殊生物學意義和專門用途的資料庫。
一般說來,一級資料庫的數據量大,更新速度快,用戶面廣,通常需要高性能的計算機伺服器、大容量的磁碟空間和專門的資料庫管理系統支撐。
二級資料庫的容量則小得多,更新速度也不像一次資料庫那樣快,也可以不用大型商業資料庫軟體支持,這類針對不同問題開發的二次資料庫的最大特點是使用方便,特別適用於計算機使用經驗不太豐富的生物學家。
序列資料庫是分子生物信息資料庫中最基本的資料庫,包括核酸和蛋白質兩類,以核苷酸鹼基順序或氨基酸殘基順序為基本內容,並附有注釋信息。
GenBank:由美國國家生物技術信息中心(National Center for Biotechnology Information, NCBI)建立(1979-1982)。該中心隸屬於美國國家醫學圖書館,位於美國家衛生研究院(NIH)內。
EMBL:由歐洲分子生物學實驗室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre)建立(1982),主要位於英國劍橋Cambridge和德國漢堡Hamburg。
DDBJ:日本DNA資料庫(DNA Data Bank of Japan)。由the National Institute of Genetics建立(1984-1987), NIG主管。
二級資料庫的形式:大多以web界面為基礎,具有文字信息、表格、圖形、圖表等方式顯示資料庫內容。
一級資料庫與二級資料庫之間並無明確的界限。(例如:GDB、AceDB、SCOP、CATH等都已經具有二級資料庫的特色)。
Ⅱ 生物信息學資料庫之間的聯系方式有
收集,維護,生物信息學資料庫可以分為4大類:即基因組資料庫、核酸和蛋白質一級結構資料庫、生物大分子三維空間結構資料庫。
Ⅲ 列舉常用的生物信息學資料庫及序列對比常用軟體及特點
一般來說所用的分析工具有在線跟下載的 下面簡要列舉一些常用在線軟體的使用 1、使用VecScreen工具,分析下列未知序列,輸出序列長度、載體序列的區域、可能使用的克隆載體都有哪些。一、步驟:
打開google 首頁,搜索VecScreen,進入VecScreen首頁,復制序列,運行,View report。
二、結果:
輸出序列長度918bp,
載體序列的區域456bp——854bp.
克隆載體:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相應工具,分析下列未知序列的重復序列情況,輸出重復序列的區域、包含的所有重復序列的類型、重復序列的總長度及Masked Sequence。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的。
進入google首頁,搜索RepeatMasker,進入RepeatMasker主頁,進入RepeatMasking,復制序列,DNA source選擇human,運行!點擊超鏈接,在結果中選擇
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,輸出CpG島的長度、區域、GC數量、所佔的百分比及Obs/Exp值。一、步驟:
進入google首頁,搜索CpGPlot,進入CpGPlot主頁,program中選擇cpgreport復制序列,運行!
二、結果:
CpG島的長度:385bp
區域:48——432;
GC數量:Sum C+G=297,百分數=77.14
Obs/Exp:1.01
4、預測下面序列的啟動子,輸出可能的啟動子序列及相應的位置。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Neural Network Promoter Prediction,進入主頁,復制序列,選擇eukaryote,運行!
二、結果:
位置:711—761 ,1388—1438,1755—1805;
5、運用Splice Site Prediction工具分析下面序列,分別輸出內含子-外顯子剪接位點給體和受體的區域及剪接處位置的鹼基。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Splice Site Prediction,進入主頁,復制序列。Organism選擇Human or other。其他默認,運行!
二、結果:
供體:
受體:
6、對下面序列進行六框翻譯,利用GENESCAN綜合分析(首先確定給定序列的物種來源)哪個ORF是正確的,輸出六框翻譯(抓圖)和GENESCAN結果(包括predicted genes/exons 和 predicted peptide sequence(s) 兩個部分)。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是Zea的
進入google首頁;搜索NCBI,進入主頁,選擇all resources(A~Z),選擇O,選擇ORF finder。復制序列,默認,運行!
二、結果:ORF圖
三、步驟:進入google首頁,搜索GENESCAN,進入主頁,Organism:Maize, ,其他默認,運行!
四、結果:
G7、進入REBASE限制性內切酶資料庫,輸出AluI、MboI、EcoI三種內酶的Recognition Sequence和Type。
一、步驟:進入google首頁,google in English,搜索REBASE,進入主頁, 分別輸入AluI、MboI、EcoI,運行!
在MboI中選擇第一個,EcoI選擇第二個。
二、結果:
ENSCAN圖
8、使用引物設計工具,針對下列未知序列設計一對引物,要求引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃。請寫出選擇的一對引物(Forward Primer and Reverse Primer)、及相應的GC含量、引物的位點、Tm值和產物長度。一、步驟:進入google首頁,搜索genefisher,進入主頁,復制fasta格式,chechk input, sunmit, ; ;設置一下引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃; 。
二、結果:
GC含量:
引物的位點:
Tm值:
產物長度:。
9、將下面的序列用NEBcutter 2.0工具分析,用產生平末端及有四個酶切位點的酶進行酶切,並用抓圖提交膠圖(view gel),要求1.4% agarose和Marker為100bp DNA Ladder。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST,得知是linear。
進入google首頁,搜索NEBcutter 2.0,進入主頁,選擇linear,運行!選擇custom digest, ,把「1」改為「4」,選擇平末端,後digest。View gel。選擇1.4% agarose和Marker為100bp。
二、結果:
然後就是蛋白質的了一般都在expasy里swiss-prot 適用於檢索的 compute pi/mw 求理論分子量 分子量 protparam物理化學性質 protscale親水性疏水性 peptidemass分析蛋白酶和化學試劑處理後的內切產物
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫
資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析實驗序列外顯子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註: Custom digest -- view gel
限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)
設計引物擴增實驗序列——Genefisher
Primer 3
蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred 3)
多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019
Ⅳ 生物信息資料庫分為哪四大類
按大小可以分為1.公共資料庫
2. 從公共資料庫中取數據做進一步處理的專業資料庫,提供更多的分析工具
按功能分可以有
基因庫GENEBANK,蛋白庫UNIPROT, 結構庫PDB, 功能分類 GO庫,通路庫 KEGG。
不用專注於4這個數字。隨著科研的進步還會有更多的資料庫出來。
Ⅳ 標題 為什麼資料庫是生物信息學研究的基礎
是因為建立和完善數據_能夠促進生物信息學的發展。
生物信息學(Bioinformatics)是研究生物信息的採集、處理、存儲、傳播,分析和解釋等各方面的學科,也是隨著生命科學和計算機科學的迅猛發展,生命科學和計算機科學相結合形成的一門新學科。它通過綜合利用生物學,計算機科學和信息技術而揭示大量而復雜的生物數據所賦有的生物學奧秘。
Ⅵ NCBI有多少資料庫,分別有什麼作用
在生物醫學信息學領域,資料庫和服務的定義與計算機領域有很大的不同,如果要問NCBI過去,現在或將來會有多少資料庫,恐怕連NCBI自己都說不清楚。要是一個一個資料庫講下來,9999個字肯定不夠用。這里有一個列表供您參考http://www.ncbi.nlm.nih.gov/guide/all/。
NCBI的產生和發展是在美國和全球生物學高速發展,高通量數據急速產生,而缺乏有效的數據分析方法的背景下產生,起初它主要任務是數據的存儲和查詢。只不過其存儲的數據大多以高通量數據為主,例如基因測序,基因組,SNP, 基因晶元,小分子化合物和GWAS數據等。這些數據的共享,極大地促進了生物信息學發展。
按照數據->樣式->知識->智慧的發展模式,NCBI主要起到了一個為生物學家提供數據的角色。不過,NCBI目前也不斷地在調整自己的角色。例如,生物醫學文獻。NCBI在從NLM繼承過來的pubmed的基礎,提供以PMC資料庫為核心的全文文獻服務。PubMed資料庫應該是全球生物學家使用頻率最高的資料庫。NCBI最近對pubmed的改版,雖然沒有實質性的改變,但其按照用戶體驗進行的修改,足見其對該資料庫的重視。
另外,NCBI目前不斷地在引入高學歷生物學人才對其資料庫的質量進行控制。以dbSNP為例,其正在通過與領域專家的合作將突變數據與人類表型數據進行關聯。
總得來講,NCBI的發展是與生物學高通量數據產生密切相關,它以經不在局限於提供數據存儲與查詢,其未來的發展必將發展為一個大型的、綜合的知識庫。到那時NCBI會不會免費,就要另當別論了。很顯然沒有人會將自己的手稿拱手讓人。如果真有那麼一天,不知道從中會產生多少專利和知識產權。
Ⅶ 生物學資料庫都有哪些
分子生物學資料庫大全:核酸資料庫、基因表達資料庫、蛋白資料庫、糖資料庫、專利資料庫等國際頂尖資料庫列表可以在生物幫那裡找到的,我一般找資料,最新資訊都是到那裡的,他們比較專業,權威,也比較全面,技術文檔,視頻,產品都蠻豐富的。年來大量生物學實驗的數據積累,形成了當前數以百計的生物信息資料庫。它們各自按一定的目標收集和整理生物學實驗數據,並提供相關的數據查詢、數據處理的服務。