蛋白質結構資料庫
⑴ 蛋白質序列資料庫的介紹
指應用計算機功能分析生物學信息的資料庫。應用計算機的運演算法則,比較DNA和蛋白質序列而檢測結構、功能和序列之間的進化關系。各種基因組的序列產生大量的DNA序列數據和生物信息,已經被應用於研究基因的功能,預測以前未知的基因功能。現在人們的注意力主要集中在從僅有的氨基酸序列預測蛋白質結構和功能。
⑵ 我們生物化學講到蛋白質的內容,想問一下一個名詞,什麼叫「蛋白質三級結構的資料庫」
蛋白質結構可以進行預測。通過已知氨基酸序列,利用計算的手段預測蛋白質的二級結構和空間三維結構。
目前蛋白質結構資料庫 PDB中所存儲的蛋白質三維結構主要通過X 射線晶體衍射和核磁共振成像技術,蛋白質的結構檢測比序列檢測要難得多。
⑶ 國際著名的三大蛋白質資料庫
國際著名的三大蛋白質資料庫有UniProt資料庫、The Human Protein Atlas資料庫、PhosphoSitePlus資料庫。
1、UniProt資料庫
蛋白組學常用資料庫UniProt(全稱UniProt Protein Resource),建立於1986年,由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白質資料庫聯合成立的,其信息量豐富、資源廣泛,是目前公認的首選免費蛋白質資料庫。
2、The Human Protein Atlas資料庫
The Human Protein Atlas內含近30000種人類蛋白質的組織和細胞分布信息,並提供免費查詢。
瑞典Knut&Alice Wallenberg基金會利用免疫組化技術,檢查每一種蛋白質在人類48種正常組織,20種腫瘤組織,47個細胞系和12種血液細胞內的分布和表達,其結果用至少576張免疫組化染色圖表示,並經專業人員校對和標引,保證染色結果具有充分的代表性。
3、PhosphoSitePlus資料庫
PhosphoSitePlus資料庫是一個由CST和NIH聯合開發的免費資源資料庫,總結歸納了海量通過科學研究發現的蛋白修飾位點,包括磷酸化、甲基化、乙醯化、泛素化等,並且包括一些CST公司發現但未發表的蛋白修飾位點。
該資料庫是動態的、開放的、高度互動並持續更新的。它有助於研究PTMs在正常和病理細胞/組織中的作用,同時它也是發現新的疾病標志物和葯物靶點的有力工具。
性能及歷史
蛋白質資料庫(HPDB),建於2005年5月,動態展示生物大分子立體結構,滑鼠點擊放大分子結構、原子定位、測定原子之間距離,可用於教學或科研。服務對象是能夠熟練使用中文的生命科學、醫學、葯學、農學、林學等領域的大中專學生、教師及科技工作者。
分子結構特徵描述採用漢語,同時提供英文原文以供考證。對於善於使用英文的讀者,我們提倡直接訪問RCSB PDB,一來可以減少網路擁擠,二來可以減少由於HPDB的翻譯不妥帶來的不便。
蛋白質資料庫(HPDB)對每個蛋白質分子結構說明部分做了中文翻譯(最新加入資料庫的分子除外),內容包括分子結構定性描述、樣品的來源、表達載體、宿主、化學分析方法、分子結構組成成分等。這些信息並同蛋白質分子結構數據存儲於資料庫,因此HPDB支持中文查詢。
蛋白質資料庫(HPDB)雖然翻譯了「分子結構說明」部分,但為了保證數據的可靠性和准確性,HPDB對一級結構序列及大分子結構坐標數據等未做任何改動,資料庫保持RCSB PDB核實後的原始實驗數據文件,並保持PDB文件格式和蛋白質分子編號。
⑷ 蛋白質三維結構資料庫的功能
PDB是目前最主要的收集生物大分子(蛋白質、核酸和糖)2.5維(以二維的形式表示三維的數據)結構的資料庫,是通過X射線單晶衍射、核磁共振、電子衍射等實驗手段確定的蛋白質、多糖、核酸、病毒等生物大分子的三維結構資料庫。隨著晶體衍射技術的不斷改進,結構測定的速度和精度也逐步提高。90年代以來,隨著多維核磁共振溶液構象測定方法的成熟,使那些難以結晶的蛋白質分子的結構測定成為可能。蛋白質分子結構資料庫的數據量迅速上升。據2000年5月統計,PDB資料庫中已經存放了1萬2千多套原子坐標,其中大部分為蛋白質,包括多肽和病毒。此外,還有核酸、蛋白和核酸復合物以及少量多糖分子。核酸三維結構測定進展迅速。PDB資料庫中已經收集了800多套核酸結構數據。
PDB資料庫允許用戶用各種方式以及布爾邏輯組合(AND、OR和NOT)進行檢索,可檢索的欄位包括功能類別、PDB代碼、名稱、作者、空間群、解析度、來源、入庫時間、分子式、參考文獻、生物來源等項。用戶不僅可以得到生物大分子的各種注釋、坐標、三維圖形、VAML等,並能從一系列指針連接到與PDB有關的資料庫,包括SCOP、CATH、Medline、ENZYME、SWISS-3DIMAGE等。可通過FTP下載PDB數據。所有的PDB文件均有壓縮和非壓縮版以適應用戶傳輸需要。PDB的電子公告版BBS和電子郵件興趣小組(Mailing List)為用戶提供了交流經驗和發布新聞的空間。在PDB的伺服器上還提供與結構生物學相關的多種免費軟體如Rasmol、Mage、PDBBrowser、3DB Brower等。
⑸ 常用的查詢蛋白質結構以及序列的資料庫主要有哪些
1. PIR和PSD
PIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫,可在這里下載。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫,其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻資料庫的交叉索引,以及資料庫內部條目之間的索引,這些內部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調控級聯和具有共同特徵的條目之間方便的檢索。每季度都發行一次完整的資料庫,每周可以得到更新部分。
PSD資料庫有幾個輔助資料庫,如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務:基於文本的互動式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是經過注釋的蛋白質序列資料庫,由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。
利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
3. PROSITE
PROSITE資料庫收集了生物學有顯著意義的蛋白質位點和序列模式,並能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。有的情況下,某個蛋白質與已知功能蛋白質的整體序列相似性很低,但由於功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。
4. PDB
蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數據來源於X光晶體衍射和核磁共振(NMR)的數據,經過整理和確認後存檔而成。目前PDB資料庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主伺服器和世界各地的鏡像伺服器提供資料庫的檢索和下載服務,以及關於PDB數據文件格式和其它文檔的說明,PDB數據還可以從發行的光碟獲得。使用Rasmol等軟體可以在計算機上按PDB文件顯示生物大分子的三維結構。
5. SCOP
蛋白質結構分類(SCOP)資料庫詳細描述了已知的蛋白質結構之間的關系。分類基於若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結構的關系;折疊類,所有折疊子被歸於全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗餘的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對演算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。
6. COG
蛋白質直系同源簇(COGs)資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關系分類構建而成。COG庫對於預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,並把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢,基於Web的COGNITOR服務,系統進化模式的查詢服務等。
⑹ 總結蛋白質序列資料庫演變的過程
蛋白質序列資料庫指應用計算機功能分析生物學信息的資料庫。應用計算機的運演算法則,比較DNA和蛋白質序列而檢測結構、功能和序列之間的進化關系。
各種基因組的序列產生大量的DNA序列數據和生物信息,已經被應用於研究基因的功能,預測以前未知的基因功能。現在人們的注意力主要集中在從僅有的氨基酸序列預測蛋白質結構和功能。
歷史追溯:
由於蛋白質序列測定技術先於DNA序列測定技術問世,蛋白質序列的搜集也早於DNA序列。蛋白質序列資料庫的雛形可以追溯到60年代。60年代中期到80年代初,美國國家生物醫學研究基金會(National Biomedical Research Foundation,簡稱NBRF)。
Dayhoff領導的研究組將搜集到的蛋白質序列和結構信息以「蛋白質序列和結構地圖集」(Atlas of Protein Sequence and Structure)的形式發表,主要用來研究蛋白質的進化關系。1984年,「蛋白質信息資源」(Protein Information Resource,簡稱PIR)計劃正式啟動。
蛋白質序列資料庫PIR也因此而誕生。與核酸序列資料庫的國際合作相呼應,1988年,美國的NBRF、日本的國際蛋白質信息資料庫(Japanese International Protein Information Database,簡稱JIPID)。
德國的慕尼黑蛋白質序列信息中心(Munich Information Center for Protein Sequences,簡稱MIPS)合作成立了國際蛋白質信息中心(PIR-International),共同收集和維護蛋白質序列資料庫PIR,[Barker等, 2000]。
⑺ 蛋白質三維結構資料庫的數據格式
每個PDB文件可能分割成一系列行,由行終止符終止。在記錄文件中每行由80列組成。每條PDB記錄末尾標志應該是行終止符。PDB文件中每行都是自我識別的。每行的前六列存放記錄名稱,左對齊空格補足.必須和規定的記錄名稱一致。PDB文件也可看成是各種記錄類型的總和。每個記錄類型包括一行或多行又被更深一層分成各欄位。以下是PDB文件存儲數據格式的一個完整簡潔的說明:
標題部分
1 HEADER(分子類,公布日期、ID號)
2 OBSLTE (註明此ID號已改為新號)
3 TITLE(說明實驗方法類型)
4 CAVEAT(可能的錯誤提示)
5 COMPND(化合物分子組成)
6 SOURCE(化合物來源)
7 KEYWDS(關鍵詞)
8 EXPDTA(測定結構所用的實驗方法)
9 AUTHOR(結構測定者)
10 REVDAT(修訂日期及相關內容)
11 SPRSDE(已撤銷或更改的相關記錄)
12 JRNL(發表坐標集的文獻)
13 REMARK
REMARK 1(有關文獻)
REMARK 2(最大解析度)
REMARK 3(用到的程序和統計方法)
REMARK 4-999
一級結構
1 DBREF (其他序列庫的有關記錄)
2 SEQADV ( PDB與其他記錄的出入)
3 SEQRES (殘基序列)
4 MODRES (對標准殘基的修飾)
雜因子
1 HET(非標准殘基)
2 HETNAM(非標准殘基的名稱)
3 HETSNY (非標准殘基的同義字)
4 FORMOL(非標准殘基的化學式)
二級結構
1 HELIX(螺旋)
2 SHEET(折疊片)
3 TURN(轉角)
連接注釋
1 SSBOND(二硫鍵)
2 LINK(殘基間化學鍵)
3 HYDBND(氫鍵)
4 SLTBRG(鹽橋)
5 CISPEP(順式殘基)
晶胞特徵及坐標變換
1 CRYST1(晶胞參數)
2 ORIGXn(直角-PDB坐標)
3 SCALEn(直角-部分結晶學坐標)
4 MTRIXn(非晶相對稱)
5 TVECT(轉換因子)
坐標部分
1 MODEL(多亞基時示亞基號)
2 ATOM(標准基團的原子坐標)
3 SIGATM(標准差)
4 ANISOU(溫度因子)
5 SIGUIJ(各種溫度因素導致的標准差)
6 TER(鏈末端)
7 HETATM(非標准基團原子坐標)
8 ENDMDL(亞基結束)
連通性部分
CONECT(原子間的連通性有關記錄)
簿記
1 MASTER (版權擁有者)
2 END(文件結束)
⑻ 構建蛋白質二級資料庫的基本原則是什麼
生物大分子三維空間結構資料庫是一類重要的生物信息學資料庫。蛋白質結構資料庫(ProreinData Bank,PDB)是1971年創建的國際上最著名、最完整的蛋白質三維結構資料庫。另外還有蛋白質分類資料庫SCOP和CATH。
⑼ 蛋白質三維結構資料庫的介紹
蛋白質結構資料庫(Protein Data Bank,簡稱PDB)是美國紐約Brookhaven國家實驗室於1971年創建的。為適應結構基因組和生物信息學研究的需要,1998年10月由美國國家科學基金委員會、能源部和衛生研究院資助,成立了結構生物學合作研究協會(Research Collaboratory for Structural Bioinformat-ics,簡稱RCSB)。PDB資料庫改由RCSB管理,目前主要成員為拉特格斯大學(Rutgers University)、聖地亞哥超級計算中心(San Diego Supercomputer Cen-ter,簡稱SDSC)和國家標准化研究所(National Insti-tutes of Standards andTechnology,簡稱NIST)。和核酸序列資料庫一樣,可以通過網路直接向PDB資料庫提交數據。