ebi資料庫
① 分析miRNA的資料庫都有哪些
1、starBase
一個高通量實驗數據CLIP-Seq(或稱為HITS-CLIP,PAR-CLIP,iCLIP)和mRNA降解組測序數據支持的microRNA靶標資料庫,包含了miRNA-mRNA,miRNA-lncRNA,miRNA-circRNA,miRNA-ceRNA 和RNA-protein等的調控關系。整合和構建多個流行的靶標預測軟體的交集和調控關系。最新版本發布時間:2013年11月。
2、miRbase
眾所周知的microRNA基因注釋資料庫。目前miRBase只提供了microRNA的靶標的預測軟體的鏈接(如:PicTar)。最新版本發布時間:2010年9月。
3、ChIPBase
整合CLIP-Seq和ChIP-Seq的數據探討microRNA的轉錄和轉錄後調控,構建轉錄因子->microRNA->靶標的調控網路。最新版本發布時間:2012年11月。
4、Tarbase
一個收集已被實驗驗證的microRNA靶標資料庫。最新版本發布時間:2009年1月。
5、miRecords
一個整合的microRNA靶標資料庫。整合多個靶標預測軟體的調控關系。最新版本發布時間:2010年11月。
6、targetScan
基於靶mRNA序列的進化保守等特徵搜尋動物的microRNA靶基因。是預測microRNA靶標假陽性率較低的軟體。而且是microRNA領域大牛Bartel實驗室開發的。最新版本發布時間:2009年4月。
7、PicTar
基於microRNA或microRNA靶標聯合作用等特徵開發的搜尋動物的microRNA靶基因。假陽性率也較低。是microRNA領域大牛Rajewsky實驗室開發的。最新版本發布時間:2007年3月。
8、PITA
基於靶位點的可接性和自由能預測microRNA的靶標。是著名的生物信息學家Segal實驗室開發的。最新版本發布時間:2008年8月。
9、RNA22
基於序列特徵預測microRNA的結合位點。是幾個流行的microRNA靶標預測軟體的其中一個。IBM公司的研究團隊開發的。最新版本發布時間:2007年。
10、miRanda和microRNA.org
是著名的MemorialSloan-Kettering 癌症研究中心的研究人員開發的軟體和資料庫。miRanda的最新版本又叫mirSVR。最新版本發布時間:2010年8月。
11、MicroCosm
EMBL-EBI的Enright 實驗室開發的microRNA靶標資料庫。最新版本發布時間:2010年8月。
12、miRTarBase
整合實驗證實的microRNA靶標的資料庫。最新版本發布時間:2010年10月。
13、miRGator v2.0
整合microRNA表達、靶標和疾病相關信息的資料庫。最新版本發布時間:2010年11月。
14、MiRNAMap
動物的microRNA基因及其靶標的資料庫。最新版本發布時間:2008年1月。
15、miRDB
動物microRNA靶標預測和功能注釋資料庫。最新版本發布時間:2010年8月。
16、RNAhybrid
一個基於miRNA-target配對自由能預測microRNA的靶標。最新版本發布時間:2011年6月。
17、miRGen
microRNA基因和microRNA靶標資料庫。最新版本發布時間:2007年1月。
② 網上的生物信息學資源都有哪些
生物信息資源簡介
生物信息(bioinformatics)中的「信息(-informatics)」指的是從海量的數據中進行挖掘,從而得到知識的過程,如下圖所示。在這個過程中,會涉及到數據的管理,數據的運算,數據挖掘和建模模擬。其中,數據管理部分主要是資料庫(database),數據的運算部分主要是指各種生物信息的軟體(software tools)。這兩部分是生物信息研究非常重要的資源,也是生信入門需要了解的基礎知識。下面簡要介紹一下這些資源。(本文根據北京大學生物信息學公開課程視頻整理,圖片來自視頻截圖)
根據不同的特點,可以把這些資源分成不同的類別。比如根據數據性質可以將database分為原始數據(Original data)資料庫和二級數據(Secondary data)資料庫。再比如根據軟體是獨立的工具還是網路伺服器,可以將software tools分為standalone programs和web servers。
根據發布者的類別可以分為centralized resources和絕羨森indivial resources。比較大的centralized resources主要有NCBI(National Center for Biotechnology Information), EBI(European Bioinformatics Institute)和UCSC(University of California Santa Cruz)Genome Browser。下面將分別介紹這三個最大的資料庫以及其他的生物信息學數據資源。
1.NCBI簡介
NCBI-Genome Database:
存儲了目前絕大多數的被測序出來的基因組,目前有1000+基因組被測序出來。
NCBI-Nucleotide/protein (RefSeq):
將不同的版本作了整合之後的參考序列。其中NM_*表示核酸序列,NP_*表示蛋白序列。其中核酸給出了ID號,名稱,物種,特徵,編碼區,序列等信息。蛋白還給出了功能區間信息。
NCBI-Gene:
以基因為單位,整合了pathway、variations、phenotype等信息。
對於Human genes而言,GeneCards比NCBI有更好的對人類基因、蛋白的注釋(表達、相互作用、同源蛋白、功能、遺傳變異等)。
NCBI-SRA
新一代測序技術的短序列database,每5個月數據就會翻倍。
NCBI-Taxonomy
把所有至少有一個基因被測序過的物種做的物種分類樹,在所有被描述派搜過的物種中有10%被測序過。
NCBI-PubMed
用於查閱文獻。
NCBI-MeSH
(Medical Subject Heading)controlled vocabulary used for indexing articles for PubMed 結構化的詞庫。
NCBI-My NCBI
對於並畝感興趣的關鍵詞,在NBCI設定之後,每周會推送相關文獻,對於項目中跟蹤文獻非常有用。
NCBI-BLAST
NCBI最著名的工具,關於BLAST的兩篇文章已經被引用了四萬兩千多次。不同版本的BLAST包括:
Online:NCBI-BLAST
Standalone:BLAST+
Embedded in webpage:wwwblast
2. EBI簡介
EBI中的一些資源如表中所示:
EBI-Ensembl:
介於NCBI和UCSC之間的資源,整合很多物種的不同的資源。Ensembl中數量的類型包括:
EBI-UniProtKB
The Universal Protein Resource (UniProt) is a comprehensive resource for protein sequence and annotation data.
(The UniProt Knowledgebase (UniProtKB) is the central hub for the collection of functional information on proteins, with accurate, consistent and rich annotation. )
UniProtKB -Swiss-Prot(已經過人工校對)
UniProtKB -TrEMBL(無人工校對)
EBI-IntAct
分子之間相互作用
EBI-Clustal Omega
多序列比對
EBI-InterProScan
輸入一個序列,看是否包含目前已經知道功能的蛋白的區域
3 UCSC簡介
以基因組為坐標。包含很多的track,包括:SNP,mRNA,剪切的EST,沒剪切的EST,高通量的,通過Chi
③ 生物催化和生物降解的資料庫及網址有哪些
一般來說所用的分析工具有在線跟下載的下面簡要列舉一些常用在線軟體的使用1、使用VecScreen工具,分析下列未知序列,輸出序列長度、載體序列的區域、可能使用的克隆載體都有哪些。一、步驟:
打開google首頁,搜索VecScreen,進入VecScreen首頁,復制序列,運行,Viewreport。
二、結果:
輸出序列長度918bp,載體序列的區域456bp——854bp.
克隆載體:M13mp18phage,pGEM-13Zf(),pBR322,pRKW2。
2、使用相應工具,分析下列未者帆知序列的重復序列情況,輸出重復序列的區域、包含的所有重復序列的類型、重復序列的總長度及MaskedSequence。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的。
進入google首頁,搜索,進入主頁,進入,復制序列,DNAsource選擇human,運行!點擊超鏈接,在結果中選擇
AnnotationFile:_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,輸出CpG島的長度、區域、GC數量、所佔首粗雹的百分比及Obs/Exp值。一、步驟:
進入google首頁,搜索CpGPlot,進入CpGPlot主頁,program中選擇cpgreport復制序列,運行!
二、結果:
CpG島的長度:385bp
區域:48——432;
GC數量:SumCG=297,百分數=77.14
Obs/Exp:1.01、4、預測下面序列的啟動子,輸出可能的啟動子序列及相應的位置。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。凳耐得出序列是human的
進入google首頁,搜索,進入主頁,復制序列,選擇eukaryote,運行!
二、結果:
位置:711—761,1388—1438,1755—1805;
5、運用SpliceSitePrediction工具分析下面序列,分別輸出內含子-外顯子剪接位點給體和受體的區域及剪接處位置的鹼基。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索SpliceSitePrediction,進入主頁,復制序列。Organism選擇Humanorother。其他默認,運行!
二、結果:
供體:
受體:
6、對下面序列進行六框翻譯,利用GENESCAN綜合分析(首先確定給定序列的物種來源)哪個ORF是正確的,輸出六框翻譯(抓圖)和GENESCAN結果(包括predictedgenes/exons和predictedpeptidesequence(s)兩個部分)。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是Zea的
進入google首頁;搜索NCBI,進入主頁,選擇allresources(A~Z),選擇O,選擇ORFfinder。復制序列,默認,運行!
二、結果:ORF圖
三、步驟:進入google首頁,搜索GENESCAN,進入主頁,Organism:Maize,,其他默認,運行!
四、結果:
G7、進入REBASE限制性內切酶資料庫,輸出AluI、MboI、EcoI三種內酶的RecognitionSequence和Type。
一、步驟:進入google首頁,googleinEnglish,搜索REBASE,進入主頁,分別輸入AluI、MboI、EcoI,運行!
在MboI中選擇第一個,EcoI選擇第二個。
二、結果:
ENSCAN圖
8、使用引物設計工具,針對下列未知序列設計一對引物,要求引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃。請寫出選擇的一對引物(ForwardPrimerandReversePrimer)、及相應的GC含量、引物的位點、Tm值和產物長度。一、步驟:進入google首頁,搜索genefisher,進入主頁,復制fasta格式,chechkinput,sunmit,;;設置一下引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃;。
二、結果:
GC含量:
引物的位點:
Tm值:
產物長度:。
9、將下面的序列用NEBcutter2.0工具分析,用產生平末端及有四個酶切位點的酶進行酶切,並用抓圖提交膠圖(viewgel),要求1.4%agarose和Marker為100bpDNALadder。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST,得知是linear。
進入google首頁,搜索NEBcutter2.0,進入主頁,選擇linear,運行!選擇customdigest,,把「1」改為「4」,選擇平末端,後digest。Viewgel。選擇1.4%agarose和Marker為100bp。
二、結果:
然後就是蛋白質的了一般都在expasy里swiss-prot適用於檢索的computepi/mw求理論分子量分子量protparam物理化學性質protscale親水性疏水性peptidemass分析蛋白酶和化學試劑處理後的內切產物
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫
資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Aligntwosequences)
DNA序列分析——ORFFinder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析實驗序列外顯子部分——GENSCAN(genes.mit.e/GENSCAN.html)
分析實驗序列的可能酶切位點——NEBcutter2.0(tools.neb/NEBcutter2/index.php)
註:Customdigest--viewgel
限制性內切酶資料庫——REBASE(rebase.neb/rebase/rebase.html)
設計引物擴增實驗序列——Genefisher
Primer3
蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(ComputepI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass)[*:kinaseK]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred3)
多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019
④ 高通量測序數據公共資料庫有哪些
我原來常用的:
NCBI:持有INSDC的節點。網站上有核酸、蛋白、基因名、基因組名等等的搜索工具,以及BLAST序列比對搜索工具,PUBMED文獻資料庫,Taxonomy數據,COG蛋白家族庫等等。FTP可以下到它全部的資料庫,BLAST的單機程序,以及各種工具程序。
EBI:和NCBI類似,歐洲搞的對等物。感覺EBI網站比NCBI要清楚簡潔。另外EBI網站整合了更多的工具,比如多序列比對。
Uniprot:全蛋白庫。NCBI和EBI的蛋白庫來源於此。目前包括兩部分:SwissProt是人工校對過的,TrEMBL是自動校對的。
Pfam:蛋白家族庫。可以使用配套的HMMER進行搜索。比BLAST能找到更遠緣的東西,而且找到的東西是結構域。
Rfam:RNA的,類似Pfam。
⑤ 為什麼說swiss-prot是重要的蛋白質序列資料庫
SWISS-PROT是含有詳細注釋內容的蛋白質序列資料庫,由歐洲生物信息學中心(EBI)維護,目前已合並入 UniProt資料庫,旨在幫助基因組和蛋白質組以及相關的分子生物學研究人員提供有關蛋白質氨基酸序列的最新信息。
SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立
了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。SWISS-PROT資料庫包含了EMBL核酸序列資料庫中被經過仔細檢查和准確注釋了
的蛋白質序列,一般地,任何蛋白質序列數據的搜尋和比較都應從SWISS-PROT開始。
SWISS-PROT蛋白質序列數據由大量序列條目組成,每一個序列條目
有其自己的格式。為了標准化的目的,SWISS-PROT的格式與EMBL核酸序列資料庫的格式盡可能類似。SWISS-PROT涉及已知蛋白質的序列、
引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關
系、序列變異體和沖突等信息。利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序
獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
⑥ 癌細胞全部轉錄本有那些庫可以查,TERRA轉錄本可以查到么
癌細胞全部轉錄氏襪滾本的資料庫有很多,如TCGA (The Cancer Genome Atlas)、CCLE (Cancer Cell Line Encyclopedia)、HGMD (Human Gene Mutation Database) 等。這些資料庫都整合了大殲餘量的癌症組織和細胞系的轉錄組測序數據,提供了基因表達水平、突變情況、染色體重排、分子亞型等信息,可以為癌症研究和治療提供參考。
至於TERRA轉錄本是否能被查詢到,則取決於所使用的資料庫。
舉例來說,TCGA資料庫中包含了 TERRA 轉錄本的表達信息,可以通過 TCGA 數據門戶網站進行檢索與下載。而其它一好遲些資料庫可能沒有包含 TERRA 的信息,需要具體查詢。