ebi数据库
① 分析miRNA的数据库都有哪些
1、starBase
一个高通量实验数据CLIP-Seq(或称为HITS-CLIP,PAR-CLIP,iCLIP)和mRNA降解组测序数据支持的microRNA靶标数据库,包含了miRNA-mRNA,miRNA-lncRNA,miRNA-circRNA,miRNA-ceRNA 和RNA-protein等的调控关系。整合和构建多个流行的靶标预测软件的交集和调控关系。最新版本发布时间:2013年11月。
2、miRbase
众所周知的microRNA基因注释数据库。目前miRBase只提供了microRNA的靶标的预测软件的链接(如:PicTar)。最新版本发布时间:2010年9月。
3、ChIPBase
整合CLIP-Seq和ChIP-Seq的数据探讨microRNA的转录和转录后调控,构建转录因子->microRNA->靶标的调控网络。最新版本发布时间:2012年11月。
4、Tarbase
一个收集已被实验验证的microRNA靶标数据库。最新版本发布时间:2009年1月。
5、miRecords
一个整合的microRNA靶标数据库。整合多个靶标预测软件的调控关系。最新版本发布时间:2010年11月。
6、targetScan
基于靶mRNA序列的进化保守等特征搜寻动物的microRNA靶基因。是预测microRNA靶标假阳性率较低的软件。而且是microRNA领域大牛Bartel实验室开发的。最新版本发布时间:2009年4月。
7、PicTar
基于microRNA或microRNA靶标联合作用等特征开发的搜寻动物的microRNA靶基因。假阳性率也较低。是microRNA领域大牛Rajewsky实验室开发的。最新版本发布时间:2007年3月。
8、PITA
基于靶位点的可接性和自由能预测microRNA的靶标。是着名的生物信息学家Segal实验室开发的。最新版本发布时间:2008年8月。
9、RNA22
基于序列特征预测microRNA的结合位点。是几个流行的microRNA靶标预测软件的其中一个。IBM公司的研究团队开发的。最新版本发布时间:2007年。
10、miRanda和microRNA.org
是着名的MemorialSloan-Kettering 癌症研究中心的研究人员开发的软件和数据库。miRanda的最新版本又叫mirSVR。最新版本发布时间:2010年8月。
11、MicroCosm
EMBL-EBI的Enright 实验室开发的microRNA靶标数据库。最新版本发布时间:2010年8月。
12、miRTarBase
整合实验证实的microRNA靶标的数据库。最新版本发布时间:2010年10月。
13、miRGator v2.0
整合microRNA表达、靶标和疾病相关信息的数据库。最新版本发布时间:2010年11月。
14、MiRNAMap
动物的microRNA基因及其靶标的数据库。最新版本发布时间:2008年1月。
15、miRDB
动物microRNA靶标预测和功能注释数据库。最新版本发布时间:2010年8月。
16、RNAhybrid
一个基于miRNA-target配对自由能预测microRNA的靶标。最新版本发布时间:2011年6月。
17、miRGen
microRNA基因和microRNA靶标数据库。最新版本发布时间:2007年1月。
② 网上的生物信息学资源都有哪些
生物信息资源简介
生物信息(bioinformatics)中的“信息(-informatics)”指的是从海量的数据中进行挖掘,从而得到知识的过程,如下图所示。在这个过程中,会涉及到数据的管理,数据的运算,数据挖掘和建模仿真。其中,数据管理部分主要是数据库(database),数据的运算部分主要是指各种生物信息的软件(software tools)。这两部分是生物信息研究非常重要的资源,也是生信入门需要了解的基础知识。下面简要介绍一下这些资源。(本文根据北京大学生物信息学公开课程视频整理,图片来自视频截图)
根据不同的特点,可以把这些资源分成不同的类别。比如根据数据性质可以将database分为原始数据(Original data)数据库和二级数据(Secondary data)数据库。再比如根据软件是独立的工具还是网络服务器,可以将software tools分为standalone programs和web servers。
根据发布者的类别可以分为centralized resources和绝羡森indivial resources。比较大的centralized resources主要有NCBI(National Center for Biotechnology Information), EBI(European Bioinformatics Institute)和UCSC(University of California Santa Cruz)Genome Browser。下面将分别介绍这三个最大的数据库以及其他的生物信息学数据资源。
1.NCBI简介
NCBI-Genome Database:
存储了目前绝大多数的被测序出来的基因组,目前有1000+基因组被测序出来。
NCBI-Nucleotide/protein (RefSeq):
将不同的版本作了整合之后的参考序列。其中NM_*表示核酸序列,NP_*表示蛋白序列。其中核酸给出了ID号,名称,物种,特征,编码区,序列等信息。蛋白还给出了功能区间信息。
NCBI-Gene:
以基因为单位,整合了pathway、variations、phenotype等信息。
对于Human genes而言,GeneCards比NCBI有更好的对人类基因、蛋白的注释(表达、相互作用、同源蛋白、功能、遗传变异等)。
NCBI-SRA
新一代测序技术的短序列database,每5个月数据就会翻倍。
NCBI-Taxonomy
把所有至少有一个基因被测序过的物种做的物种分类树,在所有被描述派搜过的物种中有10%被测序过。
NCBI-PubMed
用于查阅文献。
NCBI-MeSH
(Medical Subject Heading)controlled vocabulary used for indexing articles for PubMed 结构化的词库。
NCBI-My NCBI
对于并亩感兴趣的关键词,在NBCI设定之后,每周会推送相关文献,对于项目中跟踪文献非常有用。
NCBI-BLAST
NCBI最着名的工具,关于BLAST的两篇文章已经被引用了四万两千多次。不同版本的BLAST包括:
Online:NCBI-BLAST
Standalone:BLAST+
Embedded in webpage:wwwblast
2. EBI简介
EBI中的一些资源如表中所示:
EBI-Ensembl:
介于NCBI和UCSC之间的资源,整合很多物种的不同的资源。Ensembl中数量的类型包括:
EBI-UniProtKB
The Universal Protein Resource (UniProt) is a comprehensive resource for protein sequence and annotation data.
(The UniProt Knowledgebase (UniProtKB) is the central hub for the collection of functional information on proteins, with accurate, consistent and rich annotation. )
UniProtKB -Swiss-Prot(已经过人工校对)
UniProtKB -TrEMBL(无人工校对)
EBI-IntAct
分子之间相互作用
EBI-Clustal Omega
多序列比对
EBI-InterProScan
输入一个序列,看是否包含目前已经知道功能的蛋白的区域
3 UCSC简介
以基因组为坐标。包含很多的track,包括:SNP,mRNA,剪切的EST,没剪切的EST,高通量的,通过Chi
③ 生物催化和生物降解的数据库及网址有哪些
一般来说所用的分析工具有在线跟下载的下面简要列举一些常用在线软件的使用1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:
打开google首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,Viewreport。
二、结果:
输出序列长度918bp,载体序列的区域456bp——854bp.
克隆载体:M13mp18phage,pGEM-13Zf(),pBR322,pRKW2。
2、使用相应工具,分析下列未者帆知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及MaskedSequence。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。
进入google首页,搜索,进入主页,进入,复制序列,DNAsource选择human,运行!点击超链接,在结果中选择
AnnotationFile:_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占首粗雹的百分比及Obs/Exp值。一、步骤:
进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!
二、结果:
CpG岛的长度:385bp
区域:48——432;
GC数量:SumCG=297,百分数=77.14
Obs/Exp:1.01、4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。凳耐得出序列是human的
进入google首页,搜索,进入主页,复制序列,选择eukaryote,运行!
二、结果:
位置:711—761,1388—1438,1755—1805;
5、运用SpliceSitePrediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索SpliceSitePrediction,进入主页,复制序列。Organism选择Humanorother。其他默认,运行!
二、结果:
供体:
受体:
6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predictedgenes/exons和predictedpeptidesequence(s)两个部分)。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的
进入google首页;搜索NCBI,进入主页,选择allresources(A~Z),选择O,选择ORFfinder。复制序列,默认,运行!
二、结果:ORF图
三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize,,其他默认,运行!
四、结果:
G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的RecognitionSequence和Type。
一、步骤:进入google首页,googleinEnglish,搜索REBASE,进入主页,分别输入AluI、MboI、EcoI,运行!
在MboI中选择第一个,EcoI选择第二个。
二、结果:
ENSCAN图
8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(ForwardPrimerandReversePrimer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechkinput,sunmit,;;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃;。
二、结果:
GC含量:
引物的位点:
Tm值:
产物长度:。
9、将下面的序列用NEBcutter2.0工具分析,用产生平末端及有四个酶切位点的酶进行酶切,并用抓图提交胶图(viewgel),要求1.4%agarose和Marker为100bpDNALadder。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST,得知是linear。
进入google首页,搜索NEBcutter2.0,进入主页,选择linear,运行!选择customdigest,,把“1”改为“4”,选择平末端,后digest。Viewgel。选择1.4%agarose和Marker为100bp。
二、结果:
然后就是蛋白质的了一般都在expasy里swiss-prot适用于检索的computepi/mw求理论分子量分子量protparam物理化学性质protscale亲水性疏水性peptidemass分析蛋白酶和化学试剂处理后的内切产物
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Aligntwosequences)
DNA序列分析——ORFFinder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析实验序列外显子部分——GENSCAN(genes.mit.e/GENSCAN.html)
分析实验序列的可能酶切位点——NEBcutter2.0(tools.neb/NEBcutter2/index.php)
注:Customdigest--viewgel
限制性内切酶数据库——REBASE(rebase.neb/rebase/rebase.html)
设计引物扩增实验序列——Genefisher
Primer3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(ComputepI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass)[*:kinaseK]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred3)
多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019
④ 高通量测序数据公共数据库有哪些
我原来常用的:
NCBI:持有INSDC的节点。网站上有核酸、蛋白、基因名、基因组名等等的搜索工具,以及BLAST序列比对搜索工具,PUBMED文献数据库,Taxonomy数据,COG蛋白家族库等等。FTP可以下到它全部的数据库,BLAST的单机程序,以及各种工具程序。
EBI:和NCBI类似,欧洲搞的对等物。感觉EBI网站比NCBI要清楚简洁。另外EBI网站整合了更多的工具,比如多序列比对。
Uniprot:全蛋白库。NCBI和EBI的蛋白库来源于此。目前包括两部分:SwissProt是人工校对过的,TrEMBL是自动校对的。
Pfam:蛋白家族库。可以使用配套的HMMER进行搜索。比BLAST能找到更远缘的东西,而且找到的东西是结构域。
Rfam:RNA的,类似Pfam。
⑤ 为什么说swiss-prot是重要的蛋白质序列数据库
SWISS-PROT是含有详细注释内容的蛋白质序列数据库,由欧洲生物信息学中心(EBI)维护,目前已合并入 UniProt数据库,旨在帮助基因组和蛋白质组以及相关的分子生物学研究人员提供有关蛋白质氨基酸序列的最新信息。
SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立
了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。SWISS-PROT数据库包含了EMBL核酸序列数据库中被经过仔细检查和准确注释了
的蛋白质序列,一般地,任何蛋白质序列数据的搜寻和比较都应从SWISS-PROT开始。
SWISS-PROT蛋白质序列数据由大量序列条目组成,每一个序列条目
有其自己的格式。为了标准化的目的,SWISS-PROT的格式与EMBL核酸序列数据库的格式尽可能类似。SWISS-PROT涉及已知蛋白质的序列、
引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关
系、序列变异体和冲突等信息。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序
获得的蛋白质序列,序列提交可以在其Web页面上完成。
⑥ 癌细胞全部转录本有那些库可以查,TERRA转录本可以查到么
癌细胞全部转录氏袜滚本的数据库有很多,如TCGA (The Cancer Genome Atlas)、CCLE (Cancer Cell Line Encyclopedia)、HGMD (Human Gene Mutation Database) 等。这些数据库都整合了大歼余量的癌症组织和细胞系的转录组测序数据,提供了基因表达水平、突变情况、染色体重排、分子亚型等信息,可以为癌症研究和治疗提供参考。
至于TERRA转录本是否能被查询到,则取决于所使用的数据库。
举例来说,TCGA数据库中包含了 TERRA 转录本的表达信息,可以通过 TCGA 数据门户网站进行检索与下载。而其它一好迟些数据库可能没有包含 TERRA 的信息,需要具体查询。