当前位置:首页 » 操作系统 » 富集数据库

富集数据库

发布时间: 2022-06-09 09:52:59

A. GO 和 KEGG 的区别

1、属性不同

Go(又称 Golang)是 Google 的 Robert Griesemer,Rob Pike 及 Ken Thompson 开发的一种静态强类型、编译型语言。功能:内存安全,GC(垃圾回收),结构形态及 CSP-style 并发计算。

KEGG 是了解高级功能和生物系统(如细胞、 生物和生态系统),从分子水平信息,尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源,是国际最常用的生物信息数据库之一,以“理解生物系统的高级功能和实用程序资源库”着称。

2、性质不同

go是计算机编程语言。

KEGG基因组破译方面的数据库。

(1)富集数据库扩展阅读:

Go的语法接近C语言,但对于变量的声明有所不同。Go支持垃圾回收功能。Go的并行模型是以东尼·霍尔的通信顺序进程(CSP)为基础,采取类似模型的其他语言包括Occam和Limbo。

但它也具有Pi运算的特征,比如通道传输。在1.8版本中开放插件(Plugin)的支持,这意味着现在能从Go中动态加载部分函数。

与C++相比,Go并不包括如枚举、异常处理、继承、泛型、断言、虚函数等功能,但增加了 切片(Slice) 型、并发、管道、垃圾回收、接口(Interface)等特性的语言级支持。Go 2.0版本将支持泛型,对于断言的存在,则持负面态度,同时也为自己不提供类型继承来辩护。

不同于Java,Go内嵌了关联数组(也称为哈希表(Hashes)或字典(Dictionaries)),就像字符串类型一样。

KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。

人工创建了一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。

与其他数据库相比,KEGG 的一个显着特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。

B. kobas为什么一直打不开

以下是相关解决方法

在线通路注释,一般使用DAVID、KASS、KOBAS等工具。

Kobas : KOBAS(基于KEGG Orthology Based Annotation System)是用于基因/蛋白质功能注释(注释模块)和功能集富集(Enrichment mole)的Web服务器。给定一组基因或蛋白质,它可以确定通路,疾病和基因本体论(GO)术语是否显示统计学显着性。

KOBAS 3.0由两个功能组成,注释(Annotation)和富集(Enrichment)

KOBAS 3.0的输入不支持gene symbol,一般操作将Symbol ID转换成Entrez Gene ID(或者)ensembl格式的ID。

推荐进行基因ID转换的网站:gprofiler : http://biit.cs.ut.ee/gprofiler/gconvert.cgi


注释(Annotation):

对于Annotation模块,它接受基因/蛋白质列表作为输入,包括ID或序列。 对于每个基因,您可以找到与该基因相关的途径,疾病和基因本体(GO).


富集(Enrichment)

富集模块为您提供答案,了解哪些途径,疾病和GO术语与您刚输入的基因/蛋白质具有统计学意义。

该模块在KOBAS 2.0中称为“识别”。它接受与Annotation模块相同的输入格式,并且还允许Annotation模块的结果作为输入(请参阅3.1中的详细信息)。它基于第一代基因集富集方法,一种称为过表达分析(ORA)的基因水平统计,这是一种基于超几何分布的简单且经常使用的测试。

注意事项:

输入数据:

1、Gene/protein ID、Sequences(FASTA format)、Tabular BLAST output

KOBAS 本地操作:

下载 应用: http://kobas.cbi.pku.e.cn/kobas-2.1.1/kobas-3.0.3.tar.gz

下载 数据库: http://kobas.cbi.pku.e.cn/download_file.php?type=seq_pep&filename=ko.pep.fasta.gz

  • ### 1、KO数据库建索引

  • $ diamond makedb --in ko.pep.fasta --db ko -p 24


  • ### 2、diamond blast

  • $ diamond blastx -e 1e-5 --db ko -q genes.nucleotide.catalog.fa -p 24 -f 6 qseqid qlen qstart qend qcovhsp slen sstart send score evalue positive length ppos sseqid stitle nident mismatch gaps gapopen bitscore pident -o kobas.annotation


  • ### 转成Tabular BLAST output format

  • $ awk -F " " '{print $1" "$14" "$21" "$12" "$17" "$19" "$3" "$4" "$7" "$8" "$10" "$20}' kobas.annotation > kobas.annotation.m8


  • ### 注释

  • $ annotate.py -i kobas.annotation.m8 -t blastout:tab -s ko -o kegg.annotate.tmp


  • ### 检测

  • $ identify.py -f kegg.annotate.tmp -o kegg.identify.tmp -p K -m h -b tmp


  • ### 富集

  • $ cluster.py -i kegg.identify.tmp -m k -o kegg.cluster.txt
  • ### 查看注释结果

  • $less kegg.annotate.tmp

  • ##ko KEGG Orthology

  • ##Method: BLAST Options: evalue <= 1e-05; rank <= 5

  • ##Summary: 3431 succeed, 2654 fail


  • #Query KO ID|KO name|Hyperlink

  • ### 序列 K号|酶号 基因|ko pathway路径

  • gene_3301|GeneMark.hmm|1482_nt|+|3899966|3901447 K00045|E1.1.1.67, mtlK|http://www.genome.jp/dbget-bin/www_bget?ko:K00045

  • gene_3075|GeneMark.hmm|774_nt|+|3605726|3606499 K01692|paaF, echA|http://www.genome.jp/dbget-bin/www_bget?ko:K01692

  • gene_1278|GeneMark.hmm|1332_nt|+|1517095|1518426 None

  • ......


  • Query: gene_3301|GeneMark.hmm|1482_nt|+|3899966|3901447

  • KO: K00045 E1.1.1.67, mtlK

  • Pathway: Fructose and mannose metabolism KEGG PATHWAY ko00051


  • Query: gene_3075|GeneMark.hmm|774_nt|+|3605726|3606499

  • KO: K01692 paaF, echA

  • Pathway: Fatty acid degradation KEGG PATHWAY ko00071

  • Tryptophan metabolism KEGG PATHWAY ko00380

  • ....

  • 功能富集分析概述 : https://www.jianshu.com/p/5a4bda169247

    C. GEO数据库为什么是RNA

    因为GEO是基因表达综合数据库,RNA是实现遗传信息在蛋白质中的表达。
    从GEO数据库获取GSE79973数据集,该数据集包含胃癌疾病与正常样本的表达谱数据,筛选出其中差异表达的lncRNA。
    下载GSE62254和GSE15459数据集以及对应的临床数据,通过GSE62254数据集来构建一个临床预测模型,识别出与预后显着相关的lncRNA,通过GSE15459数据集对模型进行验证。
    进一步的通过多因素分析来研究ACJJ分期、性别、年龄和样本的风险分数与临床预后的关系。最后通过ssGSEA来发现样本的高低风险组之间通路富集的差异情况。

    D. 如何理解基因富集分析以及富集的意思

    基因富集分析是分析基因表达信息的一种方法,富集是指将基因按照先验知识,也就是基因组注释信息进行分类。
    人类有约30,000个基因,人与人之间的基因序列相似度高达99.9%,也就是说,人们相互之间仅有30个基因的差别,而正是这大约30个基因的差别,导致了我们长得不同,性格也不同。
    举这样一个例子,我发现规律的作息与适当的运动让我智商变高了,我想知道让我智商变高了的基因是哪些?那么我取之前作息混乱,成天堆坐在电脑前的基因表达数据和智商提高了之后的表达数据直接对比进行分析是不是就可以了呢?这种方法也叫作单基因分析,这种方法的缺点包括:

    基因表达谱数据固有噪音很高,当两组数据表达量差别不大时,很容易出现假阴性结果。(常用的表达谱测试方法包括microarray和mRNA-seq,各有利弊,前者前两年很火,后者现在比较流行。具体原理方法、优缺点wiki上介绍的很清楚。)

    未考虑基因间相互作用,很难给出合理解释,当对比之后,我发现50个基因不一样,可是除此之外,我无法判断这50个基因有什么样的联系?是什么信号通路让我智商变高了?知其然而不知其所以然。

    可重复性差,生物实验一般都要求至少重复三遍,那么第二次实验的时候,很有可能不是50个基因,谁多谁少根本说不清楚。

    考虑到这些缺点,2005年提出了基于基因集定义的基因富集分析方法,很多人管单基因分析叫bottom-up,富集分析叫top-down。
    首先要定义基因集(gene set),也就是基于我们的先验知识(基因组注释信息),将基因富集,可以想象成,用一堆代表基因功能的箱子(bin)把具有相同或相似功能的基因装起来,起到了降维的作用,当然,每个基因可能同时参与好几种功能,这种cross-talk我这里就不说了。
    这样,得到这两组数据后,我们所分析的不是单个基因表达的差异,而是箱子与箱子之间的差异。比如我们发现,运动前后的主要差异集中在消化基因上面,那么我就有理由说,规律作息和适当运动让我消化变好、营养吸收充分进而智商提高(我编的,别信...)。由此,我们得到的数据更容易解释。

    E. 什么是GO富集分析,常说的GO功能分析、功能分析、Pathway分析是什么意思

    Gene
    Ontology可分为分子功能(
    Molecular
    Function),
    生物过程

    biological
    process)和细胞组成(cellular
    component
    )三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。
    功能富集分析:
    功能富集需要有一个参考
    数据集
    ,通过该项分析可以找出在统计上显着富集的GO
    Term。该功能或者定位有可能与研究的目前有关。
    GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以
    柱状图
    或者
    饼图
    表示。
    1.GO分析
    根据挑选出的
    差异基因
    ,计算这些差异基因同GO
    分类中某(几)个特定的分支的
    超几何分布
    关系,GO
    分析会对每个有差异基因存在的GO
    返回一个
    p-value
    ,小的p
    值表示差异基因在该GO
    中出现了富集。
    GO
    分析对实验结果有提示的作用,通过差异基因的GO
    分析,可以找到富集差异基因的GO分类条目,
    寻找不同
    样品的差异基因可能和哪些基因功能的改变有关。
    2.Pathway分析
    根据挑选出的差异基因,计算这些差异基因同Pathway
    的超几何分布关系,Pathway
    分析会对每个有差异基因存在的pathway
    返回一个p-value,小的p
    值表示差异基因在该pathway
    中出现了富集。
    Pathway
    分析对实验结果有提示的作用,通过差异基因的Pathway
    分析,可以找到富集差异基因的Pathway
    条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。与GO
    分析不同,pathway
    分析的结果更显得间接,这是因为,pathway
    是蛋白质之间的相互作用,pathway
    的变化可以由参与这条pathway
    途径的蛋白的表达量或者蛋白的活性改变而引起。而通过芯片结果得到的是编码这些蛋白质的mRNA
    表达量的变化。从mRNA
    到蛋白表达还要经过microRNA
    调控,翻译调控,
    翻译后修饰
    (如
    糖基化

    磷酸化
    ),蛋白运输等一系列的调控过程,mRNA
    表达量和蛋白表达量之间往往不具有
    线性关系
    ,因此mRNA
    的改变不一定意味着蛋白表达量的改变。同时也应注意到,在某些pathway
    中,如EGF/EGFR
    通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。所以芯片数据pathway
    分析的结果需要有后期蛋白质功能实验的支持,如Western
    blot/ELISA,IHC(
    免疫组化
    ),over
    expression
    (过表达),RNAi(RNA
    干扰),knockout(基因敲除),trans
    gene(转基因)等。
    3.基因网络分析
    目的:根据文献,数据库和已知的pathway
    寻找基因编码的蛋白之间的相互关系(不超过1000
    个基因)。

    F. 怎么做基于KEGG的生物通路富集分析

    如何利用KEGG定位基因属于哪个代谢通路
    代谢通路:目前在通路数据库(PATHWAY database) 中代谢通路是建立得最好的,有大约90个参考代谢途径的图形。每个参考代谢途径是一个由酶或EC号组成的网粻丁纲股蕺噶告拴梗茎络。
    利用如下方法可通过计算机构建出生物体特有 的代谢通路:
    先根据基因的序列相似性和位置相关性确定基因组中酶的基因。
    然后合理地安排EC号。
    最后将基因组中的基因和参照通路中用EC号编号的基因产物 结合起来。

    G. david数据库下载kegg数据取排名前十是以什么排名的

    以在线基因注释及功能富集排名。kegg专门存储不同物种中基因通路的信息,也是用的最多的一个。

    H. 如何理解基因富集分析以及富集的意思

    1.Pathway功能分析及显着性判断对差异表达基因进行Pathway功能分析,并计算Pvalue进行显着性判断,Pvalue越小,表明该pathway变化越显着,并可对每条Pathway通路图进行展示,同时在相应的位置标注差异表达基因。2.Pathway中基因相关性分析根据每两个基因共出现在同一pathway中的次数统计,绘制基因共相关点线图,进而得到不同pathway上基因的关联情况。在分析工具上点击“celldifferentiation”,在“TermInformation”中描述了细胞分化术语的基本信息,包括树形及与父结点、子节点关系。对于未知基因名的序列,可以用序列直接检索GO数据库。点击AmiGO首页上方的“BLAST”,进入检索界面。在检索框输入氨基酸或核酸序列或上传序列文件,检索工具能自动识别并相应地选择BLASTP或BLASTX来与数据库中的序列进行比对。以大肠杆菌DNA聚合酶Ⅱ基因polB为例,“HighScoringGeneProcts”栏内显示基因产物的名称、物种信息、p值。

    热点内容
    大激战脚本 发布:2024-11-01 18:35:25 浏览:110
    中国大学mooc密码要求是什么 发布:2024-11-01 18:33:45 浏览:817
    jrtplib编译 发布:2024-11-01 18:06:01 浏览:227
    java代码中if 发布:2024-11-01 18:02:40 浏览:378
    android定时刷新 发布:2024-11-01 17:59:43 浏览:1000
    炎黄解说我的世界服务器生存 发布:2024-11-01 17:59:42 浏览:543
    如何清楚网页缓存 发布:2024-11-01 17:53:58 浏览:553
    linux文件权限不够 发布:2024-11-01 17:53:19 浏览:918
    c语言中10是什么意思 发布:2024-11-01 17:45:08 浏览:893
    装棉衣压缩袋 发布:2024-11-01 17:37:18 浏览:298