當前位置:首頁 » 操作系統 » 富集資料庫

富集資料庫

發布時間: 2022-06-09 09:52:59

A. GO 和 KEGG 的區別

1、屬性不同

Go(又稱 Golang)是 Google 的 Robert Griesemer,Rob Pike 及 Ken Thompson 開發的一種靜態強類型、編譯型語言。功能:內存安全,GC(垃圾回收),結構形態及 CSP-style 並發計算。

KEGG 是了解高級功能和生物系統(如細胞、 生物和生態系統),從分子水平信息,尤其是大型分子數據集生成的基因組測序和其他高通量實驗技術的實用程序資料庫資源,是國際最常用的生物信息資料庫之一,以「理解生物系統的高級功能和實用程序資源庫」著稱。

2、性質不同

go是計算機編程語言。

KEGG基因組破譯方面的資料庫。

(1)富集資料庫擴展閱讀:

Go的語法接近C語言,但對於變數的聲明有所不同。Go支持垃圾回收功能。Go的並行模型是以東尼·霍爾的通信順序進程(CSP)為基礎,採取類似模型的其他語言包括Occam和Limbo。

但它也具有Pi運算的特徵,比如通道傳輸。在1.8版本中開放插件(Plugin)的支持,這意味著現在能從Go中動態載入部分函數。

與C++相比,Go並不包括如枚舉、異常處理、繼承、泛型、斷言、虛函數等功能,但增加了 切片(Slice) 型、並發、管道、垃圾回收、介面(Interface)等特性的語言級支持。Go 2.0版本將支持泛型,對於斷言的存在,則持負面態度,同時也為自己不提供類型繼承來辯護。

不同於Java,Go內嵌了關聯數組(也稱為哈希表(Hashes)或字典(Dictionaries)),就像字元串類型一樣。

KEGG是一個整合了基因組、化學和系統功能信息的資料庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG資料庫的特色之一。

人工創建了一個知識庫,這個知識庫是基於使用一種可計算的形式捕捉和組織實驗得到的知識而形成的系統功能知識庫。它是一個生物系統的計算機模擬。

與其他資料庫相比,KEGG 的一個顯著特點就是具有強大的圖形功能,它利用圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關系,這樣可以使研究者能夠對其所要研究的代謝途徑有一個直觀全面的了解。

B. kobas為什麼一直打不開

以下是相關解決方法

在線通路注釋,一般使用DAVID、KASS、KOBAS等工具。

Kobas : KOBAS(基於KEGG Orthology Based Annotation System)是用於基因/蛋白質功能注釋(注釋模塊)和功能集富集(Enrichment mole)的Web伺服器。給定一組基因或蛋白質,它可以確定通路,疾病和基因本體論(GO)術語是否顯示統計學顯著性。

KOBAS 3.0由兩個功能組成,注釋(Annotation)和富集(Enrichment)

KOBAS 3.0的輸入不支持gene symbol,一般操作將Symbol ID轉換成Entrez Gene ID(或者)ensembl格式的ID。

推薦進行基因ID轉換的網站:gprofiler : http://biit.cs.ut.ee/gprofiler/gconvert.cgi


注釋(Annotation):

對於Annotation模塊,它接受基因/蛋白質列表作為輸入,包括ID或序列。 對於每個基因,您可以找到與該基因相關的途徑,疾病和基因本體(GO).


富集(Enrichment)

富集模塊為您提供答案,了解哪些途徑,疾病和GO術語與您剛輸入的基因/蛋白質具有統計學意義。

該模塊在KOBAS 2.0中稱為「識別」。它接受與Annotation模塊相同的輸入格式,並且還允許Annotation模塊的結果作為輸入(請參閱3.1中的詳細信息)。它基於第一代基因集富集方法,一種稱為過表達分析(ORA)的基因水平統計,這是一種基於超幾何分布的簡單且經常使用的測試。

注意事項:

輸入數據:

1、Gene/protein ID、Sequences(FASTA format)、Tabular BLAST output

KOBAS 本地操作:

下載 應用: http://kobas.cbi.pku.e.cn/kobas-2.1.1/kobas-3.0.3.tar.gz

下載 資料庫: http://kobas.cbi.pku.e.cn/download_file.php?type=seq_pep&filename=ko.pep.fasta.gz

  • ### 1、KO資料庫建索引

  • $ diamond makedb --in ko.pep.fasta --db ko -p 24


  • ### 2、diamond blast

  • $ diamond blastx -e 1e-5 --db ko -q genes.nucleotide.catalog.fa -p 24 -f 6 qseqid qlen qstart qend qcovhsp slen sstart send score evalue positive length ppos sseqid stitle nident mismatch gaps gapopen bitscore pident -o kobas.annotation


  • ### 轉成Tabular BLAST output format

  • $ awk -F " " '{print $1" "$14" "$21" "$12" "$17" "$19" "$3" "$4" "$7" "$8" "$10" "$20}' kobas.annotation > kobas.annotation.m8


  • ### 注釋

  • $ annotate.py -i kobas.annotation.m8 -t blastout:tab -s ko -o kegg.annotate.tmp


  • ### 檢測

  • $ identify.py -f kegg.annotate.tmp -o kegg.identify.tmp -p K -m h -b tmp


  • ### 富集

  • $ cluster.py -i kegg.identify.tmp -m k -o kegg.cluster.txt
  • ### 查看注釋結果

  • $less kegg.annotate.tmp

  • ##ko KEGG Orthology

  • ##Method: BLAST Options: evalue <= 1e-05; rank <= 5

  • ##Summary: 3431 succeed, 2654 fail


  • #Query KO ID|KO name|Hyperlink

  • ### 序列 K號|酶號 基因|ko pathway路徑

  • gene_3301|GeneMark.hmm|1482_nt|+|3899966|3901447 K00045|E1.1.1.67, mtlK|http://www.genome.jp/dbget-bin/www_bget?ko:K00045

  • gene_3075|GeneMark.hmm|774_nt|+|3605726|3606499 K01692|paaF, echA|http://www.genome.jp/dbget-bin/www_bget?ko:K01692

  • gene_1278|GeneMark.hmm|1332_nt|+|1517095|1518426 None

  • ......


  • Query: gene_3301|GeneMark.hmm|1482_nt|+|3899966|3901447

  • KO: K00045 E1.1.1.67, mtlK

  • Pathway: Fructose and mannose metabolism KEGG PATHWAY ko00051


  • Query: gene_3075|GeneMark.hmm|774_nt|+|3605726|3606499

  • KO: K01692 paaF, echA

  • Pathway: Fatty acid degradation KEGG PATHWAY ko00071

  • Tryptophan metabolism KEGG PATHWAY ko00380

  • ....

  • 功能富集分析概述 : https://www.jianshu.com/p/5a4bda169247

    C. GEO資料庫為什麼是RNA

    因為GEO是基因表達綜合資料庫,RNA是實現遺傳信息在蛋白質中的表達。
    從GEO資料庫獲取GSE79973數據集,該數據集包含胃癌疾病與正常樣本的表達譜數據,篩選出其中差異表達的lncRNA。
    下載GSE62254和GSE15459數據集以及對應的臨床數據,通過GSE62254數據集來構建一個臨床預測模型,識別出與預後顯著相關的lncRNA,通過GSE15459數據集對模型進行驗證。
    進一步的通過多因素分析來研究ACJJ分期、性別、年齡和樣本的風險分數與臨床預後的關系。最後通過ssGSEA來發現樣本的高低風險組之間通路富集的差異情況。

    D. 如何理解基因富集分析以及富集的意思

    基因富集分析是分析基因表達信息的一種方法,富集是指將基因按照先驗知識,也就是基因組注釋信息進行分類。
    人類有約30,000個基因,人與人之間的基因序列相似度高達99.9%,也就是說,人們相互之間僅有30個基因的差別,而正是這大約30個基因的差別,導致了我們長得不同,性格也不同。
    舉這樣一個例子,我發現規律的作息與適當的運動讓我智商變高了,我想知道讓我智商變高了的基因是哪些?那麼我取之前作息混亂,成天堆坐在電腦前的基因表達數據和智商提高了之後的表達數據直接對比進行分析是不是就可以了呢?這種方法也叫作單基因分析,這種方法的缺點包括:

    基因表達譜數據固有噪音很高,當兩組數據表達量差別不大時,很容易出現假陰性結果。(常用的表達譜測試方法包括microarray和mRNA-seq,各有利弊,前者前兩年很火,後者現在比較流行。具體原理方法、優缺點wiki上介紹的很清楚。)

    未考慮基因間相互作用,很難給出合理解釋,當對比之後,我發現50個基因不一樣,可是除此之外,我無法判斷這50個基因有什麼樣的聯系?是什麼信號通路讓我智商變高了?知其然而不知其所以然。

    可重復性差,生物實驗一般都要求至少重復三遍,那麼第二次實驗的時候,很有可能不是50個基因,誰多誰少根本說不清楚。

    考慮到這些缺點,2005年提出了基於基因集定義的基因富集分析方法,很多人管單基因分析叫bottom-up,富集分析叫top-down。
    首先要定義基因集(gene set),也就是基於我們的先驗知識(基因組注釋信息),將基因富集,可以想像成,用一堆代表基因功能的箱子(bin)把具有相同或相似功能的基因裝起來,起到了降維的作用,當然,每個基因可能同時參與好幾種功能,這種cross-talk我這里就不說了。
    這樣,得到這兩組數據後,我們所分析的不是單個基因表達的差異,而是箱子與箱子之間的差異。比如我們發現,運動前後的主要差異集中在消化基因上面,那麼我就有理由說,規律作息和適當運動讓我消化變好、營養吸收充分進而智商提高(我編的,別信...)。由此,我們得到的數據更容易解釋。

    E. 什麼是GO富集分析,常說的GO功能分析、功能分析、Pathway分析是什麼意思

    Gene
    Ontology可分為分子功能(
    Molecular
    Function),
    生物過程

    biological
    process)和細胞組成(cellular
    component
    )三個部分。蛋白質或者基因可以通過ID對應或者序列注釋的方法找到與之對應的GO號,而GO號可對於到Term,即功能類別或者細胞定位。
    功能富集分析:
    功能富集需要有一個參考
    數據集
    ,通過該項分析可以找出在統計上顯著富集的GO
    Term。該功能或者定位有可能與研究的目前有關。
    GO功能分類是在某一功能層次上統計蛋白或者基因的數目或組成,往往是在GO的第二層次。此外也有研究都挑選一些Term,而後統計直接對應到該Term的基因或蛋白數。結果一般以
    柱狀圖
    或者
    餅圖
    表示。
    1.GO分析
    根據挑選出的
    差異基因
    ,計算這些差異基因同GO
    分類中某(幾)個特定的分支的
    超幾何分布
    關系,GO
    分析會對每個有差異基因存在的GO
    返回一個
    p-value
    ,小的p
    值表示差異基因在該GO
    中出現了富集。
    GO
    分析對實驗結果有提示的作用,通過差異基因的GO
    分析,可以找到富集差異基因的GO分類條目,
    尋找不同
    樣品的差異基因可能和哪些基因功能的改變有關。
    2.Pathway分析
    根據挑選出的差異基因,計算這些差異基因同Pathway
    的超幾何分布關系,Pathway
    分析會對每個有差異基因存在的pathway
    返回一個p-value,小的p
    值表示差異基因在該pathway
    中出現了富集。
    Pathway
    分析對實驗結果有提示的作用,通過差異基因的Pathway
    分析,可以找到富集差異基因的Pathway
    條目,尋找不同樣品的差異基因可能和哪些細胞通路的改變有關。與GO
    分析不同,pathway
    分析的結果更顯得間接,這是因為,pathway
    是蛋白質之間的相互作用,pathway
    的變化可以由參與這條pathway
    途徑的蛋白的表達量或者蛋白的活性改變而引起。而通過晶元結果得到的是編碼這些蛋白質的mRNA
    表達量的變化。從mRNA
    到蛋白表達還要經過microRNA
    調控,翻譯調控,
    翻譯後修飾
    (如
    糖基化

    磷酸化
    ),蛋白運輸等一系列的調控過程,mRNA
    表達量和蛋白表達量之間往往不具有
    線性關系
    ,因此mRNA
    的改變不一定意味著蛋白表達量的改變。同時也應注意到,在某些pathway
    中,如EGF/EGFR
    通路,細胞可以在維持蛋白量不變的情況下,通過蛋白磷酸化程度的改變(調節蛋白的活性)來調節這條通路。所以晶元數據pathway
    分析的結果需要有後期蛋白質功能實驗的支持,如Western
    blot/ELISA,IHC(
    免疫組化
    ),over
    expression
    (過表達),RNAi(RNA
    干擾),knockout(基因敲除),trans
    gene(轉基因)等。
    3.基因網路分析
    目的:根據文獻,資料庫和已知的pathway
    尋找基因編碼的蛋白之間的相互關系(不超過1000
    個基因)。

    F. 怎麼做基於KEGG的生物通路富集分析

    如何利用KEGG定位基因屬於哪個代謝通路
    代謝通路:目前在通路資料庫(PATHWAY database) 中代謝通路是建立得最好的,有大約90個參考代謝途徑的圖形。每個參考代謝途徑是一個由酶或EC號組成的網粻丁綱股蕺噶告拴梗莖絡。
    利用如下方法可通過計算機構建出生物體特有 的代謝通路:
    先根據基因的序列相似性和位置相關性確定基因組中酶的基因。
    然後合理地安排EC號。
    最後將基因組中的基因和參照通路中用EC號編號的基因產物 結合起來。

    G. david資料庫下載kegg數據取排名前十是以什麼排名的

    以在線基因注釋及功能富集排名。kegg專門存儲不同物種中基因通路的信息,也是用的最多的一個。

    H. 如何理解基因富集分析以及富集的意思

    1.Pathway功能分析及顯著性判斷對差異表達基因進行Pathway功能分析,並計算Pvalue進行顯著性判斷,Pvalue越小,表明該pathway變化越顯著,並可對每條Pathway通路圖進行展示,同時在相應的位置標注差異表達基因。2.Pathway中基因相關性分析根據每兩個基因共出現在同一pathway中的次數統計,繪制基因共相關點線圖,進而得到不同pathway上基因的關聯情況。在分析工具上點擊「celldifferentiation」,在「TermInformation」中描述了細胞分化術語的基本信息,包括樹形及與父結點、子節點關系。對於未知基因名的序列,可以用序列直接檢索GO資料庫。點擊AmiGO首頁上方的「BLAST」,進入檢索界面。在檢索框輸入氨基酸或核酸序列或上傳序列文件,檢索工具能自動識別並相應地選擇BLASTP或BLASTX來與資料庫中的序列進行比對。以大腸桿菌DNA聚合酶Ⅱ基因polB為例,「HighScoringGeneProcts」欄內顯示基因產物的名稱、物種信息、p值。

    熱點內容
    路虎攬運配置怎麼查詢 發布:2025-01-11 03:42:51 瀏覽:393
    仿站源碼 發布:2025-01-11 03:42:05 瀏覽:39
    騰訊的雲伺服器 發布:2025-01-11 03:40:47 瀏覽:569
    百分之十的演算法 發布:2025-01-11 03:34:30 瀏覽:642
    java16進制tostring 發布:2025-01-11 03:24:21 瀏覽:721
    mql4c語言 發布:2025-01-11 03:24:20 瀏覽:255
    科爾訪問蘇聯 發布:2025-01-11 03:15:47 瀏覽:331
    python簡單計算器 發布:2025-01-11 03:15:13 瀏覽:577
    python絕對路徑 發布:2025-01-11 03:10:55 瀏覽:759
    優衣庫壓縮 發布:2025-01-11 03:06:36 瀏覽:354