GCG資料庫
Ⅰ 全基因合成錢對目的基因序列進行GC含量和重復序列分析的軟體是什麼
1.可以使用在線分析工具RepeatMasker: http://www.repeatmasker.org/,重復序列和CG含量都可以同時分析出來。
2.另外也可以使用DNAstar。下載安裝DNAStar軟體包;打開NAStar軟體包里的EditSeq軟體;在打開的界面里依次點擊File、Open,打開所要分析的序列;用滑鼠選定打開的序列後,依次點擊Goodies、DNAStatistics;此時彈出一個文本框,顯示GC含量等信息。
Ⅱ 急求:基因預測的方法和步驟
方法1:最長ORF法
將每條鏈按6個讀碼框全部翻譯出來,然後找出所有可能的不間斷開放閱讀框(ORF),只要找出序列中最長的ORF,就能相當准確地預測出基因。最長ORF法發現基因的一般過程(包括基因區域預測和基因功能預測2個層次):
步驟1:獲取DNA目標序列
① 如果已有目標序列,可直接進入步驟2;
② 可以通過PubMed查找感興趣的資料,通過GenBank或EMBL等資料庫查找目標序列。
步驟2:查找ORF並將目標序列翻譯成蛋白質序列
利用相應工具,如ORF Finder、Gene feature (Baylor College of Medicine)、GenLang (University of Pennsylvania)等查找ORF並將DNA序列翻譯成蛋白質序列。
步驟3:在資料庫中進行序列搜索
利用BLAST進行ORF核苷酸序列和ORF翻譯的蛋白質序列搜索。
步驟4:進行目標序列與搜索得到的相似序列的全局比對(global alignment)
雖然步驟3已進行局部比對(local alignment)分析,但全局比對有助於進一步加深對目標序列的認識。
步驟5:查找基因家族
進行多序列比對(multiple sequence alignment),獲得比對區段的基因家族信息。
步驟6:查找目標序列中的特定模序
分別在Prosite、BLOCK、Motif資料庫中進行profile、模塊(block)、模序(motif)檢索。
步驟7:預測目標序列蛋白質結構
利用PredictProtein(EMBL)、NNPREDICT(University of California)等預測目標序列的蛋白質二級結構。
步驟8:獲取相關蛋白質的功能信息
為了了解目標序列的功能,收集與目標序列和結構相似蛋白質的功能信息非常必要。可利用PubMed進行搜索。
方法2:利用編碼區與非編碼區密碼子選用頻率的差異進行基因預測
編碼區的鹼基組成不同於非編碼區,這是由於蛋白質中20種氨基酸出現的概率、每種氨基酸的密碼子兼並度和同一種氨基酸的兼並密碼子使用頻率不同(即密碼子偏好)等原因造成的。該方法是目前各種預測程序中廣泛應用的一種方法,如GCG(Genetic Computer Group研製的核酸、蛋白質分析軟體包)的TestCode和Baylor Medcine College的BCM Gene Finder等程序均利用了這一方法。
方法3:利用ESTs預測基因
Expressed Sequence Tags (ESTs) 代表基因序列,若DNA序列和 EST嚴格匹配,這段DNA序列屬於基因或假基因。此法對ESTs進行聚類和拼接,聚類和拼接的目的就是將來自同一個基因或同一個轉錄本的具有重疊部分(over-lapping)的ESTs整合到單一的簇(cluster)中。通過聚類可產生較長的一致性序列(consensus sequence),降低數據的冗餘,糾正錯誤數據,並最終得到基因的全長序列。
隨著信息學方法在基因預測中的進一步充分應用,一批新的基因預測方法被相繼提出,如人工神經網路、隱馬爾可夫模型(Hidden Markov Model, HMM)、動態規劃法(dynamic programming)、法則系統(ruled-based system)、線性判別分析(Linear Discriminant Analysis, LDA)、決策樹(decision tree)、傅立葉分析(Fourier analysis)等。這些方法是基於編碼區所具有的獨特信號,如剪接的供體和受體位點、起始和終止密碼子、啟動子特徵、轉錄因子結合位點等進行預測。相關的基因預測軟體包括:Procrustes、GeneID、GenScan、GRAIL等。
Ⅲ 核酸序列對應 蛋白質
你是用Nucleotide資料庫搜索的吧,你進入某個基因的詳細頁面,在頁面的右下方,有個「Alllinksfromthisrecord」,有一系列的鏈接,其中一個事Protein,你點擊進入即可
Ⅳ 求高人指教,關於生物信息學中NCBI資料庫的blastn的用法.
你進了NCBI的blast頁面之後,粘貼進去序列,下面的program selection 選擇第三個。結果中有一個「Gallus gallus」,即是家雞了(應該是從上面數第二個結果)。
Ⅳ 什麼是gcg
GCG軟體是一套蛋白質、核酸序列分析軟體。它提供了約130個程序。范圍涉及:序列motif、關鍵詞、同源性資料庫搜索,序列比較,進化分析,序列兩級結構分析,限制性酶切圖譜,引物設計,序列模式識別,翻譯,片段拼接等。現在我們生命院開放使用的是GCG的WWW版本SEQWEB。SEQWEB提供的資料庫每二個月更新一次。 希望能幫到您
Ⅵ 已知蛋白名字 怎麼找到其核酸序列
已知蛋白質
可應用X射線晶體衍射法測定其三維空間結構
利用核磁共振法了解其構象
DNA和蛋白質測序技術
可測定其一級結構、也就是你所說的核酸序列
至於 知道蛋白質名字 找到核算序列
只能是別人 測過的
用Nucleotide資料庫搜索
或者是 你知道了氨基酸序列
可通過密碼子對應表知道核酸序列
起始密碼子:甲硫氨酸AUG 纈氨酸GUG
終止密碼子:UAA UGA UAG
奔丙氨酸UUU UUC 亮氨酸UUA UUG CUU CUC CUA CUG 異亮氨酸AUU AUC AUA 纈氨酸GUU GUC GUA 絲氨酸UCU UCC UCA UCG
蘇氨酸ACU ACC ACA ACG 丙氨酸GCU GCC GCA GCG 酪氨酸UAU UAC 組氨酸CAU CAC 谷氨醯胺CAA CAG 天冬醯胺AAU AAC
賴氨酸AAA AAG 天冬氨酸GAU GAC 谷氨酸GAA GAG 半胱氨酸UGU UGC 精氨酸CGC CGC CGA CGG AGA AGG 甘氨酸GGU GGC GGA GGG
色氨酸UGG 脯氨酸CCU CCC CCA CCG
你可以根據不同氨基酸的組合來確定蛋白質的序列
注:1.起始密碼是翻譯第一個氨基酸的密碼,它們在細菌中都代表甲醯甲硫氨酸
2.終止密碼不編碼氨基酸,是翻譯終止的信號
不知道有沒有氨基酸翻譯成蛋白質的表格
那個比較麻煩、因為蛋白質太多太多
還有什麼疑問、請 追問。
Ⅶ 請問這篇論文里的DNA序列式怎麼出來的
這序列是blast出來的,你可以在NCBI上搜索的http://blast.ncbi.nlm.nih.gov/Blast.cgi
Ⅷ NCBI資料庫中為什麼搜不到proglucagon(胰高血糖素原)的mRNA序列呢
我查詢了NCBI資料庫,在核酸資料庫(Genbank)中確實沒有查詢結果,但是其他資料庫是有結果的,例如蛋白質資料庫中。
我想你是知道的,胰高血糖素是胰高血糖素經過酶切的產物,也就是說都是「翻譯後」的發生的事情。
回過頭了,我們來說NCBI。NCBI的核酸序列都是生物學家通過測序獲得的,要麼是基因組序列,要麼是轉錄組序列。所有序列都是以基因名為主要檢索詞
因此,如果你用基因名稱GCG或glucogen檢索就可以檢索到你想要的結果。參考資料中是gene database的鏈接。
看一下這個鏈接
http://www.ncbi.nlm.nih.gov/gene/2641#reference-sequences
Ⅸ 如何用blast 發現新基因
BLAST對一條或多條序列(可以是任何形式的序列)在一個或多個核酸或蛋白序列庫中進行比對。BLAST還能發現具有缺口的能比對上的序列。
BLAST是基於Altschul等人在J.Mol.Biol上發表的方法(J.Mol.Biol.215:403-410(1990)),在序列資料庫中對查詢序列進行同源性比對工作。從最初的BLAST發展到現在NCBI提供的BLAST2.0,已將有缺口的比對 序列也考慮在內了。BLAST可處理任何數量的序列,包括蛋白序列和核算序列;也可選擇多個資料庫但資料庫必須是同一類型的,即要麼都是蛋白資料庫要麼都是核酸資料庫。所查詢的序列和調用的資料庫則可 以是任何形式的組合,既可以是核酸序列到蛋白庫中作查詢,也可以是蛋白序列到蛋白庫中作查詢,反之亦然。
GCG及EMBOSS等軟體包中包含有五種BLAST:
1、BLASTP是蛋白序列到蛋白庫中的一種查詢。庫中存在的每條已知序列將逐一地同每條所查序列作一對一的序列比對。
2、BLASTX是核酸序列到蛋白庫中的一種查詢。先將核酸序列翻譯成蛋白序列(一條核酸序列會被翻譯成可能的六條蛋白),再對每一條作一對一的蛋白序列比對。
3、BLASTN是核酸序列到核酸庫中的一種查詢。庫中存在的每條已知序列都將同所查序列作一對一地核酸序列比對。
4、TBLASTN是蛋白序列到核酸庫中的一種查詢。與BLASTX相反,它是將庫中的核酸序列翻譯成蛋白序列,再同所查序列作蛋白與蛋白的比對。
5、TBLASTX是核酸序列到核酸庫中的一種查詢。此種查詢將庫中的核酸序列和所查的核酸序列都翻譯成蛋白(每條核酸序列會產生6條可能的蛋白序列),這樣每次比對會產生36種比對陣列。由於這種比對? 母叢有裕�虼薚BLASTX在比對中對缺口不予以考慮。
所以總的來說,BLAST是用來比對的,如果與文庫中的基因都不同,可能是新的基因,然後還要做其他方面的研究。
Ⅹ 用 生物信息學軟體 解決 一個生物學問題
GeneGazer是一個,不過上網看了以後覺得貌似據說比較戳。。。
下面是一篇文章,MAYBE對你有用,我雖然也學生物滴,不過跟生物信息學沒什麼交集哈。。。
Wisconsin 軟體包( GCG )
Genetics Computer Group 公司開發的 Wisconsin 軟體包,是一組綜合性的序列分析程序,使用公用的核酸和蛋白質資料庫。 SeqLab 是其圖形用戶界面( GUI ),通過它可以使用所有 Wisconsin 軟體包中的程序及其支持的資料庫。此外,它還提供了一個環境用於創建、顯示、編輯和注釋序列。 SeqLab 也可以被擴展使其可以包括其它公用或非公用的程序和資料庫。
Wisconsin軟體包由120多個獨立的程序組成,每個程序進行一項單一的分析任務。包括所有程序的完整目錄以及詳細的描述可以在Wisconsin軟體包的程序使用文檔中找到。GCG支持兩種核酸資料庫(GenBank資料庫, 簡化版的EMBL核酸序列資料庫)和三種蛋白質資料庫(PIR,SWISS-PROT, SP-TrEMBL)。這些資料庫既有GCG格式的(供大多數Wisconsin軟體包程序使用),也有BLAST格式的(供BLAST資料庫搜索程序使用)。同時還提供了用於LookUp程序以及資料庫參考搜索的索引。
關於GCG,Wisconsin軟體包,支持的平台以及硬體需求的一般性信息可以在GCG的主頁以及Wisconsin軟體包的用戶手冊中找到。GCG主頁提供了更新信息以及Wisconsin軟體包程序的完整列表。
SeqLab中可以使用多個序列分析程序的特性使用戶可以應用這些程序順序地回答相關問題或在對輸入序列進行編輯後重復某項分析。而可以同時訪問公用資料庫和本機序列的優點使用戶可以在一個分析中使用其中任意一種而不用先進行轉換或格式化的工作。SeqLab可以解決的序列分析問題:
(1)在兩條mRNA中尋找開放閱讀框架,翻譯並對比RNA與蛋白質序列
對兩條相關的mRNA進行測序的用戶可能希望尋找開放閱讀框架(ORF)、翻譯以及進行核酸與氨基酸序列間的兩兩對比。
把序列加入SeqLab Editor中,從Functions菜單中選中Map選項運行Map程序。Map輸出文件包含了限制性酶切圖和6種可能的翻譯框架的ORF的顯示。這些ORF的起始和終止位置可進行標記並選為SeqLab Editor中序列顯示的范圍,然後可用Edit菜單的Translate操作進行翻譯。翻譯結果自動出現在SeqLab Editor中。
兩條相關的核酸或蛋白質序列可用Gap程序或BestFit程序進行對比。Gap程序尋找兩條序列間的全局最優對比結果。適用於兩條待比對的序列是進化相關的情況。BestFit程序尋找兩條序列的局部最優對比結果,它適用於兩條序列不是進化相關而是功能相關的情況。
(2)通過參考搜索尋找資料庫中的相關條目並進行對比
研究一個特徵序列家族成員的用戶可能希望尋找這個家族中的其它成員並建立它們的多序列對比。
從Functions菜單中選取LookUp程序。LookUp在資料庫條目的參考信息部分搜索描述詞並建立匹配條目的列表。在參考部分的Definiton, Author, Keyword和Organism域中搜索描述詞並在詞之間使用「and」(&)、「or」(|)以及「but not」(!)布爾表達式。例如,在SWISS-PROT條目的Description域搜索「lactate & dehydrogenase & h & chain」將產生一個輸出文件,其中列出了乳酸脫氫酶 H 鏈(lactate dehydrogenase H chain)條目。這個輸出文件可以從Output Manager窗口中加以顯示,然後與用戶的序列一起添加到SeqLab Editor中。
要創建所有這些序列的多序列對比,只要根據序列名稱選中這些序列並從Functions菜單中運行PileUp程序。由PileUp產生的多序列文件也列在Output Manager窗口中並可以直接添加到SeqLab Editor中。推薦採用這一步的原因在於資料庫條目的特徵表格(Features table)信息可與對比結果一起被包括進來。必要時對比結果是可以被編輯的,並且如果資料庫條目有相似的特徵,這些特徵可被附加給用戶序列。
(3)用查詢序列搜索資料庫,將找到的條目與查詢序列進行對比並產生進化系統樹
克隆並測序一個未知功能基因的用戶可能希望在一個資料庫中搜索相似的序列。如果搜索到了,用戶可能進一步希望創建與查詢序列最相似的序列的多序列對比並產生數據的種系圖。
往SeqLab Editor中添加一個查詢序列並從Functions菜單中選取FASTA程序。FASTA程序在資料庫中搜索與查詢序列相似的序列。輸出文件可從Output Manager窗口中加以顯示並直接添加到SeqLab Editor中。在這個輸出文件中資料庫條目與查詢序列局部相似性最好的區域被加以標記。如果要顯示的話,每個資料庫條目只有這種區域可以顯示在SeqLab Editor中。不要的條目可以從SeqLab Editor中一起被刪除。
從Functions菜單中選中PileUp程序創建這些序列的多序列對比。輸出可從Output Manager窗口中加以顯示並添加到SeqLab Editor中更新已經存在的未對比序列。必要時可對這一對比結果進行編輯,並且資料庫條目的有用的特徵表格信息也可以添加給查詢序列。
從Functions菜單中選取PaupSearch程序,程序提供了一個PAUP(進化系統簡約性分析(Phylogenetic Analysis Using Parsimony))中樹搜索方式的GCG介面。PaupDisplay程序為PAUP中的樹操作,鑒定以及顯示方式提供了一個GCG介面。
(4)拼接交疊序列片段產生一連續序列,尋找並翻譯這一序列的編碼區域並在資料庫中搜索相似序列
克隆了一個基因,把它分解克隆為一組有交疊的序列片段並進行了測序的用戶可能希望把這些序列片段重新組裝為一條連續的序列。一旦contig拼接完成,用戶可能希望在序列中尋找閱讀框架,翻譯並在資料庫中搜索相似序列。
Fragment Assmbly System的程序可用於拼接交疊序列片段。GelStart程序創建一個項目。GelEnter程序把序列片段復制到項目中。GelMerge程序尋找片段之間的交疊並把它們拼接成contig。GelAssemble程序是一個編輯器,可用於編輯這些連續的部分並解決片段之間的沖突問題。所有這些程序都可以從Functions菜單中選取。一旦拼接完成,最終構成此contig的連續序列可以被保存為一個序列文件並添加到SeqLab Editor中。
使用Map、Frames、TestCode或Codon Preference程序可預測序列中的編碼區(所有這些程序可以從Functions菜單中選中)。使用Edit菜單的Select Range功能選擇這些程序預測的區域並使用Edit菜單中的翻譯操作把它們翻譯為蛋白質。這些提出的翻譯區域也可以作為核酸共有序列的特徵被加入。
選取蛋白質序列然後選擇Functions菜單中BLAST。BLAST程序在資料庫中搜索與查詢序列相似的條目,此程序既可以進行遠程搜索也可以進行本機搜索。搜索結果可以從Output Manager窗口中加以顯示。如果被搜索的是一個本機的資料庫,結果文件可以加入SeqLab Editor或Main List窗口中,並允許對找到的序列進行進一步分析。
(5)對比相關的蛋白質序列,計算對比結果的共有序列,辨識序列中新的特徵序列模式,在資料庫中搜索包含此模式的序列或在對比結果的共有序列中搜索已知的蛋白質模式
辨識了一組相關序列的用戶可能希望對其進行對比並計算對比結果的共有序列。如果可以在對比結果中找到保守模式,用戶可能希望在資料庫中搜索包含這種模式的其它序列。用戶可能還希望在計算出的共有序列搜索已知的蛋白質模式。
選取待對比的序列,從Functions菜單中選取PileUp程序創建多序列對比,PileUp程序的輸出文件可從Output Manager窗口中加以顯示並添加到SeqLab Editor中。用戶可以對對比結果的某個區域重新加以對比並以此替換原有的對比結果。只要選取一個區域並重新運行PileUp即可。從PileUp Options窗口中選取"realign a portion of an existing alignment(重新對比一個已存在的對比結果的一部分)",這可能有利於選擇一個替代評分矩陣或不同的創建和擴展處罰。新的輸出文件將包含最初的對比結果以及替換原始對比結果的重新對比的區域。
用Edit菜單中Consensus操作計算對比結果的共有序列。如果保守模式可被辨識,從Functions菜單中選取FindPatterns選項。從共有序列中剪切下此特徵序列模式並把它粘貼到FindPatterns模式選擇器中,並在資料庫中搜索包含這一模式的序列。
此外,運行Motif程序可在共有序列中搜索已知的蛋白質模式。Motif在蛋白質序列中搜索在PROSITE,蛋白質位點和模式的PROSITE字典中已知的蛋白質模式。如果辨識出一個Motif,則給所有序列增加一個特徵,並標出它的位置。圖4.9顯示了一個蛋白質序列的匹配、一個共有序列以及Motif搜索的結果。
(6)使用Profile進行相似性搜索並對比相關序列