ncbi資料庫下載數據
Ⅰ 如何從ncbi上下載database
因此NCBI 的分類學資料庫不是一個系統發育或分類學的「專家資料庫」(Wheeler et al., 2000)。 獲取序列所對應的分類學信息有兩種方法。 一種方法,從NCBI 網站下載gi與taxid 對應表,在Taxonomy 資料庫的ftp 地址下載。這個目錄下有多個壓縮文件,其中針對Windows 操作系統的兩個針對蛋白質序列和核苷酸序列的壓縮文件分別是gi_taxid_prot.dmp.gz 和gi_taxid_nucl.dmp.gz 文件。這兩個文件都只有兩列,左邊為gi 號,右邊為Taxid。由於這些文件非常大,因此用瀏覽器來打開這些文件幾乎是不可能的。隨著時間的推移,這兩個文件會越來越大,不過速度不會是指數增長的,並且在美國東部時間的每個星期一2:00 am NCBI 會對其進行更新。 對於Windows 用戶還有一個文件稱為taxmp.zip 文件。文件解壓縮後包括1 個*.prt 文件和6 個*.dmp 文件。Gencode.dmp 文件保存有不同的密碼子表,與同目錄的gc.prt 聯合使用;merged.dmp 是保存有合並的taxid 號的對應表;nodes.dmp 是結點信息;division.dmp 是較大的幾個分類;names.dmp 結點名稱信息,每個id 對應多行。這些數據被Phylogenie 軟體包中的blammer 程序用於構建進化樹。 利用ftp 地址的連接利用Http 或ftp 方式將文件下載到本地,通過本地程序或腳本搜索文本,來建立gi 號與Taxid 之間的聯系(圖)。這種方法比較適合於在線服務的Web 形式的程序,通過在本地不斷地及時更新程序就可以完成這項工作。 第二種方法是對Taxonomy 資料庫進行API 分析。
Ⅱ 如何在NCBI上下載資料
這個問題涉及到NCBI的核心價值——數據共享。從NCBI創建之初她就是為用戶」下載「數據而存在。歷經近30年的發展,其提供的數據共享的方式也經歷了諸多的改變。下面以提供數據共享的技術方式來逐一陳述:
1 FTP
FTP是File Transfer Protocol(文件傳輸協議)的英文簡稱。在互聯網形成之初,非常重要的大文件傳輸格式。目前NCBI的大文件傳輸,甚至是整個NCBI網站的數據都可以用這種方式獲得。網址為ftp://ftp.ncbi.nlm.nih.gov/.不過要用好這些數據,你需要同時兼備生物學和計算機科學(基本)知識。
2 網頁
當然絕大多數生物學家並不需要進行批量數據分析,知識要找到與自己課題相關的數據。NCBI提供了基於網頁的查詢檢索系統。之所以稱之為系統是因為其中包含了NCBI所有提供服務的資料庫,該系統有一個統一的查詢界面,成為Entrez。其語法和規則在查詢不同資料庫是基本相似,知識需要簡單了解相應資料庫的特殊字元即可。例如,查詢GEO資料庫時,只查詢dataset數據可以使用[DataSet Type]關鍵字,但是該關鍵字在PUBMED並不適用。
3.web服務
web服務在生物信息學和計算機科學中的定義有很大差別,這里特製計算機科學中的web服務。NCBI基於entrez提供了web service服務,用戶在自己的程序中調用代碼獲取數據。主要是eUtils(http://eutils.ncbi.nlm.nih.gov/)。另外,NCBI也提供cgi的查詢服務。
4. 序列查詢服務
NCBI基於序列的檢索服務是其最具特色的數據檢索方式,最著名的就是BLAST。盡管後台演算法基於字元串的匹配,但是其引入了生物學知識(突變概率等)使其具有和其他搜索引擎如lucene不可比擬的效果。也是NCBI提供的主要服務之一。BLAST接受用戶一條或多條序列(PSI-BLAST),返回資料庫中與該序列相似的序列。該服務的用途廣泛。
5.其他
有些數據可以通過一些特殊的通道獲得。例如GEO資料庫,可以通過R包GEOquery獲得其數據。
(如有遺漏,敬請指教!)
Ⅲ 如何在NCBI上免費下載文獻
文獻是否收費不是由NCBI決定的,NCBI里的pubmed差不多就算是個搜索引擎吧,有些文章能下載下來是因為雜志本身不收費。
Ⅳ 如何從NCBI資料庫中查找並下載gi與taxid的對應表
打開主頁,在search 里輸入你要查的物種,再在for里輸入具體的名稱,點go就出來你要的序列,然後點右上角的download 圖標,選fasta格式下載就行
Ⅳ 怎麼從從ncbi的ftp上下了windows的本地blast
This document describes the "BLAST" databases available on the NCBI
FTP site under the /blast/db directory. The direct URL is:
ftp://ftp.ncbi.nih.gov/blast/db 本地BLAST資料庫下載地址
1. General Introction
NCBI BLAST home pages (http://www.ncbi.nih.gov/BLAST/) use a standard
set of BLAST databases for Nucleotide, Protein, and Translated BLAST
searches. These databases are made available in the /blast/db directory as
compressed archives (ftp://ftp.ncbi.nih.gov/blast/db/) in pre-formatted
format.這些資料庫是已經預先進行過makeblastdb命令的,下載後可以直接使用
The FASTA databases reside under the /blast/db/FASTA directory.
The pre-formatted databases offer the following advantages:
* The pre-formatted databases are smaller in size and therefore are
faster to download;
* Sequences in FASTA format can be generated from the pre-formatted
databases by the fastacmd utility; 可以從這些資料庫文件中導出FASTA文件
* A convenient script (update_blastdb.pl) is available to download
the pre-formatted databases from the NCBI ftp site; 可用該腳本升級資料庫
* Pre-formatting removes the need to run formatdb; 無需再運行建庫命令行
* Taxonomy ids are available for each database entry.
Pre-formatted databases must be downloaded using the update_blastdb.pl
script or via FTP in binary mode. Documentation for the update_blastdb.pl
script can be obtained by running the script without any arguments (perl is
required). 下載資料庫時,需要用到perl腳本update_blastdb.pl,或使用FTP下載工具
The compressed files downloaded must be inflated with gzip or other decompress
tools. The BLAST database files can then be extracted out of the resulting
tar file using tar program on Unix/Linux or WinZip and StuffIt Expander
on Windows and Macintosh platforms, respectively.下載的資料庫為壓縮包,要解壓縮
Large databases are formatted in multiple 1 Gigabytes volumes, which
are named using the database.##.tar.gz convention. All relevant volumes
are required. An alias file is provided so that the database can be called
using the alias name without the extension (.nal or .pal). For example,
to call est database, simply use "-d est" option in the commandline
(without the quotes). 大的資料庫通常分為多個壓縮包,例如nr庫有11個壓縮包。所有的相關壓縮包
都要下載,解壓。解壓縮會生成對應的庫文件,同時生成一個nr.pal文件。檢索nr庫時輸入-d nr 即可。
Certain databases are subsets of a larger parental database. For those
databases, alias and mask files, rather than actual databases, are provided.
The mask file needs the parent database to function properly. The parent
databases should be generated on the same day as the mask file. For
example, to use swissprot pre-formatted database, swissprot.tar.gz, one
will need to get the nr.tar.gz with the same date stamp. 有些資料庫是大資料庫
的子集,使用這些子集資料庫時,必須同時下載其(相同日期的)大資料庫
Additional BLAST databases that are not provided in pre-formatted
formats are available in the FASTA subdirectory. 有些BLAST資料庫沒有提供預先建庫
的文件,這些資料庫可以從FASTA文件夾里下載 For genomic BLAST
databases, please check the genomes ftp directory at:
ftp://ftp.ncbi.nih.gov/genomes/ 在這里下載基因組BLAST資料庫
2. Contents of the /blast/db/ directory
The pre-formatted BLAST databases are archived in this directory. The
name of these databases and their contents are listed below.
資料庫名稱 資料庫內容
+----------------------+-----------------------------------------------+
|File Name | Content Description |
+----------------------+-----------------------------------------------+
/FASTA | subdirectory for FASTA formatted sequences
存放FASTA格式序列的子文件夾
README | README for this subdirectory (this file)
env_nr.*tar.gz | Environmental protein sequences 環境蛋白序列
env_nt.*tar.gz | Environmental nucleotide sequences 環境核苷酸序列
est.*tar.gz | volumes of the formatted est database
| from the EST division of GenBank, EMBL,
| and DDBJ. EST資料庫
Ⅵ NCBI如何下載蛋白質的核酸序列
首先登錄NCBI網站,選取下拉條中的Nucleotide,輸入你想要搜索的內容,找到目標內容後,單擊打開,題目下方的一行就是編號;若想要下載核酸序列,點擊右上角的sent to→Complete Record→File→FASTA,就能下載全部的序列,若是想下載其中一段序列,可對准你想要的序列右擊,在新標簽頁打開,然後步驟同上;若是想要下載氨基酸序列,通常每個核酸序列translation里都包含氨基酸序列,也可以點擊裡面的protein id,打開就是了。
Ⅶ 怎樣在ncbi網站上下載文件
呵呵,找到PUBMED,直接輸入所查關鍵詞,就能找到文章,點擊左上角的鏈接,就能下到了。但多數文章是不可以下載的,只能看到摘要。想要全文的話再試試google,或者你們圖書館的資料庫。
Ⅷ NCBI管理多少個資料庫
屬於一個序列資料庫的國際合作組織,包括EMBL和DDBJ。
訪問GenBank - 通過Entrez Nucleotides來查詢。用accession number,作者姓名,物種,基因/蛋白名字,還有許多其他的文本術語來查詢。
關於Entrez更多的信息請看下文。用Blast來在GenBank和其他資料庫中進行序列相似搜索。用E-mail來訪問Entrez和BLAST可以通過Query和BLAST伺服器。另外一種選擇是可以用FTP下載整個的GenBank和更新數據。
遺傳密碼 - 15個遺傳密碼的概要。用來確保GenBank中紀錄的編碼序列被正確的翻譯。
Ⅸ NCBI轉錄組數據能否直接下載FASTA格式序列,windows 32操作系統無法將下載的SRA文件轉換成FASTQ文件。
方法/步驟
進入NCBI主頁,選擇Nucleotide資料庫
在Nucleotide資料庫的檢索框中輸入甘油醛-3-磷酸脫氫酶基因的基因名(GAPDH)或者基因的GenBank號:X02662.1。點擊搜索。在右邊Top Organisms中選擇物種來源,點More可以顯示更多隱藏選項
選擇所需要的物種信息
GenBank會根據設定的檢索條件得出相應結果,選擇所需要的序列
Ⅹ 誰知道怎樣在NCBI中找資料庫
NCBI 分類學資料庫(taxonomy database)不是分類學或系統發育信息的信息源(primary source),而且也沒有自己的一套完整的分類學系統,相反它只是努力整合各種各樣來源的系統發育和分類學的知識,包括發表的文獻、基於網路的資料庫、序列提交者的建議以及來自NCBI 外部的分類學專家。因此NCBI 的分類學資料庫不是一個系統發育或分類學的「專家資料庫」(Wheeler et al., 2000)。
獲取序列所對應的分類學信息有兩種方法。
一種方法,從NCBI 網站下載gi與taxid 對應表,在Taxonomy 資料庫的FTP 地址下載。這個目錄下有多個壓縮文件,其中針對Windows 操作系統的兩個針對蛋白質序列和核苷酸序列的壓縮文件分別是gi_taxid_prot.dmp.gz 和gi_taxid_nucl.dmp.gz 文件。這兩個文件都只有兩列,左邊為gi 號,右邊為Taxid。由於這些文件非常大,因此用瀏覽器來打開這些文件幾乎是不可能的。隨著時間的推移,這兩個文件會越來越大,不過速度不會是指數增長的,並且在美國東部時間的每個星期一2:00 am NCBI 會對其進行更新。
對於Windows 用戶還有一個文件稱為taxmp.zip 文件。文件解壓縮後包括1 個*.prt 文件和6 個*.dmp 文件。Gencode.dmp 文件保存有不同的密碼子表,與同目錄的gc.prt 聯合使用;merged.dmp 是保存有合並的taxid 號的對應表;nodes.dmp 是結點信息;division.dmp 是較大的幾個分類;names.dmp 結點名稱信息,每個id 對應多行。這些數據被Phylogenie 軟體包中的blammer 程序用於構建進化樹。
利用ftp 地址的連接利用Http 或ftp 方式將文件下載到本地,通過本地程序或腳本搜索文本,來建立gi 號與Taxid 之間的聯系(圖)。這種方法比較適合於在線服務的Web 形式的程序,通過在本地不斷地及時更新程序就可以完成這項工作。
第二種方法是對Taxonomy 資料庫進行API 分析。NCBI 用來保存Taxonomy信息的資料庫名稱為TAXON。