ncbi数据库下载数据
Ⅰ 如何从ncbi上下载database
因此NCBI 的分类学数据库不是一个系统发育或分类学的“专家数据库”(Wheeler et al., 2000)。 获取序列所对应的分类学信息有两种方法。 一种方法,从NCBI 网站下载gi与taxid 对应表,在Taxonomy 数据库的ftp 地址下载。这个目录下有多个压缩文件,其中针对Windows 操作系统的两个针对蛋白质序列和核苷酸序列的压缩文件分别是gi_taxid_prot.dmp.gz 和gi_taxid_nucl.dmp.gz 文件。这两个文件都只有两列,左边为gi 号,右边为Taxid。由于这些文件非常大,因此用浏览器来打开这些文件几乎是不可能的。随着时间的推移,这两个文件会越来越大,不过速度不会是指数增长的,并且在美国东部时间的每个星期一2:00 am NCBI 会对其进行更新。 对于Windows 用户还有一个文件称为taxmp.zip 文件。文件解压缩后包括1 个*.prt 文件和6 个*.dmp 文件。Gencode.dmp 文件保存有不同的密码子表,与同目录的gc.prt 联合使用;merged.dmp 是保存有合并的taxid 号的对应表;nodes.dmp 是结点信息;division.dmp 是较大的几个分类;names.dmp 结点名称信息,每个id 对应多行。这些数据被Phylogenie 软件包中的blammer 程序用于构建进化树。 利用ftp 地址的连接利用Http 或ftp 方式将文件下载到本地,通过本地程序或脚本搜索文本,来建立gi 号与Taxid 之间的联系(图)。这种方法比较适合于在线服务的Web 形式的程序,通过在本地不断地及时更新程序就可以完成这项工作。 第二种方法是对Taxonomy 数据库进行API 分析。
Ⅱ 如何在NCBI上下载资料
这个问题涉及到NCBI的核心价值——数据共享。从NCBI创建之初她就是为用户”下载“数据而存在。历经近30年的发展,其提供的数据共享的方式也经历了诸多的改变。下面以提供数据共享的技术方式来逐一陈述:
1 FTP
FTP是File Transfer Protocol(文件传输协议)的英文简称。在互联网形成之初,非常重要的大文件传输格式。目前NCBI的大文件传输,甚至是整个NCBI网站的数据都可以用这种方式获得。网址为ftp://ftp.ncbi.nlm.nih.gov/.不过要用好这些数据,你需要同时兼备生物学和计算机科学(基本)知识。
2 网页
当然绝大多数生物学家并不需要进行批量数据分析,知识要找到与自己课题相关的数据。NCBI提供了基于网页的查询检索系统。之所以称之为系统是因为其中包含了NCBI所有提供服务的数据库,该系统有一个统一的查询界面,成为Entrez。其语法和规则在查询不同数据库是基本相似,知识需要简单了解相应数据库的特殊字符即可。例如,查询GEO数据库时,只查询dataset数据可以使用[DataSet Type]关键字,但是该关键字在PUBMED并不适用。
3.web服务
web服务在生物信息学和计算机科学中的定义有很大差别,这里特制计算机科学中的web服务。NCBI基于entrez提供了web service服务,用户在自己的程序中调用代码获取数据。主要是eUtils(http://eutils.ncbi.nlm.nih.gov/)。另外,NCBI也提供cgi的查询服务。
4. 序列查询服务
NCBI基于序列的检索服务是其最具特色的数据检索方式,最着名的就是BLAST。尽管后台算法基于字符串的匹配,但是其引入了生物学知识(突变概率等)使其具有和其他搜索引擎如lucene不可比拟的效果。也是NCBI提供的主要服务之一。BLAST接受用户一条或多条序列(PSI-BLAST),返回数据库中与该序列相似的序列。该服务的用途广泛。
5.其他
有些数据可以通过一些特殊的通道获得。例如GEO数据库,可以通过R包GEOquery获得其数据。
(如有遗漏,敬请指教!)
Ⅲ 如何在NCBI上免费下载文献
文献是否收费不是由NCBI决定的,NCBI里的pubmed差不多就算是个搜索引擎吧,有些文章能下载下来是因为杂志本身不收费。
Ⅳ 如何从NCBI数据库中查找并下载gi与taxid的对应表
打开主页,在search 里输入你要查的物种,再在for里输入具体的名称,点go就出来你要的序列,然后点右上角的download 图标,选fasta格式下载就行
Ⅳ 怎么从从ncbi的ftp上下了windows的本地blast
This document describes the "BLAST" databases available on the NCBI
FTP site under the /blast/db directory. The direct URL is:
ftp://ftp.ncbi.nih.gov/blast/db 本地BLAST数据库下载地址
1. General Introction
NCBI BLAST home pages (http://www.ncbi.nih.gov/BLAST/) use a standard
set of BLAST databases for Nucleotide, Protein, and Translated BLAST
searches. These databases are made available in the /blast/db directory as
compressed archives (ftp://ftp.ncbi.nih.gov/blast/db/) in pre-formatted
format.这些数据库是已经预先进行过makeblastdb命令的,下载后可以直接使用
The FASTA databases reside under the /blast/db/FASTA directory.
The pre-formatted databases offer the following advantages:
* The pre-formatted databases are smaller in size and therefore are
faster to download;
* Sequences in FASTA format can be generated from the pre-formatted
databases by the fastacmd utility; 可以从这些数据库文件中导出FASTA文件
* A convenient script (update_blastdb.pl) is available to download
the pre-formatted databases from the NCBI ftp site; 可用该脚本升级数据库
* Pre-formatting removes the need to run formatdb; 无需再运行建库命令行
* Taxonomy ids are available for each database entry.
Pre-formatted databases must be downloaded using the update_blastdb.pl
script or via FTP in binary mode. Documentation for the update_blastdb.pl
script can be obtained by running the script without any arguments (perl is
required). 下载数据库时,需要用到perl脚本update_blastdb.pl,或使用FTP下载工具
The compressed files downloaded must be inflated with gzip or other decompress
tools. The BLAST database files can then be extracted out of the resulting
tar file using tar program on Unix/Linux or WinZip and StuffIt Expander
on Windows and Macintosh platforms, respectively.下载的数据库为压缩包,要解压缩
Large databases are formatted in multiple 1 Gigabytes volumes, which
are named using the database.##.tar.gz convention. All relevant volumes
are required. An alias file is provided so that the database can be called
using the alias name without the extension (.nal or .pal). For example,
to call est database, simply use "-d est" option in the commandline
(without the quotes). 大的数据库通常分为多个压缩包,例如nr库有11个压缩包。所有的相关压缩包
都要下载,解压。解压缩会生成对应的库文件,同时生成一个nr.pal文件。检索nr库时输入-d nr 即可。
Certain databases are subsets of a larger parental database. For those
databases, alias and mask files, rather than actual databases, are provided.
The mask file needs the parent database to function properly. The parent
databases should be generated on the same day as the mask file. For
example, to use swissprot pre-formatted database, swissprot.tar.gz, one
will need to get the nr.tar.gz with the same date stamp. 有些数据库是大数据库
的子集,使用这些子集数据库时,必须同时下载其(相同日期的)大数据库
Additional BLAST databases that are not provided in pre-formatted
formats are available in the FASTA subdirectory. 有些BLAST数据库没有提供预先建库
的文件,这些数据库可以从FASTA文件夹里下载 For genomic BLAST
databases, please check the genomes ftp directory at:
ftp://ftp.ncbi.nih.gov/genomes/ 在这里下载基因组BLAST数据库
2. Contents of the /blast/db/ directory
The pre-formatted BLAST databases are archived in this directory. The
name of these databases and their contents are listed below.
数据库名称 数据库内容
+----------------------+-----------------------------------------------+
|File Name | Content Description |
+----------------------+-----------------------------------------------+
/FASTA | subdirectory for FASTA formatted sequences
存放FASTA格式序列的子文件夹
README | README for this subdirectory (this file)
env_nr.*tar.gz | Environmental protein sequences 环境蛋白序列
env_nt.*tar.gz | Environmental nucleotide sequences 环境核苷酸序列
est.*tar.gz | volumes of the formatted est database
| from the EST division of GenBank, EMBL,
| and DDBJ. EST数据库
Ⅵ NCBI如何下载蛋白质的核酸序列
首先登录NCBI网站,选取下拉条中的Nucleotide,输入你想要搜索的内容,找到目标内容后,单击打开,题目下方的一行就是编号;若想要下载核酸序列,点击右上角的sent to→Complete Record→File→FASTA,就能下载全部的序列,若是想下载其中一段序列,可对准你想要的序列右击,在新标签页打开,然后步骤同上;若是想要下载氨基酸序列,通常每个核酸序列translation里都包含氨基酸序列,也可以点击里面的protein id,打开就是了。
Ⅶ 怎样在ncbi网站上下载文件
呵呵,找到PUBMED,直接输入所查关键词,就能找到文章,点击左上角的链接,就能下到了。但多数文章是不可以下载的,只能看到摘要。想要全文的话再试试google,或者你们图书馆的数据库。
Ⅷ NCBI管理多少个数据库
属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
访问GenBank - 通过Entrez Nucleotides来查询。用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。
关于Entrez更多的信息请看下文。用Blast来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。
遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。
Ⅸ NCBI转录组数据能否直接下载FASTA格式序列,windows 32操作系统无法将下载的SRA文件转换成FASTQ文件。
方法/步骤
进入NCBI主页,选择Nucleotide数据库
在Nucleotide数据库的检索框中输入甘油醛-3-磷酸脱氢酶基因的基因名(GAPDH)或者基因的GenBank号:X02662.1。点击搜索。在右边Top Organisms中选择物种来源,点More可以显示更多隐藏选项
选择所需要的物种信息
GenBank会根据设定的检索条件得出相应结果,选择所需要的序列
Ⅹ 谁知道怎样在NCBI中找数据库
NCBI 分类学数据库(taxonomy database)不是分类学或系统发育信息的信息源(primary source),而且也没有自己的一套完整的分类学系统,相反它只是努力整合各种各样来源的系统发育和分类学的知识,包括发表的文献、基于网络的数据库、序列提交者的建议以及来自NCBI 外部的分类学专家。因此NCBI 的分类学数据库不是一个系统发育或分类学的“专家数据库”(Wheeler et al., 2000)。
获取序列所对应的分类学信息有两种方法。
一种方法,从NCBI 网站下载gi与taxid 对应表,在Taxonomy 数据库的FTP 地址下载。这个目录下有多个压缩文件,其中针对Windows 操作系统的两个针对蛋白质序列和核苷酸序列的压缩文件分别是gi_taxid_prot.dmp.gz 和gi_taxid_nucl.dmp.gz 文件。这两个文件都只有两列,左边为gi 号,右边为Taxid。由于这些文件非常大,因此用浏览器来打开这些文件几乎是不可能的。随着时间的推移,这两个文件会越来越大,不过速度不会是指数增长的,并且在美国东部时间的每个星期一2:00 am NCBI 会对其进行更新。
对于Windows 用户还有一个文件称为taxmp.zip 文件。文件解压缩后包括1 个*.prt 文件和6 个*.dmp 文件。Gencode.dmp 文件保存有不同的密码子表,与同目录的gc.prt 联合使用;merged.dmp 是保存有合并的taxid 号的对应表;nodes.dmp 是结点信息;division.dmp 是较大的几个分类;names.dmp 结点名称信息,每个id 对应多行。这些数据被Phylogenie 软件包中的blammer 程序用于构建进化树。
利用ftp 地址的连接利用Http 或ftp 方式将文件下载到本地,通过本地程序或脚本搜索文本,来建立gi 号与Taxid 之间的联系(图)。这种方法比较适合于在线服务的Web 形式的程序,通过在本地不断地及时更新程序就可以完成这项工作。
第二种方法是对Taxonomy 数据库进行API 分析。NCBI 用来保存Taxonomy信息的数据库名称为TAXON。