上传dna序列
㈠ 如何向NCBI提交基因组序列
1.整理序列信息:包括病原采集地、病原的寄主、寄主症状、采集人等基本信息;还有序列分析结果,包括序列全长大小,开放阅读框(ORF)的长度、位置及特定ORF序列翻译的氨基酸序列等基因水平的信息,这对于接下来的快速准确提交序列及提交成功后为全世界其他作者准确全面分享此类信息很重要;
2.登陆BackIt站点,注意到页面右边的“Sign in to use BankIt”标签,点击登录进入。如果没有账号就注册一个(注意,此账号与NCBI账号不通用)。
附 注册账号步骤,需要填写的项目为:
Title:你的职位或头衔
First name:名
last name:姓
login:登陆名
Affiliation:所属机构地址,一般填写自己学校地址
E-mail Address:通信电邮,填完后会发随机密码到此电邮地址,使用随机密码进行登陆,当然登陆后可对密码进行重置;
3.登陆BankIt,看到如下图所示界面,此时NCBI会自动分配一个SubmissionID,但不是最终的提交序列ID:
接下来共有九个步骤(好事多磨):
3.1 Contact Information
填写个人姓名、机构、电邮等资料集联系方式,如果错误该页会有ERROR提示直到正确填写,填写完毕点击CONTINUE;
3.2 Reference
填写参考作者信息(Reference author)及序列相关信息,比如该序列是否对应有文章,如单纯提交序列则只需选择Unpublished即可(Reference title项可以填入“Direct Submission”),有的话就填写已发表文章的信息(卷、期等),接下来会问你该序列的提交者是否是序列的发现者等信息,填写完毕点击CONTINUE;
※提示:新版的BankIt中,接下来会有“Sequencing Technology”一项,呈现有454、Illumina、SOLiD及Other等测序方法选择,目前为“Sanger dideoxy sequencing”即一代测序方法测序,并且所提交的序列均为“assembled sequences”,目前的“assembly program”为“Lasergene,version 7.0”。
3.3 Nucleotide
包括三个小项:Submission Release Date(期望NCBI什么时候公布你的序列)、16S
rRNA submissions(该序列是否为16S rRNA)、Sequence(s) and Definition
Line(s)(会提示问你该序列是否为全长genomic
DNA、线状或环状等、序列长度,需要复制序列或提交FASTA格式文件),如若序列长度与复制序列或FASTA文件长度不同则会有提示,需要重新提交序列,依次选择即可。一般选择“Immediately after Processing”,“非16S rRNA”,“genomic DNA”,“circular”,“complete”等信息,然后将全序列粘贴到下方的空格中,别忘了在上方写上总核苷酸数。完后审查看有没有错误,继续CONTINUE;
3.4 Organism
填写Organism(病原物)的名字,即序列公开显示时候的标题(如MYVYNV分离物序列“Malvastrum yellow vein Yunnan virus isolate SC226-5, complete genome"),点击CONTINUE后会出现自动检索项目,核对后(有可能会进行选择)继续CONTINUE;
3.5 Submission Category
提交范畴,是否直接提交或通过第三方Annotation提交(不是太清楚什么意思,可能指的是从EMBL和DDBJ中导入的数据吧),一般为直接提交,如下图示选择Original,继续CONTINUE;
3.6 Source modifier
选择该病原物的种类,比如质粒、线粒体等;
Source
modifier下拉菜单及后面的Value设置:进一步选择该病原物获取信息,比如Country、Host、Clone、Collection
date、Strain/Isolate等,至少三项(Organelle/Location为细胞器/位置,该项可以不填写),否则该项不通过,尽量信息全面真实,需要继续添加则点击Add,填写完毕查看下方已填写表格进行信息核对,然后CONTINUE;
3.7 Primers
PCR引物项目,可选项目,不想填写可CONTINUE;
3.8 Features(※)
该步骤重要!将用到之前准备的内容,比如序列内ORFs等信息的填写,并根据之前的选项来填写该步骤,比如需要将DNA翻译为氨基酸序列并进行复制粘贴等,该步操作只需将之前准备信息录入即可,比较耗时;
点击下方“ADD”键,页面将切换为↓
在这里我们需要录入更多与该序列有关的信息,最主要的就是录入之前已经整理好的序列里面的开放阅读框(ORF)信息:Genetic Code设置为”Standard“,5'和3'都勾选上,Protein Name/Protein Description项都填写,将特定区域(ORF)的核苷酸序列翻译为氨基酸序列后(除去末端的终止子)复制到下方的”Amino Acid Sequence“框中,依次录入即可。在这里越详细越好,具体参照实际操作;
3.9 Review and Correct
对已填写信息进行复核及提交,并被告知在2个工作日之内会收到NCBI电邮,需要进一步对序列进行审查核对;
4.至此,基本序列提交已经完工,剩下的事情就是等待审核,大概两个工作日后会收到来自NCBI工作人员的电邮,如有问题会通知你进一步修改信息直到完全无误,包括以后的接受序列号,即你的序列会出现在NCBI里面世界上唯一的一个界面里。
㈡ NCBI|线粒体基因组数据上传
NCBI叶绿体基因组的上传步骤示例
准备工作
首先,需要登录NCBI官网,点击“sign in to NCBI”并选择登录方式。通常使用常见邮箱登录即可。然后点击上传数据,开始上传流程。
上传步骤
在上传任务概览页面,完成一系列信息填写。首先,在“Contact”部分填写联系人的详细信息,包括姓名、学校、地址等,确保信息准确无误。
在“Refrence”部分,填写提供序列的作者姓名。
接着,在“Sequencing Technology”部分,根据实际情况填写测序平台、组装情况、组装软件、版本、样本名、覆盖率等信息。确保信息真实有效。
进入“Nucleotide”阶段,需填写序列发表的时间、分子类型(选择“genomic DNA”)、拓扑结构(选择“circle”),以及是否提交完整的细胞器基因组序列(对于线粒体基因组,选择“Yes”)。同时上传序列文件(要求为.fasta格式),注意在文件第一行加上拉丁文的物种名。
在“Submission Category”中,选择投稿的类别,通常选择“Original”。
进入“SourceModifiers”阶段,填写源细胞器/位置信息(选择“mitochondrion”),并填写“country”作为Source Modifier值,以“china”为例。
“Features”部分需要上传tbl文件,通常需要将gbf文件转换为tbl格式。使用在线转换工具,上传线粒体的注释文件,填写相关信息后下载转换后的.tbl文件。
最后,完成信息查看与确认,无误后提交,等待邮件通知。
完成上传后,可以通过登录提交页面查看记录和相关文件。
希望以上NCBI叶绿体基因组上传步骤示例能对您有所帮助。
㈢ 在NCBI上提交DNA序列前,标记DNA怎么做呢
1、登陆NCBI官网:网页链接
2、输入fasta文件或者是直接在搜索栏搜索该基因;
3、点击genbank,找到基因序列;
4、当前页点击ctrl+F,输入序列的具体信息就可以搜到你想要的序列。
但是您说的像是在提交前标记,这个恐怕是不行的,因为提前标记要么是截取一段固定的序列进行上传然后比对。提前标记在后面分析的时候也是显示不出来的,所以建议在找到序列后标记,或者就是已知固定序列比对,保存前后序列。