当前位置:首页 » 文件管理 » 蛋白组学数据上传

蛋白组学数据上传

发布时间: 2022-09-22 10:35:15

1. 关于蛋白质组学检测结果分析求助

1.蛋白质鉴定:可以利用一维电泳和二维电泳并结合Western等技术,利用蛋白质芯片和抗体芯片及免疫共沉淀等技术对蛋白质进行鉴定研究。
2.翻译后修饰:很多mRNA表达产生的蛋白质要经历翻译后修饰如磷酸化,糖基化,酶原激活等。翻译后修饰是蛋白质调节功能的重要方式,因此对蛋白质翻译后修饰的研究对阐明蛋白质的功能具有重要作用。
3.蛋白质功能确定:如分析酶活性和确定酶底物,细胞因子的生物分析/配基-受体结合分析。可以利用基因敲除和反义技术分析基因表达产物-蛋白质的功能。另外对蛋白质表达出来后在细胞内的定位研究也在一定程度上有助于蛋白质功能的了解。Clontech的荧光蛋白表达系统就是研究蛋白质在细胞内定位的一个很好的工具。
4.对人类而言,蛋白质组学的研究最终要服务于人类的健康,主要指促进分子医学的发展。如寻找药物的靶分子。很多药物本身就是蛋白质,而很多药物的靶分子也是蛋白质。药物也可以干预蛋白质-蛋白质相互作用。
在基础医学和疾病机理研究中,了解人不同发育、生长期和不同生理、病理条件下及不同细胞类型的基因表达的特点具有特别重要的意义。这些研究可能找到直接与特定生理或病理状态相关的分子,进一步为设计作用于特定靶分子的药物奠定基础。 不同发育、生长期和不同生理、病理条件下不同的细胞类型的基因表达是不一致的,因此对蛋白质表达的研究应该精确到细胞甚至亚细胞水平。可以利用免疫组织化学技术达到这个目的,但该技术的致命缺点是通量低。激光捕获显微切割LCM(Laser Capture Microdissection)技术可以精确地从组织切片中取出研究者感兴趣的细胞类型,因此LCM技术实际上是一种原位技术。取出的细胞用于蛋白质样品的制备,结合抗体芯片或二维电泳-质谱的技术路线,可以对蛋白质的表达进行原位的高通量的研究。很多研究采用匀浆组织制备蛋白质样品的技术路线,其研究结论值得怀疑,因为组织匀浆后不同细胞类型的蛋白质混杂在一起,最后得到的研究数据根本无法解释蛋白质在每类细胞中的表达情况。虽然培养细胞可以得到单一类型细胞,但体外培养的细胞很难模拟体内细胞的环境,因此这样研究得出的结论也很难用于解释在体实际情况。因此在研究中首先应该将不同细胞类型分离,分离出来的不同类型细胞可以用于基因表达研究,包括mRNA和蛋白质的表达。
LCM技术获得的细胞可以用于蛋白质样品的制备。可以根据需要制备总蛋白,或膜蛋白,或核蛋白等,也可以富集糖蛋白,或通过去除白蛋白来减少蛋白质类型的复杂程度。相关试剂盒均有厂商提供。 蛋白质样品中的不同类型的蛋白质可以通过二维电泳进行分离。二维电泳可以将不同种类的蛋白质按照等电点和分子量差异进行高分辨率的分离。成功的二维电泳可以将2000到3000种蛋白质进行分离。电泳后对胶进行高灵敏度的染色如银染和荧光染色。如果是比较两种样品之间蛋白质表达的异同,可以在同样条件下分别制备二者的蛋白质样品,然后在同样条件下进行二维电泳,染色后比较两块胶。也可以将二者的蛋白质样品分别用不同的荧光染料标记,然后两种蛋白质样品在一块胶上进行二维电泳的分离,最后通过荧光扫描技术分析结果。
胶染色后可以利用凝胶图像分析系统成像,然后通过分析软件对蛋白质点进行定量分析,并且对感兴趣的蛋白质点进行定位。通过专门的蛋白质点切割系统,可以将蛋白质点所在的胶区域进行精确切割。接着对胶中蛋白质进行酶切消化,酶切后的消化物经脱盐/浓缩处理后就可以通过点样系统将蛋白质点样到特定的材料的表面(MALDI-TOF)。最后这些蛋白质就可以在质谱系统中进行分析,从而得到蛋白质的定性数据;这些数据可以用于构建数据库或和已有的数据库进行比较分析。
LCM-二维电泳-质谱的技术路线是典型的一条蛋白质组学研究的技术路线,除此以外,LCM-抗体芯片也是一条重要的蛋白质组学研究的技术路线。即通过LCM技术获得感兴趣的细胞类型,制备细胞蛋白质样品,蛋白质经荧光染料标记后和抗体芯片杂交,从而可以比较两种样品蛋白质表达的异同。Clontech最近开发了一张抗体芯片,可以对378种膜蛋白和胞浆蛋白进行分析。该芯片同时配合了抗体芯片的全部操作过程的重要试剂,包括蛋白质制备试剂,蛋白质的荧光染料标记试剂,标记体系的纯化试剂,杂交试剂等。
对于蛋白质相互作用的研究,酵母双杂交和噬菌体展示技术无疑是很好的研究方法。Clontech开发的酵母双杂交系统和NEB公司开发的噬菌体展示技术可供研究者选用。
关于蛋白质组的研究,也可以将蛋白质组的部分或全部种类的蛋白质制作成蛋白质芯片,这样的蛋白质芯片可以用于蛋白质相互作用研究,蛋白表达研究和小分子蛋白结合研究。 Science,Vol. 293,Issue 5537,2101-2105,September 14,2001发表了一篇关于酵母蛋白质组芯片的论文。该文主要研究内容为:将酵母的5800个ORF表达成蛋白质并进行纯化点样制作芯片,然后用该芯片筛选钙调素和磷脂分子的相互作用分子。
最后有必要指出的是,传统的蛋白质研究注重研究单一蛋白质,而蛋白质组学注重研究参与特定生理或病理状态的所有的蛋白质种类及其与周围环境(分子)的关系。因此蛋白质组学的研究通常是高通量的。适应这个要求,蛋白质组学相关研究工具通常都是高度自动化的系统,通量高而速度快,配合相应分析软件和数据库,研究者可以在最短的时间内处理最多的数据

2. 蛋白质组学数据分析基础(一)

转发自 http://crickcollege.com/news/238.html

质谱数据格式

话说,蛋白质质谱从十几年前就形成了固定的数据结构和格式。现在常用的搜库格式,比如mascot的mgf,从十年前就基本固定下来。

到目前为止,质谱界的数据格式因为仪器的不同,有几个不同的大类:

Thermo公司的raw文件格式,这是目前用得最多的一种格式

AB公司的WIFF格式,

Bruker的yep/.fid

Waters的folder

Agilent的folder

Notes

MALDI MS目前应用越来越少,而且基本上不用于shotgun或者高通量研究。

这些数据格式的扩展名有一定的差别,且原始数据里包含的内容也有所不同。具体包含哪些重要的信息,稍后我们还会详细讲到。

结果报告的质控

数据分析,最终都是为了拿到一个可信的结果。所以,我们在讲具体的分析原理之前,先得来聊聊,我们做一次高通量的蛋白质定性、定量实验,以及搜库鉴定及定量分析等步骤,对结果报告有哪些质控要求。

首先,我们做完实验,在拿到下机数据的时候,大多数小伙伴们都会把数据放到各种搜库软件中,比如Mascot或者Thermo的Proteome Discoverer,导入原始数据,设定一些搜库参数,就可以得到结果了。

但是,作为一个严谨的实验方案设计来说,在分析的过程中,是需要对自己的数据有一个前期质控的,这样可以帮助大家判断数据分析结果的可靠性。所以说,基本的质控可以帮助我们对实验结果进行一个预判。

举个例子。

我们打开一个实验的下机数据,就可以预判我们的样品中是否发生了高分子塑料的PEG污染,有没有超高丰度的蛋白,或者有没有被严重的盐类污染。这些数据都可以从原始数据的可视化视图中看到。

不同的质谱软件,打开原始数据的方式不同,但这些信息都是可见的。另外,当两次实验搜索到的蛋白数量差异比较大时,也可以从TIC图来判断其原因。此外还可以判断分离的效率,以及是否出现喷雾中断等情况。

对于蛋白鉴定的结果,或者绝大多数的搜库算法,都要求对结果进行FDR控制,以及unique peptide的控制等等。如果我们要发表这些数据,绝大多数的期刊杂志也都会要求提供这些质控的信息。

那么,问题就来了,为什么要做这样的要求呢?

事实上,我们做好了质控,就能够看到一个总的鉴定的比例。比如说像常规的定量实验,用的最多的是iTRAQ。

举个例子。

假设总蛋白数只有2446个,算是比较少的,而总的谱图数是53万张,那么它的谱图鉴定率在当前条件下是32%(有些质控软件可以直接报告谱图鉴定率,比如Scaffold),我们可以判断当前的实验并没有出现重大的问题,鉴定率不高主要是因为存在高丰度蛋白,而这个后续可以进行详细的查看。

对于定量实验,不管我们使用的是SILAC,iTRAQ还是Label Free,都需要对定量结果进行准确性控制(详细内容,后续课程还会展开讲解)。一般来说,我们需要用相应的软件和统计方法来进行质控。

经过这几步的判断之后,可以得到一个初步的结果,比如说谱图数量是否和之前的结果差不多,质量精度及鉴定率如何,高丰度蛋白的存在与否,是否受污染,分离效率如何,定量是否准确,标记效率是否ok,等等,这些信息都可以得到。这样,我们最终可以得到一个准确可靠的蛋白质组学鉴定或定量结果用于后续的分析了。

那么,如何通过查看原始数据来进行初步质控呢?

首先,我们从原始数据出发,可以看到下图(以Data-dependent-acquisiton数据依赖性扫描为例),是从色谱出来的一个LC分离得到的TIC图,其中的信号采集都是在质谱中完成的,它其实就是将色谱逐渐通过喷雾的方式进入质谱的那些信号进行逐一的扫描,然后在其中挑选高强度的谱峰进行二级碎裂。

关于LC分离,以及TIC图的详细介绍,请参考上一节课的内容:

听课笔记之蛋白质质谱的原理及使用(四)

下图就是色谱离子流图的某个瞬间。横坐标是质荷比,纵坐标是信号强度。这个瞬间进入色谱的有这样一些信号,信号强度最高的是质荷比为477.31的肽段,其他一些肽段也可以进行查看。

这是我们在打开质谱的下机数据所能看到的最直观的结果。我们需要了解的是,这只是我们所有结果的某一个瞬间,某一个scan。这一个scan是否能够反映整个结果的好坏是不确定的,所以后续我们需要进一步的展开。

对于质谱来说,在这一步会自动选择其中一个比较强的峰,比如说477,它会进行一个动态的排除,这也是Data-dependent-acquisiton的一个重要参数。就是说,在多少秒之内,这么强的一个峰如果一直反复出现的话,那么在后续的扫描过程中,我们不去再对它进行进行MS2碎裂了。

比如说如图的477.31,我们质谱仪器记录时发现前面已经对它做过二级碎裂了,那么我们就有可能选择另外一个比较弱的谱峰。比如552.80,将它进行二级碎裂。

我们再来看一眼二级谱峰,如下图,就是对我们全长的进入质谱的肽段信息进行打碎,得到相应的B/Y离子,如下图,这些在后面我们会进行详细的讲解。

DDA模式的工作原理

下图是Thermo质谱的原理示意图(由Thermo工程师提供)。这是QE的原理图,我们先在绿色的范围内进行一次full scan的mass扫描,然后判断当前选择的离子信号强度,以及在最近的几十秒钟之内是否对其进行扫描过。

如果没有,那么在紧接着的循环过程中,我们会对之前30秒之内(假设当前的仪器速度可以达到10个MS)没有扫描过的最强的十个谱峰进行二级碎裂,那么质谱就会依次将色谱推进来的喷雾中的肽段进行依次碎裂。

这就是DDA模式基本的原理。我们的数据也是根据这样的一个过程来记录的。

如果将刚才的扫描过程二维展开,可以得到下图,看上去跟二维凝胶电泳图很像吧?横坐标是质荷比,纵坐标是保留时间,而刚才那张图横坐标是保留时间,纵坐标是强度(LC seperation图),所以,此图没有质荷比信息。

我们知道,在进入full scan的MS扫描时是有质荷比信息的。所以简单的讲,上图是将刚才的两张图的信息拼接,然后将整个下机数据所有的瞬间都进行了一个拼接,由于维度的限制,因此信号强度信息无法再展示了。

但在此图中用了颜色的深浅来表示保留时间,颜色深的就是相对信号较强的肽段。而图中的每一根小线段都代表一个肽段,小线段的长度对应着肽段的保留时间,加上横坐标质荷比的信息,因此通过这张全局纵览图,就能够看到我们这次实验分离的效果如何,有没有PEG、盐、或者其它污染,有没有喷雾中断等情况发生,这些都能在这张图中有一个大致的把握。

因此,这张图对于我们进行数据质控非常有用。不同的软件和仪器有不同的方法来提供这张图。此次举例用的图是由Peaks软件得来的。

我们可以在上图中选定自己感兴趣的部分,画一个小方框,将方框中的内容进行打开放大,就得到了下图我们存储数据的结果形式了。这是在Qual Browser里打开我们的数据看到的结果。

其实这就是将我们的模拟图转换成数据信号,储存在我们的Raw文件中,或者说进一步提取成MGF文件所用到的相关信息。

这里主要包含两大类信息:MS1和MS2的信息,也就是full scan mass和二级碎裂的信息。这两类信息的结构式是一模一样的,都是包含质核比、强度值,以及相对信号强度。

比如说794.03谱峰,相对信号强度是100,也就是在这张谱图中,这是最强的一个峰,信号强度是3558210.8。那么对于我们质谱的搜索来说,一级信息和二级信息都是需要用到的,其中一级信息是首要的,也就是图中MS1部分,是后续搜库的关键信息。而二级谱图的强度信息一般用于定量,也就是说如果不是做SILAC或者非标记定量,这些信息不是最重要的。

另外,第一栏的信息准确性也是非常重要的。比如图上红框内,我们可以得到的信息是,794.03和794.36强度大约差了1.5倍,后面的峰强度差了大约2倍,再看下红框内四个数据的质荷比相差并不大,我们的质谱仪器因此会判断这四个峰非常符合一个肽段的同位素分布(肽段同位素分段的性状,后续将会讲解)。

回到此图,794.03应该是一个肽段,后面三个数据是同一个肽段,这就是我们进行precursor识别的原理。有些时候质谱会识别错误,认为红框上一行的793.69更可能是同位素,这个就需要我们自己进行校正。

质谱在搜集信号的时候,会告诉我们794.03是一个母离子或者说是肽段的谱峰,因此在后续进行MS2碎裂的时候,会挑选这样一个谱峰,以及在质谱中我们会设定相应的窗口去打碎它。因为仅仅设定一个非常小的窗口,可能信号不够。我们会设计比如正负1.5个道尔顿的窗口,把这些信号全部采集进去进行二级碎裂得到二级信号。

现在高分辨质谱中,二级信号也会包含同位素信息,因此数据分析软件需要对这些信息进行有效的处理。

大家可以看到,这样一个例子中,软件记录的是794.03,但实际我们可以通过肉眼观察,793.69跟794.03就只相差0.33~0.34,也是一个三电荷同位素的差值(1除以0.33是3,这就是质荷比中的Z的计算原理)。两者分别的强度271万和355万差别也不是非常大,我们会判断出793.69更可能是零同位素峰(如何判断后面会再讲解)。

我们进行后续数据提取和采集的时候,也就是用了这样的信息来进行分析。我们记录的一级质谱数据,以及二级质谱对应的列表,其中最重要的是m/z和intensity,在一级质谱数据中,强度并不用于蛋白鉴定的打分,但二级质谱数据中的强度值却会被用于打分。

3. 上传蛋白质到公共数据库,获得接收号怎么操作

Gen Bank:美国洛斯阿拉莫斯国家实验室1979年开始建立的基因库,现在由国家生物信息中心(NCBI, 1988年成立)管理维护。 swiss-prot:最齐全的注释精炼的蛋白序列数据库,建立于1986年,1987年起由日内瓦大学(University of Geneva)医学生物化学系和 EMBL 数据馆(即现在的欧洲生物信息研究所EBI)共同维护。

4. 继续一篇关于蛋白质组学的论文

字数可能有点超,你自己截取吧~~

分子生物学(molecular biology)
在分子水平上研究生命现象的科学。研究生物大分子(核酸、蛋白质)的结 构、功能和生物合成等方面来阐明各种生命现象的本质。研究内容包括各种生命过程如光合作用、发育的分子机制、神经活动的机理、癌的发生等。
从分子水平研究生物大分子的结构与功能从而阐明生命现象本质的科学。自20世纪50年代以来,分子生物学是生物学的前沿与生长点,其主要研究领域包括蛋白质体系、蛋白质-核酸体系 (中心是分子遗传学)和蛋白质-脂质体系(即生物膜)。
生物大分子,特别是蛋白质和核酸结构功能的研究,是分子生物学的基础。现代化学和物理学理论、技术和方法的应用推动了生物大分子结构功能的研究,从而出现了近30年来分子生物学的蓬勃发展。分子生物学和生物化学及生物物理学关系十分密切,它们之间的主要区别在于:①生物化学和生物物理学是用化学的和物理学的方法研究在分子水平,细胞水平,整体水平乃至群体水平等不同层次上的生物学问题。而分子生物学则着重在分子(包括多分子体系)水平上研究生命活动的普遍规律;②在分子水平上,分子生物学着重研究的是大分子,主要是蛋白质,核酸,脂质体系以及部分多糖及其复合体系。而一些小分子物质在生物体内的转化则属生物化学的范围;③分子生物学研究的主要目的是在分子水平上阐明整个生物界所共同具有的基本特征,即生命现象的本质;而研究某一特定生物体或某一种生物体内的某一特定器官的物理、化学现象或变化,则属于生物物理学或生物化学的范畴。
发展简史 结构分析和遗传物质的研究在分子生物学的发展中作出了重要的贡献。结构分析的中心内容是通过阐明生物分子的三维结构来解释细胞的生理功能。1912年英国 W.H.布喇格和W.L.布喇格建立了X射线晶体学,成功地测定了一些相当复杂的分子以及蛋白质的结构。以后布喇格的学生W.T.阿斯特伯里和J.D.贝尔纳又分别对毛发、肌肉等纤维蛋白以及胃蛋白酶、烟草花叶病毒等进行了初步的结构分析。他们的工作为后来生物大分子结晶学的形成和发展奠定了基础。50年代是分子生物学作为一门独立的分支学科脱颖而出并迅速发展的年代。首先是在蛋白质结构分析方面,1951年L.C.波林等提出了 α-螺旋结构,描述了蛋白质分子中肽链的一种构象。1955年F.桑格完成了胰岛素的氨基酸序列的测定。接着 J.C.肯德鲁和M.F.佩鲁茨在X射线分析中应用重原子同晶置换技术和计算机技术分别于1957和1959年阐明了鲸肌红蛋白和马血红蛋白的立体结构。1965年中国科学家合成了有生物活性的胰岛素,首先实现了蛋白质的人工合成。
另一方面,M.德尔布吕克小组从1938年起选择噬菌体为对象开始探索基因之谜。噬菌体感染寄主后半小时内就复制出几百个同样的子代噬菌体颗粒,因此是研究生物体自我复制的理想材料。1940年G.W.比德尔和E.L.塔特姆提出了“一个基因,一个酶”的假设,即基因的功能在于决定酶的结构,且一个基因仅决定一个酶的结构。但在当时基因的本质并不清楚。1944年O.T.埃弗里等研究细菌中的转化现象,证明了DNA是遗传物质。1953年J.D.沃森和F.H.C.克里克提出了DNA的双螺旋结构,开创了分子生物学的新纪元。在此基础上提出的中心法则,描述了遗传信息从基因到蛋白质结构的流动。遗传密码的阐明则揭示了生物体内遗传信息的贮存方式。1961年F.雅各布和J.莫诺提出了操纵子的概念,解释了原核基因表达的调控。到20世纪60年代中期,关于DNA自我复制和转录生成RNA的一般性质已基本清楚,基因的奥秘也随之而开始解开了。
仅仅30年左右的时间,分子生物学经历了从大胆的科学假说,到经过大量的实验研究,从而建立了本学科的理论基础。进入70年代,由于重组DNA研究的突破,基因工程已经在实际应用中开花结果,根据人的意愿改造蛋白质结构的蛋白质工程也已经成为现实。
基本内容 蛋白质体系 蛋白质的结构单位是α-氨基酸。常见的氨基酸共20种。它们以不同的顺序排列可以为生命世界提供天文数字的各种各样的蛋白质。
蛋白质分子结构的组织形式可分为 4个主要的层次。一级结构,也叫化学结构,是分子中氨基酸的排列顺序。首尾相连的氨基酸通过氨基与羧基的缩合形成链状结构,称为肽链。肽链主链原子的局部空间排列为二级结构。二级结构在空间的各种盘绕和卷曲为三级结构。有些蛋白质分子是由相同的或不同的亚单位组装成的,亚单位间的相互关系叫四级结构。
蛋白质的特殊性质和生理功能与其分子的特定结构有着密切的关系,这是形形色色的蛋白质所以能表现出丰富多彩的生命活动的分子基础。研究蛋白质的结构与功能的关系是分子生物学研究的一个重要内容。
随着结构分析技术的发展,现在已有几千个蛋白质的化学结构和几百个蛋白质的立体结构得到了阐明。70年代末以来,采用测定互补DNA顺序反推蛋白质化学结构的方法,不仅提高了分析效率,而且使一些氨基酸序列分析条件不易得到满足的蛋白质化学结构分析得以实现。
发现和鉴定具有新功能的蛋白质,仍是蛋白质研究的内容。例如与基因调控和高级神经活动有关的蛋白质的研究现在很受重视。
蛋白质-核酸体系 生物体的遗传特征主要由核酸决定。绝大多数生物的基因都由 DNA构成。简单的病毒,如λ噬菌体的基因组是由 46000个核苷酸按一定顺序组成的一条双股DNA(由于是双股DNA,通常以碱基对计算其长度)。细菌,如大肠杆菌的基因组,含4×106碱基对。人体细胞染色体上所含DNA为3×109碱基对。
遗传信息要在子代的生命活动中表现出来,需要通过复制、转录和转译。复制是以亲代 DNA为模板合成子代 DNA分子。转录是根据DNA的核苷酸序列决定一类RNA分子中的核苷酸序列;后者又进一步决定蛋白质分子中氨基酸的序列,就是转译。因为这一类RNA起着信息传递作用,故称信使核糖核酸(mRNA)。由于构成RNA的核苷酸是4种,而蛋白质中却有20种氨基酸,它们的对应关系是由mRNA分子中以一定顺序相连的 3个核苷酸来决定一种氨基酸,这就是三联体遗传密码。
基因在表达其性状的过程中贯串着核酸与核酸、核酸与蛋白质的相互作用。DNA复制时,双股螺旋在解旋酶的作用下被拆开,然后DNA聚合酶以亲代DNA链为模板,复制出子代 DNA链。转录是在 RNA聚合酶的催化下完成的。转译的场所核糖核蛋白体是核酸和蛋白质的复合体,根据mRNA的编码,在酶的催化下,把氨基酸连接成完整的肽链。基因表达的调节控制也是通过生物大分子的相互作用而实现的。如大肠杆菌乳糖操纵子上的操纵基因通过与阻遏蛋白的相互作用控制基因的开关。真核细胞染色质所含的非组蛋白在转录的调控中具有特殊作用。正常情况下,真核细胞中仅2~15%基因被表达。这种选择性的转录与转译是细胞分化的基础。
蛋白质-脂质体系 生物体内普遍存在的膜结构,统称为生物膜。它包括细胞外周膜和细胞内具有各种特定功能的细胞器膜。从化学组成看,生物膜是由脂质和蛋白质通过非共价键构成的体系。很多膜还含少量糖类,以糖蛋白或糖脂形式存在。
1972年提出的流动镶嵌模型概括了生物膜的基本特征:其基本骨架是脂双层结构。膜蛋白分为表在蛋白质和嵌入蛋白质。膜脂和膜蛋白均处于不停的运动状态。
生物膜在结构与功能上都具有两侧不对称性。以物质传送为例,某些物质能以很高速度通过膜,另一些则不能。象海带能从海水中把碘浓缩 3万倍。生物膜的选择性通透使细胞内pH和离子组成相对稳定,保持了产生神经、肌肉兴奋所必需的离子梯度,保证了细胞浓缩营养物和排除废物的功能。
生物体的能量转换主要在膜上进行。生物体取得能量的方式,或是像植物那样利用太阳能在叶绿体膜上进行光合磷酸化反应;或是像动物那样利用食物在线粒体膜上进行氧化磷酸化反应。这二者能量来源虽不同,但基本过程非常相似,最后都合成腺苷三磷酸。对于这两种能量转换的机制,P.米切尔提出的化学渗透学说得到了越来越多的证据。生物体利用食物氧化所释放能量的效率可达70%左右,而从煤或石油的燃烧获取能量的效率通常为20~40%,所以生物力能学的研究很受重视。对生物膜能量转换的深入了解和模拟将会对人类更有效地利用能量作出贡献。
生物膜的另一重要功能是细胞间或细胞膜内外的信息传递。在细胞表面,广泛地存在着一类称为受体的蛋白质。激素和药物的作用都需通过与受体分子的特异性结合而实现。癌变细胞表面受体物质的分布有明显变化。细胞膜的表面性质还对细胞分裂繁殖有重要的调节作用。
对细胞表面性质的研究带动了糖类的研究。糖蛋白、蛋白聚糖和糖脂等生物大分子结构与功能的研究越来越受到重视。从发展趋势看,寡糖与蛋白质或脂质形成的体系将成为分子生物学研究的一个新的重要的领域。
理论意义和应用 分子生物学的成就说明:生命活动的根本规律在形形色色的生物体中都是统一的。例如,不论在何种生物体中,都由同样的氨基酸和核苷酸分别组成其蛋白质和核酸。遗传物质,除某些病毒外,都是DNA,并且在所有的细胞中都以同样的生化机制进行复制。分子遗传学的中心法则和遗传密码,除个别例外,在绝大多数情况下也都是通用的。
物理学的成就证明,一切物质的原子都由为数不多的基本粒子根据相同的规律所组成,说明了物质世界结构上的高度一致,揭示了物质世界的本质,从而带动了整个物理学科的发展。分子生物学则在分子水平上揭示了生命世界的基本结构和生命活动的根本规律的高度一致,揭示了生命现象的本质。和过去基本粒子的研究带动物理学的发展一样,分子生物学的概念和观点也已经渗入到基础和应用生物学的每一个分支领域,带动了整个生物学的发展,使之提高到一个崭新的水平。
过去生物进化的研究,主要依靠对不同种属间形态和解剖方面的比较来决定亲缘关系。随着蛋白质和核酸结构测定方法的进展,比较不同种属的蛋白质或核酸的化学结构,即可根据差异的程度,来断定它们的亲缘关系。由此得出的系统进化树,与用经典方法得到的是基本符合的。采用分子生物学的方法研究分类与进化有特别的优越性。首先,构成生物体的基本生物大分子的结构反映了生命活动中更为本质的方面。其次,根据结构上的差异程度可以对亲缘关系给出一个定量的,因而也是更准确的概念。第三,对于形态结构非常简单的微生物的进化,则只有用这种方法才能得到可靠结果。
高等动物的高级神经活动是极其复杂的生命现象,过去多是在细胞乃至整体水平上研究,近年来深入到分子水平研究的结果充分说明高级神经活动也同样是以生物大分子的活动为基础的。例如,在高等动物学习与记忆的过程中,大脑中RNA和蛋白质的组成发生明显的变化,并且一些影响生物体合成蛋白质的药物也显着地影响学习与记忆的能力。又如,“生物钟”是一种熟知的生物现象。用鸡进行的实验发现,有一种重要的神经传递介质(5-羟色胺)和一种激素(褪黑激素)以及控制它们变化的一种酶,在鸡脑中的含量呈24小时的周期性变化。正是这种变化构成了鸡的“生物钟”的物质基础。
在应用方面,生物膜能量转换原理的阐明,将有助于解决全球性的能源问题。了解酶的催化原理就能更有针对性地进行酶的人工模拟,设计出化学工业上广泛使用的新催化剂,从而给化学工业带来一场革命。
分子生物学在生物工程技术中也起了巨大的作用,1973年重组DNA技术的成功,为基因工程的发展铺平了道路。80年代以来,已经采用基因工程技术,把高等动物的一些基因引入单细胞生物,用发酵方法生产干扰素、多种多肽激素和疫苗等。基因工程的进一步发展将为定向培育动、植物和微生物良种以及有效地控制和治疗一些人类遗传性疾病提供根本性的解决途径。
从基因调控的角度研究细胞癌变也已经取得不少进展。分子生物学将为人类最终征服癌症做出重要的贡献。
[编辑本段]分子生物学的应用
1,亲子鉴定
近几年来,人类基因组研究的进展日新月异,而分子生物学技术也不断完善,随着基因组研究向各学科的不断渗透,这些学科的进展达到了前所未有的高度。在法医学上,STR位点和单核苷酸(SNP)位点检测分别是第二代、第三代DNA分析技术的核心,是继RFLPs(限制性片段长度多态性)VNTRs(可变数量串联重复序列多态性)研究而发展起来的检测技术。作为最前沿的刑事生物技术,DNA分析为法医物证检验提供了科学、可靠和快捷的手段,使物证鉴定从个体排除过渡到了可以作同一认定的水平,DNA检验能直接认定犯罪、为凶杀案、强奸杀人案、碎尸案、强奸致孕案等重大疑难案件的侦破提供准确可靠的依据。随着DNA技术的发展和应用,DNA标志系统的检测将成为破案的重要手段和途径。此方法作为亲子鉴定已经是非常成熟的,也是国际上公认的最好的一种方法。
参考资料:http://ke..com/view/2461.htm

蛋白质质谱分析研究进展

摘 要: 随着科学的不断发展,运用质谱法进行蛋白质的分析日益增多,本文简要综述了肽和蛋白质等生物大分子质谱分析的特点、方法及蛋白质质谱分析的原理、方式和应用,并对其发展前景作出展望。

关键词: 蛋白质,质谱分析,应用

前言:
蛋白质是生物体中含量最高,功能最重要的生物大分子,存在于所有生物细胞,约占细胞干质量的50%以上, 作为生命的物质基础之一,蛋白质在催化生命体内各种反应进行、调节代谢、抵御外来物质入侵及控制遗传信息等方面都起着至关重要的作用,因此蛋白质也是生命科学中极为重要的研究对象。关于蛋白质的分析研究,一直是化学家及生物学家极为关注的问题,其研究的内容主要包括分子量测定,氨基酸鉴定,蛋白质序列分析及立体化学分析等。随着生命科学的发展,仪器分析手段的更新,尤其是质谱分析技术的不断成熟,使这一领域的研究发展迅速。
自约翰.芬恩(JohnB.Fenn)和田中耕一(Koichi.Tanaka)发明了对生物大分子进行确认和结构分析的方法及发明了对生物大分子的质谱分析法以来,随着生命科学及生物技术的迅速发展,生物质谱目前已成为有机质谱中最活跃、最富生命力的前沿研究领域之一[1]。它的发展强有力地推动了人类基因组计划及其后基因组计划的提前完成和有力实施。质谱法已成为研究生物大分子特别是蛋白质研究的主要支撑技术之一,在对蛋白质结构分析的研究中占据了重要地位[2]。
1.质谱分析的特点
质谱分析用于蛋白质等生物活性分子的研究具有如下优点:很高的灵敏度能为亚微克级试样提供信息,能最有效地与色谱联用,适用于复杂体系中痕量物质的鉴定或结构测定,同时具有准确性、易操作性、快速性及很好的普适性。
2.质谱分析的方法
近年来涌现出较成功地用于生物大分子质谱分析的软电离技术主要有下列几种:1)电喷雾电离质谱;2)基质辅助激光解吸电离质谱;3)快原子轰击质谱;4)离子喷雾电离质谱;5)大气压电离质谱。在这些软电离技术中,以前面三种近年来研究得最多,应用得也最广泛[3]。
3.蛋白质的质谱分析
蛋自质是一条或多条肽链以特殊方式组合的生物大分子,复杂结构主要包括以肽链为基础的肽链线型序列[称为一级结构]及由肽链卷曲折叠而形成三维[称为二级,三级或四级]结构。目前质谱主要测定蛋自质一级结构包括分子量、肽链氨基酸排序及多肽或二硫键数目和位置。
3.1蛋白质的质谱分析原理
以往质谱(MS)仅用于小分子挥发物质的分析,由于新的离子化技术的出现,如介质辅助的激光解析/离子化、电喷雾离子化,各种新的质谱技术开始用于生物大分子的分析。其原理是:通过电离源将蛋白质分子转化为气相离子,然后利用质谱分析仪的电场、磁场将具有特定质量与电荷比值(M/Z值)的蛋白质离子分离开来,经过离子检测器收集分离的离子,确定离子的M/Z值,分析鉴定未知蛋白质。
3.2蛋白质和肽的序列分析
现代研究结果发现越来越多的小肽同蛋白质一样具有生物功能,建立具有特殊、高效的生物功能肽的肽库是现在的研究热点之一。因此需要高效率、高灵敏度的肽和蛋白质序列测定方法支持这些研究的进行。现有的肽和蛋白质测序方法包括N末端序列测定的化学方法Edman法、C末端酶解方法、C末端化学降解法等,这些方法都存在一些缺陷。例如作为肽和蛋白质序列测定标准方法的N末端氨基酸苯异硫氰酸酯(phenylisothiocyanate)PITC分析法(即Edman法,又称PTH法),测序速度较慢(50个氨基酸残基/天);样品用量较大(nmol级或几十pmol级);对样品纯度要求很高;对于修饰氨基酸残基往往会错误识别,而对N末端保护的肽链则无法测序[4]。C末端化学降解测序法则由于无法找到PITC这样理想的化学探针,其发展仍面临着很大的困难。在这种背景下,质谱由于很高的灵敏度、准确性、易操作性、快速性及很好的普适性而倍受科学家的广泛注意。在质谱测序中,灵敏度及准确性随分子量增大有明显降低,所以肽的序列分析比蛋白容易许多,许多研究也都是以肽作为分析对象进行的。近年来随着电喷雾电离质谱(electrospray ionisation,ESI)及基质辅助激光解吸质谱(matrix assisted laser desorption/ionization,MALDI)等质谱软电离技术的发展与完善,极性肽分子的分析成为可能,检测限下降到fmol级别,可测定分子量范围则高达100000Da,目前基质辅助的激光解吸电离飞行时间质谱法(MALDI TOF MS)已成为测定生物大分子尤其是蛋白质、多肽分子量和一级结构的有效工具,也是当今生命科学领域中重大课题——蛋白质组研究所必不可缺的关键技术之一 [5] 。目前在欧洲分子生物实验室(EMBL)及美国、瑞士等国的一些高校已建立了MALDI TOF MS蛋白质一级结构(序列)谱库,能为解析FAST谱图提供极大的帮助,并为确证分析结果提供可靠的依据[6]。
蛋白质质谱分析研究进展 来自: 免费论文网www.shu1000.com
3.3蛋白质的质谱分析方式
质谱用于肽和蛋白质的序列测定主要可以分为三种方法:一种方法叫蛋白图谱(proteinmapping),即用特异性的酶解或化学水解的方法将蛋白切成小的片段,然后用质谱检测各产物肽分子量,将所得到的肽谱数据输入数据库,搜索与之相对应的已知蛋白,从而获取待测蛋白序列。将蛋白质绘制“肽图”是一重要测列方法。第二种方法是利用待测分子在电离及飞行过程中产生的亚稳离子,通过分析相邻同组类型峰的质量差,识别相应的氨基酸残基,其中亚稳离子碎裂包括“自身”碎裂及外界作用诱导碎裂.第三种方法与Edman法有相似之处,即用化学探针或酶解使蛋白或肽从N端或C端逐一降解下氨基酸残基,形成相互间差一个氨基酸残基的系列肽,名为梯状测序(laddersequencing),经质谱检测,由相邻峰的质量差知道相应氨基酸残基。
3.3.1蛋白消化
蛋白的基团越大,质谱检测的准确率越低。因此,在质谱检测之前,须将蛋白消化成小分子的多肽,以提高质谱检测的准确率。一般而言,6-20个氨基酸的多肽最适合质谱仪的检测。现今最常用的酶为胰蛋白酶(trypsin),它于蛋白的赖氨酸(lysine)和精氨酸(arginine)处将其切断。因此,同一蛋白经胰蛋白酶消化后,会产生相同的多肽。
3.3.2基质辅助激光解吸电离/飞行时间质谱测量法(MALDI-TOF MS) [7]
简而言之,基质辅助激光解吸电离/飞行时间质谱测量仪是将多肽成分转换成离子信号,并依据质量/电荷之比(mass/charge,m/z)来对该多肽进行分析,以判断该多肽源自哪一个蛋白。待检样品与含有在特定波长下吸光的发光团的化学基质(matrix)混合,此样品混合物随即滴于一平板或载玻片上进行挥发,样品混合物残余水份和溶剂的挥发使样品整合于格状晶体中,样品然后置于激光离子发生器(lasersource)。激光作用于样品混合物,使化学基质吸收光子而被激活。此激活产生的能量作用于多肽,使之由固态样品混合物变成气态。由于多肽分子倾向于吸收单一光子,故多肽离子带单一电荷.这些形成的多肽离子直接进入飞行时间质量分析仪(TOFmassanalyzer)。飞行时间质量分析仪用于测量多肽离子由分析仪的一端飞抵另一端探测器所需要的时间。而此飞行时间同多肽离子的质量/电荷的比值成反比,即质量/电荷之比越高,飞行时间越短。最后,由电脑软件将探测器录得的多肽质量/电荷比值同数据库中不同蛋白经蛋白酶消化后所形成的特定多肽的质量/电荷比值进行比较,以鉴定该多肽源自何种蛋白.此法称为多肽质量指纹分析(peptidemassfin-gerprinting)。基质辅助激光解吸电离/飞行时间质谱测量法操作简便,敏感度高,同许多蛋白分离方法相匹配,而且,现有数据库中有充足的关于多肽质量/电荷比值的数据,因此成为许多实验室的首选蛋白质谱鉴定方法。
3.3.3电子喷雾电离质谱测量法(electrosprayion-izationmassspectrometry,ESI-MS)[8 ]
同基质辅助激光解吸电离/飞行时间质谱测量法在固态下完成不同,电子喷雾电离质谱测量法是在液态下完成,而且多肽离子带有多个电荷,由高效液相层析等方法分离的液体多肽混合物,在高压下经过一细针孔。当样本由针孔射出时,喷射成雾状的细小液滴,这些细小液滴包含多肽离子及水份等其他杂质成分。去除这些杂质成分后,多肽离子进入连续质量分析仪(tan- demmassanalyzer),连续质量分析仪选取某一特定质量/电荷比值的多肽离子,并以碰撞解离的方式将多肽离子碎裂成不同电离或非电离片段。随后,依质量/电荷比值对电离片段进行分析并汇集成离子谱(ionspectrum),通过数据库检索,由这些离子谱得到该多肽的氨基酸序列。依据氨基酸序列进行的蛋白鉴定较依据多肽质量指纹进行的蛋白鉴定更准确、可靠。而且,氨基酸序列信息即可通过蛋白氨基酸序列数据库检索,也可通过核糖核酸数据库检索来进行蛋白鉴定。
蛋白质质谱分析研究进展 来自: 免费论文网www.shu1000.com
4.蛋白质质谱分析的应用
1981年首先采用FAB双聚焦质谱测定肽分子量,分析十一肽(Mr=1318),质谱中出现准分子离子[M+1]+=1319强峰。分子量小于6kDa肽或小蛋白质合适用FAB质谱分析,更大分子量的多肽和蛋自质可用MALDI质谱或ESI质谱分析。用MALDI-TOF质谱分析蛋自质最早一例是Hillen Kramp等[9]于1988年提出用紫外激光以烟酸为基质在TOF谱仪上测出质量数高达60kDa蛋白质,精确度开始只有0.5%,后改进到0.1-0.2%。质谱技术主要用于检测双向凝胶电泳或“双向”高效柱层析分离所得的蛋白质及酶解所得的多肽的质量,也可用于蛋白质高级结构及蛋白质间相互作用等方面的研究[10,11],三条肽段的精确质量数便可鉴定蛋白质。近年来,串联质谱分析仪发展迅猛,其数据采集方面的自动化程度、检测的敏感性及效率都大大提高,大规模数据库和一些分析软件(如:SEQUEST)的应用使得串联质谱分析仪可以进行更大规模的测序工作。目前,利用2D电泳及MS技术对整个酵母细胞裂解产物进行分析,已经鉴定出1484种蛋白质,包括完整的膜蛋白和低丰度的蛋白质[12];分析肝细胞癌患者血清蛋白质组成分[13],并利用质谱进行鉴定磷酸化蛋白研究工作[14]及采用质谱技术研究许旺细胞源神经营养蛋白(SDNP)的分子结构[15]等。
结束语:
在蛋白质的质谱分析中,质谱的准确性(accuracy)对测定结果有很大影响,因此质谱测序现在仍很难被应用于未知蛋白的序列测定。肽和蛋白的质谱序列测定方法具有快速、用量少、易操作等优点,这些都非常适合于现在科学研究的需要。我们相信,随着各种衍生化方法和酶解方法的不断改进,蛋白双向电泳的应用[16]以及质谱技术的不断完善,质谱将会成为多肽和蛋白质分析最有威力的工具之一。

5. 牟合生物的蛋白质组测序做的怎么样

据我所知,该公司主要从事大规模数据关联分析筛选生物标志物,并进行相应检测技术转化:

  1. 技术上讲:定量蛋白质组学通过同位素标记和质谱完成原始数据采集。难度并不大,结果好坏更多在于公司是否厚道。标记少点,少打几针你就惨了!

  2. 分析上讲:普通的蛋白质组学信息分析有成熟的软件,个性化的分析主要看提出的分析要求是否被接受(看厚道),关联分析需要经验基础!

  3. 周期上讲:这一条反而最重要,很多平台都置这条诚信于不顾,耽误事!

牟合至少以上3点都做到了,还行!

6. 1. 蛋白质组学研究方法概述(上)

说明:此篇笔记系2016-2017年由克里克学院与康昱盛主办的蛋白质组学网络大课堂整理而成,侵删。该课程由上海交通大学系统生物医学研究院助理研究员库鑫博士所授。

大伙儿都知道,蛋白质组学(proteomics),是研究一种细胞或者一种生物体所表达的全部蛋白质。虽说现在基因组测序火得一塌糊涂,但是,我们不要忽略了,蛋白质才是执行生命体功能的基本单元,而且蛋白质都是通过形成各种复合物,组成通路网络,去行使各种生物学功能的!所以,有很多生物学问题只能在蛋白质层面上去研究去探索,而且需要站在系统的层面去考察,比如说:蛋白-蛋白相互作用、蛋白的细胞定位、翻译后修饰、信号通路及代谢通路的调控和功能等。这就是为啥蛋白质组学如此重要啦!

既然重要,科学家们自然是想尽办法来研究了!最开始使用的技术就是传说中的双向凝胶电泳(2-DE),由于分辨率低、蛋白质重叠等各种问题,无论是通量还是准确度,都不尽如人意。当质谱技术兴起以后,就迅速被替代了。

说起质谱技术的诞生,估计很多小伙伴都听过那个着名的diao丝逆袭的段子,讲的就是2002年诺贝尔化学奖得主田中耕一,作为蛋白质谱发明人之一,由于一个不小心在实验时错加了甘油,结果神奇地将质谱技术引入到鉴定生物大分子的应用领域。想想,大到整个人类的科技发展史,小到每个个体的人生,都充满了多少不可思议~

当质谱技术与蛋白质组学碰到了一起,真是天雷引了地火,产生出强烈的化学反应,迅速引爆整个学科的发展!也就十几年的时间吧,蛋白质组学的研究目标从细胞模型、动物模型,到人的体液、组织等人体样本,应用范围的生物复杂度越来越高。研究目的呢,也从最初的肽段序列推导,到多肽和蛋白质的定性定量分析,翻译后修饰,再到如今成为新热点的靶向蛋白质组学,总之,势不可挡啊!

说到靶向蛋白质组学,咱们都知道,一直以来蛋白质组学的应用领域主要是针对基础生物学,比如研究通路、蛋白复合物、互作网络,表征细胞和组织的类型,观察细胞周期内蛋白质的表达等。近年来,由于技术的飞速发展,蛋白质组学开始被用于医学研究和药物研究。比如说药物研究,国内可能用得还不多,但在欧美已经开始越来越广泛。以肝毒性为例,蛋白质组学可以为药物研发前期的肝毒性评估提供研究手段。

那么,怎么将蛋白质组学应用到临床及药物研发中呢?就是需要靶向蛋白质组学技术了!以前,蛋白质组学技术主要用于发现新的未知物,比如肽段、蛋白复合物、蛋白的翻译后修饰等。这部分的应用很广,技术门槛比较低,方法比较通用。但问题是,这种方法思路没办法应对大量的临床样本,可重复性和准确性达不到要求。

于是,靶向分析开始兴起,就是说,分析之前我们就明确知道需要分析的物质是什么,然后把它挑出来,进行一个精确的定量和分析!我们不需要一次性验证成千上万的蛋白,但我们需要在成百上午的样本中验证十几种或者几十种我们关心的蛋白质,而且这些蛋白质常常都是浓度很低的蛋白,用传统的方法基本上只有被遗漏的命(后面我会详细讲为什么会遗漏)。有了靶向技术,对于研究临床诊断的生物标志物,就有了更大的可能和更强的支撑了!

那么接下来,根据老师讲课的思路,我就从定性检测、定量检测和靶向蛋白质组学三个方面来分享下听课的收获。

无论是定性还是定量检测,样品制备是跑不掉的准备工作。用于质谱的蛋白质样品,来源非常广泛,只要你是包含了蛋白质的东西,都可以作为来源。对于复杂的样品,比如人体体液或组织样本,蛋白质的提取及去高峰度,常常需要复杂的精细的处理,而且处理流程根据样本和研究目的的不同而不同。这部分内容呢,第二讲“样品前处理”会详扒,感兴趣的小伙伴可以期待我的下一篇听课笔记吧~

话说,蛋白质的定性检测有两种思路:Bottom-up和Top down。Top down是指从一个完整的蛋白出发,在质谱中进行碎片化处理,通过对碎片分子的检测,推导出蛋白的序列。而在使用中真正占绝大多数是Bottom-up方法,也就是我们常说的shotgun方法,它充分利用了蛋白质自身的特点:可以被特定的酶在特定的位点切断。基本思路是,先用蛋白酶把蛋白序列进行酶切,再针对酶切后的肽段进行鉴定,所以进入质谱的检测对象永远是肽段,再根据肽段序列再推导出蛋白序列。

1. 样本处理 :拿到蛋白来源的各种样本,进行前处理和优化。

2. 蛋白分离 :根据研究需要,用凝胶分离,提取所需的蛋白,或者不分离,全部拿来检测,需要注意去杂质;

3. 酶切 :用序列特异性的酶,对蛋白进行酶切;

4. 肽段分离 :酶切后的肽段进入HPLC(高压液相色谱),这也就是我们常说的LC-MS中的LC,肽段会因为在色谱柱填料上的保留时间的不同,得到预分离;

5. 电离 :分离后的肽段,加电压使其离子化(ESI);或者用MALDI基质辅助的激光解离,就不需要HPLC的过程;

6. 质谱解析 :将带上电荷的肽段送入质谱,肽段会在磁场中发生偏转(质谱仪的基本原理),在质谱里收集信号,得到谱图。

7. 搜库 :用搜索软件对质谱图进行自动化的分析,得到肽段及蛋白序列信息。

换个角度,对Shotgun方法的流程,我们可以这样来总结:

这里面最关键的一个指标,我们叫Peptide-Spectrum matching(PSM),就是指谱图与肽段的匹配。匹配得越好,则反推出的蛋白就越准确。这个匹配的过程,也就是我们常说的搜库。那么接下来我就来分享一下从课程中学习到的搜库背景知识、搜库工具和算法,以及对搜索结果的评估。

质谱,听上去很高大上,无论有多贵重,都是由三部分组成的:离子源+质量分析器+检测器。

一台质谱可以不止一个离子源\分析器\检测器,可以把几种串联起来,针对不同分析需要来使用。

离子源

我们先来说说离子源。蛋白质谱所使用的ESI(Electrospray ionization)电喷雾离子化,对蛋白质组学来说是一个标志性的发明!因为是直接从液相进行离子化,使它与LC(液相色谱)的联用变得更加容易了,我们可以先用LC将非常复杂的肽段混合物进行预分离,减少每次分析物的复杂度,然后分离的肽段可以直接进入ESI,形成电离喷雾。

那么,ESI喷雾是怎么形成的呢?简单来说,分离柱前端有一个小开口,被分析物根据质量及电荷的不同,依次通过前端的小开口。小开口处加了电压,刚开始,静电力与表面张力相同,当加大静电力使它大于表面张力的时候,液膜破裂,形成无数带电的小液滴,就形成喷雾了。像现在比较新的nanoESI技术,LC的流速就更加慢,离子化的效果也更好。觉得以上描述还不够形象的童鞋,直接看图吧:

质量分析器

说完了离子源,接下来我们来说质量分析器,这是质谱仪里最重要的一部分。我们通常听到的各种质谱仪的名字,就是根据质量分析器的类型来命名的。我们样品中各组分在离子源中发生电离,并经加速电场的作用后,形成离子束,进入质量分析器中。质量分析器将带电离子根据其质荷比加以分离,记录各种离子的质量数和丰度,用于后续定性与定量的分析。

质量分析器有两个主要的技术参数:质量范围和分辨率。质量范围是指是所能测定的质荷比的范围,它决定了咱们能检测到的离子的范围。比如,ESI离子源能产生许多m/z大于3000的离子,如果你选的质量分析器的上限达不到3000,那么3000以上的离子你就检测不出来了。

然而,另一个更为重要的指标,就是质量分析器的分辨率!先上个公式描述:

分辨率=观测的一个质谱峰的质荷比/半峰高处的峰宽(FWHM)

啥意思呢?比如下图中最左边的那个峰,它的质荷比是1,085.55,峰高一半的地方的峰宽值是0.217,于是:

分辨率=1,085.55/0.217=5,000

如果这么讲还是不太明白,那你可以简单理解为,质谱分辨率越高,我们将得到越尖越细的谱峰。你可能会问:谱峰又尖又细的好处是什么?这是个好问题!事实上,分辨率可以表征两个相邻的谱峰在质谱中被区分开的能力。大家通过下图感受一下不同分辨率的质谱仪能给我们多么不同的谱峰图。

图中以Glucagon(胰高血糖素)为例,展示了不同分辨率的质谱仪给出的谱峰。当分辨率是1000时,只能看一个很宽的峰(蓝色);分辨率增加到3000时,峰窄一些(红色),但还感受不到明显的差别;当提高到10000时,很明显能看到,其实这里包含了8个峰(绿色);再提高到30000的时候,半峰宽更窄,两个相邻的峰可以彻底地被分开(黑色)。显然,我们在分辨率为1000或3000,不能准确的检测被分析肽段的精确分子量, 从而导致谱图无法匹配或者发生错配。

不同的质量分析器有不同的分辨率,通常的顺序是:傅里叶变换质谱分辨率最高,但造价太贵;其次是Orbitrap(轨道阱系列),分辨率远远高于其它质谱;再次是TOF(时间飞行质谱);然后是离子阱(Ion Trap);最后是四级杆质谱(Quadrupole)。

这里我多说一句,分辨率高固然好,但价格肯定就贵,选择质谱仪的时候要根据咱们自己的研究目的以及预算范围啦!

二级质谱

然而,要对肽段进行鉴定,一级质谱显然是办不到的,我们没法根据肽段离子m/z的值就推断出这个肽段由哪些氨基酸残基组成(可能的组合非常多),以及序列顺序是怎么样的,对吧?所以,鉴定肽段还需要二级质谱。

什么是二级质谱呢?简单来说,肽段混合物通过一级质谱得到了一级谱图,然后从中选择一个肽段,通过一些方法,比如,与随性气体进行碰撞,把肽段碰碎,得到碎片离子,再形成二级谱图。我们通过观察碎片离子的质量分布来推断肽断的残基组成,最后再反推出蛋白质是什么。上个图,帮助大家理解一下二级质谱是怎么来的。

在上一段,我提到是从一级质谱中“选择”一个肽段进入二级质谱。这里看似讲得云淡风轻,事实上怎么选却是一个很关键的问题!通常选择的方法我们可以叫做“TOP”法(这是我自己起的名字),比如TOP15就是指从一级谱里选前15个高度的峰,每一次分离一个肽段,然后对这个肽段进行扫描,得到二级谱图。

大家发现了没有?如果一个肽段在一级谱图中没有进入TOP15,那它连打二级谱图的资格都没有!原来质谱的世界竞争也是如何残酷!二级质谱能扫描哪些肽段是由一级质谱决定的,所以我们将这种方法称为“数据依赖性采集(DDA, data dependent acquisition)!

明白了吧,DDA这个名字就是这么来的!下次大伙儿再听到有人说DDA,心里不会再一百个问号飞过了吧?

咱们细想一下就不难发现,如果一个蛋白的浓度不够高,也就是说,它的肽段在一级谱图中很难成为那些TOPs,那么它能进入二级质谱的可能性基本上没有。这就是为什么低峰度蛋白很难被鉴定到!这也就是为什么我们在做比如血液这种样品的时候,一定要去除血红蛋白等高峰度蛋白(如果你想鉴定的蛋白不是血红蛋白的话)!

很显然,DDA方法的局限性就摆在那里!这叫想要研究低峰度蛋白的科学家们怎么忍?于是,一种叫做数据非依赖性采集(DIA)的新方法就应运而生了!关于这种方法的原理,下一篇推文会详扒。

我们再通过以下这个图来感受一下一级谱图与二级谱图之间的关系:

比如,第一个时间点,我们先进行MS1扫描,然后选一个峰高的肽段进行MS2扫描,依次类推。在一些扫描速度比较快的质谱仪里,一个MS1谱图可以进行80张MS2的扫描。

鉴定碎片离子

好,我们搞清楚了二级质谱是怎么来的,那么我们怎么根据检测到的离子信息来推测这是什么氨基酸呢?可能你会说,这还不简单么?根据分子量呀!

没错,不同的氨基酸,它的分子量不就是一个简单的值吗?然而,这件事却并没有这么简单,因为这个世界上还存在一个神奇的东西,它的名字叫同位素!

比如说碳元素,最常见的是原子量12的这种,我们叫C12,然而它还有一个同样很稳定的好基友,C13(多一个中子)。于是,我们得考虑到这两种稳定同位素的含量(网络说C13占 1.11%,C12占98.89%),对于一个氨基酸而言,我们就会得到两个不同的分子量:

为啥说平均呢?因为当肽段分子量越大,含有各种同位素的可能性及不同组合就越多,我们如果把每一种组合都算一遍分子量,这样会得到一个长长的list,到时候做谱图匹配时用哪一个值呢?也没谱。所以干脆用一个平均值来表示。

我们通过下表来感受一下各种不同的氨基酸残基的单同位素分子量与平均分子量有多大的区别:

可能你又会问,这两个不同的分子量分别在什么情况下用呢?这里又要说到分辨率了,如果咱们用的是高分辨率质谱仪,不同的同位素峰会被明显地分开,也就是说,谱图里我们能看几个同位素峰,这时我们就可以使用单同位素分子量,可以与相应的单同位素峰准确对应。但在低分辨率质谱仪里,这些峰很可能混在一起,看上去只是一个峰,这种情况下,也没办法,只能用平均分子量去近似一下了。

下面这个图可以很形象地展示出,单同位素分子量与平均分子量在质谱图上差别有多大。在高分辨质谱看来,这完全就是两种不同的离子了。上面我们也说了,根据平均分子量来计算,结果并不准确,但用单同位素分子量来计算,就可以准确对应了。

除了同位素,还有一个因素我们也需要考虑,那就是肽段碎裂进入二级质谱时,可能会形成三种不同的离子类型,这就是我们通常所说的by离子,ax离子和cz离子。

之所以会形成不同的离子对,是因为不同的碎裂方法,造成肽段断裂的位置不同。大伙儿看看上面这个图就明白了。当我们使用CID(碰撞诱导解离)或HCD(High-energy C-trap Dissociation)碎裂时,与惰性气体碰撞的是C-N键这里,C端生成y离子,N端生成b离子,这是二级质谱产生的最常见的离子对了。当我们使用ETD(电子转移解离)碎裂时,因为有一个电子反应的过程,在加上电子后才产生的碎裂,它的断裂位置可能出现在N-C键这里,形成cz离子,而TOF类仪器可能会产生ax离子。

离子类型的信息需要传递给后续的搜库步骤(通常我们在搜库软件中指定了仪器类型,软件就会自动匹配离子类型),计算机需要模拟最可能的碎裂位置,生成对应的理论谱图,然后拿来与实际谱图比对。我们以by离子为例,来看看对一个肽段来说,它可能碎裂成哪些碎片离子:

那么它可能会生成如下这样的谱图:

从谱图上看,这个肽段所有的by离子都检测到了。通常来说,对于丰度不错,长短合适的肽段,在高精度质谱仪上被完整捕获到的情况是很常见的。通常情况下50%-80%的by离子都能被捕获到。

下篇继续讲定性检测里的搜库工具、结果评估,以及定量检测的各种背景知识。

7. 国际着名的三大蛋白质数据库

国际着名的三大蛋白质数据库有UniProt数据库、The Human Protein Atlas数据库、PhosphoSitePlus数据库。

1、UniProt数据库

蛋白组学常用数据库UniProt(全称UniProt Protein Resource),建立于1986年,由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白质数据库联合成立的,其信息量丰富、资源广泛,是目前公认的首选免费蛋白质数据库。

2、The Human Protein Atlas数据库

The Human Protein Atlas内含近30000种人类蛋白质的组织和细胞分布信息,并提供免费查询。

瑞典Knut&Alice Wallenberg基金会利用免疫组化技术,检查每一种蛋白质在人类48种正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员校对和标引,保证染色结果具有充分的代表性。

3、PhosphoSitePlus数据库

PhosphoSitePlus数据库是一个由CST和NIH联合开发的免费资源数据库,总结归纳了海量通过科学研究发现的蛋白修饰位点,包括磷酸化、甲基化、乙酰化、泛素化等,并且包括一些CST公司发现但未发表的蛋白修饰位点。

该数据库是动态的、开放的、高度互动并持续更新的。它有助于研究PTMs在正常和病理细胞/组织中的作用,同时它也是发现新的疾病标志物和药物靶点的有力工具。


性能及历史

蛋白质数据库(HPDB),建于2005年5月,动态展示生物大分子立体结构,鼠标点击放大分子结构、原子定位、测定原子之间距离,可用于教学或科研。服务对象是能够熟练使用中文的生命科学、医学、药学、农学、林学等领域的大中专学生、教师及科技工作者。

分子结构特征描述采用汉语,同时提供英文原文以供考证。对于善于使用英文的读者,我们提倡直接访问RCSB PDB,一来可以减少网络拥挤,二来可以减少由于HPDB的翻译不妥带来的不便。

蛋白质数据库(HPDB)对每个蛋白质分子结构说明部分做了中文翻译(最新加入数据库的分子除外),内容包括分子结构定性描述、样品的来源、表达载体、宿主、化学分析方法、分子结构组成成分等。这些信息并同蛋白质分子结构数据存储于数据库,因此HPDB支持中文查询。

蛋白质数据库(HPDB)虽然翻译了“分子结构说明”部分,但为了保证数据的可靠性和准确性,HPDB对一级结构序列及大分子结构坐标数据等未做任何改动,数据库保持RCSB PDB核实后的原始实验数据文件,并保持PDB文件格式和蛋白质分子编号。

热点内容
选择ftp服务器 发布:2024-10-10 04:56:16 浏览:197
php函数fopen 发布:2024-10-10 04:50:20 浏览:238
编程飞鸟站 发布:2024-10-10 04:49:34 浏览:615
数据库基础与应用作业 发布:2024-10-10 04:35:31 浏览:847
淘宝上传图片找同款 发布:2024-10-10 04:31:23 浏览:435
玩具直播脚本 发布:2024-10-10 04:31:19 浏览:629
php后门检测工具 发布:2024-10-10 04:18:46 浏览:275
我的世界怎么把服务器封面更改 发布:2024-10-10 04:18:35 浏览:930
linuxsvnserver 发布:2024-10-10 03:56:51 浏览:544
php数组最大长度 发布:2024-10-10 03:41:22 浏览:679