蛋白組學數據上傳

發布時間: 2022-09-22 10:35:15

1. 關於蛋白質組學檢測結果分析求助

1.蛋白質鑒定：可以利用一維電泳和二維電泳並結合Western等技術，利用蛋白質晶元和抗體晶元及免疫共沉澱等技術對蛋白質進行鑒定研究。
2.翻譯後修飾：很多mRNA表達產生的蛋白質要經歷翻譯後修飾如磷酸化，糖基化，酶原激活等。翻譯後修飾是蛋白質調節功能的重要方式，因此對蛋白質翻譯後修飾的研究對闡明蛋白質的功能具有重要作用。
3.蛋白質功能確定：如分析酶活性和確定酶底物，細胞因子的生物分析/配基-受體結合分析。可以利用基因敲除和反義技術分析基因表達產物-蛋白質的功能。另外對蛋白質表達出來後在細胞內的定位研究也在一定程度上有助於蛋白質功能的了解。Clontech的熒光蛋白表達系統就是研究蛋白質在細胞內定位的一個很好的工具。
4.對人類而言，蛋白質組學的研究最終要服務於人類的健康，主要指促進分子醫學的發展。如尋找葯物的靶分子。很多葯物本身就是蛋白質，而很多葯物的靶分子也是蛋白質。葯物也可以干預蛋白質-蛋白質相互作用。
在基礎醫學和疾病機理研究中，了解人不同發育、生長期和不同生理、病理條件下及不同細胞類型的基因表達的特點具有特別重要的意義。這些研究可能找到直接與特定生理或病理狀態相關的分子，進一步為設計作用於特定靶分子的葯物奠定基礎。不同發育、生長期和不同生理、病理條件下不同的細胞類型的基因表達是不一致的，因此對蛋白質表達的研究應該精確到細胞甚至亞細胞水平。可以利用免疫組織化學技術達到這個目的，但該技術的致命缺點是通量低。激光捕獲顯微切割LCM(Laser Capture Microdissection)技術可以精確地從組織切片中取出研究者感興趣的細胞類型，因此LCM技術實際上是一種原位技術。取出的細胞用於蛋白質樣品的制備，結合抗體晶元或二維電泳-質譜的技術路線，可以對蛋白質的表達進行原位的高通量的研究。很多研究採用勻漿組織制備蛋白質樣品的技術路線，其研究結論值得懷疑，因為組織勻漿後不同細胞類型的蛋白質混雜在一起，最後得到的研究數據根本無法解釋蛋白質在每類細胞中的表達情況。雖然培養細胞可以得到單一類型細胞，但體外培養的細胞很難模擬體內細胞的環境，因此這樣研究得出的結論也很難用於解釋在體實際情況。因此在研究中首先應該將不同細胞類型分離，分離出來的不同類型細胞可以用於基因表達研究，包括mRNA和蛋白質的表達。
LCM技術獲得的細胞可以用於蛋白質樣品的制備。可以根據需要制備總蛋白，或膜蛋白，或核蛋白等，也可以富集糖蛋白，或通過去除白蛋白來減少蛋白質類型的復雜程度。相關試劑盒均有廠商提供。蛋白質樣品中的不同類型的蛋白質可以通過二維電泳進行分離。二維電泳可以將不同種類的蛋白質按照等電點和分子量差異進行高解析度的分離。成功的二維電泳可以將2000到3000種蛋白質進行分離。電泳後對膠進行高靈敏度的染色如銀染和熒光染色。如果是比較兩種樣品之間蛋白質表達的異同，可以在同樣條件下分別制備二者的蛋白質樣品，然後在同樣條件下進行二維電泳，染色後比較兩塊膠。也可以將二者的蛋白質樣品分別用不同的熒光染料標記，然後兩種蛋白質樣品在一塊膠上進行二維電泳的分離，最後通過熒光掃描技術分析結果。
膠染色後可以利用凝膠圖像分析系統成像，然後通過分析軟體對蛋白質點進行定量分析，並且對感興趣的蛋白質點進行定位。通過專門的蛋白質點切割系統，可以將蛋白質點所在的膠區域進行精確切割。接著對膠中蛋白質進行酶切消化，酶切後的消化物經脫鹽/濃縮處理後就可以通過點樣系統將蛋白質點樣到特定的材料的表面（MALDI-TOF）。最後這些蛋白質就可以在質譜系統中進行分析，從而得到蛋白質的定性數據;這些數據可以用於構建資料庫或和已有的資料庫進行比較分析。
LCM-二維電泳-質譜的技術路線是典型的一條蛋白質組學研究的技術路線，除此以外，LCM-抗體晶元也是一條重要的蛋白質組學研究的技術路線。即通過LCM技術獲得感興趣的細胞類型，制備細胞蛋白質樣品，蛋白質經熒光染料標記後和抗體晶元雜交，從而可以比較兩種樣品蛋白質表達的異同。Clontech最近開發了一張抗體晶元，可以對378種膜蛋白和胞漿蛋白進行分析。該晶元同時配合了抗體晶元的全部操作過程的重要試劑，包括蛋白質制備試劑，蛋白質的熒光染料標記試劑，標記體系的純化試劑，雜交試劑等。
對於蛋白質相互作用的研究，酵母雙雜交和噬菌體展示技術無疑是很好的研究方法。Clontech開發的酵母雙雜交系統和NEB公司開發的噬菌體展示技術可供研究者選用。
關於蛋白質組的研究，也可以將蛋白質組的部分或全部種類的蛋白質製作成蛋白質晶元，這樣的蛋白質晶元可以用於蛋白質相互作用研究，蛋白表達研究和小分子蛋白結合研究。 Science，Vol. 293，Issue 5537，2101-2105，September 14，2001發表了一篇關於酵母蛋白質組晶元的論文。該文主要研究內容為：將酵母的5800個ORF表達成蛋白質並進行純化點樣製作晶元，然後用該晶元篩選鈣調素和磷脂分子的相互作用分子。
最後有必要指出的是，傳統的蛋白質研究注重研究單一蛋白質，而蛋白質組學注重研究參與特定生理或病理狀態的所有的蛋白質種類及其與周圍環境(分子)的關系。因此蛋白質組學的研究通常是高通量的。適應這個要求，蛋白質組學相關研究工具通常都是高度自動化的系統，通量高而速度快，配合相應分析軟體和資料庫，研究者可以在最短的時間內處理最多的數據

2. 蛋白質組學數據分析基礎（一）

轉發自 http://crickcollege.com/news/238.html

質譜數據格式

話說，蛋白質質譜從十幾年前就形成了固定的數據結構和格式。現在常用的搜庫格式，比如mascot的mgf，從十年前就基本固定下來。

到目前為止，質譜界的數據格式因為儀器的不同，有幾個不同的大類：

Thermo公司的raw文件格式，這是目前用得最多的一種格式

AB公司的WIFF格式，

Bruker的yep/.fid

Waters的folder

Agilent的folder

Notes

MALDI MS目前應用越來越少，而且基本上不用於shotgun或者高通量研究。

這些數據格式的擴展名有一定的差別，且原始數據里包含的內容也有所不同。具體包含哪些重要的信息，稍後我們還會詳細講到。

結果報告的質控

數據分析，最終都是為了拿到一個可信的結果。所以，我們在講具體的分析原理之前，先得來聊聊，我們做一次高通量的蛋白質定性、定量實驗，以及搜庫鑒定及定量分析等步驟，對結果報告有哪些質控要求。

首先，我們做完實驗，在拿到下機數據的時候，大多數小夥伴們都會把數據放到各種搜庫軟體中，比如Mascot或者Thermo的Proteome Discoverer，導入原始數據，設定一些搜庫參數，就可以得到結果了。

但是，作為一個嚴謹的實驗方案設計來說，在分析的過程中，是需要對自己的數據有一個前期質控的，這樣可以幫助大家判斷數據分析結果的可靠性。所以說，基本的質控可以幫助我們對實驗結果進行一個預判。

舉個例子。

我們打開一個實驗的下機數據，就可以預判我們的樣品中是否發生了高分子塑料的PEG污染，有沒有超高豐度的蛋白，或者有沒有被嚴重的鹽類污染。這些數據都可以從原始數據的可視化視圖中看到。

不同的質譜軟體，打開原始數據的方式不同，但這些信息都是可見的。另外，當兩次實驗搜索到的蛋白數量差異比較大時，也可以從TIC圖來判斷其原因。此外還可以判斷分離的效率，以及是否出現噴霧中斷等情況。

對於蛋白鑒定的結果，或者絕大多數的搜庫演算法，都要求對結果進行FDR控制，以及unique peptide的控制等等。如果我們要發表這些數據，絕大多數的期刊雜志也都會要求提供這些質控的信息。

那麼，問題就來了，為什麼要做這樣的要求呢？

事實上，我們做好了質控，就能夠看到一個總的鑒定的比例。比如說像常規的定量實驗，用的最多的是iTRAQ。

舉個例子。

假設總蛋白數只有2446個，算是比較少的，而總的譜圖數是53萬張，那麼它的譜圖鑒定率在當前條件下是32%（有些質控軟體可以直接報告譜圖鑒定率，比如Scaffold），我們可以判斷當前的實驗並沒有出現重大的問題，鑒定率不高主要是因為存在高豐度蛋白，而這個後續可以進行詳細的查看。

對於定量實驗，不管我們使用的是SILAC，iTRAQ還是Label Free，都需要對定量結果進行准確性控制（詳細內容，後續課程還會展開講解）。一般來說，我們需要用相應的軟體和統計方法來進行質控。

經過這幾步的判斷之後，可以得到一個初步的結果，比如說譜圖數量是否和之前的結果差不多，質量精度及鑒定率如何，高豐度蛋白的存在與否，是否受污染，分離效率如何，定量是否准確，標記效率是否ok，等等，這些信息都可以得到。這樣，我們最終可以得到一個准確可靠的蛋白質組學鑒定或定量結果用於後續的分析了。

那麼，如何通過查看原始數據來進行初步質控呢？

首先，我們從原始數據出發，可以看到下圖（以Data-dependent-acquisiton數據依賴性掃描為例），是從色譜出來的一個LC分離得到的TIC圖，其中的信號採集都是在質譜中完成的，它其實就是將色譜逐漸通過噴霧的方式進入質譜的那些信號進行逐一的掃描，然後在其中挑選高強度的譜峰進行二級碎裂。

關於LC分離，以及TIC圖的詳細介紹，請參考上一節課的內容：

聽課筆記之蛋白質質譜的原理及使用（四）

下圖就是色譜離子流圖的某個瞬間。橫坐標是質荷比，縱坐標是信號強度。這個瞬間進入色譜的有這樣一些信號，信號強度最高的是質荷比為477.31的肽段，其他一些肽段也可以進行查看。

這是我們在打開質譜的下機數據所能看到的最直觀的結果。我們需要了解的是，這只是我們所有結果的某一個瞬間，某一個scan。這一個scan是否能夠反映整個結果的好壞是不確定的，所以後續我們需要進一步的展開。

對於質譜來說，在這一步會自動選擇其中一個比較強的峰，比如說477，它會進行一個動態的排除，這也是Data-dependent-acquisiton的一個重要參數。就是說，在多少秒之內，這么強的一個峰如果一直反復出現的話，那麼在後續的掃描過程中，我們不去再對它進行進行MS2碎裂了。

比如說如圖的477.31，我們質譜儀器記錄時發現前面已經對它做過二級碎裂了，那麼我們就有可能選擇另外一個比較弱的譜峰。比如552.80，將它進行二級碎裂。

我們再來看一眼二級譜峰，如下圖，就是對我們全長的進入質譜的肽段信息進行打碎，得到相應的B/Y離子，如下圖，這些在後面我們會進行詳細的講解。

DDA模式的工作原理

下圖是Thermo質譜的原理示意圖（由Thermo工程師提供）。這是QE的原理圖，我們先在綠色的范圍內進行一次full scan的mass掃描，然後判斷當前選擇的離子信號強度，以及在最近的幾十秒鍾之內是否對其進行掃描過。

如果沒有，那麼在緊接著的循環過程中，我們會對之前30秒之內（假設當前的儀器速度可以達到10個MS）沒有掃描過的最強的十個譜峰進行二級碎裂，那麼質譜就會依次將色譜推進來的噴霧中的肽段進行依次碎裂。

這就是DDA模式基本的原理。我們的數據也是根據這樣的一個過程來記錄的。

如果將剛才的掃描過程二維展開，可以得到下圖，看上去跟二維凝膠電泳圖很像吧？橫坐標是質荷比，縱坐標是保留時間，而剛才那張圖橫坐標是保留時間，縱坐標是強度（LC seperation圖），所以，此圖沒有質荷比信息。

我們知道，在進入full scan的MS掃描時是有質荷比信息的。所以簡單的講，上圖是將剛才的兩張圖的信息拼接，然後將整個下機數據所有的瞬間都進行了一個拼接，由於維度的限制，因此信號強度信息無法再展示了。

但在此圖中用了顏色的深淺來表示保留時間，顏色深的就是相對信號較強的肽段。而圖中的每一根小線段都代表一個肽段，小線段的長度對應著肽段的保留時間，加上橫坐標質荷比的信息，因此通過這張全局縱覽圖，就能夠看到我們這次實驗分離的效果如何，有沒有PEG、鹽、或者其它污染，有沒有噴霧中斷等情況發生，這些都能在這張圖中有一個大致的把握。

因此，這張圖對於我們進行數據質控非常有用。不同的軟體和儀器有不同的方法來提供這張圖。此次舉例用的圖是由Peaks軟體得來的。

我們可以在上圖中選定自己感興趣的部分，畫一個小方框，將方框中的內容進行打開放大，就得到了下圖我們存儲數據的結果形式了。這是在Qual Browser里打開我們的數據看到的結果。

其實這就是將我們的模擬圖轉換成數據信號，儲存在我們的Raw文件中，或者說進一步提取成MGF文件所用到的相關信息。

這里主要包含兩大類信息：MS1和MS2的信息，也就是full scan mass和二級碎裂的信息。這兩類信息的結構式是一模一樣的，都是包含質核比、強度值，以及相對信號強度。

比如說794.03譜峰，相對信號強度是100，也就是在這張譜圖中，這是最強的一個峰，信號強度是3558210.8。那麼對於我們質譜的搜索來說，一級信息和二級信息都是需要用到的，其中一級信息是首要的，也就是圖中MS1部分，是後續搜庫的關鍵信息。而二級譜圖的強度信息一般用於定量，也就是說如果不是做SILAC或者非標記定量，這些信息不是最重要的。

另外，第一欄的信息准確性也是非常重要的。比如圖上紅框內，我們可以得到的信息是，794.03和794.36強度大約差了1.5倍，後面的峰強度差了大約2倍，再看下紅框內四個數據的質荷比相差並不大，我們的質譜儀器因此會判斷這四個峰非常符合一個肽段的同位素分布（肽段同位素分段的性狀，後續將會講解）。

回到此圖，794.03應該是一個肽段，後面三個數據是同一個肽段，這就是我們進行precursor識別的原理。有些時候質譜會識別錯誤，認為紅框上一行的793.69更可能是同位素，這個就需要我們自己進行校正。

質譜在搜集信號的時候，會告訴我們794.03是一個母離子或者說是肽段的譜峰，因此在後續進行MS2碎裂的時候，會挑選這樣一個譜峰，以及在質譜中我們會設定相應的窗口去打碎它。因為僅僅設定一個非常小的窗口，可能信號不夠。我們會設計比如正負1.5個道爾頓的窗口，把這些信號全部採集進去進行二級碎裂得到二級信號。

現在高分辨質譜中，二級信號也會包含同位素信息，因此數據分析軟體需要對這些信息進行有效的處理。

大家可以看到，這樣一個例子中，軟體記錄的是794.03，但實際我們可以通過肉眼觀察，793.69跟794.03就只相差0.33~0.34，也是一個三電荷同位素的差值（1除以0.33是3，這就是質荷比中的Z的計算原理）。兩者分別的強度271萬和355萬差別也不是非常大，我們會判斷出793.69更可能是零同位素峰（如何判斷後面會再講解）。

我們進行後續數據提取和採集的時候，也就是用了這樣的信息來進行分析。我們記錄的一級質譜數據，以及二級質譜對應的列表，其中最重要的是m/z和intensity，在一級質譜數據中，強度並不用於蛋白鑒定的打分，但二級質譜數據中的強度值卻會被用於打分。

3. 上傳蛋白質到公共資料庫,獲得接收號怎麼操作

Gen Bank:美國洛斯阿拉莫斯國家實驗室1979年開始建立的基因庫,現在由國家生物信息中心(NCBI, 1988年成立)管理維護。 swiss-prot:最齊全的注釋精煉的蛋白序列資料庫，建立於1986年，1987年起由日內瓦大學(University of Geneva)醫學生物化學系和 EMBL 數據館(即現在的歐洲生物信息研究所EBI)共同維護。

4. 繼續一篇關於蛋白質組學的論文

字數可能有點超,你自己截取吧~~

分子生物學(molecular biology)
在分子水平上研究生命現象的科學。研究生物大分子(核酸、蛋白質)的結構、功能和生物合成等方面來闡明各種生命現象的本質。研究內容包括各種生命過程如光合作用、發育的分子機制、神經活動的機理、癌的發生等。
從分子水平研究生物大分子的結構與功能從而闡明生命現象本質的科學。自20世紀50年代以來，分子生物學是生物學的前沿與生長點，其主要研究領域包括蛋白質體系、蛋白質-核酸體系 (中心是分子遺傳學)和蛋白質-脂質體系（即生物膜）。
生物大分子，特別是蛋白質和核酸結構功能的研究，是分子生物學的基礎。現代化學和物理學理論、技術和方法的應用推動了生物大分子結構功能的研究，從而出現了近30年來分子生物學的蓬勃發展。分子生物學和生物化學及生物物理學關系十分密切，它們之間的主要區別在於：①生物化學和生物物理學是用化學的和物理學的方法研究在分子水平，細胞水平，整體水平乃至群體水平等不同層次上的生物學問題。而分子生物學則著重在分子（包括多分子體系）水平上研究生命活動的普遍規律；②在分子水平上，分子生物學著重研究的是大分子，主要是蛋白質，核酸，脂質體系以及部分多糖及其復合體系。而一些小分子物質在生物體內的轉化則屬生物化學的范圍；③分子生物學研究的主要目的是在分子水平上闡明整個生物界所共同具有的基本特徵，即生命現象的本質；而研究某一特定生物體或某一種生物體內的某一特定器官的物理、化學現象或變化，則屬於生物物理學或生物化學的范疇。
發展簡史結構分析和遺傳物質的研究在分子生物學的發展中作出了重要的貢獻。結構分析的中心內容是通過闡明生物分子的三維結構來解釋細胞的生理功能。1912年英國 W.H.布喇格和W.L.布喇格建立了X射線晶體學，成功地測定了一些相當復雜的分子以及蛋白質的結構。以後布喇格的學生W.T.阿斯特伯里和J.D.貝爾納又分別對毛發、肌肉等纖維蛋白以及胃蛋白酶、煙草花葉病毒等進行了初步的結構分析。他們的工作為後來生物大分子結晶學的形成和發展奠定了基礎。50年代是分子生物學作為一門獨立的分支學科脫穎而出並迅速發展的年代。首先是在蛋白質結構分析方面，1951年L.C.波林等提出了 α-螺旋結構，描述了蛋白質分子中肽鏈的一種構象。1955年F.桑格完成了胰島素的氨基酸序列的測定。接著 J.C.肯德魯和M.F.佩魯茨在X射線分析中應用重原子同晶置換技術和計算機技術分別於1957和1959年闡明了鯨肌紅蛋白和馬血紅蛋白的立體結構。1965年中國科學家合成了有生物活性的胰島素，首先實現了蛋白質的人工合成。
另一方面，M.德爾布呂克小組從1938年起選擇噬菌體為對象開始探索基因之謎。噬菌體感染寄主後半小時內就復制出幾百個同樣的子代噬菌體顆粒，因此是研究生物體自我復制的理想材料。1940年G.W.比德爾和E.L.塔特姆提出了「一個基因，一個酶」的假設，即基因的功能在於決定酶的結構，且一個基因僅決定一個酶的結構。但在當時基因的本質並不清楚。1944年O.T.埃弗里等研究細菌中的轉化現象，證明了DNA是遺傳物質。1953年J.D.沃森和F.H.C.克里克提出了DNA的雙螺旋結構，開創了分子生物學的新紀元。在此基礎上提出的中心法則，描述了遺傳信息從基因到蛋白質結構的流動。遺傳密碼的闡明則揭示了生物體內遺傳信息的貯存方式。1961年F.雅各布和J.莫諾提出了操縱子的概念，解釋了原核基因表達的調控。到20世紀60年代中期，關於DNA自我復制和轉錄生成RNA的一般性質已基本清楚，基因的奧秘也隨之而開始解開了。
僅僅30年左右的時間，分子生物學經歷了從大膽的科學假說，到經過大量的實驗研究，從而建立了本學科的理論基礎。進入70年代，由於重組DNA研究的突破，基因工程已經在實際應用中開花結果，根據人的意願改造蛋白質結構的蛋白質工程也已經成為現實。
基本內容蛋白質體系蛋白質的結構單位是α-氨基酸。常見的氨基酸共20種。它們以不同的順序排列可以為生命世界提供天文數字的各種各樣的蛋白質。
蛋白質分子結構的組織形式可分為 4個主要的層次。一級結構，也叫化學結構，是分子中氨基酸的排列順序。首尾相連的氨基酸通過氨基與羧基的縮合形成鏈狀結構，稱為肽鏈。肽鏈主鏈原子的局部空間排列為二級結構。二級結構在空間的各種盤繞和捲曲為三級結構。有些蛋白質分子是由相同的或不同的亞單位組裝成的，亞單位間的相互關系叫四級結構。
蛋白質的特殊性質和生理功能與其分子的特定結構有著密切的關系，這是形形色色的蛋白質所以能表現出豐富多彩的生命活動的分子基礎。研究蛋白質的結構與功能的關系是分子生物學研究的一個重要內容。
隨著結構分析技術的發展，現在已有幾千個蛋白質的化學結構和幾百個蛋白質的立體結構得到了闡明。70年代末以來，採用測定互補DNA順序反推蛋白質化學結構的方法，不僅提高了分析效率，而且使一些氨基酸序列分析條件不易得到滿足的蛋白質化學結構分析得以實現。
發現和鑒定具有新功能的蛋白質，仍是蛋白質研究的內容。例如與基因調控和高級神經活動有關的蛋白質的研究現在很受重視。
蛋白質－核酸體系生物體的遺傳特徵主要由核酸決定。絕大多數生物的基因都由 DNA構成。簡單的病毒，如λ噬菌體的基因組是由 46000個核苷酸按一定順序組成的一條雙股DNA（由於是雙股DNA，通常以鹼基對計算其長度）。細菌，如大腸桿菌的基因組，含4×106鹼基對。人體細胞染色體上所含DNA為3×109鹼基對。
遺傳信息要在子代的生命活動中表現出來，需要通過復制、轉錄和轉譯。復制是以親代 DNA為模板合成子代 DNA分子。轉錄是根據DNA的核苷酸序列決定一類RNA分子中的核苷酸序列；後者又進一步決定蛋白質分子中氨基酸的序列，就是轉譯。因為這一類RNA起著信息傳遞作用，故稱信使核糖核酸(mRNA)。由於構成RNA的核苷酸是4種，而蛋白質中卻有20種氨基酸，它們的對應關系是由mRNA分子中以一定順序相連的 3個核苷酸來決定一種氨基酸，這就是三聯體遺傳密碼。
基因在表達其性狀的過程中貫串著核酸與核酸、核酸與蛋白質的相互作用。DNA復制時，雙股螺旋在解旋酶的作用下被拆開，然後DNA聚合酶以親代DNA鏈為模板，復制出子代 DNA鏈。轉錄是在 RNA聚合酶的催化下完成的。轉譯的場所核糖核蛋白體是核酸和蛋白質的復合體，根據mRNA的編碼，在酶的催化下，把氨基酸連接成完整的肽鏈。基因表達的調節控制也是通過生物大分子的相互作用而實現的。如大腸桿菌乳糖操縱子上的操縱基因通過與阻遏蛋白的相互作用控制基因的開關。真核細胞染色質所含的非組蛋白在轉錄的調控中具有特殊作用。正常情況下，真核細胞中僅2～15％基因被表達。這種選擇性的轉錄與轉譯是細胞分化的基礎。
蛋白質－脂質體系生物體內普遍存在的膜結構，統稱為生物膜。它包括細胞外周膜和細胞內具有各種特定功能的細胞器膜。從化學組成看，生物膜是由脂質和蛋白質通過非共價鍵構成的體系。很多膜還含少量糖類，以糖蛋白或糖脂形式存在。
1972年提出的流動鑲嵌模型概括了生物膜的基本特徵：其基本骨架是脂雙層結構。膜蛋白分為表在蛋白質和嵌入蛋白質。膜脂和膜蛋白均處於不停的運動狀態。
生物膜在結構與功能上都具有兩側不對稱性。以物質傳送為例，某些物質能以很高速度通過膜，另一些則不能。象海帶能從海水中把碘濃縮 3萬倍。生物膜的選擇性通透使細胞內pH和離子組成相對穩定，保持了產生神經、肌肉興奮所必需的離子梯度，保證了細胞濃縮營養物和排除廢物的功能。
生物體的能量轉換主要在膜上進行。生物體取得能量的方式，或是像植物那樣利用太陽能在葉綠體膜上進行光合磷酸化反應；或是像動物那樣利用食物在線粒體膜上進行氧化磷酸化反應。這二者能量來源雖不同，但基本過程非常相似，最後都合成腺苷三磷酸。對於這兩種能量轉換的機制，P.米切爾提出的化學滲透學說得到了越來越多的證據。生物體利用食物氧化所釋放能量的效率可達70％左右，而從煤或石油的燃燒獲取能量的效率通常為20～40％，所以生物力能學的研究很受重視。對生物膜能量轉換的深入了解和模擬將會對人類更有效地利用能量作出貢獻。
生物膜的另一重要功能是細胞間或細胞膜內外的信息傳遞。在細胞表面，廣泛地存在著一類稱為受體的蛋白質。激素和葯物的作用都需通過與受體分子的特異性結合而實現。癌變細胞表面受體物質的分布有明顯變化。細胞膜的表面性質還對細胞分裂繁殖有重要的調節作用。
對細胞表面性質的研究帶動了糖類的研究。糖蛋白、蛋白聚糖和糖脂等生物大分子結構與功能的研究越來越受到重視。從發展趨勢看，寡糖與蛋白質或脂質形成的體系將成為分子生物學研究的一個新的重要的領域。
理論意義和應用分子生物學的成就說明：生命活動的根本規律在形形色色的生物體中都是統一的。例如，不論在何種生物體中，都由同樣的氨基酸和核苷酸分別組成其蛋白質和核酸。遺傳物質，除某些病毒外，都是DNA，並且在所有的細胞中都以同樣的生化機制進行復制。分子遺傳學的中心法則和遺傳密碼，除個別例外，在絕大多數情況下也都是通用的。
物理學的成就證明，一切物質的原子都由為數不多的基本粒子根據相同的規律所組成，說明了物質世界結構上的高度一致，揭示了物質世界的本質，從而帶動了整個物理學科的發展。分子生物學則在分子水平上揭示了生命世界的基本結構和生命活動的根本規律的高度一致，揭示了生命現象的本質。和過去基本粒子的研究帶動物理學的發展一樣，分子生物學的概念和觀點也已經滲入到基礎和應用生物學的每一個分支領域，帶動了整個生物學的發展，使之提高到一個嶄新的水平。
過去生物進化的研究，主要依靠對不同種屬間形態和解剖方面的比較來決定親緣關系。隨著蛋白質和核酸結構測定方法的進展，比較不同種屬的蛋白質或核酸的化學結構，即可根據差異的程度，來斷定它們的親緣關系。由此得出的系統進化樹，與用經典方法得到的是基本符合的。採用分子生物學的方法研究分類與進化有特別的優越性。首先，構成生物體的基本生物大分子的結構反映了生命活動中更為本質的方面。其次，根據結構上的差異程度可以對親緣關系給出一個定量的，因而也是更准確的概念。第三，對於形態結構非常簡單的微生物的進化，則只有用這種方法才能得到可靠結果。
高等動物的高級神經活動是極其復雜的生命現象，過去多是在細胞乃至整體水平上研究，近年來深入到分子水平研究的結果充分說明高級神經活動也同樣是以生物大分子的活動為基礎的。例如，在高等動物學習與記憶的過程中，大腦中RNA和蛋白質的組成發生明顯的變化，並且一些影響生物體合成蛋白質的葯物也顯著地影響學習與記憶的能力。又如，「生物鍾」是一種熟知的生物現象。用雞進行的實驗發現，有一種重要的神經傳遞介質（5-羥色胺）和一種激素（褪黑激素）以及控制它們變化的一種酶，在雞腦中的含量呈24小時的周期性變化。正是這種變化構成了雞的「生物鍾」的物質基礎。
在應用方面，生物膜能量轉換原理的闡明，將有助於解決全球性的能源問題。了解酶的催化原理就能更有針對性地進行酶的人工模擬，設計出化學工業上廣泛使用的新催化劑，從而給化學工業帶來一場革命。
分子生物學在生物工程技術中也起了巨大的作用，1973年重組DNA技術的成功，為基因工程的發展鋪平了道路。80年代以來，已經採用基因工程技術，把高等動物的一些基因引入單細胞生物，用發酵方法生產干擾素、多種多肽激素和疫苗等。基因工程的進一步發展將為定向培育動、植物和微生物良種以及有效地控制和治療一些人類遺傳性疾病提供根本性的解決途徑。
從基因調控的角度研究細胞癌變也已經取得不少進展。分子生物學將為人類最終征服癌症做出重要的貢獻。
[編輯本段]分子生物學的應用
1，親子鑒定
近幾年來，人類基因組研究的進展日新月異，而分子生物學技術也不斷完善，隨著基因組研究向各學科的不斷滲透，這些學科的進展達到了前所未有的高度。在法醫學上，STR位點和單核苷酸（SNP）位點檢測分別是第二代、第三代DNA分析技術的核心，是繼RFLPs（限制性片段長度多態性）VNTRs（可變數量串聯重復序列多態性）研究而發展起來的檢測技術。作為最前沿的刑事生物技術，DNA分析為法醫物證檢驗提供了科學、可靠和快捷的手段，使物證鑒定從個體排除過渡到了可以作同一認定的水平，DNA檢驗能直接認定犯罪、為兇殺案、強奸殺人案、碎屍案、強奸致孕案等重大疑難案件的偵破提供准確可靠的依據。隨著DNA技術的發展和應用，DNA標志系統的檢測將成為破案的重要手段和途徑。此方法作為親子鑒定已經是非常成熟的，也是國際上公認的最好的一種方法。
參考資料：http://ke..com/view/2461.htm

蛋白質質譜分析研究進展

摘要：隨著科學的不斷發展，運用質譜法進行蛋白質的分析日益增多，本文簡要綜述了肽和蛋白質等生物大分子質譜分析的特點、方法及蛋白質質譜分析的原理、方式和應用，並對其發展前景作出展望。

關鍵詞：蛋白質，質譜分析，應用

前言：
蛋白質是生物體中含量最高，功能最重要的生物大分子，存在於所有生物細胞，約占細胞干質量的50%以上，作為生命的物質基礎之一，蛋白質在催化生命體內各種反應進行、調節代謝、抵禦外來物質入侵及控制遺傳信息等方面都起著至關重要的作用，因此蛋白質也是生命科學中極為重要的研究對象。關於蛋白質的分析研究，一直是化學家及生物學家極為關注的問題，其研究的內容主要包括分子量測定，氨基酸鑒定，蛋白質序列分析及立體化學分析等。隨著生命科學的發展，儀器分析手段的更新，尤其是質譜分析技術的不斷成熟，使這一領域的研究發展迅速。
自約翰.芬恩(JohnB.Fenn)和田中耕一(Koichi.Tanaka)發明了對生物大分子進行確認和結構分析的方法及發明了對生物大分子的質譜分析法以來，隨著生命科學及生物技術的迅速發展，生物質譜目前已成為有機質譜中最活躍、最富生命力的前沿研究領域之一[1]。它的發展強有力地推動了人類基因組計劃及其後基因組計劃的提前完成和有力實施。質譜法已成為研究生物大分子特別是蛋白質研究的主要支撐技術之一，在對蛋白質結構分析的研究中占據了重要地位[2]。
1．質譜分析的特點
質譜分析用於蛋白質等生物活性分子的研究具有如下優點：很高的靈敏度能為亞微克級試樣提供信息，能最有效地與色譜聯用，適用於復雜體系中痕量物質的鑒定或結構測定，同時具有準確性、易操作性、快速性及很好的普適性。
2．質譜分析的方法
近年來涌現出較成功地用於生物大分子質譜分析的軟電離技術主要有下列幾種：1)電噴霧電離質譜；2)基質輔助激光解吸電離質譜；3)快原子轟擊質譜；4)離子噴霧電離質譜；5)大氣壓電離質譜。在這些軟電離技術中，以前面三種近年來研究得最多，應用得也最廣泛[3]。
3．蛋白質的質譜分析
蛋自質是一條或多條肽鏈以特殊方式組合的生物大分子，復雜結構主要包括以肽鏈為基礎的肽鏈線型序列[稱為一級結構]及由肽鏈捲曲折疊而形成三維[稱為二級，三級或四級]結構。目前質譜主要測定蛋自質一級結構包括分子量、肽鏈氨基酸排序及多肽或二硫鍵數目和位置。
3.1蛋白質的質譜分析原理
以往質譜(MS)僅用於小分子揮發物質的分析，由於新的離子化技術的出現，如介質輔助的激光解析/離子化、電噴霧離子化，各種新的質譜技術開始用於生物大分子的分析。其原理是：通過電離源將蛋白質分子轉化為氣相離子，然後利用質譜分析儀的電場、磁場將具有特定質量與電荷比值(M/Z值)的蛋白質離子分離開來，經過離子檢測器收集分離的離子，確定離子的M/Z值，分析鑒定未知蛋白質。
3.2蛋白質和肽的序列分析
現代研究結果發現越來越多的小肽同蛋白質一樣具有生物功能，建立具有特殊、高效的生物功能肽的肽庫是現在的研究熱點之一。因此需要高效率、高靈敏度的肽和蛋白質序列測定方法支持這些研究的進行。現有的肽和蛋白質測序方法包括N末端序列測定的化學方法Edman法、C末端酶解方法、C末端化學降解法等，這些方法都存在一些缺陷。例如作為肽和蛋白質序列測定標准方法的N末端氨基酸苯異硫氰酸酯(phenylisothiocyanate)PITC分析法(即Edman法，又稱PTH法)，測序速度較慢(50個氨基酸殘基/天)；樣品用量較大(nmol級或幾十pmol級)；對樣品純度要求很高；對於修飾氨基酸殘基往往會錯誤識別，而對N末端保護的肽鏈則無法測序[4]。C末端化學降解測序法則由於無法找到PITC這樣理想的化學探針，其發展仍面臨著很大的困難。在這種背景下，質譜由於很高的靈敏度、准確性、易操作性、快速性及很好的普適性而倍受科學家的廣泛注意。在質譜測序中，靈敏度及准確性隨分子量增大有明顯降低，所以肽的序列分析比蛋白容易許多，許多研究也都是以肽作為分析對象進行的。近年來隨著電噴霧電離質譜(electrospray ionisation，ESI)及基質輔助激光解吸質譜(matrix assisted laser desorption/ionization，MALDI)等質譜軟電離技術的發展與完善，極性肽分子的分析成為可能，檢測限下降到fmol級別，可測定分子量范圍則高達100000Da，目前基質輔助的激光解吸電離飛行時間質譜法(MALDI TOF MS)已成為測定生物大分子尤其是蛋白質、多肽分子量和一級結構的有效工具，也是當今生命科學領域中重大課題——蛋白質組研究所必不可缺的關鍵技術之一 [5] 。目前在歐洲分子生物實驗室(EMBL)及美國、瑞士等國的一些高校已建立了MALDI TOF MS蛋白質一級結構(序列)譜庫，能為解析FAST譜圖提供極大的幫助，並為確證分析結果提供可靠的依據[6]。
蛋白質質譜分析研究進展來自: 免費論文網www.shu1000.com
3.3蛋白質的質譜分析方式
質譜用於肽和蛋白質的序列測定主要可以分為三種方法：一種方法叫蛋白圖譜(proteinmapping)，即用特異性的酶解或化學水解的方法將蛋白切成小的片段，然後用質譜檢測各產物肽分子量，將所得到的肽譜數據輸入資料庫，搜索與之相對應的已知蛋白，從而獲取待測蛋白序列。將蛋白質繪制「肽圖」是一重要測列方法。第二種方法是利用待測分子在電離及飛行過程中產生的亞穩離子，通過分析相鄰同組類型峰的質量差，識別相應的氨基酸殘基，其中亞穩離子碎裂包括「自身」碎裂及外界作用誘導碎裂.第三種方法與Edman法有相似之處，即用化學探針或酶解使蛋白或肽從N端或C端逐一降解下氨基酸殘基，形成相互間差一個氨基酸殘基的系列肽，名為梯狀測序(laddersequencing)，經質譜檢測，由相鄰峰的質量差知道相應氨基酸殘基。
3.3.1蛋白消化
蛋白的基團越大，質譜檢測的准確率越低。因此，在質譜檢測之前，須將蛋白消化成小分子的多肽，以提高質譜檢測的准確率。一般而言，6-20個氨基酸的多肽最適合質譜儀的檢測。現今最常用的酶為胰蛋白酶(trypsin)，它於蛋白的賴氨酸(lysine)和精氨酸(arginine)處將其切斷。因此，同一蛋白經胰蛋白酶消化後，會產生相同的多肽。
3.3.2基質輔助激光解吸電離/飛行時間質譜測量法(MALDI-TOF MS) [7]
簡而言之，基質輔助激光解吸電離/飛行時間質譜測量儀是將多肽成分轉換成離子信號，並依據質量/電荷之比(mass/charge，m/z)來對該多肽進行分析，以判斷該多肽源自哪一個蛋白。待檢樣品與含有在特定波長下吸光的發光團的化學基質(matrix)混合，此樣品混合物隨即滴於一平板或載玻片上進行揮發，樣品混合物殘余水份和溶劑的揮發使樣品整合於格狀晶體中，樣品然後置於激光離子發生器(lasersource)。激光作用於樣品混合物，使化學基質吸收光子而被激活。此激活產生的能量作用於多肽，使之由固態樣品混合物變成氣態。由於多肽分子傾向於吸收單一光子，故多肽離子帶單一電荷.這些形成的多肽離子直接進入飛行時間質量分析儀(TOFmassanalyzer)。飛行時間質量分析儀用於測量多肽離子由分析儀的一端飛抵另一端探測器所需要的時間。而此飛行時間同多肽離子的質量/電荷的比值成反比，即質量/電荷之比越高，飛行時間越短。最後，由電腦軟體將探測器錄得的多肽質量/電荷比值同資料庫中不同蛋白經蛋白酶消化後所形成的特定多肽的質量/電荷比值進行比較，以鑒定該多肽源自何種蛋白.此法稱為多肽質量指紋分析(peptidemassfin-gerprinting)。基質輔助激光解吸電離/飛行時間質譜測量法操作簡便，敏感度高，同許多蛋白分離方法相匹配，而且，現有資料庫中有充足的關於多肽質量/電荷比值的數據，因此成為許多實驗室的首選蛋白質譜鑒定方法。
3.3.3電子噴霧電離質譜測量法(electrosprayion-izationmassspectrometry,ESI-MS)[8 ]
同基質輔助激光解吸電離/飛行時間質譜測量法在固態下完成不同，電子噴霧電離質譜測量法是在液態下完成，而且多肽離子帶有多個電荷，由高效液相層析等方法分離的液體多肽混合物，在高壓下經過一細針孔。當樣本由針孔射出時，噴射成霧狀的細小液滴，這些細小液滴包含多肽離子及水份等其他雜質成分。去除這些雜質成分後，多肽離子進入連續質量分析儀(tan- demmassanalyzer)，連續質量分析儀選取某一特定質量/電荷比值的多肽離子，並以碰撞解離的方式將多肽離子碎裂成不同電離或非電離片段。隨後，依質量/電荷比值對電離片段進行分析並匯集成離子譜(ionspectrum)，通過資料庫檢索，由這些離子譜得到該多肽的氨基酸序列。依據氨基酸序列進行的蛋白鑒定較依據多肽質量指紋進行的蛋白鑒定更准確、可靠。而且，氨基酸序列信息即可通過蛋白氨基酸序列資料庫檢索，也可通過核糖核酸資料庫檢索來進行蛋白鑒定。
蛋白質質譜分析研究進展來自: 免費論文網www.shu1000.com
4．蛋白質質譜分析的應用
1981年首先採用FAB雙聚焦質譜測定肽分子量，分析十一肽(Mr=1318)，質譜中出現準分子離子[M+1]+=1319強峰。分子量小於6kDa肽或小蛋白質合適用FAB質譜分析，更大分子量的多肽和蛋自質可用MALDI質譜或ESI質譜分析。用MALDI-TOF質譜分析蛋自質最早一例是Hillen Kramp等[9]於1988年提出用紫外激光以煙酸為基質在TOF譜儀上測出質量數高達60kDa蛋白質，精確度開始只有0.5%，後改進到0.1-0.2%。質譜技術主要用於檢測雙向凝膠電泳或「雙向」高效柱層析分離所得的蛋白質及酶解所得的多肽的質量，也可用於蛋白質高級結構及蛋白質間相互作用等方面的研究[10,11],三條肽段的精確質量數便可鑒定蛋白質。近年來，串聯質譜分析儀發展迅猛，其數據採集方面的自動化程度、檢測的敏感性及效率都大大提高，大規模資料庫和一些分析軟體(如:SEQUEST)的應用使得串聯質譜分析儀可以進行更大規模的測序工作。目前，利用2D電泳及MS技術對整個酵母細胞裂解產物進行分析，已經鑒定出1484種蛋白質，包括完整的膜蛋白和低豐度的蛋白質[12]；分析肝細胞癌患者血清蛋白質組成分[13]，並利用質譜進行鑒定磷酸化蛋白研究工作[14]及採用質譜技術研究許旺細胞源神經營養蛋白(SDNP)的分子結構[15]等。
結束語：
在蛋白質的質譜分析中，質譜的准確性(accuracy)對測定結果有很大影響，因此質譜測序現在仍很難被應用於未知蛋白的序列測定。肽和蛋白的質譜序列測定方法具有快速、用量少、易操作等優點，這些都非常適合於現在科學研究的需要。我們相信，隨著各種衍生化方法和酶解方法的不斷改進，蛋白雙向電泳的應用[16]以及質譜技術的不斷完善，質譜將會成為多肽和蛋白質分析最有威力的工具之一。

5. 牟合生物的蛋白質組測序做的怎麼樣

據我所知，該公司主要從事大規模數據關聯分析篩選生物標志物，並進行相應檢測技術轉化：

技術上講：定量蛋白質組學通過同位素標記和質譜完成原始數據採集。難度並不大，結果好壞更多在於公司是否厚道。標記少點，少打幾針你就慘了！
分析上講：普通的蛋白質組學信息分析有成熟的軟體，個性化的分析主要看提出的分析要求是否被接受（看厚道），關聯分析需要經驗基礎！
周期上講：這一條反而最重要，很多平台都置這條誠信於不顧，耽誤事！

牟合至少以上3點都做到了，還行！

6. 1. 蛋白質組學研究方法概述（上）

說明：此篇筆記系2016-2017年由克里克學院與康昱盛主辦的蛋白質組學網路大課堂整理而成，侵刪。該課程由上海交通大學系統生物醫學研究院助理研究員庫鑫博士所授。

大夥兒都知道，蛋白質組學（proteomics），是研究一種細胞或者一種生物體所表達的全部蛋白質。雖說現在基因組測序火得一塌糊塗，但是，我們不要忽略了，蛋白質才是執行生命體功能的基本單元，而且蛋白質都是通過形成各種復合物，組成通路網路，去行使各種生物學功能的！所以，有很多生物學問題只能在蛋白質層面上去研究去探索，而且需要站在系統的層面去考察，比如說：蛋白-蛋白相互作用、蛋白的細胞定位、翻譯後修飾、信號通路及代謝通路的調控和功能等。這就是為啥蛋白質組學如此重要啦！

既然重要，科學家們自然是想盡辦法來研究了！最開始使用的技術就是傳說中的雙向凝膠電泳（2-DE），由於解析度低、蛋白質重疊等各種問題，無論是通量還是准確度，都不盡如人意。當質譜技術興起以後，就迅速被替代了。

說起質譜技術的誕生，估計很多小夥伴都聽過那個著名的diao絲逆襲的段子，講的就是2002年諾貝爾化學獎得主田中耕一，作為蛋白質譜發明人之一，由於一個不小心在實驗時錯加了甘油，結果神奇地將質譜技術引入到鑒定生物大分子的應用領域。想想，大到整個人類的科技發展史，小到每個個體的人生，都充滿了多少不可思議~

當質譜技術與蛋白質組學碰到了一起，真是天雷引了地火，產生出強烈的化學反應，迅速引爆整個學科的發展！也就十幾年的時間吧，蛋白質組學的研究目標從細胞模型、動物模型，到人的體液、組織等人體樣本，應用范圍的生物復雜度越來越高。研究目的呢，也從最初的肽段序列推導，到多肽和蛋白質的定性定量分析，翻譯後修飾，再到如今成為新熱點的靶向蛋白質組學，總之，勢不可擋啊！

說到靶向蛋白質組學，咱們都知道，一直以來蛋白質組學的應用領域主要是針對基礎生物學，比如研究通路、蛋白復合物、互作網路，表徵細胞和組織的類型，觀察細胞周期內蛋白質的表達等。近年來，由於技術的飛速發展，蛋白質組學開始被用於醫學研究和葯物研究。比如說葯物研究，國內可能用得還不多，但在歐美已經開始越來越廣泛。以肝毒性為例，蛋白質組學可以為葯物研發前期的肝毒性評估提供研究手段。

那麼，怎麼將蛋白質組學應用到臨床及葯物研發中呢？就是需要靶向蛋白質組學技術了！以前，蛋白質組學技術主要用於發現新的未知物，比如肽段、蛋白復合物、蛋白的翻譯後修飾等。這部分的應用很廣，技術門檻比較低，方法比較通用。但問題是，這種方法思路沒辦法應對大量的臨床樣本，可重復性和准確性達不到要求。

於是，靶向分析開始興起，就是說，分析之前我們就明確知道需要分析的物質是什麼，然後把它挑出來，進行一個精確的定量和分析！我們不需要一次性驗證成千上萬的蛋白，但我們需要在成百上午的樣本中驗證十幾種或者幾十種我們關心的蛋白質，而且這些蛋白質常常都是濃度很低的蛋白，用傳統的方法基本上只有被遺漏的命（後面我會詳細講為什麼會遺漏）。有了靶向技術，對於研究臨床診斷的生物標志物，就有了更大的可能和更強的支撐了！

那麼接下來，根據老師講課的思路，我就從定性檢測、定量檢測和靶向蛋白質組學三個方面來分享下聽課的收獲。

無論是定性還是定量檢測，樣品制備是跑不掉的准備工作。用於質譜的蛋白質樣品，來源非常廣泛，只要你是包含了蛋白質的東西，都可以作為來源。對於復雜的樣品，比如人體體液或組織樣本，蛋白質的提取及去高峰度，常常需要復雜的精細的處理，而且處理流程根據樣本和研究目的的不同而不同。這部分內容呢，第二講「樣品前處理」會詳扒，感興趣的小夥伴可以期待我的下一篇聽課筆記吧~

話說，蛋白質的定性檢測有兩種思路：Bottom-up和Top down。Top down是指從一個完整的蛋白出發，在質譜中進行碎片化處理，通過對碎片分子的檢測，推導出蛋白的序列。而在使用中真正占絕大多數是Bottom-up方法，也就是我們常說的shotgun方法，它充分利用了蛋白質自身的特點：可以被特定的酶在特定的位點切斷。基本思路是，先用蛋白酶把蛋白序列進行酶切，再針對酶切後的肽段進行鑒定，所以進入質譜的檢測對象永遠是肽段，再根據肽段序列再推導出蛋白序列。

1. 樣本處理 ：拿到蛋白來源的各種樣本，進行前處理和優化。

2. 蛋白分離 ：根據研究需要，用凝膠分離，提取所需的蛋白，或者不分離，全部拿來檢測，需要注意去雜質；

3. 酶切 ：用序列特異性的酶，對蛋白進行酶切；

4. 肽段分離 ：酶切後的肽段進入HPLC（高壓液相色譜），這也就是我們常說的LC-MS中的LC，肽段會因為在色譜柱填料上的保留時間的不同，得到預分離；

5. 電離 ：分離後的肽段，加電壓使其離子化（ESI）；或者用MALDI基質輔助的激光解離，就不需要HPLC的過程；

6. 質譜解析 ：將帶上電荷的肽段送入質譜，肽段會在磁場中發生偏轉（質譜儀的基本原理），在質譜里收集信號，得到譜圖。

7. 搜庫 ：用搜索軟體對質譜圖進行自動化的分析，得到肽段及蛋白序列信息。

換個角度，對Shotgun方法的流程，我們可以這樣來總結：

這裡面最關鍵的一個指標，我們叫Peptide-Spectrum matching（PSM），就是指譜圖與肽段的匹配。匹配得越好，則反推出的蛋白就越准確。這個匹配的過程，也就是我們常說的搜庫。那麼接下來我就來分享一下從課程中學習到的搜庫背景知識、搜庫工具和演算法，以及對搜索結果的評估。

質譜，聽上去很高大上，無論有多貴重，都是由三部分組成的：離子源+質量分析器+檢測器。

一台質譜可以不止一個離子源＼分析器＼檢測器，可以把幾種串聯起來，針對不同分析需要來使用。

離子源

我們先來說說離子源。蛋白質譜所使用的ESI（Electrospray ionization）電噴霧離子化，對蛋白質組學來說是一個標志性的發明！因為是直接從液相進行離子化，使它與LC（液相色譜）的聯用變得更加容易了，我們可以先用LC將非常復雜的肽段混合物進行預分離，減少每次分析物的復雜度，然後分離的肽段可以直接進入ESI，形成電離噴霧。

那麼，ESI噴霧是怎麼形成的呢？簡單來說，分離柱前端有一個小開口，被分析物根據質量及電荷的不同，依次通過前端的小開口。小開口處加了電壓，剛開始，靜電力與表面張力相同，當加大靜電力使它大於表面張力的時候，液膜破裂，形成無數帶電的小液滴，就形成噴霧了。像現在比較新的nanoESI技術，LC的流速就更加慢，離子化的效果也更好。覺得以上描述還不夠形象的童鞋，直接看圖吧：

質量分析器

說完了離子源，接下來我們來說質量分析器，這是質譜儀里最重要的一部分。我們通常聽到的各種質譜儀的名字，就是根據質量分析器的類型來命名的。我們樣品中各組分在離子源中發生電離，並經加速電場的作用後，形成離子束，進入質量分析器中。質量分析器將帶電離子根據其質荷比加以分離，記錄各種離子的質量數和豐度，用於後續定性與定量的分析。

質量分析器有兩個主要的技術參數：質量范圍和解析度。質量范圍是指是所能測定的質荷比的范圍，它決定了咱們能檢測到的離子的范圍。比如，ESI離子源能產生許多m/z大於3000的離子，如果你選的質量分析器的上限達不到3000，那麼3000以上的離子你就檢測不出來了。

然而，另一個更為重要的指標，就是質量分析器的解析度！先上個公式描述：

解析度=觀測的一個質譜峰的質荷比/半峰高處的峰寬（FWHM）

啥意思呢？比如下圖中最左邊的那個峰，它的質荷比是1,085.55，峰高一半的地方的峰寬值是0.217，於是：

解析度=1,085.55/0.217=5,000

如果這么講還是不太明白，那你可以簡單理解為，質譜解析度越高，我們將得到越尖越細的譜峰。你可能會問：譜峰又尖又細的好處是什麼？這是個好問題！事實上，解析度可以表徵兩個相鄰的譜峰在質譜中被區分開的能力。大家通過下圖感受一下不同解析度的質譜儀能給我們多麼不同的譜峰圖。

圖中以Glucagon（胰高血糖素）為例，展示了不同解析度的質譜儀給出的譜峰。當解析度是1000時，只能看一個很寬的峰（藍色）；解析度增加到3000時，峰窄一些（紅色），但還感受不到明顯的差別；當提高到10000時，很明顯能看到，其實這里包含了8個峰（綠色）；再提高到30000的時候，半峰寬更窄，兩個相鄰的峰可以徹底地被分開（黑色）。顯然，我們在解析度為1000或3000，不能准確的檢測被分析肽段的精確分子量，從而導致譜圖無法匹配或者發生錯配。

不同的質量分析器有不同的解析度，通常的順序是：傅里葉變換質譜解析度最高，但造價太貴；其次是Orbitrap（軌道阱系列），解析度遠遠高於其它質譜；再次是TOF（時間飛行質譜）；然後是離子阱（Ion Trap）；最後是四級桿質譜（Quadrupole）。

這里我多說一句，解析度高固然好，但價格肯定就貴，選擇質譜儀的時候要根據咱們自己的研究目的以及預算范圍啦！

二級質譜

然而，要對肽段進行鑒定，一級質譜顯然是辦不到的，我們沒法根據肽段離子m/z的值就推斷出這個肽段由哪些氨基酸殘基組成（可能的組合非常多），以及序列順序是怎麼樣的，對吧？所以，鑒定肽段還需要二級質譜。

什麼是二級質譜呢？簡單來說，肽段混合物通過一級質譜得到了一級譜圖，然後從中選擇一個肽段，通過一些方法，比如，與隨性氣體進行碰撞，把肽段碰碎，得到碎片離子，再形成二級譜圖。我們通過觀察碎片離子的質量分布來推斷肽斷的殘基組成，最後再反推出蛋白質是什麼。上個圖，幫助大家理解一下二級質譜是怎麼來的。

在上一段，我提到是從一級質譜中「選擇」一個肽段進入二級質譜。這里看似講得雲淡風輕，事實上怎麼選卻是一個很關鍵的問題！通常選擇的方法我們可以叫做「TOP」法（這是我自己起的名字），比如TOP15就是指從一級譜里選前15個高度的峰，每一次分離一個肽段，然後對這個肽段進行掃描，得到二級譜圖。

大家發現了沒有？如果一個肽段在一級譜圖中沒有進入TOP15，那它連打二級譜圖的資格都沒有！原來質譜的世界競爭也是如何殘酷！二級質譜能掃描哪些肽段是由一級質譜決定的，所以我們將這種方法稱為「數據依賴性採集（DDA, data dependent acquisition）！

明白了吧，DDA這個名字就是這么來的！下次大夥兒再聽到有人說DDA，心裡不會再一百個問號飛過了吧？

咱們細想一下就不難發現，如果一個蛋白的濃度不夠高，也就是說，它的肽段在一級譜圖中很難成為那些TOPs，那麼它能進入二級質譜的可能性基本上沒有。這就是為什麼低峰度蛋白很難被鑒定到！這也就是為什麼我們在做比如血液這種樣品的時候，一定要去除血紅蛋白等高峰度蛋白（如果你想鑒定的蛋白不是血紅蛋白的話）！

很顯然，DDA方法的局限性就擺在那裡！這叫想要研究低峰度蛋白的科學家們怎麼忍？於是，一種叫做數據非依賴性採集（DIA）的新方法就應運而生了！關於這種方法的原理，下一篇推文會詳扒。

我們再通過以下這個圖來感受一下一級譜圖與二級譜圖之間的關系：

比如，第一個時間點，我們先進行MS1掃描，然後選一個峰高的肽段進行MS2掃描，依次類推。在一些掃描速度比較快的質譜儀里，一個MS1譜圖可以進行80張MS2的掃描。

鑒定碎片離子

好，我們搞清楚了二級質譜是怎麼來的，那麼我們怎麼根據檢測到的離子信息來推測這是什麼氨基酸呢？可能你會說，這還不簡單么？根據分子量呀！

沒錯，不同的氨基酸，它的分子量不就是一個簡單的值嗎？然而，這件事卻並沒有這么簡單，因為這個世界上還存在一個神奇的東西，它的名字叫同位素！

比如說碳元素，最常見的是原子量12的這種，我們叫C12，然而它還有一個同樣很穩定的好基友，C13（多一個中子）。於是，我們得考慮到這兩種穩定同位素的含量（網路說C13占 1.11%，C12佔98.89%），對於一個氨基酸而言，我們就會得到兩個不同的分子量：

為啥說平均呢？因為當肽段分子量越大，含有各種同位素的可能性及不同組合就越多，我們如果把每一種組合都算一遍分子量，這樣會得到一個長長的list，到時候做譜圖匹配時用哪一個值呢？也沒譜。所以乾脆用一個平均值來表示。

我們通過下表來感受一下各種不同的氨基酸殘基的單同位素分子量與平均分子量有多大的區別：

可能你又會問，這兩個不同的分子量分別在什麼情況下用呢？這里又要說到解析度了，如果咱們用的是高解析度質譜儀，不同的同位素峰會被明顯地分開，也就是說，譜圖里我們能看幾個同位素峰，這時我們就可以使用單同位素分子量，可以與相應的單同位素峰准確對應。但在低解析度質譜儀里，這些峰很可能混在一起，看上去只是一個峰，這種情況下，也沒辦法，只能用平均分子量去近似一下了。

下面這個圖可以很形象地展示出，單同位素分子量與平均分子量在質譜圖上差別有多大。在高分辨質譜看來，這完全就是兩種不同的離子了。上面我們也說了，根據平均分子量來計算，結果並不準確，但用單同位素分子量來計算，就可以准確對應了。

除了同位素，還有一個因素我們也需要考慮，那就是肽段碎裂進入二級質譜時，可能會形成三種不同的離子類型，這就是我們通常所說的by離子，ax離子和cz離子。

之所以會形成不同的離子對，是因為不同的碎裂方法，造成肽段斷裂的位置不同。大夥兒看看上面這個圖就明白了。當我們使用CID（碰撞誘導解離）或HCD（High-energy C-trap Dissociation）碎裂時，與惰性氣體碰撞的是C-N鍵這里，C端生成y離子，N端生成b離子，這是二級質譜產生的最常見的離子對了。當我們使用ETD（電子轉移解離）碎裂時，因為有一個電子反應的過程，在加上電子後才產生的碎裂，它的斷裂位置可能出現在N-C鍵這里，形成cz離子，而TOF類儀器可能會產生ax離子。

離子類型的信息需要傳遞給後續的搜庫步驟（通常我們在搜庫軟體中指定了儀器類型，軟體就會自動匹配離子類型），計算機需要模擬最可能的碎裂位置，生成對應的理論譜圖，然後拿來與實際譜圖比對。我們以by離子為例，來看看對一個肽段來說，它可能碎裂成哪些碎片離子：

那麼它可能會生成如下這樣的譜圖：

從譜圖上看，這個肽段所有的by離子都檢測到了。通常來說，對於豐度不錯，長短合適的肽段，在高精度質譜儀上被完整捕獲到的情況是很常見的。通常情況下50%-80%的by離子都能被捕獲到。

下篇繼續講定性檢測里的搜庫工具、結果評估，以及定量檢測的各種背景知識。

7. 國際著名的三大蛋白質資料庫

國際著名的三大蛋白質資料庫有UniProt資料庫、The Human Protein Atlas資料庫、PhosphoSitePlus資料庫。

1、UniProt資料庫

蛋白組學常用資料庫UniProt（全稱UniProt Protein Resource），建立於1986年，由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白質資料庫聯合成立的，其信息量豐富、資源廣泛，是目前公認的首選免費蛋白質資料庫。

2、The Human Protein Atlas資料庫

The Human Protein Atlas內含近30000種人類蛋白質的組織和細胞分布信息，並提供免費查詢。

瑞典Knut&Alice Wallenberg基金會利用免疫組化技術，檢查每一種蛋白質在人類48種正常組織，20種腫瘤組織，47個細胞系和12種血液細胞內的分布和表達，其結果用至少576張免疫組化染色圖表示，並經專業人員校對和標引，保證染色結果具有充分的代表性。

3、PhosphoSitePlus資料庫

PhosphoSitePlus資料庫是一個由CST和NIH聯合開發的免費資源資料庫，總結歸納了海量通過科學研究發現的蛋白修飾位點，包括磷酸化、甲基化、乙醯化、泛素化等，並且包括一些CST公司發現但未發表的蛋白修飾位點。

該資料庫是動態的、開放的、高度互動並持續更新的。它有助於研究PTMs在正常和病理細胞/組織中的作用，同時它也是發現新的疾病標志物和葯物靶點的有力工具。

性能及歷史

蛋白質資料庫（HPDB），建於2005年5月，動態展示生物大分子立體結構，滑鼠點擊放大分子結構、原子定位、測定原子之間距離，可用於教學或科研。服務對象是能夠熟練使用中文的生命科學、醫學、葯學、農學、林學等領域的大中專學生、教師及科技工作者。

分子結構特徵描述採用漢語，同時提供英文原文以供考證。對於善於使用英文的讀者，我們提倡直接訪問RCSB PDB，一來可以減少網路擁擠，二來可以減少由於HPDB的翻譯不妥帶來的不便。

蛋白質資料庫（HPDB）對每個蛋白質分子結構說明部分做了中文翻譯（最新加入資料庫的分子除外），內容包括分子結構定性描述、樣品的來源、表達載體、宿主、化學分析方法、分子結構組成成分等。這些信息並同蛋白質分子結構數據存儲於資料庫，因此HPDB支持中文查詢。

蛋白質資料庫（HPDB）雖然翻譯了「分子結構說明」部分，但為了保證數據的可靠性和准確性，HPDB對一級結構序列及大分子結構坐標數據等未做任何改動，資料庫保持RCSB PDB核實後的原始實驗數據文件，並保持PDB文件格式和蛋白質分子編號。

閱讀全文

熱點內容

長春工程學院如何改校園網密碼發布：2024-10-10 06:04:38 瀏覽：794

安卓光遇的像素為什麼是糊的發布：2024-10-10 05:54:12 瀏覽：989

芒果tv在哪個文件夾發布：2024-10-10 05:45:49 瀏覽：189

選擇ftp伺服器發布：2024-10-10 04:56:16 瀏覽：198

php函數fopen 發布：2024-10-10 04:50:20 瀏覽：239

編程飛鳥站發布：2024-10-10 04:49:34 瀏覽：617

資料庫基礎與應用作業發布：2024-10-10 04:35:31 瀏覽：847

淘寶上傳圖片找同款發布：2024-10-10 04:31:23 瀏覽：436

玩具直播腳本發布：2024-10-10 04:31:19 瀏覽：629

php後門檢測工具發布：2024-10-10 04:18:46 瀏覽：275

蛋白組學數據上傳

與蛋白組學數據上傳相關的資訊