總蛋白演算法
① 蛋白質組學數據分析基礎(一)
轉發自 http://crickcollege.com/news/238.html
質譜數據格式
話說,蛋白質質譜從十幾年前就形成了固定的數據結構和格式。現在常用的搜庫格式,比如mascot的mgf,從十年前就基本固定下來。
到目前為止,質譜界的數據格式因為儀器的不同,有幾個不同的大類:
Thermo公司的raw文件格式,這是目前用得最多的一種格式
AB公司的WIFF格式,
Bruker的yep/.fid
Waters的folder
Agilent的folder
Notes
MALDI MS目前應用越來越少,而且基本上不用於shotgun或者高通量研究。
這些數據格式的擴展名有一定的差別,且原始數據里包含的內容也有所不同。具體包含哪些重要的信息,稍後我們還會詳細講到。
結果報告的質控
數據分析,最終都是為了拿到一個可信的結果。所以,我們在講具體的分析原理之前,先得來聊聊,我們做一次高通量的蛋白質定性、定量實驗,以及搜庫鑒定及定量分析等步驟,對結果報告有哪些質控要求。
首先,我們做完實驗,在拿到下機數據的時候,大多數小夥伴們都會把數據放到各種搜庫軟體中,比如Mascot或者Thermo的Proteome Discoverer,導入原始數據,設定一些搜庫參數,就可以得到結果了。
但是,作為一個嚴謹的實驗方案設計來說,在分析的過程中,是需要對自己的數據有一個前期質控的,這樣可以幫助大家判斷數據分析結果的可靠性。所以說,基本的質控可以幫助我們對實驗結果進行一個預判。
舉個例子。
我們打開一個實驗的下機數據,就可以預判我們的樣品中是否發生了高分子塑料的PEG污染,有沒有超高豐度的蛋白,或者有沒有被嚴重的鹽類污染。這些數據都可以從原始數據的可視化視圖中看到。
不同的質譜軟體,打開原始數據的方式不同,但這些信息都是可見的。另外,當兩次實驗搜索到的蛋白數量差異比較大時,也可以從TIC圖來判斷其原因。此外還可以判斷分離的效率,以及是否出現噴霧中斷等情況。
對於蛋白鑒定的結果,或者絕大多數的搜庫演算法,都要求對結果進行FDR控制,以及unique peptide的控制等等。如果我們要發表這些數據,絕大多數的期刊雜志也都會要求提供這些質控的信息。
那麼,問題就來了,為什麼要做這樣的要求呢?
事實上,我們做好了質控,就能夠看到一個總的鑒定的比例。比如說像常規的定量實驗,用的最多的是iTRAQ。
舉個例子。
假設總蛋白數只有2446個,算是比較少的,而總的譜圖數是53萬張,那麼它的譜圖鑒定率在當前條件下是32%(有些質控軟體可以直接報告譜圖鑒定率,比如Scaffold),我們可以判斷當前的實驗並沒有出現重大的問題,鑒定率不高主要是因為存在高豐度蛋白,而這個後續可以進行詳細的查看。
對於定量實驗,不管我們使用的是SILAC,iTRAQ還是Label Free,都需要對定量結果進行准確性控制(詳細內容,後續課程還會展開講解)。一般來說,我們需要用相應的軟體和統計方法來進行質控。
經過這幾步的判斷之後,可以得到一個初步的結果,比如說譜圖數量是否和之前的結果差不多,質量精度及鑒定率如何,高豐度蛋白的存在與否,是否受污染,分離效率如何,定量是否准確,標記效率是否ok,等等,這些信息都可以得到。這樣,我們最終可以得到一個准確可靠的蛋白質組學鑒定或定量結果用於後續的分析了。
那麼,如何通過查看原始數據來進行初步質控呢?
首先,我們從原始數據出發,可以看到下圖(以Data-dependent-acquisiton數據依賴性掃描為例),是從色譜出來的一個LC分離得到的TIC圖,其中的信號採集都是在質譜中完成的,它其實就是將色譜逐漸通過噴霧的方式進入質譜的那些信號進行逐一的掃描,然後在其中挑選高強度的譜峰進行二級碎裂。
關於LC分離,以及TIC圖的詳細介紹,請參考上一節課的內容:
聽課筆記之蛋白質質譜的原理及使用(四)
下圖就是色譜離子流圖的某個瞬間。橫坐標是質荷比,縱坐標是信號強度。這個瞬間進入色譜的有這樣一些信號,信號強度最高的是質荷比為477.31的肽段,其他一些肽段也可以進行查看。
這是我們在打開質譜的下機數據所能看到的最直觀的結果。我們需要了解的是,這只是我們所有結果的某一個瞬間,某一個scan。這一個scan是否能夠反映整個結果的好壞是不確定的,所以後續我們需要進一步的展開。
對於質譜來說,在這一步會自動選擇其中一個比較強的峰,比如說477,它會進行一個動態的排除,這也是Data-dependent-acquisiton的一個重要參數。就是說,在多少秒之內,這么強的一個峰如果一直反復出現的話,那麼在後續的掃描過程中,我們不去再對它進行進行MS2碎裂了。
比如說如圖的477.31,我們質譜儀器記錄時發現前面已經對它做過二級碎裂了,那麼我們就有可能選擇另外一個比較弱的譜峰。比如552.80,將它進行二級碎裂。
我們再來看一眼二級譜峰,如下圖,就是對我們全長的進入質譜的肽段信息進行打碎,得到相應的B/Y離子,如下圖,這些在後面我們會進行詳細的講解。
DDA模式的工作原理
下圖是Thermo質譜的原理示意圖(由Thermo工程師提供)。這是QE的原理圖,我們先在綠色的范圍內進行一次full scan的mass掃描,然後判斷當前選擇的離子信號強度,以及在最近的幾十秒鍾之內是否對其進行掃描過。
如果沒有,那麼在緊接著的循環過程中,我們會對之前30秒之內(假設當前的儀器速度可以達到10個MS)沒有掃描過的最強的十個譜峰進行二級碎裂,那麼質譜就會依次將色譜推進來的噴霧中的肽段進行依次碎裂。
這就是DDA模式基本的原理。我們的數據也是根據這樣的一個過程來記錄的。
如果將剛才的掃描過程二維展開,可以得到下圖,看上去跟二維凝膠電泳圖很像吧?橫坐標是質荷比,縱坐標是保留時間,而剛才那張圖橫坐標是保留時間,縱坐標是強度(LC seperation圖),所以,此圖沒有質荷比信息。
我們知道,在進入full scan的MS掃描時是有質荷比信息的。所以簡單的講,上圖是將剛才的兩張圖的信息拼接,然後將整個下機數據所有的瞬間都進行了一個拼接,由於維度的限制,因此信號強度信息無法再展示了。
但在此圖中用了顏色的深淺來表示保留時間,顏色深的就是相對信號較強的肽段。而圖中的每一根小線段都代表一個肽段,小線段的長度對應著肽段的保留時間,加上橫坐標質荷比的信息,因此通過這張全局縱覽圖,就能夠看到我們這次實驗分離的效果如何,有沒有PEG、鹽、或者其它污染,有沒有噴霧中斷等情況發生,這些都能在這張圖中有一個大致的把握。
因此,這張圖對於我們進行數據質控非常有用。不同的軟體和儀器有不同的方法來提供這張圖。此次舉例用的圖是由Peaks軟體得來的。
我們可以在上圖中選定自己感興趣的部分,畫一個小方框,將方框中的內容進行打開放大,就得到了下圖我們存儲數據的結果形式了。這是在Qual Browser里打開我們的數據看到的結果。
其實這就是將我們的模擬圖轉換成數據信號,儲存在我們的Raw文件中,或者說進一步提取成MGF文件所用到的相關信息。
這里主要包含兩大類信息:MS1和MS2的信息,也就是full scan mass和二級碎裂的信息。這兩類信息的結構式是一模一樣的,都是包含質核比、強度值,以及相對信號強度。
比如說794.03譜峰,相對信號強度是100,也就是在這張譜圖中,這是最強的一個峰,信號強度是3558210.8。那麼對於我們質譜的搜索來說,一級信息和二級信息都是需要用到的,其中一級信息是首要的,也就是圖中MS1部分,是後續搜庫的關鍵信息。而二級譜圖的強度信息一般用於定量,也就是說如果不是做SILAC或者非標記定量,這些信息不是最重要的。
另外,第一欄的信息准確性也是非常重要的。比如圖上紅框內,我們可以得到的信息是,794.03和794.36強度大約差了1.5倍,後面的峰強度差了大約2倍,再看下紅框內四個數據的質荷比相差並不大,我們的質譜儀器因此會判斷這四個峰非常符合一個肽段的同位素分布(肽段同位素分段的性狀,後續將會講解)。
回到此圖,794.03應該是一個肽段,後面三個數據是同一個肽段,這就是我們進行precursor識別的原理。有些時候質譜會識別錯誤,認為紅框上一行的793.69更可能是同位素,這個就需要我們自己進行校正。
質譜在搜集信號的時候,會告訴我們794.03是一個母離子或者說是肽段的譜峰,因此在後續進行MS2碎裂的時候,會挑選這樣一個譜峰,以及在質譜中我們會設定相應的窗口去打碎它。因為僅僅設定一個非常小的窗口,可能信號不夠。我們會設計比如正負1.5個道爾頓的窗口,把這些信號全部採集進去進行二級碎裂得到二級信號。
現在高分辨質譜中,二級信號也會包含同位素信息,因此數據分析軟體需要對這些信息進行有效的處理。
大家可以看到,這樣一個例子中,軟體記錄的是794.03,但實際我們可以通過肉眼觀察,793.69跟794.03就只相差0.33~0.34,也是一個三電荷同位素的差值(1除以0.33是3,這就是質荷比中的Z的計算原理)。兩者分別的強度271萬和355萬差別也不是非常大,我們會判斷出793.69更可能是零同位素峰(如何判斷後面會再講解)。
我們進行後續數據提取和採集的時候,也就是用了這樣的信息來進行分析。我們記錄的一級質譜數據,以及二級質譜對應的列表,其中最重要的是m/z和intensity,在一級質譜數據中,強度並不用於蛋白鑒定的打分,但二級質譜數據中的強度值卻會被用於打分。
② 動物的消化率需要測哪些指標
首先應該確定測定什麼物質的消化率,如蛋白質,能量,某種維生素!一般消化率有不同的測定方法,最常用最簡單的一種(以蛋白質為例):先測定飼料中總蛋白,然後測定糞樣總蛋白,兩者相減即為吸收總蛋白,這是粗略的演算法,如果精確一點,還應該測定呼吸氣體中的N含量,飼料總蛋白中扣除這一部分當量蛋白,然後進行計算!測定方法包括全收糞法,指示劑法等,楊風主編的動物營養教材上有詳細說明!