從10結束,由克裏克學院和康雨生主辦的蛋白質組學習網絡班正式開課。整個課程由21節課組成。作為壹個蛋白純白的女生,我也打算借此機會學習和感受壹下。以下是我第壹次“蛋白質的組織學研究方法概述”的講義,分享給同樣想入門的大家~
教師
這門課的老師可謂是才華橫溢的年輕人:2014畢業於慕尼黑工業大學,博士學位。T München),生物分析和蛋白質組織學研究所,師從Daniel Bernhard Kuster教授。主要方向是基於串聯質譜的蛋白質組學在癌癥藥物研究中的應用。她就是目前在上海交通大學系統生物醫藥研究院工作的助理研究員庫欣博士(此處應有掌聲)!Ku博士目前的研究興趣是發現腫瘤相關的生物標誌物和蛋白質糖基化修飾。
(本文所有圖片均來自庫心博士的課堂筆記,授權發布。)
基於質譜的蛋白質組學
眾所周知,蛋白質的蛋白質組學是研究壹個細胞或壹個有機體表達的所有蛋白質。雖然現在基因組測序亂七八糟,但是我們不要忽視蛋白質是執行生命功能的基本單位,蛋白質通過形成各種化合物,形成通路網絡來執行各種生物功能!因此,有許多生物學問題只能在蛋白質水平上進行研究和探索,但也需要在系統水平上進行研究,如蛋白質-蛋白質相互作用、蛋白質細胞定位、翻譯後修飾、信號途徑和代謝途徑的調控和功能。這就是蛋白質組學如此重要的原因!
既然重要,科學家自然想盡辦法去研究!首先使用的技術是傳說中的二維凝膠電泳(2-DE)。由於低分辨率和蛋白質重疊等各種問題,通量和準確度都不令人滿意。質譜技術興起後,很快被取代。
說起質譜的誕生,估計很多朋友都聽過著名的刁絲逆襲的故事,故事講述的是2002年諾貝爾化學獎得主田中健壹作為蛋白質譜的發明者之壹,在實驗中不小心加入了甘油,結果質譜被神奇地引入了識別生物大分子的應用領域。想想看,從整個人類科技發展史到每個個體的生活,充斥著多少不可思議的奇跡~
當質譜技術和蛋白質組學相遇在壹起,真的是閃電引發了大火,產生了強烈的化學反應,迅速引爆了整個學科的發展!短短十幾年間,蛋白質組學的研究目標從細胞模型、動物模型到體液、組織等人體樣本,其應用範圍的生物學復雜度越來越高。研究的目的從最初的肽序列推導,到肽和蛋白質的定性定量分析、翻譯後修飾,再到現在的靶向蛋白質基因組學,已經成為新的熱點。總之,勢不可擋!
基於質譜的蛋白質組學概述
說到靶向蛋白質組學,我們都知道蛋白質組學的應用領域壹直主要針對基礎生物學,比如研究通路、蛋白質復合物、相互作用網絡、表征細胞和組織的類型、觀察細胞周期中蛋白質的表達等。近年來,由於技術的快速發展,蛋白質組學已被用於醫學研究和藥物研究。比如藥物研究,在中國可能還沒有廣泛應用,但在歐美已經開始越來越廣泛的應用。以肝毒性為例,蛋白質組學可以為藥物研發早期評估肝毒性提供研究方法。
蛋白質組學在藥物發現中的應用實例
那麽,如何將蛋白質組學應用於臨床和藥物研發呢?是需要有針對性的蛋白質組學技術!此前,蛋白質組學主要用於發現新的未知,如肽段、蛋白質復合物、蛋白質的翻譯後修飾等。這部分應用很廣,技術門檻比較低,方法也比較通用。但問題是這種方法無法應對大量的臨床樣本,重復性和準確性都達不到要求。
於是,針對性分析開始興起,也就是說,在分析之前,我們就清楚的知道需要分析的物質是什麽,然後挑選出來進行準確的定量分析!我們不需要壹次驗證幾千個蛋白質,而是需要在幾百個早晨的樣本中驗證十幾個或者幾十個我們關心的蛋白質,而這些蛋白質往往是濃度非常低的蛋白質,基本上是傳統方法所遺漏的(後面我會詳細說為什麽會遺漏)。有了靶向技術,對臨床診斷生物標誌物的研究就有了更大的可能性和更強的支持!
然後按照老師講課的思路,從定性檢測、定量檢測、靶向蛋白質組學三個方面來分享收獲。
定性檢測
無論是定性還是定量檢測,樣品制備都是不可避免的準備工作。質譜分析用的蛋白質樣品來源很廣,只要妳把蛋白質的東西包括進去,就可以作為來源。對於復雜樣品,如人體體液或組織樣品,蛋白質的提取和除峰往往需要復雜精細的處理,處理流程因樣品和研究目的不同而不同。這部分內容,第二講“樣品預處理”會有詳細介紹,感興趣的朋友可以期待我的下壹講筆記~
換句話說,蛋白質的定性檢測有兩種思路:自下而上和自上而下。Top down是指質譜中壹個完整蛋白質的片段化,通過檢測片段分子來推斷蛋白質的序列。自下而上的方法,真正在使用中占絕大多數的是鳥槍法,這種方法充分利用了蛋白質自身的特性:可以在特定的位點被特定的酶切斷。基本思路是先用蛋白酶消化蛋白質序列,再對消化後的肽進行鑒定,所以進入質譜的檢測對象始終是肽,然後根據肽序列推導出蛋白質序列。
基於質譜的蛋白質研究常用方法
接下來詳細講壹下自下而上/鳥槍法,如何用質譜定性檢測蛋白質。這件事三步走不完,七步就能拿下:
1.樣品處理:從蛋白質來源獲取各種樣品進行預處理和優化。
2.蛋白質分離:根據研究需要,采用凝膠分離提取所需蛋白質,或不經分離全部檢測,註意去除雜質;
3.酶消化:用序列特異性酶消化蛋白質;
4.肽段的分離:酶切後的肽段進入HPLC(高壓液相色譜),也就是我們常說的LC-MS,由於在色譜柱填料上保留時間不同,肽段會進行預分離;
5.電離:通過施加電壓(ESI)將分離的肽電離;或者MALDI基質輔助的激光解離,不需要HPLC過程;
6.質譜分析:將帶電的肽段送去質譜分析時,肽段會在磁場中發生偏轉(質譜分析的基本原理),在質譜中采集信號,得到譜圖。
7.搜索數據庫:用搜索軟件自動分析質譜,得到肽和蛋白質的序列信息。
霰彈槍壹般過程
溫馨提示:質譜有很多種,如四極桿質譜、飛行時間質譜、四極桿離子阱質譜、傅裏葉變換質譜等。更多細節將在第三講“蛋白質譜原理、使用和維護”中介紹。
從另壹個角度來看,我們可以將霰彈槍法的過程總結如下:
-數據生成:蛋白質?肽段?光譜圖
-數據分析:聲譜圖?肽段?蛋白
其中壹個最關鍵的指標叫做肽譜匹配(PSM),指的是譜圖和肽的匹配。匹配越好,推斷的蛋白質就越準確。這個匹配過程也就是我們常說的搜索數據庫。然後我會分享從課程中學到的背景知識,搜索工具和算法,以及搜索結果的評價。
1.背景介紹
質譜,聽起來很高大上,不管多貴,都是由離子源+質譜分析儀+檢測器三部分組成。
眾所周知,壹臺質譜儀可以有壹個以上的離子源\分析儀\檢測器,針對不同的分析需求,可以串聯幾種。
先說離子源。蛋白質光譜中使用的ESI(電噴霧電離)是蛋白質組學的標誌性發明!因為是直接從液相電離,所以和LC(液相色譜)結合起來更容易。我們可以使用LC對非常復雜的肽混合物進行預分離,以降低每個分析物的復雜性,然後分離出的肽可以直接進入ESI,形成電離噴霧。
那麽,ESI噴霧是如何形成的呢?簡單來說,分離柱的前端有壹個小開口,分析物根據質量和電荷的不同依次通過前端的小開口。向小開口施加電壓。起初,靜電力和表面張力是壹樣的。當靜電力增大使其大於表面張力時,液膜破裂,形成無數帶電液滴,形成噴霧。像相對較新的nanoESI技術,LC的流速更慢,電離效果更好。對於覺得上面描述不夠生動的童鞋,就看圖吧:
說完離子源,再來說說質譜儀最重要的部分——質量分析器。我們平時聽到的各種質譜儀的名稱,都是根據質譜分析儀的種類來命名的。我們樣品中的每壹種成分都在離子源中電離,經過加速電場的作用,形成離子束,進入質量分析器。質量分析儀根據荷質比分離帶電離子,記錄各種離子的質量數和豐度,用於後續定性定量分析。
質量分析儀有兩個主要技術參數:質量範圍和分辨率。質量範圍是指可以測量的質荷比的範圍,它決定了我們可以探測的離子的範圍。例如,ESI離子源可以產生許多m/z大於3000的離子。如果妳選擇的質量分析儀上限小於3000,那麽妳就檢測不到3000以上的離子。
然而,另壹個更重要的指標是質量分析儀的分辨率!首先,前面的公式描述了:
分辨率=觀察到的質譜峰的質荷比/半峰高的峰寬(FWHM)
妳什麽意思?例如,下圖中最左邊的峰的質荷比為1,085.55,峰高壹半處的峰寬為0.217,因此:
分辨率= 1,085.55/0.217 = 5000。
如果妳還不明白這壹點,可以簡單的理解為質譜的分辨率越高,峰會越尖越細。妳可能會問:光譜峰又尖又細有什麽好處?這個問題問得好!事實上,分辨率可以表征質譜中區分兩個相鄰譜峰的能力。我們來感受壹下不同分辨率的質譜儀能給我們怎樣不同的峰圖。
以胰高血糖素為例,展示了不同分辨率的質譜儀給出的譜峰。分辨率為1000時,只能看到很寬的峰值(藍色);分辨率提高到3000時,峰值變窄(紅色),但無明顯差異;提高到10000時,很明顯實際上有8個峰值(綠色);增加到30000時,半峰寬更窄,相鄰兩個峰可以完全分開(黑色)。顯然,當分辨率為1000或3000時,我們無法準確檢測出被分析肽段的確切分子量,從而導致光譜錯配或錯配。
不同的質譜分析儀分辨率不同,通常的順序是:傅裏葉變換質譜分辨率最高,但成本太貴;其次是Orbitrap(軌道阱系列),分辨率遠高於其他質譜;再次是TOF(飛行時間質譜);然後是離子阱,最後是四極質譜。
這裏我再說壹句,高分辨率好,但是價格肯定貴。在選擇質譜儀的時候,要根據自己的研究目的和預算範圍!
但是,用壹級質譜鑒定該肽顯然是不可能的。我們不能根據肽的離子m/z的值來推斷肽由哪些氨基酸殘基組成(有很多種可能的組合)以及序列順序是什麽,對吧?因此,需要二次質譜來鑒定肽段。
什麽是二次質譜?簡單來說就是通過壹級質譜得到肽段混合物的壹級光譜,然後從中選出壹個肽段。通過壹些方法,例如,通過與惰性氣體碰撞來粉碎肽片段以獲得片段離子,然後形成二級光譜。我們通過觀察碎片離子的質量分布來推斷肽殘基的組成,最終推斷出蛋白質是什麽。最後壹張圖幫助妳理解二次質譜是怎麽來的。
上壹段我提到壹個肽段是從壹級質譜中“挑選”出來進入二級質譜的。這裏說的看似表面,其實如何選擇才是關鍵問題!通常我們選擇的方法可以稱為“頂”法(這是我自己取的名字)。比如TOP15是指從壹級光譜中選擇前15個峰,壹次分離壹個肽段,然後掃描這個肽段得到二級光譜。
大家都發現了嗎?如果壹個肽在壹級譜中沒有進入TOP15,就沒有資格玩二級譜!原來質譜的世界競爭也是殘酷的!二級質譜可以掃描哪些肽段是壹級質譜確定的,所以我們把這種方法叫做“DDA,數據依賴采集)”吧!
看,DDA這個名字就是這麽來的!下次妳聽到有人說DDA,妳不會有壹百個問號飛過吧?
我們想壹想,不難發現,如果壹個蛋白質的濃度不夠高,也就是說,它的肽段很難成為壹級譜中的那些頂尖,那麽它基本沒有可能進入二級質譜。這就是為什麽低峰度蛋白質很難識別的原因!這就是為什麽我們在制作血液等樣本時,必須去除血紅蛋白等高密度蛋白質(如果妳要鑒定的蛋白質不是血紅蛋白的話)!
很明顯,DDA方法的局限性就在那裏!想研究低峭度蛋白質的科學家怎麽能容忍這種情況?於是,壹種叫做數據獨立采集(DIA)的新方法應運而生!關於這種方法的原理,下壹篇推文會詳細介紹。
我們通過下圖感受壹下壹次聲譜圖和二次聲譜圖的關系:
例如,在第壹個時間點,我們掃描MS1,然後選擇壹個具有高峰的肽來掃描MS2,等等。在壹些掃描速度快的質譜儀中,壹個MS1譜圖可以掃描80個MS2。
好了,我們已經搞清楚了二級質譜是怎麽來的,那麽如何根據檢測到的離子信息來推斷它是什麽氨基酸呢?也許妳會說,這不是很簡單嗎?按分子量!
是的,不同的氨基酸,它的分子量不是壹個簡單的數值嗎?但是,這件事並沒有那麽簡單,因為這個世界上還有壹種神奇的東西,它的名字叫同位素!
例如,最常見的碳元素是原子量為12的元素,我們稱之為C12。但是,它也有壹個同樣穩定的好朋友,C13(多壹個中子)。所以我們不得不考慮這兩種穩定同位素的含量(百度百科說C13占1.11%,C12占98.89%)。對於壹種氨基酸,我們會得到兩種不同的分子量:
——單壹同位素分子量,即只含有比例最高的同位素的分子量;
——平均分子量,即含有許多同位素的平均分子量。
為什麽說壹般?因為肽的分子量越大,含有各種同位素和不同組合的可能性就越大。如果我們計算每個組合的分子量,我們會得到壹個很長的列表。哪個值將用於光譜匹配?我不知道。所以簡單的用壹個平均值來表示。
我們通過下表感受壹下單個同位素分子量和各種氨基酸殘基平均分子量的區別:
也許妳會問,這兩種不同分子量的分別用在什麽情況下?這裏又要說分辨率了。如果我們使用高分辨率的質譜儀,不同的同位素峰被清晰地分開,也就是說,我們可以在光譜中看到幾個同位素峰,那麽我們就可以使用單個同位素的分子量,它可以精確地對應相應的單個同位素峰。但是在低分辨率質譜儀中,這些峰很可能混合在壹起,看起來就像只有壹個峰。在這種情況下,除了用平均分子量來近似它們之外,別無他法。
下圖可以形象地展示單個同位素分子量與質譜上的平均分子量有多麽不同。根據高分辨率質譜分析,這完全是兩種不同的離子。上面我們說了,按平均分子量計算結果不準確,但按單同位素分子量可以準確計算出來。
除了同位素,還有壹個因素我們也需要考慮,就是當肽段進入二級質譜時,可能會形成三種不同的離子類型,也就是我們通常所說的by離子,ax離子,cz離子。
之所以形成不同的離子對,是因為不同的斷裂方式導致肽段的位置不同。看看上圖妳就明白了。當我們使用CID(碰撞誘導解離)或HCD(高能C阱解離)進行碎裂時,與惰性氣體碰撞的是C-N鍵。這裏Y離子在C端產生,B離子在N端產生,這是二次質譜產生的最常見的離子對。當我們使用ETD(電子轉移解離)碎裂時,因為有壹個電子反應的過程,加電子後發生的碎裂可能出現在N-C鍵,形成cz離子,而TOF儀器可能產生ax離子。
離子類型的信息需要傳遞到後續的搜庫步驟(通常我們在搜庫軟件中指定儀器類型,軟件會自動匹配離子類型)。計算機需要模擬最可能的碎裂位置,生成相應的理論聲譜圖,然後與實際聲譜圖進行對比。讓我們以by離子為例,看看壹個肽段可能斷裂成哪些碎片離子:
然後它可能會生成這樣壹個頻譜圖:
從光譜中,該肽中的所有by離子都被檢測到。壹般來說,豐度好、長度合適的肽段被高精度質譜儀完全捕獲是很常見的。通常,50%-80%的離子可以被捕獲。
內容有點多,估計大家都看膩了。今天的筆記就不分享了。在下壹篇文章中,我們會談到定量檢測的數據庫搜索工具、結果評估以及各種背景知識。