與第壹代測序不同,NGS采用邊合成邊測序的策略。主要技術路線以羅氏的454技術、illumina的Solexa、Hiseq技術、ABI的Solid技術為代表。為了增強測序的準確性,需要通過PCR擴增同壹模板的多個拷貝來糾正偏差。所以整個測序分為兩步:PCR擴增(壹種可以快速復制大量相同DNA片段的技術)和測序。但是PCR過程會在壹定程度上增加系統的誤碼率,誤差會有偏差,這也是二代技術存在的問題之壹。
Illumina主要產品有MiSeq測序儀、HiSeq X Ten測序儀、Miseq FGx測序儀、NextSeq 500/550桌面測序儀、MiniSeq桌面測序儀等。,覆蓋不同應用場景的不同需求。
第二代測序技術,如測序平臺、測序成本、測序費用、耗時、建庫等實驗技術難點、錯誤率和閱讀長度(150-400bp)、分析工作量等,對於滿足更高的科研需求和在醫學診斷中推廣都是不小的障礙。PCR過程帶來的誤差和偏好可能會阻礙其在醫學診斷中的大規模應用。第三代技術主要解決第二代的短長度測量問題。
PacBio的SMRT技術、LifeTechnologies的IonTorrent半導體測序技術和Oxford的納米多孔單分子測序技術是第三代測序技術的代表。
帕克比奧·SMR
PacBio的SMRT仍然采用邊合成邊測序的策略,但其超強活性的DNA聚合酶是實現超長閱讀長度(~1000bp)的關鍵。反應在納米管中進行,便於達到超級高通的目的。ZMW(零模波導孔)原理用於區分超小納米孔中熒光信號的背景。它的測序速度非常快,大約每秒10 dNTP。目前的問題是測序的錯誤率太高(81-83%),這也是大多數第三代技術需要解決的同樣問題。然而,誤差是隨機的,並且幾乎是無偏的,這使得通過校正來降低誤差率成為可能。目前這項技術已經投入市場。
牛津納米材料公司
但是,納米孔的MinlON測序儀使用的是納米孔單分子技術,這是壹種基於電信號的測序技術,與其他光信號測序技術相比是壹種創新。技術核心是壹種帶有分子連接體的特殊納米孔,它是通過在人工膜中嵌入蛋白質孔而形成的。在膜的兩側施加電壓,使電流通過微孔。當不同的DNA堿基通過納米孔時,它們對電流的阻斷作用會暫時影響流經納米孔的電流強度。不同的堿基有不同程度的影響,這種差異被敏感的電子設備捕捉到,以識別通過的堿基類型。這種技術有很多優點,比如長讀取(大概幾十kb,甚至100 kb),隨機錯誤,而不是在讀取兩端聚集,吞吐量高。該公司還試圖簡化樣品制備過程。理論上,RNA也可以直接測序,甲基化胞嘧啶可以通過這種技術檢測。但是,它不能達到理想的差錯率控制,或成為其進入市場的障礙。
生命科技
IonTorrent使用半導體芯片將DNA鏈固定在芯片的微孔中。如果堿基能在DNA合成過程中與模板鏈結合,依次加入AGCT的堿基將釋放出氫離子。這個氫離子導致局部HP值改變。離子傳感器檢測到PH值的變化後,將化學信號轉化為序列信息。然而,如果DNA鏈有兩個連續的相同堿基,記錄的信號就會加倍,從而可以被識別。如果不匹配,則不會記錄任何更改。由於該技術不涉及熒光激發和拍照,運行時間大大縮短(僅幾個小時),不需要激光光源、光學系統和拍照系統,也不需要熒光標記,避免了這些環節帶來的誤差。但它的閱讀長度不算太長(200bp),遇到多個連續的相同堿基時,強烈的PH變化會帶來錯誤。
從頭測序也叫從頭測序:它可以在沒有任何已有序列數據的情況下,對壹個物種進行測序,利用生物信息學分析對序列進行拼接和組裝,從而獲得該物種的基因組圖譜。
外顯子測序是指通過序列捕獲技術捕獲並富集全基因組外顯子DNA後進行高通量測序的基因組分析方法。外顯子測序比基因組重測序便宜,在研究已知基因的SNP和Indel方面有很大優勢,但不能研究染色體斷裂、重組等基因組結構變異。
磁學的研究對象是整個微生物群落。與傳統的單個細菌研究相比,它有很多優勢,其中有兩個非常重要:(1)微生物通常以群落的方式在小生境中誕生,它們的很多特性都是基於整個群落環境和個體之間的相互作用,所以做宏基因組學研究比做個體研究更能發現它們的特性;(2)元基因組學可以在不分離單個細菌的情況下,研究那些實驗室無法分離培養的微生物。
單核苷酸多態性單核苷酸多態性,SNP或單核苷酸位點變異SNV。個體間基因組DNA序列相同位置的單核苷酸變異(取代、插入或缺失)引起的多態性。不同物種和個體的基因組DNA序列中同壹位置的單核苷酸是不同的。具有這種差異的基因座和DNA序列可以用作基因組作圖的標記。人類基因組中每1000個核苷酸可能存在1個單核苷酸多態性,部分可能與疾病有關,但大部分可能與疾病無關。單核苷酸多態性是研究人類家系和動植物品系遺傳變異的重要基礎。在研究癌癥基因組變異時,與正常組織相比,癌癥中特定的單核苷酸變異是壹種叫做SNV的體細胞突變。
基因組上的小片段(
當基因組的壹個片段被刪除或轉錄組被剪接時,在測序過程中,當跨越刪除位點和剪接位點的讀數被回發到基因組時,壹個讀數被切割成兩個片段並匹配到不同的區域。這種閱讀被稱為軟剪切閱讀,這些閱讀在識別染色體結構變異和外源序列整合中起著重要作用。
因為大多數測序的讀數都很短,壹個讀數可以匹配到基因組中的多個位置,無法區分其真正來源的位置。有些工具是基於統計模型的,比如將這樣的讀取分配到讀取較多的區域。
剪接軟件是基於閱讀之間的重疊區域,剪接得到的序列稱為重疊群。?
基因組從頭測序,通過閱讀拼接獲得重疊群後,往往需要構建454對端文庫或Illumina Mate-pair文庫,以獲得壹定大小(如3Kb、6Kb、10Kb、20Kb)片段的兩次閱讀時的序列。基於這些序列,我們可以確定壹些重疊群之間的順序關系,這些已知順序的重疊群構成支架。?
拼接後,閱讀將得到壹些不同長度的重疊群。將所有重疊群長度相加,得到總重疊群長度。然後將所有重疊群從長到短排序,例如重疊群1、重疊群2、重疊群3...重疊群25。按此順序添加重疊群。當添加的長度達到重疊群總長度的壹半時,最後添加的重疊群長度是重疊群N50。例如,當conti 1+conti 2+conti 3+Conti4 = conti total length * 1/2時,conti 4的長度為ContiN50。重疊群N50可以作為判斷基因組拼接質量的標準。?
支架N50的定義類似於重疊群N50的定義。重疊群拼接裝配獲得壹些不同長度的支架。將腳手架的所有長度相加,得到腳手架的總長度。然後把所有腳手架從長到短排序,比如腳手架1,腳手架2,腳手架3...............................................................................................................................................按此順序添加腳手架。當增加的長度達到腳手架總長度的壹半時,最後增加的腳手架長度為N50。例如:當腳手架1+腳手架2+腳手架3+腳手架4+腳手架5 =腳手架總長度*1/2時,腳手架5的長度為腳手架N50。支架N50可以作為判斷基因組拼接質量的標準。?
測序深度是指測序獲得的堿基總數與待測基因組大小的比值。假設壹個基因大小為2M,測序深度為10X,那麽獲得的數據總量為20M。覆蓋率是指測序獲得的序列在整個基因組中所占的比例。由於基因組中存在高GC、重復序列等復雜結構,測序最終組裝的序列往往無法覆蓋某些區域,這種情況稱為Gap。比如對壹個細菌基因組測序,覆蓋率是98%,那麽還有2%的序列區域沒有通過測序得到。
從測序數據中收集轉錄本。有兩種組裝方式:1,從頭構建;2,有參考基因組重建。其中,從頭組裝(de-novo assembly)是指在不依賴參考基因組的情況下,將重疊的閱讀片段連接成更長的序列,經過連續延伸,拼接成重疊群和支架。常用工具有火絨、跨深淵、三壹等。用參考基因組重構,就是先把read粘貼到基因組上,然後通過reads的覆蓋和連接位點的信息,獲得基因組中的轉錄本。常用的工具有經文和袖扣。
比較基因組學(ComparativeGenomics)是壹門基於基因組作圖和測序的學科,通過比較已知基因和基因組結構來了解基因的功能、表達機制和物種進化。利用模式生物基因組與人類基因組編碼序列和結構的同源性,可以克隆人類疾病基因,揭示基因功能和疾病的分子機制,闡明物種的進化關系和基因組的內部結構。
Q30表示壹個堿基的識別可靠性等於99.9%,或者錯誤概率為0.1%。Q20意味著堿基識別的可靠性等於99%。Q30數據量是指壹批數據中質量高於或等於Q30的數據的總和。
PF表示通過濾波器。也就是說質量合格。Illumina的儀器序列將自動對讀數(序列)的質量可靠性進行評分。前25個堿基中是否有兩個堿基的識別信度低於0.6,這是PF的準則。如果前25個堿基中有兩個或兩個以上的低質量數據,則判定本次讀取不合格,PF不通過。否則,質量檢驗通過。
PF是國際公認的質量檢驗標準。對於哺乳動物基因組重測序和外顯子測序,我們保證Q30的數據質量高於80%。對於mRNA測序和smRNA測序,我們保證對照泳道的數據質量高於Q30的80%。
總的來說:
哺乳動物基因組重測序和外顯子測序,GC的比例約為40%,Q30的比例為80 ~ 95%。
RNA-seq和GC的比例在50%左右,Q30的比例在~80%。如果聚(A)特別高,Q30會更低;
SmRNA-seq,因為read多,只剩下壹串A,質量會更低。我們的實驗結果%Q30為70~75%。
Illumina的序列器具有高數據輸出和最高的數據質量。由於使用了帶端基的熒光dNTP,所以在測量同聚物(堿基同聚物,例如壹串4 t: tttt)時不會出現移碼誤讀。
羅氏454采用焦磷酸測序的測序原理,通過水解DNA合成過程中產生的焦磷酸來釋放光線,通過測量這種光線來讀取序列。優點是閱讀長度最長。但是數據輸出最低。
包括PGM和質子在內的離子洪流,是通過測量DNA合成過程中釋放的氫離子引起的PH值的變化來獲得序列的。優點是速度最快,大約3~4天才上電腦,2~4小時才上電腦。
固體使用雜交、連接反應和熒光測量。因為雜交,所以速度慢,長度短。現在其實已經被淘汰了。
PacBio是第三代測序,即單分子測序。目前測序長度可以達到1 KB以上,可以檢測到DNA序列的修飾。但是它的缺點是測序的準確率很低。目前測序的準確率僅為每堿基80~90%。另壹方面,通量小,壹次讀取7萬次。
部分參考:/p/ACD 38 E4 a 1
1977年,英國化學家弗雷德裏克·桑格發明了雙脫氧鏈終止法。這項技術和W.Gilbert發明的化學降解法被稱為第壹代測序技術。桑格在1958和1980兩次獲得諾貝爾化學獎,他是第四個兩次獲得諾貝爾獎的人,也是唯壹壹個兩次獲得化學獎的人。壹等獎是通過對胰島素的氨基酸序列進行測序,證明蛋白質具有明確的結構獲得的,二等獎是通過發明雙脫氧鏈終止法——桑格法獲得的。利用這壹技術,他成功確定了噬菌體φ-X174的基因組序列。桑格也是壹位具有傳奇色彩的科學家,在基因組研究中發揮重要作用的桑格研究所就是由這位丹尼爾創立的。
第壹代測序技術的特點是測序的閱讀長度可達1000bp,準確率可達99.999%。但測序成本高、通量低的缺點嚴重影響了其真正的大規模應用。然而,由於其高準確性,當代測序仍然是基因檢測的金標準,也是評估和驗證新壹代測序結果的主要手段。當時是壹代測序技術讓當時的基因組研究成為可能,浩浩蕩蕩的人類基因組計劃即將轟轟烈烈地展開。1977年,英國化學家弗雷德裏克·桑格發明了雙脫氧鏈終止法。這項技術和W.Gilbert發明的化學降解法被稱為第壹代測序技術。桑格在1958和1980兩次獲得諾貝爾化學獎,他是第四個兩次獲得諾貝爾獎的人,也是唯壹壹個兩次獲得化學獎的人。壹等獎是通過對胰島素的氨基酸序列進行測序,證明蛋白質具有明確的結構獲得的,二等獎是通過發明雙脫氧鏈終止法——桑格法獲得的。利用這壹技術,他成功確定了噬菌體φ-X174的基因組序列。桑格也是壹位具有傳奇色彩的科學家,在基因組研究中發揮重要作用的桑格研究所就是由這位丹尼爾創立的。
第壹代測序技術的特點是測序的閱讀長度可達1000bp,準確率可達99.999%。但測序成本高、通量低的缺點嚴重影響了其真正的大規模應用。然而,由於其高準確性,當代測序仍然是基因檢測的金標準,也是評估和驗證新壹代測序結果的主要手段。當時是壹代測序技術讓當時的基因組研究成為可能,浩浩蕩蕩的人類基因組計劃即將轟轟烈烈地展開。