結果如下:
1、測序與序列比對 測序是生物信息學的基礎,也是數據的主要來源,可以是人類數據,也可以是其他數據。序列比對的基本問題是比較兩個或多個符號序列的相似性或不相似性。從生物學的角度來看,這個問題有幾個方面的含義:從重疊的序列片段重建 DNA 的完整序列。在各種實驗條件下從探針數據中確定物理和遺傳圖譜在數據庫中存儲、遍歷和比較 DNA 序列比較兩個或多個序列的相似性在數據庫中搜索相關序列和子序列搜索核苷酸的序列模式搜索蛋白質和 DNA 序列中的信息成分序列比對考慮了 DNA 序列的生物特性,如 DNA 序列作為信息源的能力。序列比對考慮了 DNA 序列的生物特性,如序列中局部發生的插入、缺失(前兩者稱為 indel)和替換,序列的目標函數是獲得序列間突變集的最小距離加權和或最大相似性和,以及比對方法,包括全局比對、局部比對和代溝懲罰。兩個序列的比對通常采用動態編程算法,這種算法適用於序列長度較小時,但對於海量基因序列(如人類DNA序列高達109bp),這種方法就不太適用了,甚至算法復雜度為線性時也難以奏效。因此,啟發式方法的引入是必然的,著名的 BALST 和 FASTA 算法及其相應的改進都是基於這壹前提。
2、蛋白質結構比較與預測
基本問題是比較兩個或多個蛋白質分子空間結構的相似性或不相似性。蛋白質的結構和功能密切相關,人們普遍認為功能相似的蛋白質壹般結構也相似。蛋白質是由氨基酸組成的長鏈,長度從 50 到 1000~3000 AA(氨基酸)不等。蛋白質具有多種功能,如酶、物質的儲存和運輸、信號傳遞、抗體等。氨基酸的序列從本質上決定了蛋白質的三維結構。壹般認為,蛋白質具有四個不同的結構層次。研究蛋白質結構和預測的理由是:在醫學上,為了了解生物體的功能和尋找對接藥物的靶點;在農業上,為了對更好的農作物進行基因工程改造;在工業上,為了利用酶的合成。直接比較蛋白質結構的原因在於,蛋白質的三維結構比其壹級結構在進化過程中保留得更穩定,而且比 AA 序列包含更多的信息。研究蛋白質三維結構的前提假設是,固有氨基酸序列與三維結構壹壹對應(不壹定全對),可以用最小能量進行物理解釋。通過觀察和總結已知結構蛋白質的結構模式,可以預測未知蛋白質的結構。同源建模和穿線法就屬於這壹類。同源建模用於尋找具有高度相似性(30% 以上氨基酸相同)的蛋白質結構,而後者則用於比較進化家族中不同蛋白質的結構。然而,目前的蛋白質結構預測技術還遠遠不能滿足實際需要。3、基因鑒定和非編碼區分析。
基因鑒定的基本問題是在給定基因組序列的情況下,正確鑒定基因在基因組序列中的範圍和精確位置。非編碼區由內含子組成,壹般在蛋白質形成後被丟棄,但在實驗中,如果去掉非編碼區,就無法完成基因復制。顯然,DNA 序列作為壹種遺傳語言,既包含在編碼區中,也隱含在非編碼區中。目前還沒有分析非編碼 DNA 序列的通用準則。在人類基因組中,並非所有序列都是編碼的,即它們是某些蛋白質的模板,編碼部分只占人類基因總序列的 3-5%,因此要人工搜索如此龐大的基因序列顯然是不可想象的。密碼子檢測方法包括密碼子頻率測量、壹階和二階馬爾可夫鏈、ORF(開放閱讀框)、啟動子識別、HMM(隱馬爾可夫模型)和 GENSCAN、剪接比對等。
4、分子進化和比較基因組學
分子進化是利用不同物種中相同基因序列的異同來構建進化樹,從而研究生物進化的壹門學科。這既可以通過 DNA 序列,也可以通過其編碼氨基酸序列,甚至可以通過比較相關蛋白質的結構來實現,這就假定了相似的種族在基因上是相似的。可以在基因組水平上進行比較,以找出不同人種的相似之處 ****,以及不同之處。早期的研究方法通常將體型、膚色、四肢數量等外部因素作為進化的基礎。近年來,更多模式生物的基因組測序使得從全基因組角度研究分子進化成為可能。在匹配不同種族的基因時,必須處理三種情況:同源基因:具有相同功能的不同種族的基因;旁系基因:具有不同功能的同壹種族的基因;異源基因:通過其他方式(如病毒註射)從生物傳給生物的基因。該領域常用的方法是構建進化樹,可通過基於特征(即 DNA 序列或蛋白質中氨基酸堿基的特定位置)和基於距離(比對得分)的方法以及壹些傳統的聚類方法(如 UPGMA)來實現。5、序列重疊組(Contigs)組裝 根據目前的測序技術,每個反應只能檢測 500 個或更多堿基對的序列,而這些堿基對的序列是不可用的。根據目前的測序技術,每次反應只能檢測到 500 個或更多堿基對的序列,例如人類基因的測量采用短槍法,需要大量較短的序列形成等位組。逐步拼接形成較長的等位基因序列,直至獲得完整序列的過程稱為等位基因組裝。在算法層面,序列的重疊組是壹個 NP-完全問題。6、遺傳密碼的起源 壹般認為,密碼子和氨基酸之間的關系是在生物進化歷史上的壹次偶然事件中產生的,並在現代生物的同壹祖先中固定下來,壹直延續至今。與這種 "凍結 "理論相反,人們提出了三種理論來解釋遺傳密碼:選擇優化理論、化學理論和歷史理論。隨著各種生物基因組測序工作的完成,為研究遺傳密碼的起源和檢驗上述理論的正確性提供了新的材料。