大數據與生物信息學的應用研究與實踐
摘要:2月20日,青島大學數據科學與軟件工程學院教授、博士、副院長李勁華在CIO時代APP微講座欄目作了題為《大數據與生物信息學的應用研究與實踐》的主題分享,他從大數據領域背景和有關科研工作(大數據在生物信息學方面的教學和研究工作)兩大方面展開敘述。
關鍵詞:?CIO時代APP?微講座
2月20日,青島大學數據科學與軟件工程學院教授、博士、副院長李勁華在CIO時代APP微講座欄目作了題為《大數據與生物信息學的應用研究與實踐》的主題分享,他從大數據領域背景和有關科研工作(大數據在生物信息學方面的教學和研究工作)兩大方面展開敘述。
壹、相關背景
(壹)生物信息學產生背景
眾所周知,生物信息學是八十年代末隨著人類基因組計劃的啟動而興起的壹門畸形交叉學科,通過對生物學實驗數據的獲取、加工、存儲、檢索與分析,進而達到解釋數據所蘊含的生物學意義的目的。當前生物信息學發展的主要推動力來自於分子生物學,生物信息學的研究主要集中於核苷酸和氨基酸序列的存儲、分類、檢索和分析等方面。因此,目前的生物信息學可以狹義的定義為將計算機科學和數學應用於生物大分子信息的獲取、加工、存儲、分類、檢索與分析,以達到理解這些生物大分子信息的生物學意義的交叉學科,實質是理論概念與實踐應用並重的學科。
生物信息學的產生與發展已有三十多年,美國人類基因組計劃中對基因組信息學的定義是壹門學科領域,包含著基因學組信息的獲取、處理、存儲、分配、分析和解釋的所有方面。自1990年美國啟動人類基因組計劃以來,人與模式生物基因組的測試工作發展極為迅速,提前完成了約四十多種生物的全基因測試與工作。截止到目前,僅登錄在美國GeneBank的DNA系列總量便超過70億堿基因對。此外,迄今為止,已有壹萬多種蛋白質的空間結構以不同的分辨率被測定。基於cDNA序列測試所建立起來的EST數據庫已超過數百萬條,在這些數據基礎上派生、整理出來的數據庫已達5000多個。
這壹切構成了壹個生物學數據的海洋。這種科學數據的極速和海量積累在科學發展史上是空前的,但數據並不等於信息和知識,當然,它是信息和知識的源泉,關鍵在於如何從中對其進行挖掘。與正在以指數方式增長的生物學數據相比,人類相關知識的增長卻十分緩慢。壹方面是巨量的數據,另壹方面是我們在醫學、藥物、農業與環境等方面對新知識的渴求,這些新知識將幫助人們改善其生存環境和提高生活質量。這就構成了壹個極大的矛盾。這個矛盾就催生了壹門新興的交叉科學,這就是生物信息學。
信息學大數據研究工作主要以分析海量多元組學數據為目標,組學大數據為生命科學帶來了前所未有的機遇,在研究基因功能、疾病機理、精準醫學等方面具有重要意義。大數據的規模性、多樣性、高速性等這些特征為生物信息學帶來了新的挑戰,在數據計算方面,亟需解決中小實驗室對計算資源的彈性需求;在數據分析方面,亟需多組學整合分析體系解決生物學問題。缺乏相應的生物學工具是大數據時代生命科學領域面臨的主要瓶頸。
(二)青島大學生物信息學研究背景
1.2009年,位於武漢大學的國家軟件工程重點實驗室在青島舉辦暑期學校,首次聽到西方學者提到計算機以生物學跨學科研究,主要包括基因測序、生物大數據可視化等。
2.2011年起,青島大學與深圳華大基因研究院聯合創立青島大學華大基因創新班,培養大數據時代生物基因組學、生物信息學領域拔尖創新人才。在大學生入校後壹個月的時間內,從全校九千多名不同專業學生中擇優挑選30人,按照厚基礎、寬口徑、綜合式、國際化的要求,在學科基礎課和專業課程階段設有兩個選課模塊,壹個是醫學檢驗,壹個是信息處理。
3.2016年,與青島大學醫學部教授合作,***同申報獲批了生物信息學二級學科的碩士點,研究方向主要是:序列和基因組學的分析、藥物研發、生物學網絡整合、數據挖掘和數據分析(主要是在生物學應用領域)、生物信息學軟件方法學的研究。
二、生物信息學研究的主要內容、主要問題和關鍵技術
(壹)生物信息學研究的主要內容
1.基因組學研究
基因組學包含了構成和維持壹個生活有機體所必備的基本信息,由細胞內進行的多種分子生物學反應將這些信息轉換為真正的生命現象。基因組的壹部分編碼蛋白質和RNA,其他部分調控這些大分子的表達。表達的蛋白質及RNA折疊為高度專壹的三維結構,在體內的特定位置上實現這些功能,這些過程的大量細節都是在分子生物學研究的實驗室裏揭示出來的,形成大量數據,存儲於數據庫中。生物信息學試圖從這些數據中提取新的生物學信息和知識,是壹門植根於全面深入的實驗事實和數據的理論生物學。
2.生物信息的收集、存儲、管理與提供。
包括建立國際基本生物信息庫和生物信息傳輸的國際網絡系統;建立生物信息數據質量的評估與檢測系統;生物信息的在線服務;生物信息可視化和專家系統。
3.基因組序列信息的提取和分析。
包括基因的發現與鑒定,如利用國際EST數據庫和各自實驗室測定的相應數據,經過大規模並行計算發現新基因和新SNPs以及各種功能位點;基因組中非編碼區的信息結構分析,提出理論模型,闡明這些區域的重要生物學功能;進行模式生物完整基因組的信息結構分析和比較研究;利用生物信息研究遺傳密碼起源、基因組結構的演化、基因組空間結構與DNA折疊的關系以及基因組信息與生物進化關系等生物學的重大問題。
4.生物信息分析的技術與方法研究。
包括發展有效的能支持大尺度作圖與測序需要的軟件、數據庫以及若幹數據庫工具,如電子網格等遠程通訊工具;改進現有的理論分析方法,如統計方法、模式識別方法、隱馬爾科夫過程方法、神經網絡方法、復雜性分析方法、密碼學方法、多序列比較方法等;創建壹切適用於基因組分析的新方法、新技術。包括引入復雜系統分析技術、信息系統分析技術等;
5.應用與發展研究。
匯集與疾病相關的人類基因信息,發展患者樣品序列信息檢測技術和基於序列信息選擇表達載體、引物的技術,建立與動植物良種繁育相關的數據庫以及與大分子設計和藥物設計相關的數據庫。
(二)研究問題
1.生物大數據的存儲與管理
包括生物大數據的存儲結構、存儲標準、管理技術等,生物大數據數量大、結構復雜、存儲標準多樣,存在非結構化數據、半結構化數據和結構化數據等多種數據結構,如何選擇分布式文件系統、分布式數據組合、分布式並行數據庫系統也是生物大數據存儲與管理技術的主要問題之壹
2.生物大數據可視化
生物大數據由於數量巨大,具有普遍生物意義,合理的可視化可以幫助生物學家快速理解和分析生物數據。
3.生物大數據的分析與處理
整合多組學數據進行計算分析已解決實際的生物問題。
(三)關鍵技術
生物大數據領域中的關鍵技術有:
1.生物大數據標準化和集成、融合技術
研究組學數據、醫療數據和健康數據集成融合關鍵技術,研究開發組學、醫療和健康數據信息模型與集成引擎,研究基於國內外標準規範的消息、文檔等接口實現技術,基於下壹代互聯網技術網絡安全技術和高吞吐量傳輸技術。
2.生物大數據表述索引、搜索與存儲訪問技術
重點突破生物大數據資源描述和並行訪問技術,構建生物大數據高效索引和可靠可擴展存儲管理系統,基於語義的生物大數據資源檢索、生物醫療數據關聯搜索等關鍵技術,建立生物大數據資源搜索與獲取服務系統。
3.心血管疾病和腫瘤疾病大數據處理分析與應用研究
分別針對心血管疾病和腫瘤疾病,集成電子病歷、圖像影像、臨床檢驗數據等多類型數據(覆蓋50萬以上個體人群,總數據量50TB),開展醫療大數據的處理、存儲、分析、應用研究,為提高重大疾病的診治水平提供大數據支撐。
4.基於區域醫療與健康大數據處理分析與應用研究
選擇覆蓋100萬以上個體人群,總數據量不少於100TB的區域醫療與健康數據,通過處理、存儲、分析、整合,構建面向健康服務的知識庫及支撐平臺,並提供應用服務。
5.組學大數據中心和知識庫構建與服務技術
集成包括基因組、蛋白質組等組學數據,總數據量不少於100TB,至少60%以上的數據提供對外訪問,重點突破個人基因組可視化技術,組學註釋與疾病風險評估技術,建立組學大數據知識庫及搜索引擎、數據挖掘和可視化分析平臺。