1.基於大數據挖掘的虛擬醫藥科研案例
數據挖掘發展到今天,按照時下的概念應該到了“大”數據挖掘的時代了。我們還是先從幾個相關案例開始吧。
1.1 虛擬臨床試驗-大數據采集
我們首先來看這樣壹個案例。2011年06月,輝瑞制藥有限公司宣布開展壹項“虛擬”臨床研究,該項研究是壹個得到美國食品和藥物管理局批準的試點項目,首字母縮寫為“REMOTE”。“REMOTE”項目是在美國開展的第壹項病人只需使用手機和互聯網、而不用重復跑醫院的臨床研究,該項目的目標是要確定此類“虛擬”臨床研究能否產生和傳統臨床研究壹樣的結果。而傳統的臨床研究要求病人住在醫院附近,並且定期前往醫院或診所進行初次檢查和多次後續檢查。如果這壹項目有效,那它可能意味著全美國的病人都能參加今後的許多醫學研究。這樣壹來,原先的科研項目中未得到充分代表的群體將得以參加,數據收集速度將大大加快,而且成本也很可能會大幅下降,參與者退出的幾率也很可能會降低不少。
從上例中,我們可以看到,利用互聯網可以收集遠遠大於傳統臨床科研樣本數目的超大量病人的臨床數據,而且其中有些臨床數據可能來自於更加便捷的可穿戴健康監測設備。如果這樣的研究,在科研設計嚴謹、質量標準得到有效執行、各種誤差得到有效控制的情況下,科研的效率和成果的可信度可以顯著提高。正如輝瑞公司首席醫療官弗蕾達?劉易斯-霍爾所說的:“讓更多樣化的人群得以參與研究有可能會推動醫學進步,並為更多的病人帶來更好的療效。”
1.2 虛擬藥物臨床試驗-大數據挖掘
我們再來看另外壹個案例。1992年,抗抑郁藥物帕羅西汀(Paxil)獲準上市;1996年,降膽固醇藥物普拉固(Pravachol)正式開售。兩種藥品生產企業的研究證明:每種藥物在單獨服用時是有效且安全的。可是,患者要是同時服用兩種藥是否安全,沒有人知道,甚至很少有人想過。美國斯坦福大學的研究人員應用數據挖掘技術分析了數萬例患者的電子病歷後,很快發現了壹個出人意料的答案:同時服用兩種藥物的患者血糖含量較高。這對於糖尿病患者來說影響很大,過多的血糖對他們來說是壹種嚴重的健康威脅!科學家還通過分析血糖檢測結果和藥物處方,來尋找隱藏的規律。
對於單個醫生來說,他所經歷的同時服用這兩種藥物的病人是很有限的,雖然其中可能有少數的糖尿病患者莫名其妙地血糖升高了,但醫生很難意識到這是由於病人同時服用了Paxil和Pravachol造成的。因為這是壹種掩藏在大數據中的隱含規律,如果不是有人有目的地專門研究Paxil和Pravachol聯合用藥的安全性的話,個體醫生是很難揭示這個規律的。但是,臨床藥品成千上萬,我們怎麽可能對任意組合的兩、三種藥聯合應用的安全性和有效性進行逐壹研究呢?數據挖掘很可能是壹種有效的、快速的、主動式的探索多種藥聯合應用問題的方法!
研究者不必再召集患者去做臨床試驗,那樣做的話花費太大了。電子病歷及其計算機應用的普及為醫療數據挖掘提供了新的機遇。科學家不再局限於通過召集誌願者來開展傳統的課題研究,而是更多地從現實生活中的實驗中,如日常的大量的臨床案例中篩選數據並開展虛擬科研,這些並非來自計劃的課題立項的實驗數據保存在許多醫院的醫療記錄中。
類似本案例,應用數據技術使得研究人員可以找出在藥物批準上市時無法預見的問題,例如壹種藥物可能對特定人群產生怎樣的影響。另外,對醫療記錄的數據挖掘不僅將為研究帶來好處,還會提高醫療服務系統的效率。
1.3 虛擬藥物靶標發現-知識發現
我們再看看這樣的壹類研究。通常新藥研發的過程都比較漫長,投入巨大,風險也很高。有數據表明,新藥研發的平均時間長達15年,平均耗費超過8億美元。但是,由於藥物療效的不佳和毒副作用太高,使得許多藥物的研發經常在臨床階段就失敗了,造成了巨大的經濟損失。作為藥物研發的源頭,藥物靶標的發現和識別對藥物的研發成功率具有舉足輕重性的作用。隨著生物信息技術的不斷發展,以及蛋白質組學數據、化學基因組學數據的日益增長,應用數據挖掘技術結合傳統生物實驗技術,可為藥物新靶標的發現提供新的技術手段,為靶標識別預測提供新的方法。構建藥物靶標數據庫,利用智能計算技術和數據挖掘技術對現有的藥物靶標數據開展深入探索,以期發現新的藥物靶標正是這樣壹類研究,我們也稱之為藥物靶標的知識發現。
傳統的藥物靶標的發現,通常大都是通過大量的、反復的生物化學實驗來實現的,不僅成本高、效率低,成功率也很低,猶如瞎子摸象壹樣,不好掌握方向。而應用數據挖掘這壹自動的、主動的、高效的探索技術,可以開展虛擬藥物靶標發現,不僅大大加快了藥物靶標發現的進程,而且大幅減少了生物化學實驗的次數和成本,同時也提高了傳統生化實驗的成功率。
2. 數據挖掘在虛擬醫藥科研上的應用
大數據時代,醫藥研發面臨更多的挑戰和機遇,為了更好的節約研發成本,提高新藥研發成功率,研發出更有競爭力的新藥,可以應用數據挖掘技術開展虛擬醫學科研和藥物研究。數據挖掘在虛擬醫藥科研上的應用,可以總結為如下幾個方面。
2.1 通過預測建模幫助制藥公司降低研發成本提高研發效率。模型基於藥物臨床試驗階段之前的數據集及早期臨床階段的數據集,盡可能及時地預測臨床結果。評價因素包括產品的安全性、有效性、潛在的副作用和整體的試驗結果。通過預測建模可以降低醫藥產品公司的研發成本,在通過數據建模和分析預測藥物臨床結果後,可以暫緩研究次優的藥物,或者停止在次優藥物上的昂貴的臨床試驗。
2.2 通過挖掘病人數據,評估招募患者是否符合試驗條件,從而加快臨床試驗進程,提出更有效的臨床試驗設計建議。例如: 通過聚類方法對患者群體進行聚類,尋找年齡、性別、病情、化驗指標等方面的特征,判定是否滿足試驗條件,也可以根據這些特征更好的設立對照組。
2.3 分析臨床試驗數據和病人記錄可以確定藥品更多的適應癥和發現副作用。在對臨床試驗數據和病人記錄進行分析後,可以對藥物進行重新定位,或者實現針對其他適應癥的營銷。通過關聯分析等方法對試驗數據進行挖掘可能會發現事先想不到壹些成果,大大提高數據的利用程度。
2.4 實時或者近乎實時地收集不良反應報告可以促進藥物警戒。藥物警戒是上市藥品的安全保障體系,對藥物不良反應進行監測、評價和預防。通過聚類、關聯等大數據挖掘手段分析藥品不良反應的情況,用藥、疾病、不良反應的表現,是否跟某種化學成分有關等。例如不良反應癥狀的聚類分析,化學成分與不良反應癥狀的關聯分析等。另外在壹些情況下,臨床實驗暗示出了壹些情況但沒有足夠的統計數據去證明,現在基於臨床試驗大數據的分析可以給出證據。
2.5 針對性藥物研發:通過對大型數據集(例如基因組數據)的分析發展個性化藥物。這壹應用考察遺傳變異、對特定疾病的易感性和對特殊藥物的反應的關系,然後在藥物研發和用藥過程中考慮個人的遺傳變異因素。很多情況下,病人用同樣的用藥方案但是療效卻不壹樣,部分原因是遺傳變異。針對同病種的不同的患者研發不同的用藥,或者給出不同的用法。
2.6 對藥物化學成分的組合和藥理進行挖掘,激發研發人員的靈感。例如針對於中醫藥物研發,用數據挖掘手段對於中藥方劑和癥候進行分析研究,探討方劑和針對癥狀之間的聯系,從功效、歸經、藥性和藥味等方面進行分類特征分析。
3. 虛擬藥物臨床試驗分析系統
現在越來越多的臨床科研和藥物臨床試驗都是從日常的臨床工作中生成的大數據中經過嚴格的條件篩選來提取數據的。正如我們在本文1.1和1.2中提到的案例壹樣,所謂虛擬藥物臨床試驗,是以更廣泛的臨床數據采集,和從海量的醫院電子化的病歷中按照事先的設計需求經過嚴格的條件篩選來開展的,雖然是虛擬的方法而不是傳統的方法,這種藥物臨床試驗研究有樣本代表更廣泛、成本低、效率高、研究成果更豐富等優點。采用虛擬研究的方法可以完全替代某些傳統的藥物臨床研究,也可以作為某些傳統的藥物臨床研究的預試驗或探索性研究,以使真正的藥物臨床研究工作多、快、好、省。我們現在來看壹下虛擬藥物臨床試驗分析系統是如何工作的。
3.1 虛擬藥物研究的基本思路
1、建設藥物臨床試驗數據倉庫,充分整合和積累的臨床數據和藥物應用數據。 2、設計、選取藥物臨床試驗的觀察組樣本與對照組樣本。 3、應用數據挖掘技術探索藥物對於疾病治療的效果和產生的副作用。 4、應用統計學技術進行藥物臨床試驗效果的推斷和評價。
3.2 建立藥物臨床數據倉庫
建設藥物臨床試驗數據倉庫有兩種途徑,壹種是通過經典的藥物臨床試驗設計來定制化和采集相關數據,傳統的方法主要記錄在紙質文檔上,也有專門數據錄入軟件,這種方法采集的數據是按照預先設計進行的,直接形成藥物臨床試驗的專用數據,但通常樣本數據量不會太大;另外壹種是將醫院大量的、歷史的臨床用藥數據進行抽取、變換、裝載,然後充分整合積累的其他臨床數據和藥物應用數據,形成藥物臨床試驗數據源,為生成藥物臨床試驗數據提供支撐,這樣的樣本數據量可能很大,我們後面演示的方法就是采用種數據進行“虛擬”樣本篩選和分析的。
3.3 藥物臨床試驗樣本設計
藥物臨床試驗樣本根據藥物研究的需要可以有很多設計,例如單因素單水平設計,單因素兩水平設計,單因素多水平設計,配對設計設計,區組設計設計,重復測量設計等。我們這裏以兩因素區組設計為例來介紹壹下樣本篩選。本例僅以方法演示為目的,不考慮嚴格的醫學專業意義。
本研究的疾病為動脈硬化心臟病,處理因素為藥物應用,***有三種藥物,分別為倍他樂克、諾和靈、硝酸異山梨脂。區組因素為年齡,分了三個年齡段。觀察指標為血鈉。我們科研設計按照“三要素、四原則”進行數據篩選。所謂“三要素”是研究人群,處理因素和觀察對象。所謂四原則是指隨機、對照、重復、均衡等原則。按照如下圖壹的輸入條件,可以將數據集篩選出來,然後再用統計分析工具進行統計分析。
3.4 藥物臨床數據挖掘
應用數據挖掘技術不僅可以提高藥物臨床數據的利用程度,而且可以探索和發現藥物臨床應用中的新的積極作用和新的消極作用。利用多種數據挖掘方法分析臨床試驗數據和病人的電子化數據,可以確定藥物更多的適應癥和發現未知的副作用。在對臨床試驗數據和病人記錄進行挖掘分析後,可以對藥物進行重新定位,或者實現針對其他適應癥的推廣應用。通過對藥物試驗數據進行挖掘可能會發現意想不到壹些成果,大大提高數據的應用效益。
如本例,我們使用數據挖掘的方法深入研究藥物對於實驗室指標的影響。探索和發現藥物臨床應用中的正負影響,可以通過觀察病人用藥前後的很多醫學特征和生理指標來進行,而觀察更加客觀的各種實驗室指標是很多藥物研究的必備設計之壹。下面是壹個應用倍他樂克藥物治療冠心病的研究,我們應用了數據挖掘的有關技術分析了倍他樂克的血藥濃度的變化對病人各個實驗室指標的影響,如下圖二,顯示了部分實驗室指標的影響結果。
以上結果需要與臨床醫務人員以及藥物研究人員***同探討。在刨去了各種人為因素以及業務系統客觀影響因素之後,我們可以發現先前未知的倍他樂克對病人生理指標的影響,其中有些影響在醫學上可能是積極的,而有些影響在醫學上可能是反面的。
3.5 統計分析設計
虛擬藥物臨床試驗分析系統的統計分析模塊,包含了藥物研發中常用的統計分析方法,如T檢驗、方差分析、相關分析、回歸分析、非參數檢驗等,設計思路按照統計學思維,首先對數據進行驗證,根據驗證結果選擇統計分析方法。下面我們以重復測量設計為例進行說明。
本研究的疾病為動脈硬化心臟病,處理因素為藥物應用倍他樂克,觀察指標為我們從數據挖掘中發現有影響的血鉀指標。我們可以使用3.3提供的模塊對篩選的樣本進行提取和分析,也可以從本模塊直接選取所需的數據並分析。重復測量分析有兩種方法,壹個是Hotelling T2檢驗,另壹個是方差分析,本系統提供了這兩種統計檢驗方法。
部分樣本數據如下圖三所示:
這裏,我們僅觀察壹下方差分析方法的結果輸出,如下圖四所示。
從圖中我們可以看到,根據P值得到:處理因素“倍他樂克”藥物對血鉀起作用,測量時間對血鉀有影響,處理因素和測量時間有交互影響。從而驗證了我們應用數據挖掘得到的結果。
4. 數據挖掘在中藥研發上的應用
以上內容,我們重點是以西藥的研究應用為例來說明以數據挖掘為特色的虛擬醫藥研究的方法。其實,數據挖掘和虛擬藥物研究還非常適合於中醫中藥的研究工作,因為中醫學本身是壹個經過幾千年不斷摸索、積累和驗證的、知識體系龐大的、具有完整理論體系的醫學科學,但我們還需要應用現代知識不斷地深入理解、挖掘、提高和應用,以便與現代科學能更好地融合。而數據挖掘正是探索和解釋中醫學奧秘的有力工具!
國內許多單位也開展壹些中醫中藥數據挖掘的局部性的嘗試。現在,我們就將這些數據挖掘在中醫中藥研究中的嘗試加以匯總,分列如下: 1、中藥配方中的文本數據挖掘; 2、對“藥理”起關鍵作用的“有效成分”——單體或化學成分的挖掘; 3、中藥方劑配伍規律的數據挖掘與研究; 4、方劑配伍物質基礎與藥效如(證侯、癥狀)關系的數據挖掘; 5、方劑配伍的用量與方劑效用級別間的關系(量效關系及模型) 挖掘; 6、中藥藥性理論與中藥有效成份的關系挖掘; 7、方劑中各藥味間的相關性挖掘; 8、相似病癥的隱含相似關系挖掘; 9、同種疾病不同藥方的相似性和差異性的挖掘和研究。 10、數據挖掘用於不確切病癥的分類和研究。