當前位置:偏方大全网 - 藥品查詢 - 剛入門時老師非要合並dataset時batch effect困擾許久

剛入門時老師非要合並dataset時batch effect困擾許久

壹、什麽是批次效應

批次效應(batch effect),表示樣品在不同批次中處理和測量產生的與試驗期間記錄的任何生物變異無關的技術差異。批次效應是高通量試驗中常見的變異來源,受日期、環境、處理組、實驗人員、試劑、平臺等壹些非生物因素的影響。

合並分析不同批次的數據時,平常的標準化方法不足以調整批次之間的差異。如果批次效應比較嚴重,這些差異就會幹擾實驗結果,我們就不能夠判斷得到的差異表達的基因是來源於想要研究的因素,還是和批次相關。

批次效應不能被消除,只有盡可能的降低。校正批次效應的目的是,減少批次之間的差異,盡量讓多個批次的數據重新組合在壹起,這樣下遊分析就可以只考慮生物學差異因素。

二、處理方法

目前已經有多種處理批次差異的方法。[2]

批次效應處理方法

三、哪種方法比較好

壹項研究比較了6種去除批次效應的方法,其中包括ComBat方法(parametric prior method,ComBat_p和non-parametric method,ComBat_n)、代理變量法(Surrogate variable analysis,SVA)、基於比值的方法(Geometric ratio-based method,Ratio_G)、平均中心方法(Mean-centering,PAMR)和距離加權判別(Distance-weighted discrimination,DWD)方法,綜合多種指標認為ComBat在精確性、準確性和整體性能方面(precision, accuracy and overall performance)總體優於其他方法。

四、ComBat方法的算法

模型的假設是基於位置和尺度(Location and scale,L/S)的調整。L/S調整可以定義為壹系列廣泛的調整,其中為數據在批次內的位置(均值)和/或規模(方差)假設了壹個模型,然後調整批次以滿足假設模型的規範。因此,L/S批次調整假設批次效應可以通過標準化批次之間的均值和方差來建模。這些調整可以從簡單的基因範圍的均值和方差標準化,到復雜的基因間線性或非線性調整。

模型:Yijg = αg + Xβg + γig + δigεijg

Yijg表示來自批次i的樣品j的基因g的表達值。其中αg是基因g的平均表達值,X是樣本條件的設計矩陣,βg是對應於X的回歸系數向量。誤差項εijg服從期望值為0和方差為σg的正態分布N(0,σg ),γig和δig表示批次i中基因g加法和乘法的批次效應。

算法分為3步: [4]

算法

五、推薦的解決方法

(1)根據分析目的確定批次效應處理方法:差異表達分析,在模型中添加批次因素;可視化,先對原數據進行校正,再使用校正後的數據進行分析。

(2)已知的批次,removeBatchEffect或ComBat;未知的批次,sva。

(3)removeBatchEffect和ComBat、sva輸入的數據需要進行轉換,例如取對數(rlog或logCPM)。

(4)read counts數據可使用ComBat-Seq或svaseq。

六、差異表達分析的批次校正

很多人以為去除批次效應是要改變妳的表達矩陣,新的表達矩陣然後去走差異分析流程,其實大部分的差異分析流程包裏面,人家內置好了考慮妳的批次效應這樣的混雜因素的函數用法設計。例如:

構建DESeq2對象時的設計公式: design = ~ batch + conditions

如果要合並不同批次的數據進行差異表達分析,建議直接把批次信息加入到構建模型裏面。但是這種方法並沒有改變原數據。如果妳確實壹定要親眼看看批次效應到底是如何影響這個表達矩陣的,就需要對表達矩陣做另外的處理,例如removeBatchEffect或ComBat。但是處理之後會改變counts矩陣,之後就沒辦法走DESeq2差異分析流程啦,僅僅是為了拿到去除批次效應前後對比的表達矩陣而已。

PCA

七、使用limma的removeBatchEffect處理批次效應

removeBatchEffect這個函數用於進行聚類或無監督分析之前,移除與雜交時間或其他技術變異相關的批次效應。它是針對芯片設計的,因此不要直接使用read counts,數據需要經過壹定的標準化操作,如log轉化。

removeBatchEffect只用於銜接聚類、PCA等可視化展示,不要在線性建模之前使用。因為用矯正後的數據進行差異表達分析,有兩個缺陷:壹是批次因素和分組因素可能重疊,所以直接對原數據矯正批次可能會抵消壹部分真實生物學因素;二是低估了誤差。所以,如果想做差異表達分析,但數據中又有已知的批次問題,則最好把批次效應納入線性模型中。

removeBatchEffect用法

removeBatchEffect

八、使用SVA的ComBat處理批次效應

sva這個R包可以處理已知的和未知的批次效應,sva函數可以通過構建高維數據集的代理變量,移除批次效應和其它所有不需要的變異。如果是芯片數據用sva,高通量測序數據使用svaseq。ComBat函數可以處理已知的批次效應。

ComBat用法

ComBat

九、使用sva處理未知的批次

SVA具有移除批次效應和高通量測序中其它不需要的變異的功能。使用sva識別和構建高維數據集代理變量(surrogate variables),代理變量是由高維數據直接構建的協變量(covariates),可用於後續分析,以調整未知、未建模或潛在的噪聲源。

sva函數的輸出本身就是代理變量。它們可以包含在全模型矩陣和空模型矩陣中,然後與數據矩陣壹起傳遞給SVA包中的f.pvalue函數,以計算參數F檢驗p值,從而調整代理變量。

根據經驗,當存在大量已知或未知的潛在混雜因素時,代理變量調整(sva)可能更合適。當壹個或多個生物學分組已知是異質的,並且有已知的批次變量時,直接調整(ComBat)可能更合適。

sva考慮了兩種類型的變量:調整變量和感興趣的變量。例如,感興趣變量(variables of interest)可能是癌癥組與對照組;調整變量(adjustment variables)可能是病人的年齡、性別、測序時間。

建立兩個模型矩陣:全模型(full model)和空模型(null model)。空模型包括所有調整變量,而不包含感興趣的變量;全模型包括所有調整變量和感興趣的變量。我們將試圖分析感興趣的變量與基因表達之間的關聯,調整調整變量。模型矩陣可以使用model.matrix創建。sva的目標是消除所有不需要的變異來源,同時通過mod中包含的主要變量來檢測對比。

註意:在我們最初的工作中,使用識別函數來測量在近似對稱和連續尺度上的數據。對於通常表示為counts的測序數據,更合適的模型可能涉及使用適度的對數函數。例如,我們首先用log(counts+1)轉換基因表達數據。

用法:

(1)使用sva得到代理變量

(2)使用f.pvalue函數調整代理變量(calculate parametric F-test P-values adjusted for surrogate variables)

(3)sva可以與差異表達分析程序壹起使用,如limma、DESeq2。

References

[1] Chen C, Grennan K, Badner J, Zhang D, Gershon E, Jin L, et al. Removing batch effects in analysis of expression microarray data: an evaluation of six batch adjustment methods[J]. PloS One. 2011;6(2):e17238.

[2] 李颯,趙毅強.基因表達數據批次效應去除方法的研究進展[J].南京農業大學學報,2019,42(03):389-397.

[3] Chen C, Grennan K, Badner J, Zhang D, Gershon E, Jin L, et al. Removing batch effects in analysis of expression microarray data: an evaluation of six batch adjustment methods[J]. PloS One. 2011;6(2):e17238.

[4]陳天成,侯艷,李康.基因組學數據整合中的批次效應移除算法[J].中國衛生統計,2016,33(03):527-529+533.

[5] Johnson WE, Li C, Rabinovic A. Adjusting batch effects in microarray expression data using empirical Bayes methods[J]. Biostatistics. 2007;8(1):118-27.

[6] Leek JT, Johnson WE, Parker HS, Jaffe AE, Storey JD. The sva package for removing batch effects and other unwanted variation in high-throughput experiments[J]. Bioinformatics. 2012;28(6):882-3.

  • 上一篇:空運報價需知
  • 下一篇:日本命之母是不是激素類藥
  • copyright 2024偏方大全网