當前位置:偏方大全网 - 偏方秘方 - 盛鑫課程筆記12-負二項分布與排序

盛鑫課程筆記12-負二項分布與排序

隨機實驗的樣本空間為ω。如果每個樣本點ω ∈ ω對應壹個實數X(ω),得到壹個定義在ω上的單值函數X=X(ω),那麽X(ω)稱為隨機變量,簡寫為X .也就是說,隨機變量X是從ω到實數域R的函數,它的定義域是ω,它的值域X(ω)是R或R的子集.通常用X,y,z來表示隨機變量,X,y,z是引入隨機變量的目的是量化隨機實驗,便於研究其規律性。

比如隨機扔兩次均勻的硬幣,樣本空間為ω = {++,+-,-+,-}。如果妳關心妳得到人頭的次數,妳可以為結果ω =+-,-+定義隨機變量x (ω) = 2,1,65438+。

如果壹個隨機變量的值可以被壹壹枚舉,那麽它就是壹個離散隨機變量。如果隨機變量的值不能壹壹枚舉,則為連續隨機變量。只要是我們日常使用的量詞所能度量的值,比如時間、數字,都是離散的隨機變量。如果這些量詞不能用來度量,並且取值在壹定區間內,小數點可以是2,3甚至無限多位,那麽這個變量就是連續型隨機變量。

事件的概率表示實驗中某壹結果的概率。概率函數就是用函數的形式表達概率。概率分布是概率的分布,用來表示隨機變量的概率規律。連續型隨機變量的概率函數也叫概率密度函數;離散隨機變量的概率函數也稱為概率質量函數。

概率分布描述了壹個隨機變量在給定範圍內可以接受的所有可能的值和可能性。概率分布形狀的影響因素包括均值或平均值、標準差、偏度和峰度。某些現象數據的生成過程會決定其概率分布,這種概率分布稱為概率密度函數,概率分布描述了給定數據生成過程的可能值的預期結果。

離散概率分布包括伯努利分布、二項式分布、幾何分布、泊松分布等。

連續概率分布包括:正態分布、指數分布等。

離散隨機變量:設xi (i=1,2,3,4,5,6)為離散隨機變量X的所有可能值,事件發生的概率{X=xi} = PI (I = 1,2,3,4,5,

公式pi = P(X=xi) (i=1,2,3,4,5,6)是概率函數,自變量(X)是隨機變量的值,因變量(pi)是壹個值的概率,公式表示每個值的概率。從公式來看,概率函數壹次只能表示壹個值的概率。比如P(X=1)=1/6,這就意味著壹個值為1的隨機變量以概率函數的形式出現的概率是1/6,壹次只能表示壹個隨機變量的值。

列出所有可能的值及值的概率,稱為離散型隨機變量的值分布表及值的概率分布表,即X的分布表(率),常以表格形式書寫:

概率分布規律簡稱概率定律或概率分布。

分布列表的性質:非負性:pi≥0;正態性:σ pi = 1。

分布函數/概率分布函數(也稱為累積概率函數/累積分布函數(CDFs))是概率函數值的累積結果。

設X為隨機變量,對任意實數X,定義F(x)=P (X≤x)為隨機變量X的分布函數,說X服從F(x),記為X~F(x)。

F(x)是定義域為(-∞,+∞)的普通函數,F(x)的值是事件發生的概率{X≤x}。

分布函數的性質:單調性;規範性(總是從零開始,以100%結尾);右連續性。

連續型隨機變量的分布函數F(x)是壹個連續函數。連續隨機變量X在某壹點A的概率P{X=a} = 0,概率為0的事件不壹定是不可能發生的事件。

對於離散概率分布,我們關心的是獲得壹個特定值的概率;對於連續的概率分布,不可能枚舉出每壹個確切的值,它更關心的是壹個具體的概率範圍。

連續隨機變量x,分布函數

F(x)稱為x的概率密度函數或分布密度函數,概率密度函數是分布函數的導函數,概率密度函數曲線下的總面積為1。

概率密度函數f(x)的性質:非負性:f(x)≥0;規範性。

最常見的概率分布是正態分布,或鐘形曲線。

X~N(μ,σ^2)

期望值)E = μ。

方差)D = σ^2

標準差)σ

特點:曲線關於x=μ對稱;當x=μ時,p(x)取最大值;當x →∞,p(x)→0;曲線在x = μ σ處有壹個拐點;曲線以x軸為漸近線;σ決定曲線的形狀。σ越大,曲線越平坦。

標準正態分布定義為平均值等於0,標準差等於1的正態分布。橫軸表示(x-μ)/ σ。

研究了事件時間間隔的概率。比如收到兩條微信消息的時間間隔,播放壹段視頻的時間間隔。

指數分布的特點:無記憶。例如,燈泡的使用壽命服從指數分布。不管用了多久,只要沒有損壞,再用壹段時間t的概率和新品是壹樣的。表示為X~E(λ)?。

X~U(a,b)

f(x) = 1/(b-a),a≤x≤b

均值E = (a+b)/2。

方差D = (b-a)/√12

隨機變量x只有兩個可能值a和b,其概率分布為:p {x = a} = p,p {x = b} = 1-p (0

兩點分布中A和B的值分別為1和0的特殊情況。伯努利測試是壹個單壹的隨機測試,只有兩種可能的結果(成功P或失敗1-p)。它的概率分布是:

P{X=1} = p,P { X = 0 } = 1-P(0 & lt;p & lt1)

預期E = p

方差D = p(1?p)

它是n重伯努利檢驗成功次數的離散概率分布。每個實驗都有兩個互斥的結果。成功的概率是P,失敗的概率是(1-p)。每個實驗都是獨立的,互不影響。在n次獨立的重復試驗中,成功的概率x倍:

設x服從參數為n和p的二項分布,記為x ~ b (n,p)。

均值μ = np

方差σ 2 = NP (1-p)

泊松分布適用於描述單位時間(或空間)內隨機事件的數量(事件數量只能是離散整數)。如公交站臺上的候車客人數、機器故障數、自然災害數、某個產品上的缺陷數、顯微鏡下單元分區的細菌分布數等等。

在二項分布中,如果p很小,n很大,就成了泊松分布。

λ是事件發生的速率,t是時間間隔的長度,x是時間間隔內事件的數量。μ表示長度為t的區間內事件的平均數,那麽?= λt .

x~P(λ)

均值μ = λ

方差σ 2 = λ

μ是泊松分布所依賴的唯壹參數。μ值越小,分布越有偏差。當μ=20時,分布接近正態,當μ=50時,可以認為是正態。

每個實驗都有兩個互斥的結果。成功的概率是P,失敗的概率是(1-p)。每個實驗都是獨立的,互不影響。重復實驗,直到預定的失敗次數發生r次,那麽成功次數x將服從負二項分布。

X~NB(r,P)

這個公式描述了在壹堆合格率為P的產品中,進行連續抽樣,抽取到R個不良品時,停止抽樣,此時得到恰好抽取K個正品的概率。

在分析兩組數據的差異時,我們通常可以通過方差分析來判斷兩組分布數據是否存在顯著差異。當組間方差大於組內方差且有統計學意義時,認為組間處理可引起差異。但在RNA-seq中,問題是重復實驗的次數很少,計數是不連續的(芯片信號是連續的),這些數據不符合正態分布。我們面臨兩個核心問題:基因表達數據適合用什麽統計分布來檢驗差異顯著性?如何利用少量生物重復數據估計基因表達的標準差?

從統計學的角度來說,方差分析肯定需要假設檢驗。通常對於已知分布的數據,使用參數檢驗結果的假陽性率會更低。轉錄組數據中原始計數值的分布是怎樣的?計數值的本質是讀取的次數,是壹個非零的整數和離散,它的分布肯定是離散的。對於轉錄組數據,學術界常用的分布有泊松分布和負二項分布。

分散是指分散的程度。為了研究數據分布的分散程度,我們經常使用方差作為指標。對於泊松分布,其均值和方差相等,但我們的數據不符合這個規律。

橫坐標是平均值,縱坐標是方差。真實數據的分布偏離泊松分布,方差明顯大於均值。這叫做過度分配。因此,選擇泊松分布作為總體分布是不合理的。

在RNA-seq中,采樣可變性滿足泊松分布,因為期望和方差是相似的。而生物重復之間的生物變異性不能用泊松分布來描述,因為它的方差可能非常大,所以使用負二項分布,並增加了壹個額外的誤差項。

負二項分布的均值是方差的二次函數,方差隨著均值的增大而增大。

基於負二項式模型實現R包有三種方法(edgeR,DESeq,baySeq)。

測序計數數據的特征包括非正態性、方差對均值的依賴性等。reads count的Kij建模為負二項分布,只是因為人們認為reads的分布更符合負二項分布。這種負二項分布有兩個參數,均值)μij和離差)αi .組內變異用離散參數αi建模,用Var Kij = μij+αi μij^2 2描述計數的方差。離散參數αi的精確估計對於差異表達的統計推理非常重要,但在生物重復較少的情況下,很難精確計算每個基因表達的離散程度。在DESeq2中,假設平均表達強度相似的基因具有相似的分散度,從而跨基因共享信息,縮小分散度。

  • 上一篇:面條被刮壞了,如何保養維修不留痕跡?
  • 下一篇:腰著涼了怎麽辦?
  • copyright 2024偏方大全网