2016年1月23日 星期六

機率質量函數和機率密度函數 Probability Mass Function and Probability Density Function

機率可不全然只是做幾次排列組合......高中教材(或說學測)會讓你有這種錯覺。數學家在一番努力之後總算把機率弄到座標上了。


所謂機率,即一件事情發生的可能程度。我們也可以把這一件事情用數字替代,我們就有了機率函數——一個會隨輸入而輸出不同機率值的函數,機率和變數之間的關係,一個分佈(Distirbution)。比如說,以 f(x) 代表擲三次骰子中出現 x 次正面的機率,則 f(1) = 3/8,f(0) = 1/8。

類似的概念還可以延伸到大規模的數據上,例如一個班級裡成績對五題的機率,或一個區域內 25 歲的人佔多少比例。但是這個機率函數終究有他的瓶頸:當變數越來越多—像是全校 0 分到 100 分——針對每個 x 值的機率就會越變越小。在一個社區中身高恰好為 160 的人佔多少?


於是我們勢必引進一個新的東西︰機率密度函數(Probability Density Function,PDF,不是那個可讀的 Portable Document Format),而我們先前討論的則稱作機率質量函數(Probability Mass Function)。在 PDF 中變數是連續的(continuous)——這一個值緊挨著下一個相去很小的值,而這兩個值對應的函數值也差不了多少。相對的,PMF 裡每個值都分得很開,是離散的(discrete),每個人都對應到一個有意義的機率值。

然而,如同我們先前看過,在變數的分佈越來越密,也就是變數變得連續了的時候, 每個值對應的機率是微乎其微的,是沒有意義的。數學家們想出了一個解決之道︰把他們加總。對連續變數而言,就是積分。於是,我們在這種狀況捨棄一一對應的質量函數,改用更加抽象的密度函數,這樣積分完之後就會是我們想要的「質量」了。也因些,某一 x 值對應的 PDF 值是沒有實質意義的。在一個區域中,我不能個訴你身高恰好為 160 的人佔多少比例,但是身高介於 155 和 165 的我就可以用積分求出來。

關於 PDF 積分的細節和常見的 PDF 有哪些,在下一篇有關常態分佈的文章我會再做說明。這篇文章是關於機率函數的一個快速概念釐清,也是「分佈」這東西的重要基本概念。

沒有留言:

張貼留言