2016年1月27日 星期三

常態分佈 Normal Distribution


常態分佈很常出現在媒體上(其實沒有那麼常見),但他到底是什麼?為什麼他就這麼剛好是常態?

我們在統計資料的時候會發現一個現象:有些資料的分佈會呈山峰形,頻率隨資料和平均的距離越遠而遞減。在資料總數越多的時候,這樣的分佈就越常見。數學家們嘗試要用數學式表達這樣的現象,終於他們成功了。歷史上數學家們不斷提出假設的分佈,例如法國人皮耶爾-西蒙.拉普拉斯(Pierre-Simon Laplace,1749-1827)曾寫道[1]:
... as we have no reason to suppose a different law for the ordinates than for their differences, it follows that we must, subject to the rules of probabilities, suppose the ratio of two infinitely small consecutive differences to be equal to that of the corresponding ordinates. We thus will have [the following sentence]:
 原文是法文,翻譯成中文就是:
...我們沒有理由去假設數值的規則,而不是他們之間的差的規則。所以我們必須遵守機率的法則,設兩個無限小的連續差的比等於對應的數值的比。於是我們有(以下等式):

可以得知:

並且函數必須是對稱的,可以合理的假設:


最後根據機率分佈必須歸一化——其在整個實數域上的積分必須是1——的規定,我們可以設定 A 的值:


這個就是拉普拉斯分佈(Laplace distribution)的雛形。但是他在 x=0 的時候卻是不可微的——一個函數若可微,則其導函數存在且是連續的。但這裡的 f(x) 的導函 f'(x) 在 x=0 不連續:他的單側極限(One-sided limit)不同:


因此拉普拉斯的函數在 x=0 的時候不可微(僅管他是連續的)。拉普拉斯的分佈也隱含了一件事:若多次觀測得到的數據(含誤差)服從拉普拉斯分佈,則最有可能的真實數值是觀測數據的中位數(Median),是最小絕對值法(Least absolute value)的結果。有關觀測和機率,那又是另一回事了。

而在 1809 年[2],德國人卡爾.弗里德里希.高斯(Carl Friedrich Gauss,1777-1855)引用了另一個模型來闡明最小平方法(Least square)


這個 PDF 就是我們今日耳熟能詳的常態分佈,而他也因此得到高斯的頭銜(Gaussian distribution)。



常態分佈的定義指出,μ 為平均(Average; Mean),σ 為標準差(Standard deviation)。在其他某些地方,μ 指的是中位數(如上面的拉普拉斯分佈)。沒有人規定 μ 一定要指平均,倒是指位置參數(Location parameter)較多。而對常態分佈而言,μ 就是平均。位置參數符合下列規則:


另一個參數,尺度參數(Scale parameter)則決定 PDF 的大小:


而習慣上常態分佈會將尺度參數寫做 σ^2——也就是變異數(Variance):




接下來我們要做的事情都是積分,不停的積分,所以如果你不會積分的話除了去哪裡惡補一下之外可以跳到底下結論的地方,沒有人會怪你,真的。

看過了常態分佈的模樣,你可能會問:為什麼他的常數這麼奇怪?問得很好,大哉問。還記得我們先前提過的歸一化(Normalization)?他要我們把函數在正負無窮大之間積分,而拉普拉斯分佈的 PDF 是超好積的,高斯分佈可就沒有那麼好處理了。我們可以看到上面的 PDF 包含了標準化(Standarization)後的資料,因次以他為原型,假設我們要積的 PDF 有這些常數:


且已知這裡的 μ 和 σ 分別指平均和標準差。根據歸一化的限制:


現在問題來了:右邊的指數函數怎麼積?遇到這種複雜的複合函數,不要忘了我們還有換元積分法(Integral by substitution),我們另外假設一個 x hat:


滿足:


因此可以替換:


得:


於是我們的第一個常數就有著落了:




接著是變數的期望值,由以下關係給出:


稍微做一點改變:


奇函數的瑕積分為0,整個等式就成了一個恆等式了。不過先別灰心,我們還有其他條件可用。



最後的條件是變異數,其定義為:


我們同樣也可以用分部積分法來求值,有:


於是 k 的值就定出來:1/2,所有的常數都解決了。



提到常態分佈相信有許多人會想到經典的 68-95-997,也就是在平均值的一個、兩個以及三個標準差以內的資料比例。但是這樣的數值是怎麼定出來的?

即然常態分佈曲線是 PDF,他的定積分就會是機率,大小端看定積分的範圍。所以:


來源:http://calculus.seas.upenn.edu/?n=Main.MeanAndStandardDeviation

先從一個標準差開始看起吧,由於我們要積的範圍是對稱的:


我們會處理0到無窮遠的積分(多虧了他的收斂性質),但顯然地以現有的工具有限範圍的積分反而不能計算,真是莫名其妙。於是乎我們必須引進新的工具:不完全伽瑪函數(Incomplete gamma function)


這兩個函數:上不完全伽瑪函數(Upper incomplete gamma function)和下不完全伽瑪函數(Lower incomplete gamma function)之所以會「不完全」是因為他們是由伽瑪函數拆成兩半得來的:


現在回到我們的積分:


 的值約為0.5642, 則是1.21,相乘得到 68.27%。於是我們再繼續算兩個乃至三個標準差的機率:




總結一下常態分佈的幾個性質:

  1. 常態分佈的常數來自歸一化和 PDF 的變異數的定義。
  2. 68-95-997和不完全伽瑪函數有關。



這篇文章會拖很久的其中一個原因是我這回用的是行列輸入法打字,他的拆字邏輯和倉頡迥異,我得要花時間適應。



LaTeX語法:

\begin{align*}
1 &= 2\!\int_\mu^\infty C\exp\left [ -k{(x-\mu)^2\over\sigma^2 } \right ]dx \\
 &=\int_0^\infty {2C\sigma^2\over2k(x-\mu)}\exp\left [ -k{(x-\mu)^2\over\sigma^2 } \right ]dk{(x-\mu)^2\over\sigma^2 } \\
 &={C\sigma\over\sqrt{k}}\int_0^\infty\hat{x}^{-1/2}\exp(-\hat{x})\;d\hat{x}\\
 &={C\sigma\over\sqrt{k}}\;\Gamma\!\left ({1\over2} \right )=C\sigma\sqrt{\pi \over k}
\end{align*}


\begin{align*}
\mu &= \int_{-\infty}^{\infty}(x-\mu)C\exp\left [ -k{(x-\mu)^2 \over \sigma^2} \right ]dx\\
 &+ \int_{-\infty}^{\infty}\mu C\exp\left [ -k{(x-\mu)^2 \over \sigma^2} \right ]dx \\
 &= 0+\mu
\end{align*}


\begin{align*}
\mathrm{Pr}\;[\;\mu-\sigma,\mu+\sigma\;] &= 2\int_\mu^{\mu+\sigma}\!\!{1\over\sigma\sqrt{2\pi}}\exp\left [ -{(x-\mu)^2\over2\sigma^2} \right ]dx \\
 &=2\int_0^{1\over2}{1\over\sigma\sqrt{2\pi}}\cdot{\sigma^2\over x-\mu}\exp\left [ -{(x-\mu)^2\over2\sigma^2} \right ]d{(x-\mu)^2\over2\sigma^2} \\
 &=\sqrt{1\over\pi}\int_0^{1\over2}{\sqrt{2}\sigma\over x-\mu}\exp\left [ -{(x-\mu)^2\over2\sigma^2} \right ]d{(x-\mu)^2\over2\sigma^2} \\
 &=\sqrt{1\over\pi}\int_0^{1\over2}{1\over \sqrt{x}}\exp(-x)dx \\
 &=\sqrt{1\over\pi}\;\gamma({1\over2}, {1\over2})
\end{align*}


\begin{align*}
\mathrm{Pr}\;[\;\mu-\sigma,\mu+\sigma\;] &= \sqrt{1\over\pi} \;\gamma\left ( {1\over2},{1\over2} \right ) \approx 68.27\% \\
\mathrm{Pr}\;[\;\mu-2\sigma,\mu+2\sigma\;] &= \sqrt{1\over\pi}\;\gamma\left ( {1\over2},2 \right )\approx 95.45\%\\
\mathrm{Pr}\;[\;\mu-3\sigma,\mu+3\sigma\;] &= \sqrt{1\over\pi}\;\gamma\left ( {1\over2},{9\over2} \right )\approx 99.73\%
\end{align*}







資料出處:
[1]:https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf
[2]:https://en.wikipedia.org/wiki/Normal_distribution#Naming

線上不完全伽瑪函數計算器:
http://keisan.casio.com/exec/system/1180573447

沒有留言:

張貼留言