當我們有一組兩個變數的資料時,我們除了透過算出其相關係數來探討兩個變數間的相關程度外,也可透過描繪出迴歸直線來預測其他筆資料。
畢竟,統計嘛,這是一門可說是和我先前什麼向量分析或矩陣截然不同的領域,不能用矩陣或向量的思維去思考統計呢(笑
法蘭西斯·高爾頓是一位統計學家。至於我在惡搞誰我就不多說了。
說到統計(Statics),最為人所熟知的大概就是平均(Mean,μ)了。平均有分算術平均和幾何平均,可見於著名的算幾不等式中:
而出了平均,平民小老百姓就幾乎不知道其他的東西了。首先先從二次差(Squared Deviation)講起。對於求得某一筆資料xi和某個中心之間的距離(或距離總和),統計學家得出兩個結果:絕對差(Absolute Deviation)和二次差。絕對差就是將中心和資料之間的差冠上一個絕對值,不過那樣子很難計算,因此另一個二次差就變得重要許多。對於一個二次差δxx,我們有:
並且透過計算,我們可以得到二次差的另一種表達方式。
*
現在既然要預測下一筆資料的著落點在哪裡,我們可以採用直線去預測(如果變數間是線性相關)。我們把這條預測用直線稱作迴歸直線(Regression Line)。
那麼哪一條直線夠資格被用來預測?統計學家發明了一種方法來找出迴歸直線,即最小平方法(Least Squares)。也就是說,同一個變數在迴歸直線上的點和實際的資料點之間距離越小越好,而這個距離被稱作殘差(ε,Error)。
現在考慮一條迴歸直線R(x)=ρx+a,其中ρ代表迴歸係數,並考慮一個函數E代表殘差總和,而對於殘差的計算方便性我們在這裡計算平方的總和。於是有:
我們把ρa設為變數的用意在於我們要求的最小值取決於ρ和a的選取,而此處的ε有個下標x則是註明殘差是依照xi而定的。
因為同時還有x方向的殘差,而根據殘差方向的不同得出來的迴歸係數也會有所不同,因此統計學家不建議把同一個迴歸係數用來預測兩種變數,儘管預測其中一種變數是正確的。
我們這裡要求的是針對x(即預測y)的迴歸係數,用一個小x標記。現在只要計算E(a,b)在什麼情況下有最小值即可,而所謂最小值就是兩條微分方程都等於零。是的,偏微分再度出動!
我們不建議看倌先行將平方括號展開後再偏微分。而第一個式子透過計算可以得出:
將含有ρ的a帶回第二個式子求ρ:
移項得到:
其中的 和 分別代表每筆資料x的平方的平均、第i筆資料x和第i筆資料y的成績。同時:
這是比較簡潔、運用二次差表述的迴歸係數。現在再把ρ帶回先前的a,來看看整條迴歸方程式:
他等價於我們一開始見到的式子。
*
事實上整個最小平方法不是難在透過矩陣或什麼方法解迴歸係數,而是偏微分。因此高中若是有牽扯到最小平方法證明者,通常會直接略過或著很辛苦地用配方法解。
*
有關過程的LaTeX語法
\begin{Bmatrix}
\frac{\partial E(a,b)}{\partial a} \!\!\!&= \underset{i}{\sum}\frac{\partial (y_i-\rho x_i-a)^2}{\partial (y_i-\rho x_i-a)}\frac{\partial (y_i-\rho x_i-a)}{\partial a}\;\;\;\;\, \\
&=\underset{i}{\sum}\,2(y_i-\rho x_i-a)\cdot1=0\;\;\;\, \\
\frac{\partial E(a,b)}{\partial \rho} \!\!\!&= \underset{i}{\sum}\frac{\partial (y_i-\rho x_i-a)^2}{\partial (y_i-\rho x_i-a)}\frac{\partial (y_i-\rho x_i-a)}{\partial \rho}\;\;\;\;\;\, \\
&=\underset{i}{\sum}\,2(y_i-\rho x_i-a)(-x_i)=0
\end{matrix}\right.
\begin{align*}
\sum_{i=1}^n(y_i-\rho x_i-a)x_i&=\sum_{i=1}^n(y_i-\rho x_i+\rho\mu_x-\mu_y)x_i \\
&=\sum_{i=1}^nx_iy_i-\rho\sum_{i=1}^nx_i^2+\rho\mu_x\sum_{i=1}^nx_i-\mu_y\sum_{i=1}^nx_i \\
&=\rho\left (\mu_x\sum_{i=1}^nx_i-\sum_{i=1}^nx_i^2 \right )+\sum_{i=1}^nx_iy_i-\mu_y\sum_{i=1}^nx_i \\
&=0
\end{align*}
\begin{align*}
\rho&=\frac{\underset{i}{\sum}x_iy_i-\mu_y \underset{i}{\sum}x_i}{\underset{i}{\sum}x_i^2-\mu_x \underset{i}{\sum}x_i}\\
&=\frac{\frac{1}{n}}{\frac{1}{n}}\cdot\frac{\underset{i}{\sum}x_iy_i-\mu_y \underset{i}{\sum}x_i}{\underset{i}{\sum}x_i^2-\mu_x \underset{i}{\sum}x_i} \\
&=\frac{\overline{x_iy_i}-\mu_x\mu_y}{\overline{x^2}-\mu_x^2}
\end{align*}
\begin{align*}
\rho&=\frac{\underset{i}{\sum}x_iy_i-\mu_y \underset{i}{\sum}x_i}{\underset{i}{\sum}x_i^2-\mu_x \underset{i}{\sum}x_i}\\
&=\frac{\underset{i}{\sum}x_iy_i-n\mu_x\mu_y}{\underset{i}{\sum}x_i^2-n\mu_x^2} \\
&=\frac{\delta_{xy}}{\delta_{xx}}
\end{align*}
沒有留言:
張貼留言