cosine裡面可以放√-1？: 如果高校少女讀了法蘭西斯·高爾頓：最小平方法迴歸分析 Least Squares Regression Analysis

當我們有一組兩個變數的資料時，我們除了透過算出其相關係數來探討兩個變數間的相關程度外，也可透過描繪出迴歸直線來預測其他筆資料。

畢竟，統計嘛，這是一門可說是和我先前什麼向量分析或矩陣截然不同的領域，不能用矩陣或向量的思維去思考統計呢（笑

法蘭西斯·高爾頓是一位統計學家。至於我在惡搞誰我就不多說了。

說到統計（Statics），最為人所熟知的大概就是平均（Mean，μ）了。平均有分算術平均和幾何平均，可見於著名的算幾不等式中：

$\begin{matrix}\mu_A\geq \mu_G \\ \begin{align*} \textup{where} \;\;\; & \mu_A=\frac{1}{n}\sum_{i=1}^nx_i \\ & \mu_G=\sqrt[n]{\prod_{i=1}^nx_i} \end{align*}\end{matrix}$

而出了平均，平民小老百姓就幾乎不知道其他的東西了。首先先從二次差（Squared Deviation）講起。對於求得某一筆資料x_i和某個中心之間的距離（或距離總和），統計學家得出兩個結果：絕對差（Absolute Deviation）和二次差。絕對差就是將中心和資料之間的差冠上一個絕對值，不過那樣子很難計算，因此另一個二次差就變得重要許多。對於一個二次差δ_xx，我們有：

$\delta_{xx}=\sum_{i=1}^n\left ( x_i-\mu_x \right )^2$

並且透過計算，我們可以得到二次差的另一種表達方式。

$\begin{align*} \delta_{xx}&=\sum_{i=1}^n\left ( x_i-\mu_x \right )^2 \\ &=\sum_{i=1}^nx_i^2-\sum_{i=1}^n2x_i\mu_x+\sum_{i=1}^n\mu_x^2 \\ &=\sum_{i=1}^nx_i^2-2\mu_x\sum_{i=1}^nx_i+n\mu_x^2 \\ &=\sum_{i=1}^nx_i^2-2\mu_x(n\mu_x)+n\mu_x^2 \\ &=\sum_{i=1}^nx_i^2-n\mu_x^2 \end{align*}$

＊

現在既然要預測下一筆資料的著落點在哪裡，我們可以採用直線去預測（如果變數間是線性相關）。我們把這條預測用直線稱作迴歸直線（Regression Line）。

那麼哪一條直線夠資格被用來預測？統計學家發明了一種方法來找出迴歸直線，即最小平方法（Least Squares）。也就是說，同一個變數在迴歸直線上的點和實際的資料點之間距離越小越好，而這個距離被稱作殘差（ε，Error）。

現在考慮一條迴歸直線R(x)=ρx+a，其中ρ代表迴歸係數，並考慮一個函數E代表殘差總和，而對於殘差的計算方便性我們在這裡計算平方的總和。於是有：

$\begin{align*} E(a,b)&=\sum_{i=1}^n\varepsilon^2_x(i) \\ &=\sum_{i=1}^n\left [ y_i-R(x) \right ]^2 \\ &=\sum_{i=1}^n\left ( y_i -\rho x_i-a \right )^2 \end{align*}$

我們把ρa設為變數的用意在於我們要求的最小值取決於ρ和a的選取，而此處的ε有個下標x則是註明殘差是依照x_i而定的。

因為同時還有x方向的殘差，而根據殘差方向的不同得出來的迴歸係數也會有所不同，因此統計學家不建議把同一個迴歸係數用來預測兩種變數，儘管預測其中一種變數是正確的。

我們這裡要求的是針對x（即預測y）的迴歸係數，用一個小x標記。現在只要計算E(a,b)在什麼情況下有最小值即可，而所謂最小值就是兩條微分方程都等於零。是的，偏微分再度出動！

$\begin{Bmatrix} \frac{\partial E(a,b)}{\partial a} \!\!\!&= \underset{i}{\sum}\frac{\partial (y_i-\rho x_i-a)^2}{\partial (y_i-\rho x_i-a)}\frac{\partial (y_i-\rho x_i-a)}{\partial a}\;\;\;\;\, \\ &=\underset{i}{\sum}\,2(y_i-\rho x_i-a)\cdot1=0\;\;\;\, \\ \frac{\partial E(a,b)}{\partial \rho} \!\!\!&= \underset{i}{\sum}\frac{\partial (y_i-\rho x_i-a)^2}{\partial (y_i-\rho x_i-a)}\frac{\partial (y_i-\rho x_i-a)}{\partial \rho}\;\;\;\;\;\, \\ &=\underset{i}{\sum}\,2(y_i-\rho x_i-a)(-x_i)=0 \end{matrix}\right.$

我們不建議看倌先行將平方括號展開後再偏微分。而第一個式子透過計算可以得出：

$\sum_{i=1}^n(y_i-\rho x_i-a)=-na+\sum_{i=1}^n(y_i-\rho x_i)=0$

$a=\frac{1}{n}\sum_{i=1}^n(y_i-\rho x_i)=\mu_y-\rho\mu_x$

將含有ρ的a帶回第二個式子求ρ：

$\begin{align*} \sum_{i=1}^n(y_i-\rho x_i-a)x_i&=\sum_{i=1}^n(y_i-\rho x_i+\rho\mu_x-\mu_y)x_i \\ &=\sum_{i=1}^nx_iy_i-\rho\sum_{i=1}^nx_i^2+\rho\mu_x\sum_{i=1}^nx_i-\mu_y\sum_{i=1}^nx_i \\ &=\rho\left (\mu_x\sum_{i=1}^nx_i-\sum_{i=1}^nx_i^2 \right )+\sum_{i=1}^nx_iy_i-\mu_y\sum_{i=1}^nx_i \\ &=0 \end{align*}$

移項得到：

$\begin{align*} \rho&=\frac{\underset{i}{\sum}x_iy_i-\mu_y \underset{i}{\sum}x_i}{\underset{i}{\sum}x_i^2-\mu_x \underset{i}{\sum}x_i}\\ &=\frac{\frac{1}{n}}{\frac{1}{n}}\cdot\frac{\underset{i}{\sum}x_iy_i-\mu_y \underset{i}{\sum}x_i}{\underset{i}{\sum}x_i^2-\mu_x \underset{i}{\sum}x_i} \\ &=\frac{\overline{x_iy_i}-\mu_x\mu_y}{\overline{x^2}-\mu_x^2} \end{align*}$

其中的 $\overline{x_i^2}$ 和 $\overline{x_iy_i}$ 分別代表每筆資料x的平方的平均、第i筆資料x和第i筆資料y的成績。同時：

$\begin{align*} \rho&=\frac{\underset{i}{\sum}x_iy_i-\mu_y \underset{i}{\sum}x_i}{\underset{i}{\sum}x_i^2-\mu_x \underset{i}{\sum}x_i}\\ &=\frac{\underset{i}{\sum}x_iy_i-n\mu_x\mu_y}{\underset{i}{\sum}x_i^2-n\mu_x^2} \\ &=\frac{\delta_{xy}}{\delta_{xx}} \end{align*}$

這是比較簡潔、運用二次差表述的迴歸係數。現在再把ρ帶回先前的a，來看看整條迴歸方程式：

$\begin{align*} R(x)&=\rho x+a \\ &=\frac{\delta_{xy}}{\delta_{xx}}x+\mu_y-\frac{\delta_{xy}}{\delta_{xx}}\mu_x & \\ &=\frac{\delta_{xy}}{\delta_{xx}}\left (x-\mu_x \right )+\mu_y \end{align*}$

他等價於我們一開始見到的式子。

＊

事實上整個最小平方法不是難在透過矩陣或什麼方法解迴歸係數，而是偏微分。因此高中若是有牽扯到最小平方法證明者，通常會直接略過或著很辛苦地用配方法解。

＊

有關過程的LaTeX語法

\begin{Bmatrix}
\frac{\partial E(a,b)}{\partial a} \!\!\!&= \underset{i}{\sum}\frac{\partial (y_i-\rho x_i-a)^2}{\partial (y_i-\rho x_i-a)}\frac{\partial (y_i-\rho x_i-a)}{\partial a}\;\;\;\;\, \\
&=\underset{i}{\sum}\,2(y_i-\rho x_i-a)\cdot1=0\;\;\;\, \\
\frac{\partial E(a,b)}{\partial \rho} \!\!\!&= \underset{i}{\sum}\frac{\partial (y_i-\rho x_i-a)^2}{\partial (y_i-\rho x_i-a)}\frac{\partial (y_i-\rho x_i-a)}{\partial \rho}\;\;\;\;\;\, \\
&=\underset{i}{\sum}\,2(y_i-\rho x_i-a)(-x_i)=0
\end{matrix}\right.

\begin{align*}
\sum_{i=1}^n(y_i-\rho x_i-a)x_i&=\sum_{i=1}^n(y_i-\rho x_i+\rho\mu_x-\mu_y)x_i \\
&=\sum_{i=1}^nx_iy_i-\rho\sum_{i=1}^nx_i^2+\rho\mu_x\sum_{i=1}^nx_i-\mu_y\sum_{i=1}^nx_i \\
&=\rho\left (\mu_x\sum_{i=1}^nx_i-\sum_{i=1}^nx_i^2 \right )+\sum_{i=1}^nx_iy_i-\mu_y\sum_{i=1}^nx_i \\
&=0
\end{align*}

\begin{align*}
\rho&=\frac{\underset{i}{\sum}x_iy_i-\mu_y \underset{i}{\sum}x_i}{\underset{i}{\sum}x_i^2-\mu_x \underset{i}{\sum}x_i}\\
&=\frac{\frac{1}{n}}{\frac{1}{n}}\cdot\frac{\underset{i}{\sum}x_iy_i-\mu_y \underset{i}{\sum}x_i}{\underset{i}{\sum}x_i^2-\mu_x \underset{i}{\sum}x_i} \\
&=\frac{\overline{x_iy_i}-\mu_x\mu_y}{\overline{x^2}-\mu_x^2}
\end{align*}

\begin{align*}
\rho&=\frac{\underset{i}{\sum}x_iy_i-\mu_y \underset{i}{\sum}x_i}{\underset{i}{\sum}x_i^2-\mu_x \underset{i}{\sum}x_i}\\
&=\frac{\underset{i}{\sum}x_iy_i-n\mu_x\mu_y}{\underset{i}{\sum}x_i^2-n\mu_x^2} \\
&=\frac{\delta_{xy}}{\delta_{xx}}
\end{align*}

2014年8月11日星期一

如果高校少女讀了法蘭西斯·高爾頓：最小平方法迴歸分析 Least Squares Regression Analysis

沒有留言:

張貼留言

2014年8月11日 星期一

如果高校少女讀了法蘭西斯·高爾頓：最小平方法迴歸分析 Least Squares Regression Analysis

沒有留言:

張貼留言

2014年8月11日星期一