2015年4月12日 星期日

李娘二姊不辣:特徵分解 Eigendecomposition


豪口愛ㄛㄛㄛㄛ!!!!矩陣也在賣萌!?該不會也有充滿了廢萌的矩陣吧!?




相似不是幾何的專利,矩陣也可以相似(To Be Similar)。兩個矩陣AB若相似,則滿足下列關係:


這也意味著這個矩陣P必須是要可逆的,否則這個相似關係就無法成立。礙於這個限制,ABP三者都必須要是方陣。以下幾個寫法也代表AB兩者相似:



矩陣相似同時還有下列性質:

  1. 自身:運用(可逆的)單位矩陣I,得A=IAI-1
  2. 可逆:若有A=PBP-1,則有P-1AP=P-1PBP-1P=B
  3. 傳遞:若有A=PBP-1B=QCQ-1,則有A=PQCQ-1P-1=(PQ)C(Q-1P-1)=(PQ)C(PQ)-1
而某些矩陣的性質也會繼承下來。若AB相似:
  1. AB特徵方程式相同。
  2. AB特徵值相同。
  3. AB行列式相同。
  4. AB跡相同。
假設我們有pB(λ)代表B的特徵多項式,則有:


故兩者特徵多項式是相同的。現在假設特徵方程式Axx成立,則:


這裡可以發現即使兩者特徵值相同,兩者的特徵向量也未必相同(B的特徵向量經過P-1變換)。知道了相似矩陣的某些性質後,我們就可以移動到我們在意的特徵分解了。



對角化(Diagonalization)指的是求出一個和A相似的對角矩陣D,也就是:


存在可逆矩陣P使得上述關係式成立,此時A稱為可對角化(Diagonalizable)。這裡的P不是唯一的。而在眾多的對角化中有一個組合非常特別,D的主對角線上的元素都是A的特徵值,P是由A的特徵向量組成的矩陣,如此的表示法我們稱之為特徵分解(Eigendecomposition):


在上述的式子中,Λ為一和A相似的對角矩陣、Q為由A的右特徵向量組成的可逆矩陣。若A為一可對角化n×n矩陣,且存在n個線性獨立(若線性獨立不成立則Q不可逆)的右特徵向量δi,則存在QΛ,滿足四個關係式:


這裡要注意的是若A給出的分解是Q-1ΛQ,則Q是由左特徵向量(Left Eigenvector)組成其列向量,這也是我在上面特別強調「右特徵向量」的原因。我們稍微改寫一下上述第一個關係式,並且把Q替換成第四個關係式給出的特徵向量δi作為行向量構成的矩陣:


在第四個關係式中特徵向量δ因為被放在A的右側,因此被稱作右特徵向量(Right Eigenvector),且為一行向量(否則無法運算矩陣乘法),而右特徵向量剛好可以滿足第一個關係式。若是A滿足εΑε的形式,則ε稱作左特徵向量,且為一列向量,由其構成的Q滿足A=Q-1ΛQ的形式。



A、左特徵向量和右特徵向量的關係也是我們的探討重點之一。我們做以下假設:


上述關係式左乘Ε、右乘Δ可得:


也就是ΕΔΛ具交換律!目前沒有關係式指出這個乘機會等於單位矩陣,並且Λ也已經確定不是單位矩陣了,所以一個合理的推論是:


太神奇了,傑克!左特徵向量矩陣竟然是右特徵向量矩陣的反矩陣!



透過特徵分解我們知道A和其特徵對角矩陣Λ相似,所以兩者行列式和跡都是相同的。換句話說,A的跡等於其特徵值的和(Λ的元素合)、A的行列式等於特徵值的積(Λ的主對角線上的元素積)(儘管我們先前在這裡就談到了特徵多項式隱含的訊息)。

一個很實用的應用是計算A的冪。可以想像:


其中Λ為一對角矩陣,有其冪之元素都等於其元素之冪的特性,故有:


另外A的反矩陣也可以透過A的特徵分解計算:




當然了,矩陣分解(Matrix Decomposition)不只特徵分解,還有LU分解、奇異值分解和其他林林總總的方法可以讓數學家們玩弄矩陣。

看似萬能而powerful的特徵分解其實有個先天的弱點,那就是矩陣得要可對角化。很多時候即使拿到的是一個方陣,他的特徵向量也不一定全都線性獨立。因此,什麼時候用上什麼矩陣分解法是需要判斷的。



參考資料:

  1. https://ccjou.wordpress.com/2010/01/08/%E7%9B%B8%E4%BC%BC%E8%AE%8A%E6%8F%9B%E4%B8%8B%E7%9A%84%E4%B8%8D%E8%AE%8A%E6%80%A7%E8%B3%AA/


LaTeX語法:


\begin{align*}
p_\mathbf{B}(\lambda) &= \det\left(\mathbf{B}-\lambda\mathbf{I}\right) \\
 &= \det\left(\mathbf{P}^{-1}\mathbf{AP}-\mathbf{P}^{-1}\lambda\mathbf{IP}\right) \\
 &= \det\left( \mathbf{P}^{-1}(\mathbf{A}-\lambda\mathbf{I})\mathbf{P} \right ) \\
 &= \det\left(\mathbf{P}^{-1}\right)\det\left ( \mathbf{A}-\lambda\mathbf{I} \right )\det\left (\mathbf{P} \right ) \\
 &= \det\left(\mathbf{P}\right)^{-1}\det\left ( \mathbf{A}-\lambda\mathbf{I} \right )\det\left (\mathbf{P} \right ) \\
 &= \det\left ( \mathbf{A}-\lambda\mathbf{I} \right )
\end{align*}


\begin{align*}
&\because \mathbf{Ax} = \lambda\mathbf{x} = \mathbf{PBP}^{-1}\mathbf{x} \\
&\therefore \mathbf{BP}^{-1}\mathbf{x} = \lambda\mathbf{P}^{-1}\mathbf{x}, \quad \mathbf{x}'\equiv \mathbf{P}^{-1}\mathbf{x} \\
&\therefore  \mathbf{Bx}' =\lambda\mathbf{x}'
\end{align*}


\begin{align*}
\text{I} &: \textbf{A}=\mathbf{Q}\boldsymbol{\Lambda}\mathbf{Q}^{-1} \\
\text{II} &: \boldsymbol{\Lambda}=\text{diag}\left (\lambda_1, \lambda_2, \cdots, \lambda_n \right )\\
\text{III} &: \mathbf{Q}=\left [\boldsymbol{\delta}_1 \; \boldsymbol{\delta}_2\;\cdots\boldsymbol{\delta}_n \right ] \\
\text{IV} &: \mathbf{A}\boldsymbol{\delta}_i=\lambda_i\boldsymbol{\delta}_i,\;1\leq i\leq n
\end{align*}


\begin{align*}
\mathbf{AQ}&=\mathbf{Q}\boldsymbol{\Lambda} \\
 &= \mathbf{A}\begin{bmatrix} \boldsymbol{\delta}_1 & \boldsymbol{\delta}_2 & \cdots & \boldsymbol{\delta}_n \end{bmatrix} \\
 &= \begin{bmatrix} \mathbf{A}\boldsymbol{\delta}_1 & \mathbf{A}\boldsymbol{\delta}_2 & \cdots & \mathbf{A}\boldsymbol{\delta}_n \end{bmatrix} \\
 &= \begin{bmatrix} \lambda_1\boldsymbol{\delta}_1 & \lambda_2\boldsymbol{\delta}_2 & \cdots & \lambda_n\boldsymbol{\delta}_n \end{bmatrix} \\
 &= \begin{bmatrix} \boldsymbol{\delta}_1 & \boldsymbol{\delta}_2 & \cdots & \boldsymbol{\delta}_n \end{bmatrix}
\begin{bmatrix}
\lambda_1 & 0 & 0 & 0 \\
0 & \lambda_2 & 0 & 0 \\
0 & 0 & \ddots & 0 \\
0 & 0 & 0 & \lambda_n
\end{bmatrix}
\end{align*}


\begin{matrix}
\mathbf{A}=\boldsymbol{\Delta\Lambda\Delta}^{-1}=\mathbf{E}^{-1}\boldsymbol{\Lambda}\mathbf{E} \\
\begin{align*}
\text{where}\quad \boldsymbol{\Delta} &= \begin{bmatrix} \boldsymbol{\delta}_1 & \boldsymbol{\delta}_2 & \cdots & \boldsymbol{\delta}_n \end{bmatrix} ,\quad \boldsymbol{\delta}_i\enspace\text{is right eigenvector}\\
\mathbf{E} &=  \begin{bmatrix} \boldsymbol{\epsilon}_1 & \boldsymbol{\epsilon}_2 & \cdots & \boldsymbol{\epsilon}_n \end{bmatrix}^{\textup{T}},\quad \boldsymbol{\epsilon}_i\enspace\text{is left eigenvector} \\
\boldsymbol{\Lambda} &= \textup{diag}\left ( \lambda_1,\;\lambda_2,\cdots,\;\lambda_n \right )
\end{align*}
\end{matrix}


\begin{align*}
\mathbf{A}^k &= \left ( \mathbf{Q}\boldsymbol{\Lambda}\mathbf{Q}^{-1} \right )^k\\
 &= \mathbf{Q}\boldsymbol{\Lambda}\mathbf{Q}^{-1}\mathbf{Q}\boldsymbol{\Lambda}\mathbf{Q}^{-1}\mathbf{Q}\cdots\mathbf{Q}^{-1} \\
 &= \mathbf{Q}\boldsymbol{\Lambda}^k\mathbf{Q}^{-1}
\end{align*}


\begin{align*}
\mathbf{A}^{-1} &= \left ( \mathbf{Q}\boldsymbol{\Lambda}\mathbf{Q}^{-1} \right )^{-1} \\
 &= \mathbf{Q}\boldsymbol{\Lambda}^{-1}\mathbf{Q}^{-1}\\
 &= \mathbf{Q}\begin{bmatrix}
\lambda_1^{-1} & 0 & 0 & 0 \\
0 & \lambda_2^{-1} & 0 & 0 \\
0 & 0 & \ddots & 0 \\
0 & 0 & 0 & \lambda_n^{-1}
\end{bmatrix}\mathbf{Q}^{-1}
\end{align*}

沒有留言:

張貼留言