2016年2月6日 星期六

矩陣導數 Matrix Calculus

Legend has it that 數學家從鍊金術師那裡習得了黑魔法,把矩陣和微積分融合在一起,創造出了幾乎無人能擋的強大怪物……


其實冇積分ga……雖然名叫 Matrix calculus,但是實際上我們討論「導數」(Derivative)較多。這次的主角除了最單純的純量(Scalar)和標題已經提及的矩陣外,還有向量。點解,先睇下:

向量抽象化

長久以來我們對向量的印像是「有方向、有長度」,是可以在紙上畫出一個箭頭的奇妙東西。在平面上,它是箭頭;在空間中,它變成了一組有三個數字的有序數列;在算式中,它是可以做運算的符號。出了這些範圍,許多人也就不知道要怎麼做了。

這樣看或許會好過點:向量是只有一行/一列的矩陣。平常或許我們都習慣把向量寫橫的,兩個或三個數字排開,中間點上逗點,再用括弧括起來。不過(個人也習慣這麼寫),向量也可以寫成直的,兩邊再用方括弧包住。寫成後者的形式基本上就是矩陣了。這也就是為什麼矩陣可以直接做用在向量上:本質上而言這就是普通的矩陣乘法罷了。

純量也可以表示為只有一行一列的矩陣,不過那樣做沒什麼太大意義,我們不會用到他的矩陣性質。在下文中(以及在以後的文章中)純量、向量和矩陣有各自的書寫方式:


求導

根據原函數和自變量的形態不同,可以分成以下六種求導:

  1. 純量對純量(非本文重點)
  2. 純量對向量
  3. 純量對矩陣
  4. 向量對純量
  5. 向量對向量
  6. 矩陣對純量
  7. 向量對矩陣(非本文重點)
  8. 矩陣對向量(非本文重點)
  9. 矩陣對矩陣(非本文重點)
另外,對於導出的結果該如何表示,數學家們一直以來都沒能達成協議,主要有以下兩大系統在競爭[1]:
  1. 分子佈局(Nominator Layout):又稱雅可比形式(Jacobian Formulation)
  2. 分母佈局(Denominator Layout):又名黑森形式(Hessian Formlation)
讓局勢更加混亂的是有的數學家還不一定會在他的論文或出版品裡從頭到尾都遵守同一套佈局。問題的濫觴在於向量–向量求導,考慮 xy 兩個行向量:


「向量對向量求導」第一次聽或許怪怪,但是不要忘了求導的主角還是在函數和變量上,向量和後來的矩陣都只是裝著變數的容器而已。這裡的問題是輸出的佈局(矩陣)(Layout Convention),是以分子為主還是以分母為主:


從上圖應該可以看到分子佈局和分母佈局的差別,主要是輸出矩陣內部的元素排列方式和其大小有出入,兩者也都各自隱藏了轉置。本文將用分子為主的分子佈局,也就是:


輸出結果和分母的轉置有關。筆者我接著要講的是不什麼多花俏的東西,只是些基本的恆等式(Identity)[1][2]。

向量–純量

讓我們先從只有向量和純量 x 的狀況開始。首先是高中物理也(可能)遇得到的,向量對純量求導。這裡的向量可能是位置向量、速度、力、電場,純量最常見的就是時間啦。出來的結果,大小和原本的向量一樣。設 acA 都和 x 無關,f(u)、u(x)、v(x) 皆和 x 有關且可導:


VSI 和 VSII 都可以用上面提及的基本定義解決。VSIII 的話:


VSIV 則是我們用到快爛掉的線性性質。VSV 是三維空間的外積:


VSVI 須用上微積分的鏈鎖律:


其中的  是個矩陣,在下下個章節會有討論:

純量–向量

純量對向量求導在高中最常(也是唯一)在梯度(Gradient)[3]。在高中的選修物理中,電場和電位都是散佈在三維空間中的(Field),前者是位置向量的向量函數(vector-valued function of position vector),也就是向量場(Vector Field);而後者則是位置向量的純量函數(real-valued function),又名純量場(Scalar Field)。在高中,電場的其中一個定義是「和等電位線垂直、指離正電荷的向量」,換句換說就是電位的負梯度是電場。在向量分析中,梯度多寫做 ∇(Nabla 算子):


以上三種寫法等價,括號可寫可不寫。但是要記得分子佈局的效果,梯度會變成一個列向量。對向量求導,也就意謂著我們要做很多次微分,每次的分母都不一樣,但都在向量裡。若 aA 都和 x 無關,f(u)、uvyz 皆和 x 有關且可導:


SVI 是最基本的分子佈局定義,SVII 和 SVIII 是微分算子的線性性質,SVIV 是微分的乘法律(Product Law),SVV 是鏈鎖律。SVVI 和 SVVII 是向量的內積(也是純量嘛):


SVVIII 只要把上面的證明中的 z 換成 Az 就可以了。

向量–向量
接下來的內容高中完全不會用到,如果你走的領域無關高等數學那你大概一輩子也碰不到以下的內容了,可喜可賀。向量–向量求導較上面兩種情況罕見,大部分時間還是用在求梯度,而主角可能換成了向量場。設 ac皆和 x 無關,f(u)、uv 都和 x 有關且可導:


VVI 根據定義會變成只有 0 的矩陣,若 a 的大小是 m,x 是 n,那這個零矩陣就有 m×n 這麼大。VVII、VVIII、VVV、VVVI、VVVII 和 VVVIII 都可以用基本定義求出,能看到這裡的你應該沒有問題。比較有問題(個人經驗)的是 VVIV,回憶:


於是我們有:


故結果為 A 的轉置。注意這裡我用了稍微不同的記號:愛因斯坦標記(Einstein Notation)[4][5]。t 是共同的指標(index),求和符號省略不寫。下標可理解為所在行,上標為列。在 x 的各變數皆無關的情況下,只有 t = j 時不為 0,故剩下 aji

矩陣–純量

以下的恆等式我們需要新的定義,畢竟接下來我們要處理的不是向量而是矩陣。和矩陣有關的求導,採用分子佈局:

結果和分子矩陣或分母矩陣的轉置有關。

在矩陣對純量的求導中:


其中 aij 是 A 的元素。反過來說,在純量對矩陣的求導中:


高中數學課程是有矩陣,但是高中無論數學還是物理都不會處理矩陣求導的,儘管放一百二十萬個心好了。設 aAB、Cix 無關,UVF(xA) 和 x 有關且可導,矩陣對純量求導的恆等式有:


MSI、MSIII 都是微分算子的基本性質。MSII 是矩陣乘法,使用愛因斯坦標記:


MSIV 可用微分的乘法律求證。MSV 是哈德瑪積[6]:


MSVI 需用上 MSIV,並回憶反矩陣的性質:


MSVII 是一個稱做矩陣函數(Matrix Function)[7]的奇怪東西,將一個矩陣映射至另一個矩陣……說穿了就是矩陣的多項式。還記得泰勒多項式?把矩陣代進去就是矩陣函數了,出來的值自然是個矩陣,故記做 F(xA)。最常見的矩陣函數包含矩陣指數函數(Matrix Exponential)[8]和矩陣三角函數(Matrix Trigonometric Funtion)[9]。設 f(x) 是對應的純量函數,f'(x) 為其對 x 的導函,F'(xA) 設定為其對應矩陣函數。有


純量–矩陣

SM 求導比 MS 花樣更多,別忘了和矩陣有關的純量——行列式(Determinant)、(Trace,方陣對角線元素合)和(Rank)都可以拿來求導。在這個章節,我們只討論和行列式或跡無關的純量。


SMI 到 SMV 都和其他許多恆等式類似,故不在此贅述。SMIV 的證明也很簡單:


跡求導

我們先處理跡的求導,數量很多(以下列出12個,其他還有更多等你自己探索)但大多很好證明。在那之前複習一下跡的性質[10]:


而若設 anAX 無關,UV 和 X 有關且可導,跡對矩陣的導函有:


TRI 用上克羅內克函數(Kronecker Delta)[11]會比較好解釋:


克羅內克函數(δij)只有在 i = j 的時候值是 1,其他時候是 0。TRV 看起來有點怪,讓我們來看看:


TRVI 的算式有點長,對 l、m、n 三個指標採用愛因斯坦標記:


TRVII 需要用到恆等式 MSVI,並且知道先取跡再求導在只有 X 的時候和先求導再取跡結果一樣:


TRIX 和 TRX 需要用到數學歸納法(Mathematical Induction):


所以對於所有 n,TRX 皆成立。TRIX 只要把 TRX 中的 A 換成 I 即可得證。TRXI 和 TRXII 會需要 TRIX:


TRXII 的證法類似。

行列式求導

本文的倒數第二個章節,行列式求導。在實際著手求導之前,先來看看行列式的幾個要注意的事項。在記算三階行列式的時候,想必各位有用過這條公式:


我們將他擴展,對於任何一列(或行) i


這裡的記法可能和你熟悉的有點不同:


並且  是刪去第 i 列和第 j 行得到的 (n-1)×(n-1) 階矩陣,cij 餘因子(Cofactor),每個 A 的元素對應一個餘因子。上面的行列式公式也可以寫成:


其中 c 是 C 的元素,會有轉置是因為公式裡的 a 和 c 下標一樣。數學家們把 C 的轉置稱作伴隨矩陣(Adjugate):


(如果其反矩陣存在)這將會是我們解題的關鍵。來看看行列式的恆等式,不多不少六條:


DTI 很好證:


DTII 會因為鏈鎖律的關係而跑出行列式的倒數,把 DTI 的行列式值抵消。DTIII 要用到 |AB| = |A||B| 的性質、DTIV 則使用 |A-1| = |A|-1 和鏈鎖律,DTV 和 DTVI 使用 |An| = |A|n。結果看似簡單的跡反而比行列式難證啊……。



本文一開頭提到了向量對矩陣、矩陣對向量和矩陣對矩陣的求導,怎麼現在就要結尾了?

You know what,那三種求導的結果不是單用純量、向量或矩陣就能表示的:他們的結果是張量(Tensor),一種超乎普通人類想像的奇異物質。

等我搞懂這玩意也不曉得多老了……。



參見

[1]:https://ccjou.wordpress.com/2013/05/31/%E7%9F%A9%E9%99%A3%E5%B0%8E%E6%95%B8/
[2]:https://en.wikipedia.org/wiki/Matrix_calculus
[3]:http://physics.stackexchange.com/questions/88935/derivative-with-respect-to-a-vector-is-a-gradient
[4]:https://en.wikipedia.org/wiki/Einstein_notation
[5]:https://zh.wikipedia.org/wiki/%E7%88%B1%E5%9B%A0%E6%96%AF%E5%9D%A6%E6%B1%82%E5%92%8C%E7%BA%A6%E5%AE%9A
[6]:https://en.wikipedia.org/wiki/Hadamard_product_(matrices)
[7]:https://en.wikipedia.org/wiki/Matrix_function
[8]:
[9]:http://www.johndcook.com/blog/2008/03/14/what-is-the-cosine-of-a-matrix/
[10]:https://ccjou.wordpress.com/2013/06/03/%E8%B7%A1%E6%95%B8%E8%88%87%E8%A1%8C%E5%88%97%E5%BC%8F%E7%9A%84%E5%B0%8E%E6%95%B8/
[11]:https://en.wikipedia.org/wiki/Kronecker_delta

cosine裡面還可以放矩陣……網誌可能要改名了(笑



\begin{align*}
\text{Nominator Layout: }{\partial\mathbf{y}\over\partial\mathbf{x}}&=\begin{bmatrix}
{\partial y_1\over\partial\mathbf{x}} \\ \vdots \\ {\partial y_n\over\partial\mathbf{x}}
\end{bmatrix}=
\begin{bmatrix}
{\partial y_1\over\partial x_1} & \cdots & {\partial y_1\over\partial x_m} \\
\vdots & \ddots & \vdots \\
{\partial y_n\over\partial x_1} & \cdots & {\partial y_n\over\partial x_m}
\end{bmatrix} \\
\text{Denominator Layout: }{\partial\mathbf{y}\over\partial\mathbf{x}}&=\begin{bmatrix}
{\partial\mathbf{y}\over\partial x_1} \\ \vdots \\ {\partial\mathbf{y}\over\partial x_m}
\end{bmatrix}=
\begin{bmatrix}
{\partial y_1\over\partial x_1} & \cdots & {\partial y_n\over\partial x_1} \\
\vdots & \ddots & \vdots \\
{\partial y_1\over\partial x_m} & \cdots & {\partial y_n\over\partial x_m}
\end{bmatrix}
\end{align*}


\left ( {\partial\mathbf{y}\over\partial\mathbf{x}} \right )_{ij} = {\partial y_i\over\partial x_j}



\begin{align*}
&\text{Vector-by-scalar Identities} \\
\text{I: }& {\partial\mathbf{a}\over\partial x} = \mathbf{0} \\
\text{II: }& {\partial c\mathbf{u}\over\partial x} = c\;{\partial \mathbf{u}\over\partial x} \\
\text{III: }& {\partial\mathbf{Au}\over\partial x} = \mathbf{A}{\partial \mathbf{u}\over\partial x} \\
\text{IV: }& {\partial\big (\mathbf{u}+\mathbf{v}\big )\over\partial x} = {\partial \mathbf{u}\over\partial x}+{\partial \mathbf{v}\over\partial x} \\
\text{V: }& {\partial\big (\mathbf{u}\times\mathbf{v}\big )\over\partial x} = \mathbf{u}\times{\partial \mathbf{v}\over\partial x}+{\partial \mathbf{u}\over\partial x}\times\mathbf{v} \\
\text{VI: }& {\partial\mathbf{f}(\mathbf{u})\over\partial x} = {\partial\mathbf{f}(\mathbf{u})\over\partial \mathbf{u}}{\partial\mathbf{u}\over\partial x}
\end{align*}

\begin{align*}
\left ( {\partial\mathbf{Au}\over\partial x} \right )_i &= {\partial\sum_k A_{ik}u_k\over\partial x} \\
&= \sum_k{\partial A_{ik}u_k\over\partial x} \\
&= \sum_kA_{ik}{\partial u_k\over\partial x} \\
&= \left ( \mathbf{A}{\partial\mathbf{u}\over\partial x} \right )_i
\end{align*}


\begin{align*}
{\partial\;\mathbf{u}\times\mathbf{v}\over\partial x} &= {\partial\over\partial x}\begin{bmatrix}
u_2v_3-u_3v_2  \\
-u_1v_3+u_3v_1 \\
u_1v_2-u_2v_1
\end{bmatrix} \\
&= \begin{bmatrix}
u_2{\partial v_3\over\partial x} + v_3{\partial u_2\over\partial x} - u_3{v_2\partial\over\partial x} - v_2{u_3\partial\over\partial x} \\
- u_1{\partial v_3\over\partial x} - v_3{\partial u_1\over\partial x} + u_3{v_1\partial\over\partial x} + v_1{u_3\partial\over\partial x} \\
u_1{\partial v_2\over\partial x} + v_2{\partial u_1\over\partial x} - u_2{v_1\partial\over\partial x} - v_1{u_2\partial\over\partial x}
\end{bmatrix} \\
\end{align*}


\begin{align*}
&= \begin{bmatrix}
u_2{\partial v_3\over\partial x} - u_3{v_2\partial\over\partial x} \\
- u_1{\partial v_3\over\partial x} + u_3{v_1\partial\over\partial x} \\
u_1{\partial v_2\over\partial x} - u_2{v_1\partial\over\partial x}
\end{bmatrix} + \begin{bmatrix}
v_3{\partial u_2\over\partial x} - v_2{u_3\partial\over\partial x} \\
- v_3{\partial u_1\over\partial x} + v_1{u_3\partial\over\partial x} \\
v_2{\partial u_1\over\partial x} - v_1{u_2\partial\over\partial x}
\end{bmatrix} \\
&= \mathbf{u}\times{\mathbf{v}\over\partial x}+{\partial\mathbf{u}\over\partial x}\times\mathbf{v}
\end{align*}


\begin{align*}
\left ({\partial\mathbf{f}\big (\mathbf{u} \big)\over\partial x}\right )_i &= {\partial f_i\big (\mathbf{u}\big )\over\partial x} =
{\partial f_i\big ( \mathbf{u} \big )\over\partial\mathbf{u}}{\partial\mathbf{u}\over\partial x} \\
&=\sum_k{\partial f_i(\mathbf{u})\over\partial u_k}{\partial u_k\over\partial x} = \left ( {\partial\mathbf{f}\big ( \mathbf{u} \big )\over\partial\mathbf{u}}{\partial\mathbf{u}\over\partial x} \right )_i
\end{align*}



\begin{align*}
&\text{Scalar-by-vector Identity} \\
\text{I: }&   {\partial a\over\partial\mathbf{x}} = \mathbf{0}^\mathrm{T} \\
\text{II: }&  {\partial au\over\partial\mathbf{x}} = a{\partial u\over\partial\mathbf{x}} \\
\text{III: }& {\partial (u+v)\over\partial\mathbf{x}} = {\partial u\over\partial\mathbf{x}} + {\partial v\over\partial\mathbf{x}} \\
\text{IV: }&  {\partial uv\over\partial\mathbf{x}} = u{\partial v\over\partial\mathbf{x}} + v{\partial u\over\partial\mathbf{x}} \\
\text{V: }&   {\partial f(u)\over\partial\mathbf{x}} = {\partial f(u)\over\partial u}{\partial u\over\partial\mathbf{x}}\\
\text{VI: }&  {\partial (\mathbf{y}\cdot\mathbf{z})\over\partial\mathbf{x}} = {\partial\mathbf{y}^\mathrm{T}\mathbf{z}\over\partial\mathbf{x}} =
\mathbf{y}^\mathrm{T}{\partial\mathbf{z}\over\partial\mathbf{x}} + \mathbf{z}^\mathrm{T}{\partial\mathbf{y}\over\partial\mathbf{x}} \\
\text{VII: }& {\partial (\mathbf{y}\cdot\mathbf{Az})\over\partial\mathbf{x}} = \mathbf{y}^\mathrm{T}\mathbf{A}{\partial\mathbf{z}\over\partial\mathbf{x}} + \big(\mathbf{Az}\big)^\mathrm{T}{\partial\mathbf{y}\over\partial\mathbf{x}}
\end{align*}


\begin{align*}
\left ({\partial(\mathbf{y}\cdot\mathbf{z})\over\partial\mathbf{x}}\right )_{i} &= {\partial\over\partial x_i}\sum_k y_kz_k \\
&= \sum_ky_k{\partial z_k\over\partial x_i}+\sum_kz_k{\partial y_k\over\partial x_i} \\
&= \left ( \mathbf{y}\cdot{\partial\mathbf{z}\over\partial\mathbf{x}}+\mathbf{z}\cdot{\partial\mathbf{y}\over\partial\mathbf{x}} \right )_i
\end{align*}


\begin{align*}
&\text{Vector-by-vector Identity} \\
\text{I: }&   {\partial\mathbf{a}\over\partial\mathbf{x}} = \mathbf{O} \\
\text{II: }&  {\partial\mathbf{x}\over\partial\mathbf{x}} = \mathbf{I} \\
\text{III: }& {\partial\mathbf{Ax}\over\partial\mathbf{x}} = \mathbf{A} \\
\text{IV: }&  {\partial\mathbf{x}^\mathrm{T}\mathbf{A}\over\partial\mathbf{x}} = \mathbf{A}^\mathrm{T} \\
\text{V: }& {\partial c\mathbf{u}\over\partial\mathbf{x}} = c{\partial\mathbf{u}\over\partial\mathbf{x}} \\
\text{VI: }&  {\partial\mathbf{Au}\over\partial\mathbf{x}} = \mathbf{A}{\partial\mathbf{u}\over\partial\mathbf{x}} \\
\text{VII: }&   {\partial\mathbf{u+v}\over\partial\mathbf{x}} = {\partial\mathbf{u}\over\partial\mathbf{x}} + {\partial\mathbf{v}\over\partial\mathbf{x}} \\
\text{VIII: }&  {\partial\mathbf{f}\big(\mathbf{u}\big)\over\partial\mathbf{x}} = {\partial\mathbf{f}\big(\mathbf{u}\big)\over\partial\mathbf{u}}{\partial\mathbf{u}\over\partial\mathbf{x}}
\end{align*}


\left ( {\partial\mathbf{x}^\mathrm{T}\mathbf{A}\over\partial\mathbf{x}} \right )_{ij}
 &= {\partial x_ta_i^t\over\partial x_j} = a_i^t{\partial x_t\over\partial x_j} = a_{ji}


\begin{align*}
&\text{Matrix-by-scalar Identity} \\
\text{I:}&   {\partial a\mathbf{U}\over\partial x} = a{\partial\mathbf{U}\over\partial x} \\
\text{II:}&  {\partial\mathbf{AUB}\over\partial x} = \mathbf{A}{\partial\mathbf{U}\over\partial x}\mathbf{B} \\
\text{III:}& {\partial\big(\mathbf{U+V}\big)\over\partial x} = {\partial\mathbf{U}\over\partial x} + {\partial\mathbf{V}\over\partial x} \\
\text{IV:}&  {\partial\mathbf{UV}\over\partial x} = \mathbf{U}{\partial\mathbf{V}\over\partial x} + {\partial\mathbf{U}\over\partial x}\mathbf{V} \\
\text{V:}&   {\partial\mathbf{U\circ V}\over\partial x} = \mathbf{U}\circ{\partial\mathbf{V}\over\partial x} + {\partial\mathbf{U}\over\partial x}\circ\mathbf{V} \\
\text{VI:}&  {\partial\mathbf{U}^{-1}\over\partial x} = -\mathbf{U}^{-1}{\partial\mathbf{U}\over\partial x}\mathbf{U}^{-1} \\
\text{VII:}& {\partial\mathbf{F}\big(x\mathbf{A}\big)\over\partial x} = \mathbf{AF}'\big(x\mathbf{A}\big) = \mathbf{F}'\big(x\mathbf{A}\big)\mathbf{A}
\end{align*}


\begin{align*}
\left ( {\partial\mathbf{AUB}\over\partial x} \right )_{ij} &= {\partial a^i_s u^s_t b^t_j\over\partial x} \\
 &= a^i_s{\partial u^s_t \over\partial x}b^t_j \\
 &= \left ( \mathbf{A}{\partial\mathbf{U}\over\partial x}\mathbf{B} \right )_{ij}
\end{align*}


\begin{align*}
{\partial\mathbf{UU}^{-1}\over\partial x} &= \mathbf{U}{\partial\mathbf{U}^{-1}\over\partial x} + {\partial\mathbf{U}\over\partial x}\mathbf{U}^{-1} \\
 &= {\partial\mathbf{I}\over\partial x},\quad \mathbf{UU}^{-1}=\mathbf{I} \\
 &= \mathbf{O} \\
\therefore {\partial\mathbf{U}^{-1}\over\partial x} &= -\mathbf{U}^{-1}{\partial\mathbf{U}\over\partial x}\mathbf{U}^{-1}
\end{align*}


\begin{align*}
{\partial\mathbf{F}\big(x\mathbf{A}\big)\over\partial x} &= {\partial\over\partial x}\sum_{i=0}^\infty C_ix^i\mathbf{A}^i \\
&= \sum_{i=1}^\infty C_ix^{i-1}\mathbf{A}^i \\
&= \mathbf{AF}'\big(x\mathbf{A}\big) = \mathbf{F}'\big(x\mathbf{A}\big)\mathbf{A}
\end{align*}


\begin{align*}
&\text{Scalar-by-matrix Identity} \\
&\text{Independent from Determinant and Trace} \\
\text{I:} &=   {\partial a\over\partial\mathbf{X}} = \mathbf{O}^\mathrm{T} \\
\text{II:} &=  {\partial au\over\partial\mathbf{X}} = a{\partial u\over\partial\mathbf{X}} \\
\text{III:} &= {\partial\big(u+v\big)\over\partial\mathbf{X}} = {\partial u\over\partial\mathbf{X}} + {\partial v\over\partial\mathbf{X}} \\
\text{VI:} &=  {\partial uv\over\partial\mathbf{X}} = u{\partial v\over\partial\mathbf{X}} + v{\partial u\over\partial\mathbf{X}} \\
\text{V:} &=   {\partial f\big(u\big)\over\partial\mathbf{X}} = {\partial f\big(u\big)\over\partial u}{\partial u\over\partial\mathbf{X}} \\
\text{IV:} &=  {\partial \mathbf{a}^\mathrm{T}\mathbf{Xb}\over\partial\mathbf{X}} = \mathbf{ba}^\mathrm{T}
\end{align*}


\begin{align*}
&\text{Scalar-by-matrix Identity} \\
&\text{Pertaining to Trace} \\
\text{I: }& {\partial\mathrm{tr}\big(\mathbf{X}\big)\over\partial\mathbf{X}} = {\partial\mathrm{tr}\big(\mathbf{X}^\mathrm{T}\big)\over\partial\mathbf{X}} = \mathbf{I} \\
\text{II: }& {\partial\text{tr}\big(a\mathbf{U}\big)\over\partial\mathbf{X}} = a{\partial\text{tr}\big(\mathbf{U}\big)\over\partial\mathbf{X}} \\
\text{III: }& {\partial\mathrm{tr}\big(\mathbf{U+V}\big)\over\partial\mathbf{X}} = {\partial\mathrm{tr}\big(\mathbf{U}\big)\over\partial\mathbf{X}} + {\partial\mathrm{tr}\big(  \mathbf{V}\big)\over\partial\mathbf{X}} \\
\text{IV: }&  {\partial\mathrm{tr}\big(\mathbf{AX}\big)\over\partial\mathbf{X}} = {\partial\mathrm{tr}\big(\mathbf{XA}\big)\over\partial\mathbf{X}} = \mathbf{A} \\
\text{V: }&   {\partial\mathrm{tr}\big(\mathbf{AX}^\mathrm{T}\big)\over\partial\mathbf{X}} = {\partial\mathrm{tr}\big(\mathbf{X}^\mathrm{T}\mathbf{A}\big)\over\partial\mathbf{X}} = \mathbf{A}^\mathrm{T} \\
\text{VI: }&  {\partial\mathrm{tr}\big(\mathbf{X}^\mathrm{T}\mathbf{AX}\big)\over\partial\mathbf{X}} =\mathbf{X}^\mathrm{T}\big(\mathbf{A+A}^\mathrm{T}\big) \\
\text{VII: }&  {\partial\text{tr}\big(\mathbf{X}^{-1}\mathbf{A}\big)\over\partial\mathbf{X}}= -\mathbf{X}^{-1}\mathbf{AX}^{-1}  \\
\text{VIII: }& {\partial\text{tr}\big(\mathbf{AXB}\big)\over\partial\mathbf{X}} = \mathbf{BA} \\
\text{IX: }&   {\partial\text{tr}\big(\mathbf{X}^n\big)\over\partial\mathbf{X}} = n\mathbf{X}^{n-1} \\
\text{X: }&    {\partial\text{tr}\big(\mathbf{AX}^n\big)\over\partial\mathbf{X}} = \sum_{i=0}^{n-1}\mathbf{X}^i\mathbf{AX}^{n-i-1} \\
\text{XI: }&   {\partial\text{tr}\big(e^\mathbf{X}\big)\over\partial\mathbf{X}} = e^\mathbf{X} \\
\text{XII: }&  {\partial\text{tr}\big(\sin\mathbf{X}\big)\over\partial\mathbf{X}} = \cos\mathbf{X}
\end{align*}


\begin{align*}
\text{tr}\big(\mathbf{A}\big) &= \sum_i a_{ii} \\
\text{tr}\big(\mathbf{AB}\big) &= \sum_i\sum_j a_{ij}b_{ji} \\
\text{tr}\big(\mathbf{A+B}\big) &= \text{tr}\big(\mathbf{A}\big) + \text{tr}\big(\mathbf{B}\big) \\
\text{tr}\big(c\mathbf{A}\big) &= c\;\text{tr}\big(\mathbf{A}\big) \\
\text{tr}\big(\mathbf{A}^\mathrm{T}\big) &= \text{tr}\big(\mathbf{A}\big) \\
\text{tr}\big(\mathbf{AB}\big) &= \text{tr}\big(\mathbf{BA}\big)
\end{align*}


\left ( {\partial\text{tr}\big(\mathbf{X}\big)\over\partial\mathbf{X}} \right )_{ij} = {\partial\sum_k x_{kk}\over\partial x_{ji}} = \delta_{ij} = \mathbf{I}_{ij}

\begin{align*}
\left ( {\partial\text{tr}\big(\mathbf{X}^\mathrm{T}\mathbf{AX}\big)\over\partial\mathbf{X}} \right )_{ij} &= {\partial x^m_la^m_nx^n_l\over\partial x_{ji}} \\
 &= x^m_la^m_n{\partial x^n_l\over\partial x_{ji}} + x^n_la^m_n{\partial x^m_l\over\partial x_{ji}} \\
 &= x^m_ia^m_j + x^n_ia^j_n \\
 &= \left ( \mathbf{X}^\mathrm{T}\mathbf{A} + \mathbf{X}^\mathrm{T}\mathbf{A}^\mathrm{T} \right )_{ij}
\end{align*}


\begin{align*}
\left ( {\partial\text{tr}\big(\mathbf{X}^{-1}\mathbf{A}\big)\over\partial\mathbf{X}} \right ) _{ij} &=
{\partial\text{tr}\big(\mathbf{X}^{-1}\mathbf{A}\big)\over\partial x_{ji}} =
\text{tr}\Bigg({\partial\mathbf{X}^{-1}\over\partial x_{ji}}\mathbf{A}\Bigg) \\
&=\text{tr}\left ( -\mathbf{X}^{-1}{\partial\mathbf{X}\over\partial x_{ji}}\mathbf{X}^{-1}\mathbf{A} \right ) \\
&=\text{tr}\left ( -\mathbf{X}^{-1}\mathbf{e_je_i}^\mathrm{T}\mathbf{X}^{-1}\mathbf{A} \right ) \\
&=\text{tr}\left ( -\mathbf{e_i}^\mathrm{T}\mathbf{X}^{-1}\mathbf{AX}^{-1}\mathbf{e_j} \right )\quad(\text{a scalar})\\
&=-\mathbf{e_i}^\mathrm{T}\mathbf{X}^{-1}\mathbf{AX}^{-1}\mathbf{e_j} \\
&=\left ( -\mathbf{X}^{-1}\mathbf{AX}^{-1} \right )_{ij}
\end{align*}


\begin{align*}
\text{I: }& \text{when }n=1, {\partial\text{tr}\big(\mathbf{AX}^1\big)\over\partial\mathbf{X}} = \mathbf{A} = \mathbf{X}^0\mathbf{AX}^0 \text{ holds.} \\
\text{II: }& \text{Suppose } {\partial\text{tr}\big(\mathbf{AX}^n\big)\over\partial\mathbf{X}} = \sum_{i=0}^{n-1}\mathbf{X}^{i}\mathbf{AX}^{n-i-1} \text{ holds. That is,} \\
& {\partial\text{tr}\big(\mathbf{AX}^n\big)\over\partial x_{ji}} = \text{tr}\left(\mathbf{A}{\partial\mathbf{X}^n\over\partial x_{ji}}\right) = \left (\sum_{i=0}^{n-1}\mathbf{X}^{i}\mathbf{AX}^{n-i-1} \right )_{ij} \\
\text{III: }& \left ( {\partial\text{tr}\big(\mathbf{AX}^{n+1}\big)\over\partial\mathbf{X}} \right )_{ij} =
{\partial\text{tr}\big(\mathbf{AXX}^n\big)\over\partial x_{ji}} \\
 &= \text{tr}\left ( \mathbf{AX}{\partial\mathbf{X}^n\over\partial x_{ji}} \right ) + \text{tr}\left ( \mathbf{AX}^n{\partial\mathbf{X}\over\partial x_{ji}} \right ) \\
 &= \left (\sum_{i=0}^{n-1}\mathbf{X}^{i}\mathbf{AXX}^{n-i-1} \right )_{ij} + \text{tr}\left ( \mathbf{AX}^n\mathbf{e_je_i}^\mathrm{T} \right ) \\
 &= \left (\sum_{i=0}^{n-1}\mathbf{X}^{i}\mathbf{AX}^{n-i} \right )_{ij} + \left ( \mathbf{X}^n\mathbf{A} \right )_{ij} \\
 &= \left (\sum_{i=0}^{n}\mathbf{X}^{i}\mathbf{AX}^{n-i} \right )_{ij} \\
\text{Hence, }& {\partial\text{tr}\big(\mathbf{AX}^{n+1}\big)\over\partial\mathbf{X}} = \sum_{i=0}^{n}\mathbf{X}^{i}\mathbf{AX}^{n-i} \text{ holds as well.}
\end{align*}


{\partial e^\mathbf{X}\over\partial\mathbf{X}} &= \sum_{i=0}^\infty{\mathbf{X}^i\over i!} = \sum_{i=1}^\infty{\mathbf{X}^{i-1}\over (i-1)!} = e^\mathbf{X}


\big |\mathbf{A} \big |=\sum_{j=0}^{n}a_{ij}\underset{c_{ij}}{\underbrace{(-1)^{i+j}\big |\tilde{\mathbf{A}}_{ij}\big |}}


\begin{align*}
&\text{Scalar-by-matrix Identity}\\
&\text{Pertaining to Determinant} \\
\text{I: }&   {\partial\big|\mathbf{X}\big|\over\partial\mathbf{X}} = {\partial\big|\mathbf{X}^\mathrm{T}\big|\over\partial\mathbf{X}} = \big|\mathbf{X}\big|\mathbf{X}^{-1} = \text{adj}\big(\mathbf{X}\big) \\
\text{II: }&  {\partial\ln\big|\mathbf{X}\big|\over\partial\mathbf{X}} = \mathbf{X}^{-1} \\
\text{III: }& {\partial\big|\mathbf{AXB}\big|\over\partial\mathbf{X}} = \big|\mathbf{AXB}\big|\mathbf{X}^{-1} \\
\text{IV: }&  {\partial\big|\mathbf{X}^{-1}\big|\over\partial\mathbf{X}} = -\big|\mathbf{X}^{-1}\big|\mathbf{X}^{-1}\\
\text{V: }&   {\partial\big|\mathbf{X}^n\big|\over\partial\mathbf{X}} = n\big|\mathbf{X}\big|\mathbf{X}^{-1} \\
\text{VI: }&  {\partial\ln\big|\mathbf{X}^n\big|\over\partial\mathbf{X}} = n\mathbf{X}^{-1}
\end{align*}

沒有留言:

張貼留言