線性組合 Linear Combination
- 向量的加法與純量乘法的組合
- 例:,其中 為純量, 為向量
線性獨立 Linear Independence
- 定義: 只有全零解 ()
- 沒有任何一個向量可被其他向量的線性組合取代
線性變換 Linear Transformations
- 一種函數將向量從輸入空間映射到輸出空間
- 直線保持直線
- 變換後,網格線必須保持平行且等距,不能彎曲
- 原點固定
- 零向量變換後必須仍是零向量,
- 例子
- 是:旋轉、伸縮、剪切、投影
- 否:平移 (原點移動了)、彎曲 (如 )
- 數學定義:
- 若 為線性變換,必須對所有向量 及純量 滿足以下兩點
- 加法性,,先加再變 = 先變再加
- 齊次性,,先縮放再變 = 先變再縮放
- 每個線性變換都可以用一個矩陣 來執行:
- 矩陣 的幾何意義:矩陣的每一個 Column 紀錄了標準基底向量變換後的位置
- 的第 1 行 = (1,0) 變換後去了哪裡
- 的第 2 行 = (0,1) 變換後去了哪裡
- 只要知道基底跑去哪,就決定了整個矩陣
線性系統的解
- 有解 位於 的 Column Space 內
- 解的分類 (設 為 矩陣):
- 唯一解
- Rank (Full Column Rank)
- 無自由變數
- 只有零解
- 無限多解
- Rank
- 存在自由變數
- 通解 = 特解 + 齊次解
- 無解: 不在 Column Space 內,通常發生在 的情況
- 唯一解
內積 Dot Product, Inner Product
- 幾何意義:一個向量在另一個向量上的投影長度乘以另一向量的長度
- 若 ,則兩向量正交,表示兩向量垂直
外積 Cross Product
- 幾何意義:兩向量所張成的平行四邊形的面積向量
- 僅適用於三維空間,結果為一個向量,且垂直於 與 所在的平面
矩陣運算
- 交換律 (Commutative Law):,不成立
- 結合律 (Associative Law):
- 分配律 (Distributive Law):,
矩陣乘法觀點
- Row picture:多個平面的交點、聯立方程式的解
-
為一個平面
-
Column picture: 是 的行向量 (Columns) 的線性組合
高斯消去法 Gaussian Elimination
- Pivot (主元/軸):列運算後,每一列第一個非零元素
- Free variables (自由變數):對應到沒有 Pivot 的那些行的變數
- Rank (秩):Pivot 的個數,代表矩陣中線性獨立的行(或列)的數量
LU 分解
- : 下三角矩陣,對角線為 1,代表還原動作
- : 上三角矩陣, 代表消去後的狀態
- 方便計算行列式值
- 不需要每次都重新做高斯消去法,能快速解出不同 的
- LU decomposition 的計算複雜度為
- 有 LU decomposition 時,解 的計算複雜度為 ,因為只需要解兩個三角矩陣方程式 和
- 沒有 LU decomposition 時,解 的計算複雜度為 ,因為需要每次都進行高斯消去法
- 時間複雜度
- LU 分解: (約 )
- 解 :
- 若無 LU 分解直接解多次 :每次皆須
LDU 分解
- : 對角矩陣,包含 的對角線元素
- 將 的 Pivot 提出形成對角矩陣
- ,其中 與 的對角線皆為 1
- 若 可逆,且 ( 對角線為1),則必有
反矩陣
- 定義
- 可逆
- 必須是方陣 ()
- 矩陣中的向量必線性獨立
- Rank (Full Rank)
- 擁有 個 Pivots
- 無 zero row
- 行列式
- 只有零解
- 不可逆
- 若 存在非零解,則 不可逆
- 若 ,假設 存在,則 ,與前提矛盾,假設不成立
- 若 經過消去後有一列全為 0,則不可逆
- 全零列在矩陣乘法中無法產生單位矩陣 對應位置的 ,資訊丟失
- 若 存在非零解,則 不可逆
- 若 可逆,其反矩陣是唯一的
- 假設 皆為 的反矩陣,則
-
-
- ,故 為 之反矩陣
奇異矩陣 Singular Matrix
- 定義:不存在反矩陣,不可逆的方陣
- 特性
- 行列式為零:
- 不可逆:不存在
- 線性相依:行向量或列向量之間存在線性相依
- 秩不足: ,即非 Full Rank
- 零特徵值:至少有一個特徵值為
- 存在非零解:齊次方程式 存在非零解,即 Nullity
- 幾何意義:將空間映射到更低的維度,例如將體積壓扁成面或線
轉置矩陣
對角矩陣 Diagonal Matrix
- 若 且所有 ,則
置換矩陣 Permutation Matrix
- 定義:透過交換單位矩陣 的列 (Row) 所形成的矩陣
- 數量: 的置換矩陣共有 個
- 性質
- 必可逆
- (正交矩陣的特性)
- 例:
對稱矩陣 Symmetric Matrices
- 特徵值 必為實數
- 不同特徵值對應的特徵向量必正交
- 必可正交對角化
- 為正交矩陣,
- 即使有重根,實對稱矩陣也保證可以對角化
- 幾何意義:
- 實對稱矩陣的作用就像是把一個單位圓(或球)拉伸成一個橢圓(或橢球)。
- 特徵向量就是這個橢圓的長軸和短軸的方向。
- 特徵值就是軸的長度。
- 正交性:橢圓的長軸和短軸永遠是互相垂直的!這就是為什麼實對稱矩陣的特徵向量一定正交。
正交矩陣 Orthogonal Matrices
- 特性:
- 向量正交變換後,長度保持不變
- 兩個向量正交變換後,夾角保持不變
- 行列式 只有兩種可能 或 ,若為 ,代表這是一個旋轉矩陣,若為 ,代表鏡射/反射
- 可以把正交矩陣想像成對空間進行剛體運動,就像拿著一個方塊旋轉,雖然位置變了,但本身的形狀、邊長和角度都沒變
- 旋轉、鏡射
正定矩陣 Positive Definite Matrices
- 定義:對於所有非零向量 ,都有
- 幾何:圖形為開口向上的碗狀 (Bowl shape),能量函數大於 0
- 判定法 (等價條件):
- 所有特徵值
- 所有 Pivots > 0
- 所有主子行列式 (Leading Principal Minors) > 0
- (Cholesky Decomposition,存在唯一的上三角矩陣 )
- 應用:微積分極小值判定 (Hessian Matrix)、協方差矩陣
偽逆矩陣 Moore-Penrose Pseudoinverse
- 符號:
- 動機:解決當矩陣 不可逆(非方陣、奇異矩陣)時,如何定義類似「反矩陣」的操作
- 定義與計算:利用 SVD 求解
- 若
- 則
- 的構造方式
- 將 轉置 (形狀變為 )
- 將對角線上非零的奇異值取倒數 ()
- 零元素保持為零
- 求解 的最佳解
- 當方程組無解時 (Overdetermined):給出最小平方解 (Least Squares Solution),即誤差 最小
- 當方程組無限多解時 (Underdetermined):在所有解中,給出長度范數 最小的解 (Minimum Norm Solution)
- 性質
- (通常情況),而是投影到 Row Space 的投影矩陣
- (通常情況),而是投影到 Column Space 的投影矩陣
- 若 可逆,則
向量空間 Vector Space
- 定義:一個集合若要成為向量空間,必須滿足以下 10 條公理
- 加法運算
- 封閉性:若 ,則
- 交換律:
- 結合律:
- 零向量存在:存在 使得
- 反向量存在:對每個 ,存在 使得
- 純量乘法運算
- 封閉性:若 且 為純量,則
- 分配律 I:
- 分配律 II:
- 結合律:
- 單位元素:
- 基底
- 生成該空間且線性獨立的向量集合
- 幾何意義:描述該空間所需的最精簡生成集
子空間 Subspace
- 定義:包含零向量、且滿足加法與乘法封閉性的子集合,因繼承了母空間的公理,故僅需檢查 3 點
- 檢查條件
- 零向量: 必須在集合內
- 加法封閉性:若 ,則
- 純量乘法封閉性:若 ,則
基本子空間
- 若矩陣 為 ,秩為
- 基本子空間共四個,可分為兩組
- 第一組
- 列空間、零空間
- 在輸入空間 中
- 與 有關,包含矩陣的維度
- 被完美分割,任何 維向量 都可以唯一分解為 (在列空間) 和 (在零空間)
- 第二組
- 行空間、左零空間
- 在輸出空間 中
- 與 有關,包含矩陣的維度
- 也被完美分割,任何 維向量 都可以唯一分解為 (在 Column Space) 和 (在 Left Null Space)
- 零空間決定了哪些輸入被映射到 0,行空間決定了哪些輸入沒有被映射到 0,列空間張成了所有可能的輸出向量,而左零空間顯示了不能作為輸出的向量
列空間 Row Space
- 由 所有列向量組成的空間
- 所有有用的輸入訊號來源
- 如果把輸入向量 分解,只有落在列空間上的分量會真正被矩陣 轉換出去,產生非零的結果
- 維度
零空間 Null Space
- 所有滿足 的向量 組成的空間
- 無效或被壓縮至零的輸入
- 任何落在這個空間的向量經過 轉換後都會消失,變成零向量
- 維度
行空間 Column Space
- 由 的所有行向量
- 矩陣 能產生的所有可能的輸出集合 ,即 的所有可能結果
- 如果方程組 有解,向量 必須在行空間裡面
- 維度
左零空間 Left Null Space
- 所有滿足 的向量 組成的空間
- 一般的 Null Space, 在右邊把 消除為零
- Left Null Space, 在左邊把 消除為零
- 如果 在此空間有分量,即 不垂直於左零空間,則 無解
- 代表對 的限制條件
- 設有一方程組 ,若 的左零空間中有一非零向量 ,根據定義,
- 如果 要有解,右邊的 必須也等於 0。如果 (即 在左零空間有分量),就會導致 ,這就是矛盾,代表方程組無解。
- 維度
維度定理 Rank-Nullity Theorem
- 輸入總維度 () = 有效輸出維度 (Rank, ) + 被壓縮歸零的維度 (Nullity, )
行列式 Determinants
- 一個線性變換將空間中的區域縮放了多少,是面積或體積改變的倍數
- 代表體積塌縮,損失維度,矩陣不可逆
- 可逆
- 若 為三角矩陣, 等於對角線元素之積
- 幾何意義:
- 2D:兩向量張成的平行四邊形面積
- 3D:三向量張成的平行六面體體積
特徵值與特徵向量 Eigenvalues and Eigenvectors
-
- 特徵值
- 特徵向量
- 幾何意義
- 矩陣 作用在其特徵向量 上時,只會造成向量長度伸縮特徵值 倍,而不發生旋轉,可能反向
- 變換前後的向量落在同一條直線上
- 特徵方程式
- 因為 中 ,所以 必不可逆,必為奇異矩陣,故其行列式為零
- Trace (跡數):
對角化 Diagonalization
-
- :特徵值對角矩陣
- :特徵向量組成的矩陣
- 推導:$$ A S = A [v_1 , v_2 , \cdots , v_n] = [Av_1 , Av_2 , \cdots , Av_n] = [\lambda_1 v_1 , \lambda_2 v_2 , \cdots , \lambda_n v_n] = S \Lambda \ \implies A = S \Lambda S^{-1}
- 條件: 必須有 個線性獨立的特徵向量
- 應用:快速計算 ,
正交性 Orthogonality
- 兩向量內積為零
- 夾角
- 正交子空間關係
- Row Space Null Space,在 中互為正交補餘
- Column Space Left Null Space,在 中互為正交補餘
- 代表 與 的每一個 Row 都垂直
最小平方近似
- 當 無解 (方程式比未知數多),尋找最佳近似解 以最小化誤差
- 地平面, 的 Column Space,能組合出的所有向量
- 天上的星星,向量 ,不在地平面上
- 將星星垂直投影到地平面上,得到最近的點
- , 為最佳近似解
- 誤差向量 ,星星到自己在地平面的投影的向量,必垂直於地平面 (A 的 Column Space)
- 推導 Normal Equation
- Normal Equation 數值不穩,通常使用 QR 分解或 SVD 來求解
- 在機器學習中, 通常是某個觀測值, 是特徵矩陣, 是要學習的參數,希望找到一組參數,使得模型的預測值 最接近觀測值
最小平方法應用在機器學習
-
損失函數 Loss Function
- 將「幾何投影誤差」轉化為「均方誤差」
- 懲罰較大的誤差,因為是平方,且函數平滑可微分,適合優化
-
兩種求解途徑
- 解析解
- 最小平方法
- 數據量小、特徵少的情況
- 缺點是矩陣求逆運算 成本高
- 數值優化
- 梯度下降法 Gradient Descent
- 利用梯度 迭代更新權重
- 大數據、神經網絡
- 梯度的方向即為 ,對應線性代數中的 ,每一步都在試圖消除投影誤差在各個特徵軸上的分量
- 解析解
-
正規化 Regularization
- 對權重 (模型有多複雜) 加上懲罰項,防止過擬合
- Lasso Regression (L1)
- 在誤差平方和後加上 (權重絕對值和)
- 限制權重在菱形 (多面體) 區域內,容易在頂點 (座標軸) 處與誤差函數相切
- 優點:產生稀疏解,能強迫不重要的特徵權重變成 0,具備特徵選取的功能
- 產生稀疏解是因為菱形(L1 ball)的「角」突出,而誤差函數的等高線(橢圓)最容易先碰到這些「角」(即坐標軸),這導致某些權重直接變為 0
- 注意:因絕對值函數在 0 處不可微分,故無解析解,需依賴數值演算法求解
- Ridge Regression (L2)
- 在最小平方誤差後加上
- 解決問題:防止過擬合、解決 不可逆 (Singular) 的問題
- 公式修正:
QR 分解
- 將矩陣分解成一個 正交矩陣 與一個上三角矩陣 的積
- QR 分解將一個「歪斜、耦合」的複雜問題 ,轉換到一個「正交、獨立」的標準坐標系 中解析
- 解耦
- 在歪斜基底 中,變數間互相牽制,牽一髮動全身
- 在正交基底 中,各維度垂直互不干擾,可單獨分析或控制特定分量
- 計算簡化
- 求逆:將繁重的矩陣求逆運算 () 簡化為轉置 (正矩陣 )
- 投影:求分量只需做簡單內積 (),無需解複雜的聯立方程式
- 數值穩定
- 正交變換屬於「等距同構」,旋轉不改變向量長度
- 避免了歪斜基底造成的誤差放大效應,確保電腦計算時的資訊保真
- 解耦
- 標準正交矩陣
- Column 為標準正交基底 (Orthonormal Basis)
- ,計算反矩陣極快 ()
- 上三角矩陣
- 的行向量在標準正交基底 下的座標係數
- 記錄 的行向量如何由 線性組合而成
- 上三角結構的成因
- 根據 Gram-Schmidt 建構順序,第 個向量 必定落在前 個基底向量生成的空間 內
- 因此 對未來的基底 () 投影量必為 0
- 僅有 分量; 僅有 分量,依此類推形成上三角矩陣
- 應用於最小平方求解,利用 將 Normal Equation 簡化
- 因 為上三角矩陣,方程式的最後一行只有一個未知數,可直接求出
- 求出後代回上一行,依此類推,計算成本極低且精確
Gram-Schmidt 正交化
-
QR 分解的其中一種方法
-
目標將一組歪斜的線性獨立基底 ,修正為標準正交基底
- 原理:
- 透過迭代,依序扣除新向量在「已知正交基底」上的投影分量,只保留垂直部分
-
輸入:一組線性獨立的向量
-
輸出:一組標準正交基底
-
流程
-
將 單位化
-
扣除 在 方向的投影,得到垂直向量 ,再單位化
-
將 扣除在所有先前基底 () 上的投影
-
-
必須使用已算好的 (標準正交) 來計算投影,公式才會簡潔為內積形式
-
若直接使用尚未單位化的向量來做投影,分母會變得很複雜
奇異值分解 Singular Value Decomposition (SVD)
-
- 將線性變換分解為旋轉、伸縮、再旋轉
- 數據 = (對於樣本的組合權重) (成份排行/強度) (成份的定義)
- 矩陣成分對照解析 ( 為 )
- (Right Singular Vectors): 正交矩陣
- 在輸入空間 () 的正交基底
- 成份的定義 (Ingredients) — 定義基本元素是什麼 (如:定義「甜味」)
- (Singular Values): 對角矩陣
- 對角線元素 (由大到小排列)
- 成份的強度/排行 (Importance) — 決定該成份在整體數據中的能量大小
- (Left Singular Vectors): 正交矩陣
- 在輸出空間 () 的正交基底
- 樣本的組合權重 (Weights) — 每個樣本含有該成份的比例多寡
- (Right Singular Vectors): 正交矩陣
- 利用 與 必為對稱矩陣的性質來求解**
- 求 與 (必須同步排序)
- 計算
- 對 做特徵值分解,得到特徵值 與特徵向量
- 排序:
- 將特徵值 由大到小排列,並取平方根得到 ()
- 中的行向量 必須依照 的排序順序同步調整位置
- 例如:若 最大,則對應的 必須放在 的第一欄
- 求
- 映射法:利用排序好的 和對應的 來求
- 因為 和 已經是正確配對且排好序的,算出來的 自然也會是正確排序的
- 求 與 (必須同步排序)
- 為何是「旋轉 - 伸長 - 旋轉」三步?
- SVD 要求中間的伸長矩陣 必須是對角矩陣,只能沿著標準座標軸 () 進行伸縮,不能斜向伸縮
- 極分解: (旋轉 變形)
- 這裡的 是對稱矩陣,包含「斜向拉伸」的能力,所以不需要第一步旋轉。
- 缺點: 不是對角矩陣,數學性質不如 SVD 的 簡單直觀。
PCA 與 SVD 的關係
- PCA (主成分分析) 的目標
- 尋找數據分布變異量 (Variance) 最大的方向
- 數學上等同於對數據的「共變異數矩陣」 (Covariance Matrix) 做特徵值分解
- 連結推導
- 假設數據矩陣 已經過中心化 (Mean Centering),大小為 ( 筆資料, 個特徵)
- 共變異數矩陣
- 對 做 SVD 分解:
- 代入計算 :
- 結論對照
- 主成分:即 PCA 的特徵向量,正好等於 SVD 的右奇異向量矩陣
- 變異量:PCA 的特徵值 與 SVD 的奇異值 存在關係:
- 實務選擇
- 雖然可以透過算 的特徵值來做 PCA,但實務上直接對 做 SVD 更佳
- 原因:計算 會大幅增加條件數 (Condition Number),造成浮點數運算誤差 (Loss of precision),直接做 SVD 數值穩定性較高
備問
有解,代表向量 與 的 Column Space 有什麼關係?
必須落在 的 Column Space 內 (), 本質上是 的行向量的線性組合,若 無法由這些行向量組合出來,則無解
若一個 的矩陣 Rank 是 3,請問 有非零解嗎?
沒有非零解,只有零解 ()
是 ,Rank 代表 Full Column Rank,變數有 3 個,Rank 有 3 個,表示沒有自由變數,故只有零解
矩陣乘法為何不滿足交換律 ()?
幾何觀點:矩陣代表變換操作順序會影響結果,例如:先投影到 X 軸再旋轉 90 度 先旋轉 90 度再投影到 X 軸,結果不同
代數觀點:維度限制若 是 , 是 ,則 是 ,但 是 ,根本無法比較
什麼時候 ?
雖然一般不成立,但在以下特殊情況成立:
- 其中一個是單位矩陣:
- 其中一個是零矩陣:
- 互為反矩陣:
- 純量矩陣 (Scalar Matrix):如
- 重要: 與 擁有相同的特徵向量時,可交換
- 因為矩陣作用在相同基底上不會改變向量方向,只會伸縮,故可交換
矩陣 乘上向量 是什麼意思?
- 內積觀點:將 投影到 的每一個列向量上,算出數值分量
- 線性組合觀點:對 的行向量做線性組合,權重係數由 提供
LU 分解中的 L, U, P 分別代表什麼?
- L (Lower Triangular):記錄「還原」的動作(Multipliers),對角線通常為 1
- U (Upper Triangular):記錄「消去」後的最終狀態 (Echelon Form),對角線為 Pivots
- P (Permutation):若消去過程中 Pivot 為 0,需進行列交換公式修正為
為什麼 的對角線是 1?
- 在高斯消去法中,我們執行的列運算 (如 ) 相當於左乘一個下三角的基本矩陣 (Elementary Matrix)
- 這類操作是將「某列的倍數」加到「另一列」,並不會改變「該列自己」的比例,因此對角線元素保持為 1
什麼是線性獨立
- 向量的集合中,無法用任何向量的線性組合來表示其他向量
- 表示每個向量都提供了全新的維度資訊,沒有冗餘
Rank 是什麼
線性獨立的行向量最大數量,幾何上是變換後空間的實際維度。比如 3×3 矩陣 rank=2 代表把空間壓成平面。
與 兩者的關係
- 兩個矩陣相加,其生成的空間維度不會超過兩者個別生成空間維度的總和
- 相加可能會導致某些維度抵消,rank 反而變小
何謂 Eigenvector
矩陣代表「線性變換」。特徵向量代表變換的「主軸」方向,特徵值代表沿著該軸的「伸縮倍率」。
如何求 Eigenvalue
解特徵方程式 (Characteristic Equation):。因為 要有非零解,代表 必須是不可逆的(奇異矩陣),故行列式為 0。
如何求 Eigenvector
將求出的 代回 。求解這個齊次方程式的 Null Space,即為該 對應的特徵空間 (Eigenspace)。
每個矩陣都有特徵向量和特徵值?
矩陣類型是否有特徵值/特徵向量?備註長方形矩陣 ()無請改用 SVD (奇異值)方陣 (實數系)不一定旋轉矩陣可能只有複數解方陣 (複數系)一定有特徵值但特徵向量可能不夠 (缺損矩陣)實對稱矩陣 ()保證有這是最完美的矩陣,保證有實數特徵值 + 完整的正交特徵向量
若 有 Eigenvalue ,則 A inverse 有什麼eigenvalue
答案: (或 )。推導:。特徵向量: 與 擁有相同的特徵向量。
如果 怎麼辦
不可逆:矩陣 為奇異矩陣 (Singular),不可逆。行列式為 0:因為 等於所有特徵值的乘積,有一項為 0 則積為 0。非零解:存在非零向量 使得 ,表示 Null Space 不只有零向量。
eigenvalue =0 inverse怎麼辦
不存在。因為對應的特徵值變為 ,無定義。幾何上,空間被壓扁了,資訊丟失,無法還原。
inverse的 ev 是啥
零空間與左零空間的差別
位置不同:Null Space :在輸入空間 ,,刻畫了哪些輸入訊號會無效化。Left Null Space :在輸出空間 , (或 ),刻畫了對輸出向量 的限制條件。維度不同: 維度為 。 維度為
為什麼需要 Regularization
解決不可逆:當數據特徵多於樣本數,或特徵間高度相關時, 可能不可逆(或接近奇異)。加上 (對角線加值) 強制增加特徵值大小,確保矩陣可逆且數值穩定。防止過擬合:限制參數大小,降低模型複雜度。
有解的幾何意義是什麼?
關鍵回答:向量 必須落在 的 Column Space (行空間) 內。 補充: 本質上是在將 的 Columns 做線性組合,如果 組合不出來,就無解。
什麼是 Rank (秩)?
關鍵回答:矩陣中線性獨立的行向量(或列向量)的最大數量。 幾何意義:代表這個變換後的空間「實際維度」。如果 矩陣 Rank=2,代表它把三維空間壓扁成一個平面。
什麼是奇異矩陣 (Singular Matrix)?
關鍵回答:不可逆的方陣。 判斷特徵:行列式為 0、Rank 不滿 (Rank < n)、必有特徵值為 0、Null Space 內有非零向量。
只有零解 () 代表什麼?
關鍵回答:代表 的行向量是線性獨立的 (Full Column Rank)。 幾何意義:沒有任何非零向量被這個矩陣「壓扁」或「殺死」到零點。Null Space 只有零向量。
特徵值 (Eigenvalue) 與特徵向量 (Eigenvector) 的幾何意義?
關鍵回答:矩陣作用在特徵向量上,只會發生伸縮 (Scaling),不會旋轉。 物理意義:特徵向量是變換中的「主軸」方向,特徵值是該方向的能量或強度。
行列式 (Determinant) 的幾何意義?
關鍵回答:線性變換後的體積縮放倍率 (2D 是面積,3D 是體積)。 延伸:若 ,代表體積被壓縮為零(塌陷),資訊丟失,故不可逆。
實對稱矩陣 (Real Symmetric Matrix, ) 有哪三個重要性質?
關鍵回答:(1) 特徵值必為實數、(2) 特徵向量必互相正交、(3) 必可對角化。 應用:這保證了我們總能找到一組完美的正交座標系來描述系統 (如應力張量、慣性矩陣)。
相似矩陣 (Similar Matrices, ) 有什麼是不變的?
關鍵回答:特徵值不變。 意義:它們代表同一個線性變換,只是站在不同的基底 (座標系) 去觀察而已。
正交矩陣 (Orthogonal Matrix, ) 有什麼好處?
關鍵回答: (轉置即反矩陣) 且保持向量長度與夾角不變。 意義:它代表剛體旋轉或鏡射,不會改變物體的形狀大小,計算反矩陣極快。
為什麼要做 SVD (奇異值分解)?跟特徵值分解有什麼不同?
關鍵回答:SVD 適用於任何形狀 () 的矩陣,且分解出的基底保證是正交的。 幾何意義:任何線性變換都可以拆解為「旋轉 () 沿軸伸縮 () 再旋轉 ()」。
最小平方法 (Least Squares) 的幾何意義是什麼?
關鍵回答:當 無解時,尋找 在 Column Space 上的投影點 ,使得誤差向量 垂直於 Column Space。 公式直覺: (誤差垂直於 的所有行向量)。
什麼是正定矩陣 (Positive Definite Matrix)?為什麼它很重要?
關鍵回答:對任意非零向量 ,都有 。 幾何/應用:圖形是開口向上的碗狀,代表系統有唯一的極小值。在優化理論和控制系統的穩定性分析 (Lyapunov) 中極為關鍵。
和 有什麼關係?
關鍵回答:兩者相等。 延伸: 和 擁有相同的 Null Space。這在證明最小平方法的可解性時很重要。
條件數 (Condition Number) 過大代表什麼?
關鍵回答:矩陣接近奇異 (Ill-conditioned)。 後果:輸入的微小誤差會被放大,導致解 劇烈震盪,數值計算不可信。
為什麼正交基底在計算上更穩定?
主成分分析與奇異值分解的關係?
旋轉矩陣的特徵值是什麼?
如何判斷一個變換是否保持面積/體積?
剪切 (Shear) 變換的特徵值是什麼?
如果加一行(或一列),Rank 最多增加多少?
什麼時候矩陣「不可對角化」?
Eigenvalue 為負代表什麼?
det 與 eigenvalue 的關係?
為什麼 Regularization 等於「抬高 eigenvalue」?
Pseudoinverse 在做什麼?
PCA 在做什麼?
找最大方差方向 = 最大 eigenvalue 的 eigenvector)
為什麼要做 normalization?
(避免特徵尺度影響、改善條件數)
overfitting 時為何加 λI\lambda I
(縮小參數、改善 ill-conditioned)
SVD 比 eigendecomposition 好在哪?
(任意矩陣都能分解、更穩定)
(A+B)−1=A−1+B−1(A+B)^{-1} = A^{-1} + B^{-1}
(A+B)−1=A−1+B−1 對嗎? (錯!)
eigenvalue 都是正的,矩陣就正定?(不一定,還要對稱)
AA
A 和 ATA^T AT 的 eigenvalue 相同嗎? (不一定,但特徵多項式相同)
兩個可逆矩陣相加還可逆嗎?(不一定,如 A+(−A)=0A + (-A) = 0
A+(−A)=0)
det=0 的幾何意義?(空間被壓扁、降維)
eigenvalue=2 代表什麼?(沿該方向伸長 2 倍)
正交矩陣保持什麼不變?(長度、夾角)
矩陣 與 的特徵值有什麼關係?
關鍵回答:不一定相同,但 的特徵值必為「非負實數」。 延伸: 的非零特徵值等於 的奇異值 (Singular Values) 的平方,即 。這連接了特徵值分解與 SVD。
為什麼 Regularization (正規化) 等於「抬高 Eigenvalue」?
關鍵回答:在 的對角線加上 (Ridge Regression),相當於將所有特徵值都加上 。 幾何意義:這讓原本接近 0 的特徵值變大,遠離奇異點 (Singular),修正了矩陣的條件數 (Condition Number),讓數值解更穩定,並防止過擬合。
特徵值全為正,矩陣就是正定矩陣嗎?
關鍵回答:不一定。 解釋:標準定義下,正定矩陣通常假設為「對稱矩陣」。若矩陣不對稱,即使特徵值全為正,也不能保證 恆成立。但在面試中若無特別說明,通常預設討論的是對稱矩陣。
Trace (跡) 與特徵值有什麼關係?
關鍵回答:Trace 等於所有特徵值的總和 ( )。 應用:這是一個快速檢查特徵值計算是否錯誤的好方法,且 Trace 是基底變換下的不變量。
Pseudo-inverse (虛擬反矩陣) 的幾何意義?
關鍵回答:當 無解或有無限多解時,Pseudo-inverse 幫我們找到一個「最佳解」。 意義:在最小平方法中,它給出誤差最小的解;在無限多解中,它給出長度 (Norm) 最小的解。它是透過 SVD 計算出來的。
有解的幾何意義是什麼?
關鍵回答:向量 必須落在 的 Column Space (行空間) 內。 補充: 本質上是在將 的 Columns 做線性組合,如果 組合不出來,就無解。
什麼是 Rank (秩)?
關鍵回答:矩陣中線性獨立的行向量(或列向量)的最大數量。 幾何意義:代表這個變換後的空間「實際維度」。如果 矩陣 Rank=2,代表它把三維空間壓扁成一個平面。
什麼是奇異矩陣 (Singular Matrix)?
關鍵回答:不可逆的方陣。 判斷特徵:行列式為 0、Rank 不滿 (Rank < n)、必有特徵值為 0、Null Space 內有非零向量。
只有零解 () 代表什麼?
關鍵回答:代表 的行向量是線性獨立的 (Full Column Rank)。 幾何意義:沒有任何非零向量被這個矩陣「壓扁」或「殺死」到零點。Null Space 只有零向量。
特徵值 (Eigenvalue) 與特徵向量 (Eigenvector) 的幾何意義?
關鍵回答:矩陣作用在特徵向量上,只會發生伸縮 (Scaling),不會旋轉。 物理意義:特徵向量是變換中的「主軸」方向,特徵值是該方向的能量或強度。
行列式 (Determinant) 的幾何意義?
關鍵回答:線性變換後的體積縮放倍率 (2D 是面積,3D 是體積)。 延伸:若 ,代表體積被壓縮為零(塌陷),資訊丟失,故不可逆。
實對稱矩陣 (Real Symmetric Matrix, ) 有哪三個重要性質?
關鍵回答:(1) 特徵值必為實數、(2) 特徵向量必互相正交、(3) 必可對角化。 應用:這保證了我們總能找到一組完美的正交座標系來描述系統 (如應力張量、慣性矩陣)。
相似矩陣 (Similar Matrices, ) 有什麼是不變的?
關鍵回答:特徵值不變。 意義:它們代表同一個線性變換,只是站在不同的基底 (座標系) 去觀察而已。
正交矩陣 (Orthogonal Matrix, ) 有什麼好處?
關鍵回答: (轉置即反矩陣) 且保持向量長度與夾角不變。 意義:它代表剛體旋轉或鏡射,不會改變物體的形狀大小,計算反矩陣極快。
為什麼要做 SVD (奇異值分解)?跟特徵值分解有什麼不同?
關鍵回答:SVD 適用於任何形狀 () 的矩陣,且分解出的基底保證是正交的。 幾何意義:任何線性變換都可以拆解為「旋轉 () 沿軸伸縮 () 再旋轉 ()」。
最小平方法 (Least Squares) 的幾何意義是什麼?
關鍵回答:當 無解時,尋找 在 Column Space 上的投影點 ,使得誤差向量 垂直於 Column Space。 公式直覺: (誤差垂直於 的所有行向量)。
什麼是正定矩陣 (Positive Definite Matrix)?為什麼它很重要?
關鍵回答:對任意非零向量 ,都有 。 幾何/應用:圖形是開口向上的碗狀,代表系統有唯一的極小值。在優化理論和控制系統的穩定性分析 (Lyapunov) 中極為關鍵。
和 有什麼關係?
關鍵回答:兩者相等。 延伸: 和 擁有相同的 Null Space。這在證明最小平方法的可解性時很重要。
條件數 (Condition Number) 過大代表什麼?
關鍵回答:矩陣接近奇異 (Ill-conditioned)。 後果:輸入的微小誤差會被放大,導致解 劇烈震盪,數值計算不可信。