study

趙啟超教授線性代數

線性組合 Linear Combination

  • 向量的加法與純量乘法的組合
  • 例:,其中 為純量, 為向量

線性獨立 Linear Independence

  • 定義: 只有全零解 ()
  • 沒有任何一個向量可被其他向量的線性組合取代

線性變換 Linear Transformations

  • 一種函數將向量從輸入空間映射到輸出空間
  • 直線保持直線
    • 變換後,網格線必須保持平行且等距,不能彎曲
  • 原點固定
    • 零向量變換後必須仍是零向量,
  • 例子
    • 是:旋轉、伸縮、剪切、投影
    • 否:平移 (原點移動了)、彎曲 (如 )
  • 數學定義:
    • 為線性變換,必須對所有向量 及純量 滿足以下兩點
    • 加法性,,先加再變 = 先變再加
    • 齊次性,,先縮放再變 = 先變再縮放
  • 每個線性變換都可以用一個矩陣 來執行:
  • 矩陣 的幾何意義:矩陣的每一個 Column 紀錄了標準基底向量變換後的位置
    • 的第 1 行 = (1,0) 變換後去了哪裡
    • 的第 2 行 = (0,1) 變換後去了哪裡
    • 只要知道基底跑去哪,就決定了整個矩陣

線性系統的解

  • 有解 位於 的 Column Space 內
  • 解的分類 (設 矩陣):
    • 唯一解
      • Rank (Full Column Rank)
      • 無自由變數
      • 只有零解
    • 無限多解
      • Rank
      • 存在自由變數
      • 通解 = 特解 + 齊次解
    • 無解: 不在 Column Space 內,通常發生在 的情況

內積 Dot Product, Inner Product

  • 幾何意義:一個向量在另一個向量上的投影長度乘以另一向量的長度
  • ,則兩向量正交,表示兩向量垂直

外積 Cross Product

  • 幾何意義:兩向量所張成的平行四邊形的面積向量
  • 僅適用於三維空間,結果為一個向量,且垂直於 所在的平面

矩陣運算

  • 交換律 (Commutative Law):,不成立
  • 結合律 (Associative Law):
  • 分配律 (Distributive Law):

矩陣乘法觀點

  • Row picture:多個平面的交點、聯立方程式的解
  • 為一個平面

  • Column picture: 的行向量 (Columns) 的線性組合


高斯消去法 Gaussian Elimination

  • Pivot (主元/軸):列運算後,每一列第一個非零元素
  • Free variables (自由變數):對應到沒有 Pivot 的那些行的變數
  • Rank (秩):Pivot 的個數,代表矩陣中線性獨立的行(或列)的數量

LU 分解

  • : 下三角矩陣,對角線為 1,代表還原動作
  • : 上三角矩陣, 代表消去後的狀態
  • 方便計算行列式值
  • 不需要每次都重新做高斯消去法,能快速解出不同
  • LU decomposition 的計算複雜度為
  • 有 LU decomposition 時,解 的計算複雜度為 ,因為只需要解兩個三角矩陣方程式
  • 沒有 LU decomposition 時,解 的計算複雜度為 ,因為需要每次都進行高斯消去法
  • 時間複雜度
    • LU 分解: (約 )
    • 若無 LU 分解直接解多次 :每次皆須

LDU 分解

  • : 對角矩陣,包含 的對角線元素
  • 的 Pivot 提出形成對角矩陣
    • ,其中 的對角線皆為 1
  • 可逆,且 對角線為1),則必有

反矩陣

  • 定義
  • 可逆
    • 必須是方陣 ()
    • 矩陣中的向量必線性獨立
      • Rank (Full Rank)
      • 擁有 個 Pivots
      • 無 zero row
      • 行列式
      • 只有零解
  • 不可逆
    • 存在非零解,則 不可逆
      • ,假設 存在,則 ,與前提矛盾,假設不成立
    • 經過消去後有一列全為 0,則不可逆
    • 全零列在矩陣乘法中無法產生單位矩陣 對應位置的 ,資訊丟失
  • 可逆,其反矩陣是唯一的
    • 假設 皆為 的反矩陣,則
    • ,故 之反矩陣

奇異矩陣 Singular Matrix

  • 定義:不存在反矩陣,不可逆的方陣
  • 特性
    • 行列式為零:
    • 不可逆:不存在
    • 線性相依:行向量或列向量之間存在線性相依
    • 秩不足: ,即非 Full Rank
    • 零特徵值:至少有一個特徵值為
    • 存在非零解:齊次方程式 存在非零解,即 Nullity
  • 幾何意義:將空間映射到更低的維度,例如將體積壓扁成面或線

轉置矩陣


對角矩陣 Diagonal Matrix

  • 且所有 ,則

置換矩陣 Permutation Matrix

  • 定義:透過交換單位矩陣 的列 (Row) 所形成的矩陣
  • 數量: 的置換矩陣共有
  • 性質
    • 必可逆
    • (正交矩陣的特性)
    • 例:

對稱矩陣 Symmetric Matrices

  • 特徵值 必為實數
  • 不同特徵值對應的特徵向量必正交
  • 必可正交對角化
    • 為正交矩陣,
  • 即使有重根,實對稱矩陣也保證可以對角化
  • 幾何意義:
    • 實對稱矩陣的作用就像是把一個單位圓(或球)拉伸成一個橢圓(或橢球)。
    • 特徵向量就是這個橢圓的長軸和短軸的方向。
    • 特徵值就是軸的長度。
    • 正交性:橢圓的長軸和短軸永遠是互相垂直的!這就是為什麼實對稱矩陣的特徵向量一定正交。

正交矩陣 Orthogonal Matrices

  • 特性:
    • 向量正交變換後,長度保持不變
    • 兩個向量正交變換後,夾角保持不變
    • 行列式 只有兩種可能 ,若為 ,代表這是一個旋轉矩陣,若為 ,代表鏡射/反射
  • 可以把正交矩陣想像成對空間進行剛體運動,就像拿著一個方塊旋轉,雖然位置變了,但本身的形狀、邊長和角度都沒變
  • 旋轉、鏡射

正定矩陣 Positive Definite Matrices

  • 定義:對於所有非零向量 ,都有
    • 幾何:圖形為開口向上的碗狀 (Bowl shape),能量函數大於 0
  • 判定法 (等價條件):
    1. 所有特徵值
    2. 所有 Pivots > 0
    3. 所有主子行列式 (Leading Principal Minors) > 0
    4. (Cholesky Decomposition,存在唯一的上三角矩陣 )
  • 應用:微積分極小值判定 (Hessian Matrix)、協方差矩陣

偽逆矩陣 Moore-Penrose Pseudoinverse

  • 符號:
  • 動機:解決當矩陣 不可逆(非方陣、奇異矩陣)時,如何定義類似「反矩陣」的操作
  • 定義與計算:利用 SVD 求解
  • 的構造方式
    • 轉置 (形狀變為 )
    • 將對角線上非零的奇異值取倒數 ()
    • 零元素保持為零
  • 求解 的最佳解
    • 當方程組無解時 (Overdetermined):給出最小平方解 (Least Squares Solution),即誤差 最小
    • 當方程組無限多解時 (Underdetermined):在所有解中,給出長度范數 最小的解 (Minimum Norm Solution)
  • 性質
    • (通常情況),而是投影到 Row Space 的投影矩陣
    • (通常情況),而是投影到 Column Space 的投影矩陣
    • 可逆,則

向量空間 Vector Space

  • 定義:一個集合若要成為向量空間,必須滿足以下 10 條公理
  • 加法運算
    • 封閉性:若 ,則
    • 交換律:
    • 結合律:
    • 零向量存在:存在 使得
    • 反向量存在:對每個 ,存在 使得
  • 純量乘法運算
    • 封閉性:若 為純量,則
    • 分配律 I:
    • 分配律 II:
    • 結合律:
    • 單位元素:
  • 基底
    • 生成該空間且線性獨立的向量集合
    • 幾何意義:描述該空間所需的最精簡生成集

子空間 Subspace

  • 定義:包含零向量、且滿足加法與乘法封閉性的子集合,因繼承了母空間的公理,故僅需檢查 3 點
  • 檢查條件
    • 零向量: 必須在集合內
    • 加法封閉性:若 ,則
    • 純量乘法封閉性:若 ,則

基本子空間

  • 若矩陣 ,秩為
  • 基本子空間共四個,可分為兩組
  • 第一組
    • 列空間、零空間
    • 在輸入空間
    • 有關,包含矩陣的維度
    • 被完美分割,任何 維向量 都可以唯一分解為 (在列空間) 和 (在零空間)
  • 第二組
    • 行空間、左零空間
    • 在輸出空間
    • 有關,包含矩陣的維度
    • 也被完美分割,任何 維向量 都可以唯一分解為 (在 Column Space) 和 (在 Left Null Space)
  • 零空間決定了哪些輸入被映射到 0,行空間決定了哪些輸入沒有被映射到 0,列空間張成了所有可能的輸出向量,而左零空間顯示了不能作為輸出的向量

列空間 Row Space

  • 所有列向量組成的空間
  • 所有有用的輸入訊號來源
  • 如果把輸入向量 分解,只有落在列空間上的分量會真正被矩陣 轉換出去,產生非零的結果
  • 維度

零空間 Null Space

  • 所有滿足 的向量 組成的空間
  • 無效或被壓縮至零的輸入
  • 任何落在這個空間的向量經過 轉換後都會消失,變成零向量
  • 維度

行空間 Column Space

  • 的所有行向量
  • 矩陣 能產生的所有可能的輸出集合 ,即 的所有可能結果
  • 如果方程組 有解,向量 必須在行空間裡面
  • 維度

左零空間 Left Null Space

  • 所有滿足 的向量 組成的空間
    • 一般的 Null Space, 在右邊把 消除為零
    • Left Null Space, 在左邊把 消除為零
  • 如果 在此空間有分量,即 不垂直於左零空間,則 無解
  • 代表對 的限制條件
  • 設有一方程組 ,若 的左零空間中有一非零向量 ,根據定義,
  • 如果 要有解,右邊的 必須也等於 0。如果 (即 在左零空間有分量),就會導致 ,這就是矛盾,代表方程組無解。
  • 維度

維度定理 Rank-Nullity Theorem

  • 輸入總維度 () = 有效輸出維度 (Rank, ) + 被壓縮歸零的維度 (Nullity, )

行列式 Determinants

  • 一個線性變換將空間中的區域縮放了多少,是面積或體積改變的倍數
  • 代表體積塌縮,損失維度,矩陣不可逆
  • 可逆
  • 為三角矩陣, 等於對角線元素之積
  • 幾何意義:
    • 2D:兩向量張成的平行四邊形面積
    • 3D:三向量張成的平行六面體體積

特徵值與特徵向量 Eigenvalues and Eigenvectors

    • 特徵值
    • 特徵向量
  • 幾何意義
    • 矩陣 作用在其特徵向量 上時,只會造成向量長度伸縮特徵值 倍,而不發生旋轉,可能反向
    • 變換前後的向量落在同一條直線上
  • 特徵方程式
    • 因為 ,所以 必不可逆,必為奇異矩陣,故其行列式為零
  • Trace (跡數):

對角化 Diagonalization

    • :特徵值對角矩陣
    • :特徵向量組成的矩陣
    • 推導:$$ A S = A [v_1 , v_2 , \cdots , v_n] = [Av_1 , Av_2 , \cdots , Av_n] = [\lambda_1 v_1 , \lambda_2 v_2 , \cdots , \lambda_n v_n] = S \Lambda \ \implies A = S \Lambda S^{-1}
  • 條件: 必須有 個線性獨立的特徵向量
  • 應用:快速計算

正交性 Orthogonality

  • 兩向量內積為零
  • 夾角
  • 正交子空間關係
    • Row Space Null Space,在 中互為正交補餘
    • Column Space Left Null Space,在 中互為正交補餘
  • 代表 的每一個 Row 都垂直

最小平方近似

  • 無解 (方程式比未知數多),尋找最佳近似解 以最小化誤差
    • 地平面, 的 Column Space,能組合出的所有向量
    • 天上的星星,向量 ,不在地平面上
    • 將星星垂直投影到地平面上,得到最近的點
    • 為最佳近似解
    • 誤差向量 ,星星到自己在地平面的投影的向量,必垂直於地平面 (A 的 Column Space)
  • 推導 Normal Equation
  • Normal Equation 數值不穩,通常使用 QR 分解或 SVD 來求解
  • 在機器學習中, 通常是某個觀測值, 是特徵矩陣, 是要學習的參數,希望找到一組參數,使得模型的預測值 最接近觀測值

最小平方法應用在機器學習

  • 損失函數 Loss Function

    • 將「幾何投影誤差」轉化為「均方誤差」
    • 懲罰較大的誤差,因為是平方,且函數平滑可微分,適合優化
  • 兩種求解途徑

    • 解析解
      • 最小平方法
      • 數據量小、特徵少的情況
      • 缺點是矩陣求逆運算 成本高
    • 數值優化
      • 梯度下降法 Gradient Descent
      • 利用梯度 迭代更新權重
      • 大數據、神經網絡
      • 梯度的方向即為 ,對應線性代數中的 ,每一步都在試圖消除投影誤差在各個特徵軸上的分量
  • 正規化 Regularization

    • 對權重 (模型有多複雜) 加上懲罰項,防止過擬合
    • Lasso Regression (L1)
      • 在誤差平方和後加上 (權重絕對值和)
      • 限制權重在菱形 (多面體) 區域內,容易在頂點 (座標軸) 處與誤差函數相切
      • 優點:產生稀疏解,能強迫不重要的特徵權重變成 0,具備特徵選取的功能
      • 產生稀疏解是因為菱形(L1 ball)的「角」突出,而誤差函數的等高線(橢圓)最容易先碰到這些「角」(即坐標軸),這導致某些權重直接變為 0
      • 注意:因絕對值函數在 0 處不可微分,故無解析解,需依賴數值演算法求解
    • Ridge Regression (L2)
      • 在最小平方誤差後加上
      • 解決問題:防止過擬合、解決 不可逆 (Singular) 的問題
      • 公式修正:

QR 分解

  • 將矩陣分解成一個 正交矩陣 與一個上三角矩陣 的積
  • QR 分解將一個「歪斜、耦合」的複雜問題 ,轉換到一個「正交、獨立」的標準坐標系 中解析
    • 解耦
      • 在歪斜基底 中,變數間互相牽制,牽一髮動全身
      • 在正交基底 中,各維度垂直互不干擾,可單獨分析或控制特定分量
    • 計算簡化
      • 求逆:將繁重的矩陣求逆運算 () 簡化為轉置 (正矩陣 )
      • 投影:求分量只需做簡單內積 (),無需解複雜的聯立方程式
    • 數值穩定
      • 正交變換屬於「等距同構」,旋轉不改變向量長度
      • 避免了歪斜基底造成的誤差放大效應,確保電腦計算時的資訊保真
  • 標準正交矩陣
    • Column 為標準正交基底 (Orthonormal Basis)
    • ,計算反矩陣極快 ()
  • 上三角矩陣
    • 的行向量在標準正交基底 下的座標係數
    • 記錄 的行向量如何由 線性組合而成
    • 上三角結構的成因
      • 根據 Gram-Schmidt 建構順序,第 個向量 必定落在前 個基底向量生成的空間
      • 因此 對未來的基底 () 投影量必為 0
      • 僅有 分量; 僅有 分量,依此類推形成上三角矩陣
  • 應用於最小平方求解,利用 將 Normal Equation 簡化
    • 為上三角矩陣,方程式的最後一行只有一個未知數,可直接求出
    • 求出後代回上一行,依此類推,計算成本極低且精確

Gram-Schmidt 正交化

  • QR 分解的其中一種方法

  • 目標將一組歪斜的線性獨立基底 ,修正為標準正交基底

    • 原理:
    • 透過迭代,依序扣除新向量在「已知正交基底」上的投影分量,只保留垂直部分
  • 輸入:一組線性獨立的向量

  • 輸出:一組標準正交基底

  • 流程

    1. 單位化

    2. 扣除 方向的投影,得到垂直向量 ,再單位化

    3. 扣除在所有先前基底 () 上的投影

  • 必須使用已算好的 (標準正交) 來計算投影,公式才會簡潔為內積形式

  • 若直接使用尚未單位化的向量來做投影,分母會變得很複雜


奇異值分解 Singular Value Decomposition (SVD)

    • 將線性變換分解為旋轉、伸縮、再旋轉
  • 數據 = (對於樣本的組合權重) (成份排行/強度) (成份的定義)
  • 矩陣成分對照解析 ()
    • (Right Singular Vectors): 正交矩陣
      • 在輸入空間 () 的正交基底
      • 成份的定義 (Ingredients) — 定義基本元素是什麼 (如:定義「甜味」)
    • (Singular Values): 對角矩陣
      • 對角線元素 (由大到小排列)
      • 成份的強度/排行 (Importance) — 決定該成份在整體數據中的能量大小
    • (Left Singular Vectors): 正交矩陣
      • 在輸出空間 () 的正交基底
      • 樣本的組合權重 (Weights) — 每個樣本含有該成份的比例多寡
  • 利用 必為對稱矩陣的性質來求解**
    1. (必須同步排序)
      • 計算
      • 做特徵值分解,得到特徵值 與特徵向量
      • 排序:
        • 將特徵值 由大到小排列,並取平方根得到 ()
        • 中的行向量 必須依照 的排序順序同步調整位置
        • 例如:若 最大,則對應的 必須放在 的第一欄
      • 映射法:利用排序好的 和對應的 來求
      • 因為 已經是正確配對且排好序的,算出來的 自然也會是正確排序的
  • 為何是「旋轉 - 伸長 - 旋轉」三步?
    • SVD 要求中間的伸長矩陣 必須是對角矩陣,只能沿著標準座標軸 () 進行伸縮,不能斜向伸縮
    • 極分解: (旋轉 變形)
      • 這裡的 是對稱矩陣,包含「斜向拉伸」的能力,所以不需要第一步旋轉。
      • 缺點: 不是對角矩陣,數學性質不如 SVD 的 簡單直觀。

PCA 與 SVD 的關係

  • PCA (主成分分析) 的目標
    • 尋找數據分布變異量 (Variance) 最大的方向
    • 數學上等同於對數據的「共變異數矩陣」 (Covariance Matrix) 做特徵值分解
  • 連結推導
    • 假設數據矩陣 已經過中心化 (Mean Centering),大小為 ( 筆資料, 個特徵)
    • 共變異數矩陣
    • 做 SVD 分解:
    • 代入計算
  • 結論對照
    • 主成分:即 PCA 的特徵向量,正好等於 SVD 的右奇異向量矩陣
    • 變異量:PCA 的特徵值 與 SVD 的奇異值 存在關係:
  • 實務選擇
    • 雖然可以透過算 的特徵值來做 PCA,但實務上直接對 做 SVD 更佳
    • 原因:計算 會大幅增加條件數 (Condition Number),造成浮點數運算誤差 (Loss of precision),直接做 SVD 數值穩定性較高

備問

有解,代表向量 的 Column Space 有什麼關係?

必須落在 的 Column Space 內 (), 本質上是 的行向量的線性組合,若 無法由這些行向量組合出來,則無解


若一個 的矩陣 Rank 是 3,請問 有非零解嗎?

沒有非零解,只有零解 ()

,Rank 代表 Full Column Rank,變數有 3 個,Rank 有 3 個,表示沒有自由變數,故只有零解


矩陣乘法為何不滿足交換律 ()?

幾何觀點:矩陣代表變換操作順序會影響結果,例如:先投影到 X 軸再旋轉 90 度 先旋轉 90 度再投影到 X 軸,結果不同

代數觀點:維度限制若 ,則 ,但 ,根本無法比較


什麼時候

雖然一般不成立,但在以下特殊情況成立:

  • 其中一個是單位矩陣:
  • 其中一個是零矩陣:
  • 互為反矩陣:
  • 純量矩陣 (Scalar Matrix):如
  • 重要: 擁有相同的特徵向量時,可交換
    • 因為矩陣作用在相同基底上不會改變向量方向,只會伸縮,故可交換

矩陣 乘上向量 是什麼意思?

  • 內積觀點:將 投影到 的每一個列向量上,算出數值分量
  • 線性組合觀點:對 的行向量做線性組合,權重係數由 提供

LU 分解中的 L, U, P 分別代表什麼?

  • L (Lower Triangular):記錄「還原」的動作(Multipliers),對角線通常為 1
  • U (Upper Triangular):記錄「消去」後的最終狀態 (Echelon Form),對角線為 Pivots
  • P (Permutation):若消去過程中 Pivot 為 0,需進行列交換公式修正為

為什麼 的對角線是 1?

  • 在高斯消去法中,我們執行的列運算 (如 ) 相當於左乘一個下三角的基本矩陣 (Elementary Matrix)
  • 這類操作是將「某列的倍數」加到「另一列」,並不會改變「該列自己」的比例,因此對角線元素保持為 1

什麼是線性獨立

  • 向量的集合中,無法用任何向量的線性組合來表示其他向量
  • 表示每個向量都提供了全新的維度資訊,沒有冗餘

Rank 是什麼

線性獨立的行向量最大數量,幾何上是變換後空間的實際維度。比如 3×3 矩陣 rank=2 代表把空間壓成平面。

兩者的關係

  • 兩個矩陣相加,其生成的空間維度不會超過兩者個別生成空間維度的總和
  • 相加可能會導致某些維度抵消,rank 反而變小

何謂 Eigenvector

矩陣代表「線性變換」。特徵向量代表變換的「主軸」方向,特徵值代表沿著該軸的「伸縮倍率」。

如何求 Eigenvalue

解特徵方程式 (Characteristic Equation):。因為 要有非零解,代表 必須是不可逆的(奇異矩陣),故行列式為 0。

如何求 Eigenvector

將求出的 代回 。求解這個齊次方程式的 Null Space,即為該 對應的特徵空間 (Eigenspace)。

每個矩陣都有特徵向量和特徵值?

矩陣類型是否有特徵值/特徵向量?備註長方形矩陣 ()無請改用 SVD (奇異值)方陣 (實數系)不一定旋轉矩陣可能只有複數解方陣 (複數系)一定有特徵值但特徵向量可能不夠 (缺損矩陣)實對稱矩陣 ()保證有這是最完美的矩陣,保證有實數特徵值 + 完整的正交特徵向量

有 Eigenvalue ,則 A inverse 有什麼eigenvalue

答案: (或 )。推導:。特徵向量: 擁有相同的特徵向量。

如果 怎麼辦

不可逆:矩陣 為奇異矩陣 (Singular),不可逆。行列式為 0:因為 等於所有特徵值的乘積,有一項為 0 則積為 0。非零解:存在非零向量 使得 ,表示 Null Space 不只有零向量。

eigenvalue =0 inverse怎麼辦

不存在。因為對應的特徵值變為 ,無定義。幾何上,空間被壓扁了,資訊丟失,無法還原。

inverse的 ev 是啥

零空間與左零空間的差別

位置不同:Null Space :在輸入空間 ,刻畫了哪些輸入訊號會無效化。Left Null Space :在輸出空間 (或 ),刻畫了對輸出向量 的限制條件。維度不同: 維度為 維度為

為什麼需要 Regularization

解決不可逆:當數據特徵多於樣本數,或特徵間高度相關時, 可能不可逆(或接近奇異)。加上 (對角線加值) 強制增加特徵值大小,確保矩陣可逆且數值穩定。防止過擬合:限制參數大小,降低模型複雜度。

有解的幾何意義是什麼?

關鍵回答:向量 必須落在 的 Column Space (行空間) 內。 補充: 本質上是在將 的 Columns 做線性組合,如果 組合不出來,就無解。

什麼是 Rank (秩)?

關鍵回答:矩陣中線性獨立的行向量(或列向量)的最大數量。 幾何意義:代表這個變換後的空間「實際維度」。如果 矩陣 Rank=2,代表它把三維空間壓扁成一個平面。

什麼是奇異矩陣 (Singular Matrix)?

關鍵回答:不可逆的方陣。 判斷特徵:行列式為 0、Rank 不滿 (Rank < n)、必有特徵值為 0、Null Space 內有非零向量。

只有零解 () 代表什麼?

關鍵回答:代表 的行向量是線性獨立的 (Full Column Rank)。 幾何意義:沒有任何非零向量被這個矩陣「壓扁」或「殺死」到零點。Null Space 只有零向量。

特徵值 (Eigenvalue) 與特徵向量 (Eigenvector) 的幾何意義?

關鍵回答:矩陣作用在特徵向量上,只會發生伸縮 (Scaling),不會旋轉。 物理意義:特徵向量是變換中的「主軸」方向,特徵值是該方向的能量或強度。

行列式 (Determinant) 的幾何意義?

關鍵回答:線性變換後的體積縮放倍率 (2D 是面積,3D 是體積)。 延伸:若 ,代表體積被壓縮為零(塌陷),資訊丟失,故不可逆。

實對稱矩陣 (Real Symmetric Matrix, ) 有哪三個重要性質?

關鍵回答:(1) 特徵值必為實數、(2) 特徵向量必互相正交、(3) 必可對角化。 應用:這保證了我們總能找到一組完美的正交座標系來描述系統 (如應力張量、慣性矩陣)。

相似矩陣 (Similar Matrices, ) 有什麼是不變的?

關鍵回答:特徵值不變。 意義:它們代表同一個線性變換,只是站在不同的基底 (座標系) 去觀察而已。

正交矩陣 (Orthogonal Matrix, ) 有什麼好處?

關鍵回答: (轉置即反矩陣) 且保持向量長度與夾角不變。 意義:它代表剛體旋轉或鏡射,不會改變物體的形狀大小,計算反矩陣極快。

為什麼要做 SVD (奇異值分解)?跟特徵值分解有什麼不同?

關鍵回答:SVD 適用於任何形狀 () 的矩陣,且分解出的基底保證是正交的。 幾何意義:任何線性變換都可以拆解為「旋轉 () 沿軸伸縮 () 再旋轉 ()」。

最小平方法 (Least Squares) 的幾何意義是什麼?

關鍵回答:當 無解時,尋找 在 Column Space 上的投影點 ,使得誤差向量 垂直於 Column Space。 公式直覺: (誤差垂直於 的所有行向量)。

什麼是正定矩陣 (Positive Definite Matrix)?為什麼它很重要?

關鍵回答:對任意非零向量 ,都有 。 幾何/應用:圖形是開口向上的碗狀,代表系統有唯一的極小值。在優化理論和控制系統的穩定性分析 (Lyapunov) 中極為關鍵。

有什麼關係?

關鍵回答:兩者相等。 延伸: 擁有相同的 Null Space。這在證明最小平方法的可解性時很重要。

條件數 (Condition Number) 過大代表什麼?

關鍵回答:矩陣接近奇異 (Ill-conditioned)。 後果:輸入的微小誤差會被放大,導致解 劇烈震盪,數值計算不可信。

為什麼正交基底在計算上更穩定?

主成分分析與奇異值分解的關係?

旋轉矩陣的特徵值是什麼?

如何判斷一個變換是否保持面積/體積?

剪切 (Shear) 變換的特徵值是什麼?

如果加一行(或一列),Rank 最多增加多少?

什麼時候矩陣「不可對角化」?

Eigenvalue 為負代表什麼?

det 與 eigenvalue 的關係?

為什麼 Regularization 等於「抬高 eigenvalue」?

Pseudoinverse 在做什麼?

PCA 在做什麼?

找最大方差方向 = 最大 eigenvalue 的 eigenvector)

為什麼要做 normalization?

(避免特徵尺度影響、改善條件數)

overfitting 時為何加 λI\lambda I

(縮小參數、改善 ill-conditioned)

SVD 比 eigendecomposition 好在哪?

(任意矩陣都能分解、更穩定)

(A+B)−1=A−1+B−1(A+B)^{-1} = A^{-1} + B^{-1}

(A+B)−1=A−1+B−1 對嗎? (錯!)

eigenvalue 都是正的,矩陣就正定?(不一定,還要對稱)

AA

A 和 ATA^T AT 的 eigenvalue 相同嗎? (不一定,但特徵多項式相同)

兩個可逆矩陣相加還可逆嗎?(不一定,如 A+(−A)=0A + (-A) = 0

A+(−A)=0)

det=0 的幾何意義?(空間被壓扁、降維)

eigenvalue=2 代表什麼?(沿該方向伸長 2 倍)

正交矩陣保持什麼不變?(長度、夾角)

矩陣 的特徵值有什麼關係?

關鍵回答:不一定相同,但 的特徵值必為「非負實數」。 延伸: 的非零特徵值等於 的奇異值 (Singular Values) 的平方,即 。這連接了特徵值分解與 SVD。

為什麼 Regularization (正規化) 等於「抬高 Eigenvalue」?

關鍵回答:在 的對角線加上 (Ridge Regression),相當於將所有特徵值都加上 。 幾何意義:這讓原本接近 0 的特徵值變大,遠離奇異點 (Singular),修正了矩陣的條件數 (Condition Number),讓數值解更穩定,並防止過擬合。

特徵值全為正,矩陣就是正定矩陣嗎?

關鍵回答:不一定。 解釋:標準定義下,正定矩陣通常假設為「對稱矩陣」。若矩陣不對稱,即使特徵值全為正,也不能保證 恆成立。但在面試中若無特別說明,通常預設討論的是對稱矩陣。

Trace (跡) 與特徵值有什麼關係?

關鍵回答:Trace 等於所有特徵值的總和 ( )。 應用:這是一個快速檢查特徵值計算是否錯誤的好方法,且 Trace 是基底變換下的不變量。

Pseudo-inverse (虛擬反矩陣) 的幾何意義?

關鍵回答:當 無解或有無限多解時,Pseudo-inverse 幫我們找到一個「最佳解」。 意義:在最小平方法中,它給出誤差最小的解;在無限多解中,它給出長度 (Norm) 最小的解。它是透過 SVD 計算出來的。

有解的幾何意義是什麼?

關鍵回答:向量 必須落在 的 Column Space (行空間) 內。 補充: 本質上是在將 的 Columns 做線性組合,如果 組合不出來,就無解。

什麼是 Rank (秩)?

關鍵回答:矩陣中線性獨立的行向量(或列向量)的最大數量。 幾何意義:代表這個變換後的空間「實際維度」。如果 矩陣 Rank=2,代表它把三維空間壓扁成一個平面。

什麼是奇異矩陣 (Singular Matrix)?

關鍵回答:不可逆的方陣。 判斷特徵:行列式為 0、Rank 不滿 (Rank < n)、必有特徵值為 0、Null Space 內有非零向量。

只有零解 () 代表什麼?

關鍵回答:代表 的行向量是線性獨立的 (Full Column Rank)。 幾何意義:沒有任何非零向量被這個矩陣「壓扁」或「殺死」到零點。Null Space 只有零向量。

特徵值 (Eigenvalue) 與特徵向量 (Eigenvector) 的幾何意義?

關鍵回答:矩陣作用在特徵向量上,只會發生伸縮 (Scaling),不會旋轉。 物理意義:特徵向量是變換中的「主軸」方向,特徵值是該方向的能量或強度。

行列式 (Determinant) 的幾何意義?

關鍵回答:線性變換後的體積縮放倍率 (2D 是面積,3D 是體積)。 延伸:若 ,代表體積被壓縮為零(塌陷),資訊丟失,故不可逆。

實對稱矩陣 (Real Symmetric Matrix, ) 有哪三個重要性質?

關鍵回答:(1) 特徵值必為實數、(2) 特徵向量必互相正交、(3) 必可對角化。 應用:這保證了我們總能找到一組完美的正交座標系來描述系統 (如應力張量、慣性矩陣)。

相似矩陣 (Similar Matrices, ) 有什麼是不變的?

關鍵回答:特徵值不變。 意義:它們代表同一個線性變換,只是站在不同的基底 (座標系) 去觀察而已。

正交矩陣 (Orthogonal Matrix, ) 有什麼好處?

關鍵回答: (轉置即反矩陣) 且保持向量長度與夾角不變。 意義:它代表剛體旋轉或鏡射,不會改變物體的形狀大小,計算反矩陣極快。

為什麼要做 SVD (奇異值分解)?跟特徵值分解有什麼不同?

關鍵回答:SVD 適用於任何形狀 () 的矩陣,且分解出的基底保證是正交的。 幾何意義:任何線性變換都可以拆解為「旋轉 () 沿軸伸縮 () 再旋轉 ()」。

最小平方法 (Least Squares) 的幾何意義是什麼?

關鍵回答:當 無解時,尋找 在 Column Space 上的投影點 ,使得誤差向量 垂直於 Column Space。 公式直覺: (誤差垂直於 的所有行向量)。

什麼是正定矩陣 (Positive Definite Matrix)?為什麼它很重要?

關鍵回答:對任意非零向量 ,都有 。 幾何/應用:圖形是開口向上的碗狀,代表系統有唯一的極小值。在優化理論和控制系統的穩定性分析 (Lyapunov) 中極為關鍵。

有什麼關係?

關鍵回答:兩者相等。 延伸: 擁有相同的 Null Space。這在證明最小平方法的可解性時很重要。

條件數 (Condition Number) 過大代表什麼?

關鍵回答:矩陣接近奇異 (Ill-conditioned)。 後果:輸入的微小誤差會被放大,導致解 劇烈震盪,數值計算不可信。