study

高維空間中的分佈

  • 維空間中,分佈的單一採樣點包含 個數值
    • 例如:
  • 單一點內部沒有分佈,它只是一個確定位置的資料點
  • 後續推導過程中的下標數字,例如:,代表第 個變換後的點,而不是第 維的數值

聯合分佈

  • 多個變數同時出現特定數值的機率密度
  • 輸入:每個維度的數值
    • 二維:[身高=175, 體重=70]
    • 高維:一張圖片中的每個像素的數值
  • 輸出:該特定組合發生的機率密度

邊際分佈

  • 單一變數出現特定數值的機率密度
  • 輸入:
    • [身高=175]
    • 單一像素的數值
  • 輸出:該單一特徵發生的機率密度
  • 無法直接求解,必須依賴聯合分佈,計算方式是將聯合分佈中其他的變數積分或加總
  • 二維連續變數:求 的邊際分佈,需對 積分
  • 高維連續變數,如求 的邊際分佈:需對剩餘的 個變數做多重積分
  • 模型無需(且在數學上極難)顯式計算單一維度的精確積分機率。當全局聯合分佈收斂至真實數據分佈時,其所有單一維度的經驗邊際分佈,將自動吻合真實的統計特徵

  • 當維度 很大時,如圖片生成的 784 維,上述的高維多重積分在數學解析與數值計算上是完全無法求解的。這也是為何高維生成模型只能優化聯合分佈,而無法直接計算邊際分佈的根本原因。

機率密度函數的變數變換

連續隨機變數 具有機率密度函數 ,透過一個可逆且可微的函數 進行變換,得到新的隨機變數 ,其機率密度函數 的關係為:

一維

根據累積分佈函數 CDF 的定義:

情況一: 為嚴格遞增函數

因為 為嚴格遞增,故

情況二: 為嚴格遞減函數

因為 為嚴格遞減,,故:

結論

綜合以上兩種情況,一般形式可表示為:

多維

中的連續隨機向量,其聯合機率密度函數為 。 設 的雙射且可微變換,其反函數為

變換後的隨機向量 的聯合機率密度函數為:

其中 為反函數變換的雅可比矩陣 (Jacobian matrix),表示 的偏導數:

幾何意義

雅可比行列式 算出了空間體積被放大了幾倍。為了維持總機率為 1(機率密度 = 機率 / 體積),必須將轉換後的機率密度,除以這個體積放大率

反函數定理 Inverse Function Theorem

將等式兩邊同時對 微分,會得到兩個雅可比矩陣的乘積等於單位矩陣

將其中一項移至等式右邊,即可得出一個重要結論——「反函數的雅可比矩陣」精準等於「原函數雅可比矩陣的反矩陣」:

轉換前(看 ): 計算上要求解反函數。這代表你在寫程式碼時,必須具體實作出反向推論的函數路徑,並對其求導。這通常非常複雜且耗時。

轉換後(看 ): 只需計算原函數 。這代表模型在執行一般的前向傳播從 算出 的時候,可以順便直接求出它的雅可比行列式,最後加上一個簡單的「取倒數( 次方)」操作就大功告成。

歸一化流 Normalising Flows

指模型架構,它希望將一個簡單的分佈 (例如高斯分佈)透過一系列可逆的非線性變換 ,轉換成一個複雜的分佈 ,為了能夠使用最大似然估計 MLE 進行訓練,它強制要求神經網路必須是完全可逆的

變換公式 是一次針對「一個具體的點」做轉換,無數個點轉換後的總體結果,就塑造成了新的機率分佈

變換過程可以表示為:

對於第 個變換

使用變量變換公式來計算新的分佈:

損失函數為負對數似然:

決定了 ,網路透過計算機率來學習。這導致 NF 必須設計成嚴格「可逆」的網路架構(例如 RealNVP),這大大限制了網路的表達能力

Continuous Normalising Flows (CNF)

Continuity Equation

Flow Matching

Conditional Flow Matching (CFM)

Optimal Transport (OT)

References