Flow Matching

高維空間中的分佈

在 $D$ 維空間中，分佈的單一採樣點包含 $D$ 個數值
- 例如： $z = [z_{1}, z_{2}, \dots, z_{D}]$
單一點內部沒有分佈，它只是一個確定位置的資料點
後續推導過程中的下標數字，例如： $z_{i}$ ，代表第 $i$ 個變換後的點，而不是第 $i$ 維的數值

聯合分佈

$p (x)$ ， $x = [x_{1}, x_{2}, \dots, x_{n}]$
多個變數同時出現特定數值的機率密度
輸入：每個維度的數值
- 二維：[身高=175, 體重=70]
- 高維：一張圖片中的每個像素的數值
輸出：該特定組合發生的機率密度

邊際分佈

$p (x_{i})$
單一變數出現特定數值的機率密度
輸入：
- [身高=175]
- 單一像素的數值
輸出：該單一特徵發生的機率密度
無法直接求解，必須依賴聯合分佈，計算方式是將聯合分佈中其他的變數積分或加總
二維連續變數：求 $x$ 的邊際分佈，需對 $y$ 積分

p (x) = \int p (x, y) d y

高維連續變數，如求 $x_{1}$ 的邊際分佈：需對剩餘的 $n - 1$ 個變數做多重積分

p (x_{1}) = \int\int \dots \int p (x_{1}, x_{2}, \dots, x_{n}) d x_{2} d x_{3} \dots d x_{n}

模型無需（且在數學上極難）顯式計算單一維度的精確積分機率。當全局聯合分佈收斂至真實數據分佈時，其所有單一維度的經驗邊際分佈，將自動吻合真實的統計特徵
當維度 $n$ 很大時，如圖片生成的 784 維，上述的高維多重積分在數學解析與數值計算上是完全無法求解的。這也是為何高維生成模型只能優化聯合分佈，而無法直接計算邊際分佈的根本原因。

機率密度函數的變數變換

連續隨機變數 $X$ 具有機率密度函數 $f_{X} (x)$ ，透過一個可逆且可微的函數 $g$ 進行變換，得到新的隨機變數 $Y = g (X)$ ，其機率密度函數 $f_{Y} (y)$ ， $f_{Y} (y)$ 與 $f_{X} (x)$ 的關係為：

f_{Y} (y) = f_{X} (x) \frac{d g ^{- 1} ( y )}{d y}

一維

根據累積分佈函數 CDF 的定義：

F_{Y} (y) = P (Y \leq y)

情況一： $g$ 為嚴格遞增函數

F_{Y} (y) = P (g (X) \leq y) = P (X \leq g^{- 1} (y)) = F_{X} (g^{- 1} (y)) ⟹ f_{Y} (y) = \frac{d}{d y} F_{Y} (y) = \frac{d}{d y} F_{X} (g^{- 1} (y)) = f_{X} (g^{- 1} (y)) \frac{d}{d y} g^{- 1} (y)

因為 $g$ 為嚴格遞增，故 $\frac{d}{d y} g^{- 1} (y) > 0$ 。

情況二： $g$ 為嚴格遞減函數

F_{Y} (y) = P (g (X) \leq y) = P (X \geq g^{- 1} (y)) = 1 - F_{X} (g^{- 1} (y)) ⟹ f_{Y} (y) = \frac{d}{d y} F_{Y} (y) = \frac{d}{d y} [1 - F_{X} (g^{- 1} (y))] = - f_{X} (g^{- 1} (y)) \frac{d}{d y} g^{- 1} (y)

因為 $g$ 為嚴格遞減， $\frac{d}{d y} g^{- 1} (y) < 0$ ，故：

- \frac{d}{d y} g^{- 1} (y) = \frac{d}{d y} g^{- 1} (y)

結論

綜合以上兩種情況，一般形式可表示為：

f_{Y} (y) = f_{X} (g^{- 1} (y)) \frac{d}{d y} g^{- 1} (y)

多維

設 $X$ 為 $R^{n}$ 中的連續隨機向量，其聯合機率密度函數為 $f_{X} (x)$ 。設 $Y = g (X)$ 為 $R^{n} \to R^{n}$ 的雙射且可微變換，其反函數為 $x = g^{- 1} (y)$ 。

變換後的隨機向量 $Y$ 的聯合機率密度函數為：

f_{Y} (y) = f_{X} (g^{- 1} (y)) det (J_{g^{- 1}} (y))

其中 $J_{g^{- 1}} (y)$ 為反函數變換的雅可比矩陣 (Jacobian matrix)，表示 $x$ 對 $y$ 的偏導數：

J_{g^{- 1}} (y) = \frac{\partial x}{\partial y} = \frac{\partial x _{1}}{\partial y _{1}} \frac{\partial x _{2}}{\partial y _{1}} ⋮ \frac{\partial x _{n}}{\partial y _{1}} \frac{\partial x _{1}}{\partial y _{2}} \frac{\partial x _{2}}{\partial y _{2}} ⋮ \frac{\partial x _{n}}{\partial y _{2}} \dots \dots ⋱ \dots \frac{\partial x _{1}}{\partial y _{n}} \frac{\partial x _{2}}{\partial y _{n}} ⋮ \frac{\partial x _{n}}{\partial y _{n}}

幾何意義

雅可比行列式 $det (J)$ 算出了空間體積被放大了幾倍。為了維持總機率為 1（機率密度 = 機率 / 體積），必須將轉換後的機率密度，除以這個體積放大率 $∣ det (J) ∣$ 。

反函數定理 Inverse Function Theorem

$y = f (x)$

$x = f^{- 1} (y)$

$f^{- 1} (f (x)) = x$

將等式兩邊同時對 $x$ 微分，會得到兩個雅可比矩陣的乘積等於單位矩陣 $I$ ：

\frac{\partial f ^{- 1} ( y )}{\partial y} \cdot \frac{\partial f ( x )}{\partial x} = I

將其中一項移至等式右邊，即可得出一個重要結論——「反函數的雅可比矩陣」精準等於「原函數雅可比矩陣的反矩陣」：

\frac{\partial f ^{- 1}}{\partial y} = (\frac{\partial f}{\partial x})^{- 1}

轉換前（看 $\partial f^{- 1}$ ）：計算上要求解反函數。這代表你在寫程式碼時，必須具體實作出反向推論的函數路徑，並對其求導。這通常非常複雜且耗時。

轉換後（看 $\partial f$ ）：只需計算原函數 $f_{i}$ 。這代表模型在執行一般的前向傳播從 $x$ 算出 $y$ 的時候，可以順便直接求出它的雅可比行列式，最後加上一個簡單的「取倒數（ $- 1$ 次方）」操作就大功告成。

歸一化流 Normalising Flows

指模型架構，它希望將一個簡單的分佈 $p (z)$ （例如高斯分佈）透過一系列可逆的非線性變換 $f$ ，轉換成一個複雜的分佈 $p (x)$ ，為了能夠使用最大似然估計 MLE 進行訓練，它強制要求神經網路必須是完全可逆的

z_{i} = f_{i} (z_{i - 1}), i = 1, 2, \dots, N z_{i} \sim p_{i} (z_{i}) z_{i - 1} \sim p_{i - 1} (z_{i - 1})

變換公式 $x = f (z)$ 是一次針對「一個具體的點」做轉換，無數個點轉換後的總體結果，就塑造成了新的機率分佈 $p (x)$ 。

變換過程可以表示為：

x = z_{N} = f_{N} (f_{N - 1} (\dots f_{1} (z_{0}) \dots)) = f_{N} \circ f_{N - 1} \circ \dots \circ f_{1} (z_{0})

對於第 $i$ 個變換

z_{i} = f_{i} (z_{i - 1}) ⟹ z_{i - 1} = f_{i}^{- 1} (z_{i})

使用變量變換公式來計算新的分佈：

p_{i} (z_{i}) = p_{i - 1} (z_{i - 1}) det (\frac{\partial f _{i}^{- 1}}{\partial z _{i}}) = p_{i - 1} (z_{i - 1}) det (\frac{\partial f _{i}}{\partial z _{i - 1}})^{- 1} = p_{i - 1} (z_{i - 1}) det \frac{\partial f _{i}}{\partial z _{i - 1}}^{- 1}

l o g p_{i} (z_{i}) = l o g p_{i - 1} (z_{i - 1}) - l o g det \frac{\partial f _{i}}{\partial z _{i - 1}}

l o g p (x) = l o g p (z_{N}) = l o g p (z_{N - 1}) - l o g det \frac{\partial f _{N}}{\partial z _{N - 1}} = l o g p (z_{N - 2}) - l o g det \frac{\partial f _{N - 1}}{\partial z _{N - 2}} - l o g det \frac{\partial f _{N}}{\partial z _{N - 1}} = \dots = l o g p (z_{0}) - i = 1 \sum N l o g det \frac{\partial f _{i}}{\partial z _{i - 1}}

損失函數為負對數似然：

L = - lo g p (x) = - lo g p (z_{0}) + i = 1 \sum N lo g det \frac{\partial f _{i}}{\partial z _{i - 1}}

$x$ 決定了 $z_{0}$ ，網路透過計算機率來學習。這導致 NF 必須設計成嚴格「可逆」的網路架構（例如 RealNVP），這大大限制了網路的表達能力

🪴 Quartz 4.0

Recent writing

Quadruped robot

Quadson simulation

ROS bridge

SSD

Sensor topic Not found

Flow Matching

高維空間中的分佈

聯合分佈

邊際分佈

機率密度函數的變數變換

一維

多維

反函數定理 Inverse Function Theorem

歸一化流 Normalising Flows

Continuous Normalising Flows (CNF)

Continuity Equation

Flow Matching

Conditional Flow Matching (CFM)

Optimal Transport (OT)

References

Graph View

Table of Contents

Backlinks

🪴 Quartz 4.0

Recent writing

Quadruped robot

Quadson simulation

ROS bridge

SSD

Sensor topic Not found

Flow Matching

高維空間中的分佈 §

聯合分佈 §

邊際分佈 §

機率密度函數的變數變換 §

一維 §

多維 §

反函數定理 Inverse Function Theorem §

歸一化流 Normalising Flows §

Continuous Normalising Flows (CNF) §

Continuity Equation §

Flow Matching §

Conditional Flow Matching (CFM) §

Optimal Transport (OT) §

References §

Graph View

Table of Contents

Backlinks

高維空間中的分佈

聯合分佈

邊際分佈

機率密度函數的變數變換

一維

多維

反函數定理 Inverse Function Theorem

歸一化流 Normalising Flows

Continuous Normalising Flows (CNF)

Continuity Equation

Flow Matching

Conditional Flow Matching (CFM)

Optimal Transport (OT)

References