差分隱私

study

差分隱私

1. 定義

在接觸資料與設計機制（加雜訊的演算法）前，根據法規、效能需求、風險容忍度等，制定定義（數學標準），規定查詢任務在任何單一資料的改變時，輸出的改變要維持在某個可嚴格量化的界線內。

例如 $ϵ$ -DP，其數學標準為任何一筆資料的變動，造成輸出機率改變的倍數上限須小於 $e^{ϵ}$ 。

2. 分析

根據不同種類的查詢任務，例如連續數值、離散選擇、機器學習梯度，量化單一資料變動對輸出的最大可能改變。

在傳統數值查詢中，查詢函數的全局敏感度 $Δ q$ ，代表資料庫增加或減少任意一筆資料時，輸出值最大可能改變多少。

極端事件的有無會造成輸出機率有較大的改變，防範極端事件需加入更多雜訊，從而降低模型效能，放寬定義雖能減少雜訊，卻會削弱隱私保護，有更精確的衡量方式嗎？

在模型訓練的初期和後期，單一資料變動對輸出的影響也有很大的差異，初期影響較大，後期影響較小，若始終用一致的最壞情況來衡量，會消耗過多不必要的隱私預算，有更精確的衡量方式嗎？

3. 構造

結合步驟 1 訂定的界線與步驟 2 評估的單一資料最大影響力，設計機制，抵銷資料變動帶來的影響，進而滿足定義。

不同的機制可以滿足同一個定義，取決於資料型態與應用場景。若目標是達到純 $ϵ$ -DP，即利用 $ϵ$ 與 $Δ q$ 來設計，面對數值型查詢時可以使用拉普拉斯機制，面對是非題調查時可以使用隨機響應機制，面對從多個選項中選出一個最佳解時可以使用指數機制。

4. 證明

機制設計完後，必須提出嚴格的數學證明，以確立該機制能提供的隱私保護下界。例如，寫出該機制在相鄰資料集下的機率密度函數比值，透過推導消去變數，最終證明該比值恆 $\leq e^{ϵ}$ ，即可宣告其符合純 $ϵ$ -DP。

此外，同一個機制可套用不同的定義框架來進行評估。以高斯機制為例，因其機率分佈的尾部無限延伸，在極端情況下會打破純 $ϵ$ -DP 的嚴格界線，但若使用 $(ϵ, δ)$ -DP 框架，便可將這種隱私保證被打破的極端風險控制在極微小的機率 $δ$ 之下，或者利用 RDP 框架來精確量化其整體的隱私預算消耗。

總結

第 1 步與第 4 步屬於純數學與理論範疇，它們確保了定義的嚴謹性，不與具體資料綁定。第 2 步與第 3 步屬於工程實作範疇，根據不同的應用場景與資料型態，分析影響力並注入特定雜訊。

定義提供了檢驗安全性的框架，而機制是針對特定問題所提出的解決方案

拉普拉斯機制 Laplace Mechanism

$M (x) = f (x) + Y$

$f (x)$ ：查詢函數，要保護的對象
$Y \sim Lap (0, b)$ ，其中尺度參數 $b = \frac{Δ f}{ϵ}$
- $Δ f$ 為全局敏感度
- $ϵ$ 為隱私預算
$f_{Y} (y) = \frac{1}{2 b} exp (- \frac{∣ y ∣}{b})$

高斯機制 Gaussian Mechanism

$M (x) = f (x) + Y$

$f (x)$ ：查詢函數，要保護的對象
$Y \sim N (0, σ^{2})$
$f_{Y} (y) = \frac{1}{2 π σ ^{2}} exp (- \frac{y ^{2}}{2 σ ^{2}})$

敏感度

$L_{1}$ 敏感度 ( $Δ_{1} f$ )
- $Δ_{1} f = max_{D, D^{'}} \sum_{i = 1}^{d} ∣ f (D)_{i} - f (D^{'})_{i} ∣$
- 將所有維度的變化量取絕對值後相加
$L_{2}$ 敏感度 ( $Δ_{2} f$ )
- $Δ_{2} f = max_{D, D^{'}} \sum_{i = 1}^{d} (f (D)_{i} - f (D^{'})_{i})^{2}$
- 將所有維度的變化量平方相加後開根號

純差分隱私

$P r [f (D) \in S] \leq e^{ϵ} P r [f (D^{'}) \in S]$

$D, D^{'}$ ：相差一筆資料，稱為相鄰資料集
$f$ ：一個隨機機制（演算法），將輸入資料集映射為一個機率分佈
$S$ ： $f$ 的輸出空間中的一個子集
$P r [f (D) \in S]$ ：當輸入為資料集 $D$ 時， $f$ 輸出結果落在 $S$ 內的機率
$ϵ$ ：隱私預算，大於零的實數，控制隱私保護強度
- $ϵ$ 越小， $e^{ϵ}$ 越接近 1，表示這筆資料的有無對輸出結果的影響越小，隱私保護越強
$e^{ϵ}$ ：機率變化的乘法上限
- 當 $ϵ$ 很小（例如 $0.1$ ）時， $e^{0.1} \approx 1.105$ ，表示單一個體資料的變動，最多只能讓輸出某特定結果的機率增加約 10.5%
$D$ 與 $D^{'}$ 可以互換，實際的上下界為：

{P r [f (D) \in S] \leq e^{ϵ} P r [f (D^{'}) \in S] e^{- ϵ} P r [f (D^{'}) \in S] \leq P r [f (D) \in S] ⟹ e^{- ϵ} P r [f (D^{'}) \in S] \leq P r [f (D) \in S] \leq e^{ϵ} P r [f (D^{'}) \in S]

近似差分隱私

$P r [f (D) \in S] \leq e^{ϵ} P r [f (D^{'}) \in S] + δ$

純 $ϵ$ -DP 要求，對於所有可能的輸出結果 $S$ ，機率的變化比例都不能超過 $e^{ϵ}$ ，但在機率分佈尾部，兩個相近的機率分佈的機率都很低，比值可能非常大，使不等式不成立
$δ$ ：容錯機率，忽略發生機率極低的尾部事件
有兩種情況：
- $P r [f (D^{'}) \in S]$ 和 $P r [f (D) \in S]$ 的機率很小，未滿足純差分隱私的要求，不過加上 $δ$ 後仍然滿足近似差分隱私，因為兩者皆仍大於零，依然無法 100% 確定某筆資料的有無
- $P r [f (D^{'}) \in S]$ 降至零，加上 $δ$ 後仍然滿足近似差分隱私，但可確定某筆資料的有無
$δ$ 必須設定得非常小，通常標準為 $δ ≪ 1/ N$

近似差分隱私的挑戰

高斯機制的機率密度函數尾部在 $ϵ$ -DP 定義下不成立，而 $(ϵ, δ)$ -DP 允許在極低機率的尾部事件中，機率比值可以比要求的 $e^{ϵ}$ 界線最多再大 $δ$ 。

在深度學習的梯度下降過程中，需要對資料庫進行多次查詢並在加入高斯雜訊。通常會由已知的總隱私預算 $(ϵ_{t o t a l}, δ_{t o t a l})$ ，來反推單次查詢所需的最小雜訊標準差 $σ$ ，以滿足在 $k$ 次查詢後，總隱私損失不超出該預算。

1. 約束條件

假設每次查詢分配相同的隱私預算 $(ϵ, δ)$ ，根據進階組合定理，執行 $k$ 次查詢後的總隱私損失上界為：

$ϵ_{t o t a l} = 2 k ln (1/ δ^{'}) ϵ + k ϵ (e^{ϵ} - 1)$ $δ_{t o t a l} = k δ + δ^{'}$

$k$ ：總迭代次數
- 在深度學習中通常是 $1 0^{4}$ 到 $1 0^{5}$
$ϵ, δ$ ：單次查詢的隱私預算
$δ^{'}$ ：人為引入的輔助變數
- $0 < δ^{'} < δ_{t o t a l}$
- 用來吸收部分失敗機率以換取更緊密的 $ϵ_{t o t a l}$ 上界

2. 最佳化目標

單次查詢加入的高斯雜訊的標準差公式為：

$σ = \frac{Δ f 2 l n ( 1.25/ δ )}{ϵ}$

目標是找出最佳的變數組合 $(ϵ, δ, δ^{'})$ ，使得上述 $σ$ 最小化，且同時滿足總隱私損失的等式。

3. 反推求解

在反推過程中，會面臨以下困難：

無法求得解析解：總隱私損失方程式包含了 $ϵ$ 的一次項、指數項 $e^{ϵ}$ 與 $ln (1/ δ^{'})$ ，屬於超越方程式，無法直接移項求得 $ϵ$ ，必須依賴運算成本高的數值分析方法。
輔助變數 $δ^{'}$ 的牽制：調大 $δ^{'}$ 有助於獲得較大的 $ϵ$ （降低 $σ$ ），但會壓縮單步 $δ$ 的空間（導致 $σ$ 增加）。必須在連續空間中進行大量搜尋，以尋找讓 $σ$ 最小的 $δ^{'}$ 。
參數組合爆炸：若每次迭代的預算分配不均等（如變動的 Batch Size 或不同神經網路層），這 $k$ 步的 $ϵ_{i}$ 會變成多個獨立變數。要在數萬維度的空間中尋找讓總雜訊最小的參數組合，計算量呈指數級爆炸，工程上不可行。

Renyi 差分隱私 (RDP)

RDP 解決的是高斯機制在連續疊加使用時，隱私損失計算過於鬆散且複雜的問題。

在高斯機制下，RDP 的隱私預算曲線是一條極度簡潔的直線 $ϵ = α / (2 σ^{2})$ 。這意味著，如果做了 $n$ 次高斯機制的查詢，隱私損失可以直接線性相加。

$D_{α} (P ∣∣ Q) ≜ \frac{1}{α - 1} lo g E_{x \sim Q} [(\frac{P ( x )}{Q ( x )})^{α}] \leq ϵ$

$E_{x \sim Q} [(\frac{P ( x )}{Q ( x )})^{α}] = \sum_{x} (Q (x) \cdot (\frac{P ( x )}{Q ( x )})^{α})$

$P (x)$ ：輸入為 $D^{'}$ 時，輸出為 $x$ 的機率
$Q (x)$ ：輸入為 $D$ 時，輸出為 $x$ 的機率
$α$ ：大於 1 的實數，代表 Renyi 散度的階數
- 透過將機率比值 $\frac{P ( x )}{Q ( x )}$ 取 $α$ 次方，能指數級放大、懲罰長尾事件。
KL 散度的推廣
近似 DP 透過 $δ$ 來忽略尾部事件，而 RDP 藉由期望值，考慮了尾部事件發生的極低機率，對整體加權平均的貢獻極低，因此能合法將其放行，不過仍可透過 $α$ 控制對尾部事件的懲罰程度
懲罰的整體平均差異
長尾區， $E_{x \sim Q} [(\frac{P ( x )}{Q ( x )})^{α}]$ 可能非常大（Q 在 P 有值的地方很小），或非常小（機率 $Q (x)$ 縮小的速度快於比值 $\frac{P ( x )}{Q ( x )}$ 膨脹的速度或 $Q (x)$ 本身已經非常小）
Q 需要盡可能覆蓋 P，若 Q 在 P 有值的地方很小，則 $D_{α} (P ∣∣ Q)$ 會很大

$f$ -DP (Gaussian Differential Privacy, GDP)

目前被認為在數學上更完美的框架。RDP 雖然精準，但在最終需將預算轉換回標準 $(ϵ, δ)$ -DP 以便解釋時，仍會產生微小的鬆弛（Lossy conversion）。 $f$ -DP 透過假設檢定 (Hypothesis Testing) 的視角重新定義隱私，能達成無損組合 (Lossless composition)，針對高斯機制的疊加界線比 RDP 更為緊緻。

Zero-Concentrated DP (zCDP)

與 RDP 數學結構高度相關（同樣基於 Rényi Divergence），但在階數與動差的限制條件上不同，在某些複雜機制的代數操作與理論推導上比 RDP 更為直觀且簡便。

DP-SGD

Moments Accountant

為什麼還需要提出 RDP？標準 DP 的瓶頸是什麼？

標準的 $(ϵ, δ)$ -DP 採用最差情況 (Worst-case) 的思維，使用 Max Divergence 來衡量分佈差異。在處理需要大量迭代的演算法（如機器學習中的 DP-SGD）時，標準 DP 的 Advanced Composition 定理會給出過於寬鬆（悲觀）的邊界，導致為了滿足理論上的隱私保證，必須加入過多的雜訊，從而破壞模型效能。RDP 透過捕捉隱私損失 (Privacy Loss) 隨機變數的完整分佈特徵，解決了組合後邊界過於寬鬆的問題。

Rényi Divergence 和 Max Divergence 的本質差異？

Max Divergence 尋找的是兩個機率分佈在所有可能事件中，機率比值絕對最大的一點。Rényi Divergence 則是計算機率比值的期望值（具體來說是高階動差）。它允許我們容忍少數極端情況，並透過參數精細控制對這些極端情況的懲罰力度，而不是被單一極端值綁架。

2. 數學定義與參數 (Mathematical Definition)

階數 (order) $α$ 的直觀意義？如何控制尾部機率？

$α$ 類似於動差生成函數 (Moment Generating Function) 中的參數。在 RDP 的數學定義 $D_{α} (P ∣∣ Q)$ 中， $α$ 決定了對機率比值 $\frac{P ( x )}{Q ( x )}$ 的放大程度。較大的 $α$ 會對機率分佈的尾部 (Tail) 給予極高的懲罰，這意味著我們對極端隱私洩漏事件的容忍度很低。較小的 $α$ 則更關注分佈的平均行為。

$α \to 1$ 以及 $α \to \infty$ 時的退化情況？

當 $α \to 1$ 時，RDP 退化為 Kullback-Leibler (KL) Divergence。這衡量了預期的隱私損失，但不提供嚴格的最差情況保證。當 $α \to \infty$ 時，RDP 退化為 Max Divergence，也就是純粹的 $ϵ$ -DP (Pure DP)。

3. 核心貢獻：組合定理 (Composition)

為何 RDP 的組合運算比 Advanced Composition Theorem 更緊？

Advanced Composition Theorem 本質上是使用 Markov 或 Chernoff Bound 來對隱私損失的尾部進行放縮，這過程中捨棄了許多分佈細節。RDP 直接建立在動差生成函數的對數之上。因為獨立隨機變數相加時，其動差生成函數是相乘的，取對數後即為精確相加。因此，RDP 的組合是精確的等式關係，沒有經過不等式放縮的損失。

數學上為何可以直接線性相加？

若機制 $M_{1}$ 滿足 $(α, ϵ_{1})$ -RDP， $M_{2}$ 滿足 $(α, ϵ_{2})$ -RDP，且兩者獨立。其聯合分佈的 Rényi Divergence 可以直接拆解為邊際分佈的 Rényi Divergence 之和。因此總隱私保證精確為 $(α, ϵ_{1} + ϵ_{2})$ -RDP。

4. 特定機制的應用 (Mechanisms)

為何特別強調 Gaussian Mechanism？

在連續空間的控制系統或深度學習中（尤其是梯度下降），加入高斯雜訊是最標準的作法。然而，高斯分佈具有無限延伸的尾部，不滿足純 $ϵ$ -DP 的有界要求，只能使用 $(ϵ, δ)$ -DP 來分析。

為何 Gaussian Mechanism 在 RDP 框架下精確，在傳統 DP 下卻難以給出解析解？

兩個變異數為 $σ^{2}$ 、均值相差 $Δ$ 的高斯分佈，其 $α$ 階 Rényi Divergence 具有極為簡單的封閉解 (Closed-form solution)：

D_{α} (P ∣∣ Q) = \frac{α Δ ^{2}}{2 σ ^{2}}

但在傳統 $(ϵ, δ)$ -DP 框架下，計算高斯隱私損失的確切尾部機率（即 $δ$ ）需要計算誤差函數 (Error Function, erf) 的積分，無法得到簡單的線性疊加形式。

5. 轉換與實務 (Translation to Standard DP)

如何透過數學轉換回 $(ϵ, δ)$ -DP？

利用馬可夫不等式 (Markov’s Inequality) 對隱私損失隨機變數的尾部進行界定。標準的轉換定理為：若一個機制滿足 $(α, ϵ)$ -RDP，則對於任意 $δ > 0$ ，該機制同時滿足標準的 $(ϵ^{'}, δ)$ -DP，其中：

ϵ^{'} = ϵ + \frac{ln ( 1/ δ )}{α - 1}

為何需要把 $α$ 視為超參數並求解最佳化？

一個加入高斯雜訊的機制，實際上同時滿足所有 $α > 1$ 的 RDP 保證（這是一個曲線，而非單一點）。在給定目標 $δ$ 的情況下，不同的 $α$ 會代入轉換公式計算出不同的 $ϵ^{'}$ 。為了得到最緊緻的標準 DP 保證，必須對 $α$ 微分求極值，找出使 $ϵ^{'}$ 最小化的最佳 $α^{*}$ 。

🪴 Quartz 4.0

Recent writing

Sensor topic Not found

Simulation

TMUX

Ubuntu 20.04.5 LTS Server

Ubuntu Setup

差分隱私

差分隱私 §

1. 定義 §

2. 分析 §

3. 構造 §

4. 證明 §

總結 §

拉普拉斯機制 Laplace Mechanism §

高斯機制 Gaussian Mechanism §

敏感度 §

純差分隱私 §

近似差分隱私 §

近似差分隱私的挑戰 §

1. 約束條件 §

2. 最佳化目標 §

3. 反推求解 §

Renyi 差分隱私 (RDP) §

f-DP (Gaussian Differential Privacy, GDP) §

Zero-Concentrated DP (zCDP) §

DP-SGD §

Moments Accountant §

為什麼還需要提出 RDP？標準 DP 的瓶頸是什麼？ §

Rényi Divergence 和 Max Divergence 的本質差異？ §

2. 數學定義與參數 (Mathematical Definition) §

階數 (order) α 的直觀意義？如何控制尾部機率？ §

α→1 以及 α→∞ 時的退化情況？ §

3. 核心貢獻：組合定理 (Composition) §

為何 RDP 的組合運算比 Advanced Composition Theorem 更緊？ §

數學上為何可以直接線性相加？ §

4. 特定機制的應用 (Mechanisms) §

為何特別強調 Gaussian Mechanism？ §

為何 Gaussian Mechanism 在 RDP 框架下精確，在傳統 DP 下卻難以給出解析解？ §

5. 轉換與實務 (Translation to Standard DP) §

如何透過數學轉換回 (ϵ,δ)-DP？ §

為何需要把 α 視為超參數並求解最佳化？ §

Graph View

Table of Contents

Backlinks

差分隱私

1. 定義

2. 分析

3. 構造

4. 證明

總結

拉普拉斯機制 Laplace Mechanism

高斯機制 Gaussian Mechanism

敏感度

純差分隱私

近似差分隱私

近似差分隱私的挑戰

1. 約束條件

2. 最佳化目標

3. 反推求解

Renyi 差分隱私 (RDP)

$f$ -DP (Gaussian Differential Privacy, GDP)

Zero-Concentrated DP (zCDP)

DP-SGD

Moments Accountant

為什麼還需要提出 RDP？標準 DP 的瓶頸是什麼？

Rényi Divergence 和 Max Divergence 的本質差異？

2. 數學定義與參數 (Mathematical Definition)

階數 (order) $α$ 的直觀意義？如何控制尾部機率？

$α \to 1$ 以及 $α \to \infty$ 時的退化情況？

3. 核心貢獻：組合定理 (Composition)

為何 RDP 的組合運算比 Advanced Composition Theorem 更緊？

數學上為何可以直接線性相加？

4. 特定機制的應用 (Mechanisms)

為何特別強調 Gaussian Mechanism？

為何 Gaussian Mechanism 在 RDP 框架下精確，在傳統 DP 下卻難以給出解析解？

5. 轉換與實務 (Translation to Standard DP)

如何透過數學轉換回 $(ϵ, δ)$ -DP？

為何需要把 $α$ 視為超參數並求解最佳化？