強化學習

強化學習 Reinforcement Learning

代理人 Agent : 使用策略，根據觀測的狀態選擇動作，與環境互動
環境 Environment : 根據 Agent 的動作，改變狀態
獎勵函數 Reward Function : 根據 Agent 執行動作後的結果，給予的回饋的函數
策略 Policy $π_{θ}$ : 由參數 $θ$ 決定的神經網路，輸入狀態，輸出動作的機率分佈
狀態 State $s$ : 環境的觀測值
動作 Action $a$ : 策略在狀態 $s$ 下輸出的動作
軌跡 Trajectory $τ$ : 狀態與動作的序列

τ = (s_{1}, a_{1}, s_{2}, a_{2}, \dots, s_{T}, a_{T})

軌跡機率 $p_{θ} (τ)$ : 在策略 $π_{θ}$ 下產生某軌跡 $τ$ 的機率
- $p (s_{1})$ : 初始狀態的機率，環境決定
- $π_{θ} (a_{t} ∣ s_{t})$ : 策略，在狀態 $s_{t}$ 下，代理人選擇動作 $a_{t}$ 的機率，可透過調整 $θ$ 來改變
- $p (s_{t + 1} ∣ s_{t}, a_{t})$ : 狀態轉移機率，在狀態 $s_{t}$ 做動作 $a_{t}$ 後，狀態變成 $s_{t + 1}$ 的機率，由環境決定

p_{θ} (τ) = p (s_{1}) t = 1 \prod T π_{θ} (a_{t} ∣ s_{t}) p (s_{t + 1} ∣ s_{t}, a_{t})

獎勵 Reward $r_{t}$ : 獎勵函數根據單一步動作或狀態給出的獎勵
回報 Return $R (τ)$ : 軌跡 $τ$ 的總回報，各時間步的獎勵總和
- 通常會引入折扣因子 $γ \in [0, 1]$ ，計算累積折扣回報 $G_{t} = \sum_{k = 0}^{T - t} γ^{k} r_{t + k}$

R (τ) = t = 1 \sum T r_{t}

期望回報
- 策略在參數 $θ$ 下，對於所有可能軌跡的回報期望值
- 通常作為要最大化的目標函數 $J (θ)$

J (θ) = E_{τ \sim p_{θ} (τ)} [R (τ)] = τ \sum p_{θ} (τ) R (τ)

方法: 在訓練的過程中，計算策略梯度，接著做梯度上升，目標最大化期望回報
策略梯度 Policy Gradient
- 目標函數的梯度 $\nabla_{θ} J (θ)$
- 期望回報的梯度
- 推導後可發現是透過對策略 $π_{θ}$ 微分來獲得

\nabla_{θ} J (θ) = E_{τ \sim p_{θ} (τ)} [(t = 1 \sum T \nabla_{θ} lo g π_{θ} (a_{t} ∣ s_{t})) R (τ)] \approx \frac{1}{N} i = 1 \sum N (t = 1 \sum T \nabla_{θ} lo g π_{θ} (a_{i, t} ∣ s_{i, t})) R (τ_{i})

在 $t$ 時刻的動作只能影響 $t$ 之後的獎勵，因此 $R (τ_{i})$ 可以替換為 $G_{i, t}$ (從 $t$ 開始的累積回報)，能減少梯度的變異數
梯度上升 Gradient Ascent
- 使用計算出的梯度來更新策略參數 $θ$

θ \leftarrow θ + η \nabla_{θ} J (θ)

策略梯度推導

1. 對 $J (θ)$ 微分

J (θ) ⟹ \nabla_{θ} J (θ) = E_{τ \sim p_{θ} (τ)} [R (τ)] = τ \sum p_{θ} (τ) R (τ) = \nabla_{θ} τ \sum p_{θ} (τ) R (τ) = τ \sum \nabla_{θ} p_{θ} (τ) R (τ)

這裡只有 $p_{θ} (τ)$ 與 $θ$ 有關， $R (τ)$ 對於一固定的軌跡是常數
$\nabla p_{θ} (τ)$ 很難直接算

p_{θ} (τ) ⟹ \nabla p_{θ} (τ) = p (s_{1}) t = 1 \prod T π_{θ} (a_{t} ∣ s_{t}) p (s_{t + 1} ∣ s_{t}, a_{t}) = ?

連乘積的微分展開
- 微積分乘法法則 $(f g h)^{'} = f^{'} g h + f g^{'} h + f g h^{'}$ ，結果會變成一長串原本式子的變形加總，計算非常繁瑣
- 結果包含環境的轉移機率 $p (s_{t + 1} ∣ s_{t}, a_{t})$ ，這通常是未知的
無法轉換為期望值
- 強化學習依賴蒙地卡羅採樣 (Monte Carlo Sampling)
- 要能採樣估算，算式必須是期望值的形式 $E_{x \sim p (x)} [f (x)] = \sum p (x) f (x)$
- 原始式子 $\sum \nabla p_{θ} (τ) R (τ)$ ，沒有 $p_{θ} (τ)$ ，只有它的微分。 $\nabla p$ 不是機率分佈（它可能有負值，總和也不為 1），所以無法透過採樣來直接估算這一項

2. 使用 Log-Derivative Trick

Log-Derivative Identity: $\nabla f (x) = f (x) \nabla lo g f (x)$ 推導： $\nabla lo g f (x) = \frac{1}{f ( x )} \nabla f (x) ⟹ \nabla f (x) = f (x) \nabla lo g f (x)$

將梯度的值轉換為機率密度 $\times$ 對數機率的梯度，使我們能夠計算期望值的梯度
對於無法直接微分的隨機系統（如強化學習中的環境獎勵）是唯一的解法
用這個方式把 $\nabla_{θ} p_{θ} (τ)$ 替換掉

\nabla_{θ} p_{θ} (τ) = p_{θ} (τ) \nabla_{θ} lo g p_{θ} (τ)

代回原本的式子：

\nabla_{θ} J (θ) = τ \sum p_{θ} (τ) \nabla_{θ} lo g p_{θ} (τ) R (τ) = E_{τ \sim p_{θ} (τ)} [\nabla_{θ} lo g p_{θ} (τ) R (τ)]

這條式子又變回了期望值的形式（因為出現了 $\sum p (τ) \dots$ ）

3. 展開軌跡機率

將軌跡機率 $p_{θ} (τ)$ 以連乘積形式展開，取對數後微分：

p_{θ} (τ) ⟹ lo g p_{θ} (τ) ⟹ \nabla_{θ} lo g p_{θ} (τ) = p (s_{1}) t = 1 \prod T π_{θ} (a_{t} ∣ s_{t}) p (s_{t + 1} ∣ s_{t}, a_{t}) = lo g p (s_{1}) + t = 1 \sum T lo g π_{θ} (a_{t} ∣ s_{t}) + t = 1 \sum T lo g p (s_{t + 1} ∣ s_{t}, a_{t}) = 0 + t = 1 \sum T \nabla_{θ} lo g π_{θ} (a_{t} ∣ s_{t}) + 0

環境的初始狀態機率 $p (s_{1})$ 和轉移機率 $p (s_{t + 1} ∣ s_{t}, a_{t})$ 都與 $θ$ 無關，所以它們的對 $θ$ 的微分都是 0，代回期望值公式，得到了最終的策略梯度公式：

\nabla_{θ} J (θ) = E_{τ \sim p_{θ} (τ)} [(t = 1 \sum T \nabla_{θ} lo g π_{θ} (a_{t} ∣ s_{t})) R (τ)] \approx \frac{1}{N} i = 1 \sum N (t = 1 \sum T \nabla_{θ} lo g π_{θ} (a_{i, t} ∣ s_{i, t})) R (τ_{i})

此公式描述如何更新參數：

$\nabla_{θ} lo g π_{θ} (a_{i, t} ∣ s_{i, t})$ : 參數更新的方向向量
$R (τ_{i})$ : 每個軌跡的回報，作為該方向的權重

梯度上升 Gradient Ascent

利用計算出的策略梯度 $\nabla_{θ} J (θ)$ 來更新神經網路參數 $θ$ ，以最大化期望回報

θ ⟹ θ \leftarrow θ + η \cdot \nabla_{θ} J (θ) \leftarrow θ + η \cdot \frac{1}{N} i = 1 \sum N t = 1 \sum T 方向向量 \nabla_{θ} lo g π_{θ} (a_{i, t} ∣ s_{i, t}) \cdot 權重分數 R (τ_{i})

若回報 $R (τ) > 0$ （表現好）：
- 梯度 $\times$ 正數，參數沿著梯度方向更新
- 增加該軌跡中動作出現的機率
若回報 $R (τ) < 0$ （表現差）：
- 梯度 $\times$ 負數，參數沿著梯度反方向更新
- 減少該軌跡中動作出現的機率

基線 Baseline

若所有軌跡的獎勵 $R (τ)$ 都是正數（例如最低分是 +10，最高分是 +100），會發生

當下採樣到哪個軌跡就朝那個方向更新，所有動作都會被鼓勵，機率提升
梯度變異數大，訓練不穩定

引入一個基線 $b$ （通常設為平均獎勵，或由另一個網路估計的狀態價值 $V (s)$ ），將回報減去基線

不在意絕對分數，而是這個動作表現得比平常好還是差，
若 $G_{t} > b$ ：表現比平常好，梯度 $\times$ 正數，機率增加
若 $G_{t} < b$ ：表現比平常差，梯度 $\times$ 負數，機率減少
不會改變梯度的期望值，但能顯著降低變異數，讓訓練更穩定

\nabla_{θ} J (θ) \approx \frac{1}{N} i = 1 \sum N t = 1 \sum T \nabla_{θ} lo g π_{θ} (a_{i, t} ∣ s_{i, t}) \cdot (G_{i, t} - b)

由於 $b (s_{t})$ 與動作 $a_{t}$ 無關，利用 Log-Derivative Trick 可證明其期望值為 0

E_{a \sim π} [\nabla_{θ} lo g π (a ∣ s) \cdot b (s)] = b (s) a \sum π (a ∣ s) \frac{\nabla _{θ} π ( a ∣ s )}{π ( a ∣ s )} = b (s) \nabla_{θ} a \sum π (a ∣ s) = b (s) \cdot \nabla_{θ} (1) = 0

On-Policy vs. Off-Policy

在強化學習中，這兩者的區別在於與環境互動的 Agent 和要學習（更新參數）的 Agent 是否相同

On-Policy (同策略)
- 互動者： $π_{θ}$
- 學習者： $π_{θ}$
- 用 $π_{θ}$ 去蒐集資料（Trajectory $τ$ ）
- 根據資料更新參數 $θ \to θ^{'}$
- 參數更新後，原本蒐集的資料機率分佈就變了，不能再用
- 每次更新參數後，都必須重新與環境互動採樣
Off-Policy (異策略)
- 互動者： $π_{θ^{'}}$ (固定或是上一輪的參數)
- 學習者： $π_{θ}$
- $π_{θ^{'}}$ 蒐集一次資料後， $π_{θ}$ 可以利用這批資料進行多次梯度上升更新
- 資料使用效率高

From On-Policy to Off-Policy via Importance Sampling

為了從 On-Policy 轉換到 Off-Policy

需要計算在策略 $π_{θ}$ 下的期望回報，但使用 $π_{θ^{'}}$ 蒐集的資料
使用重要性採樣，將在一個分佈下的期望值轉換為另一個分佈下的期望值

E_{x \sim p} [f (x)] = \int p (x) f (x) d x = \int q (x) \frac{p ( x )}{q ( x )} f (x) d x = E_{x \sim q} [\frac{p ( x )}{q ( x )} f (x)]

機率比率 $\frac{p ( x )}{q ( x )}$
- 修正兩個分佈的差異
- 環境的轉移機率 $p (s_{t + 1} ∣ s_{t}, a_{t})$ 會互相消去，因此不需要環境的動力學模型，只計算策略的比率即可

\frac{p _{θ} ( τ )}{p _{θ^{'}} ( τ )} = \frac{p ( s _{1} ) \prod _{t = 1}^{T} π _{θ} ( a _{t} ∣ s _{t} ) p ( s _{t + 1} ∣ s _{t} , a _{t} )}{p ( s _{1} ) \prod _{t = 1}^{T} π _{θ^{'}} ( a _{t} ∣ s _{t} ) p ( s _{t + 1} ∣ s _{t} , a _{t} )} = t = 1 \prod T \frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{θ^{'}} ( a _{t} ∣ s _{t} )}

將互動者從 $θ$ 換成 $θ^{'}$ 的目標函數
- 假設狀態分佈 $p (s)$ 差異不大，主要針對動作機率 $π (a ∣ s)$ 做修正
- 若 $p$ 與 $q$ 分佈差異太大，雖然期望值一樣，但變異數大，導致訓練不穩定
- 優勢函數 $A^{θ^{'}} (s, a)$ ：即前述的 $G_{t} - b (s_{t})$ ，代表在狀態 $s$ 下執行動作 $a$ 相較於平均表現的好壞

J^{θ^{'}} (θ) = E_{(s, a) \sim π_{θ^{'}}} [\frac{π _{θ} ( a ∣ s )}{π _{θ^{'}} ( a ∣ s )} A^{θ^{'}} (s, a)]

🪴 Quartz 4.0

Recent writing

Sensor topic Not found

Simulation

TMUX

Ubuntu 20.04.5 LTS Server

Ubuntu Setup

強化學習

強化學習 Reinforcement Learning

策略梯度推導

1. 對 $J (θ)$ 微分

2. 使用 Log-Derivative Trick

3. 展開軌跡機率

梯度上升 Gradient Ascent

基線 Baseline

On-Policy vs. Off-Policy

From On-Policy to Off-Policy via Importance Sampling

Graph View

Table of Contents

Backlinks

🪴 Quartz 4.0

Recent writing

Sensor topic Not found

Simulation

TMUX

Ubuntu 20.04.5 LTS Server

Ubuntu Setup

強化學習

強化學習 Reinforcement Learning §

策略梯度推導 §

1. 對 J(θ) 微分 §

2. 使用 Log-Derivative Trick §

3. 展開軌跡機率 §

梯度上升 Gradient Ascent §

基線 Baseline §

On-Policy vs. Off-Policy §

From On-Policy to Off-Policy via Importance Sampling §

Graph View

Table of Contents

Backlinks

強化學習 Reinforcement Learning

策略梯度推導

1. 對 $J (θ)$ 微分

2. 使用 Log-Derivative Trick

3. 展開軌跡機率

梯度上升 Gradient Ascent

基線 Baseline

On-Policy vs. Off-Policy

From On-Policy to Off-Policy via Importance Sampling