網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

《強(qiáng)化學(xué)習(xí)數(shù)學(xué)基礎(chǔ)》

2026-04-27 17:57:43　來(lái)源: 新浪財(cái)經(jīng)

北京舉報(bào)

分享至

來(lái)源：專知

本文為強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）教材的導(dǎo)讀章節(jié)，旨在闡述全書十個(gè)章節(jié)的結(jié)構(gòu)、核心概念及其邏輯演進(jìn)。全書分為兩大部分：基礎(chǔ)工具與算法實(shí)現(xiàn)。邏輯鏈條清晰：從基礎(chǔ)概念（狀態(tài)/動(dòng)作/獎(jiǎng)勵(lì)）延伸至馬爾可夫決策過(guò)程（MDP），引入貝爾曼方程（Bellman Equation）進(jìn)行策略評(píng)估，隨后通過(guò)貝爾曼最優(yōu)方程尋求最優(yōu)策略。算法演進(jìn)遵循從基于模型（Model-based, 動(dòng)態(tài)規(guī)劃）到無(wú)模型（Model-free, 蒙特卡洛/時(shí)序差分），再?gòu)谋砀裥头椒ǎ═abular methods）擴(kuò)展至函數(shù)近似（Function Approximation, 深度強(qiáng)化學(xué)習(xí)），最終收斂于策略梯度（Policy Gradient）及 Actor-Critic 架構(gòu)。

https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning

在開(kāi)啟學(xué)習(xí)之旅前，審閱 Figure 1 所示的本書“路線圖”至關(guān)重要。全書共十章，分為兩大部分：第一部分介紹基礎(chǔ)工具，第二部分闡述相關(guān)算法。這十章內(nèi)容高度關(guān)聯(lián)，通常需遵循由淺入深的順序依次研習(xí)。

接下來(lái)，本文將帶您快速瀏覽這十章內(nèi)容，涵蓋各章的主旨及其與前后章節(jié)的承接關(guān)系。此次概覽旨在幫助讀者建立對(duì)全書內(nèi)容與結(jié)構(gòu)的初步認(rèn)知。若在此過(guò)程中遇到難以理解的概念，屬正常現(xiàn)象；希望在閱讀本概覽后，您能制定出適合自己的學(xué)習(xí)計(jì)劃。

第 1 章介紹了狀態(tài)（states）、動(dòng)作（actions）、獎(jiǎng)勵(lì)（rewards）、回報(bào)（returns）及策略（policies）等基礎(chǔ)概念，這些概念將廣泛應(yīng)用于后續(xù)章節(jié)。本章首先通過(guò)“機(jī)器人尋找預(yù)設(shè)目標(biāo)”的柵格世界（grid world）示例引入這些概念，隨后在馬爾可夫決策過(guò)程（Markov decision processes, MDP）框架下對(duì)其進(jìn)行了更形式化的定義。
第 2 章引入了兩個(gè)關(guān)鍵要素：一個(gè)核心概念與一個(gè)核心工具。
- 核心概念是狀態(tài)價(jià)值（state value），其定義為智能體（agent）從某一狀態(tài)出發(fā)，若遵循給定策略所能獲得的期望回報(bào)。狀態(tài)價(jià)值越高，代表對(duì)應(yīng)策略越優(yōu)。因此，狀態(tài)價(jià)值可用于評(píng)估策略的優(yōu)劣。
- 核心工具是貝爾曼方程（Bellman equation），用于分析狀態(tài)價(jià)值。簡(jiǎn)言之，貝爾曼方程描述了所有狀態(tài)價(jià)值之間的內(nèi)在聯(lián)系。通過(guò)求解該方程，即可獲得狀態(tài)價(jià)值。這一過(guò)程被稱為策略評(píng)估（policy evaluation），是強(qiáng)化學(xué)習(xí)中的基本概念。最后，本章還介紹了**動(dòng)作價(jià)值（action values）**的概念。
第 3 章同樣引入了兩個(gè)關(guān)鍵要素。
- 核心概念是最優(yōu)策略（optimal policy）。相較于其他策略，最優(yōu)策略具有最大的狀態(tài)價(jià)值。
- 核心工具是貝爾曼最優(yōu)方程（Bellman optimality equation）。顧名思義，它是貝爾曼方程的一種特殊形式。此處涉及一個(gè)根本性問(wèn)題：強(qiáng)化學(xué)習(xí)的終極目標(biāo)是什么？答案是獲取最優(yōu)策略。貝爾曼最優(yōu)方程的重要性在于，它是獲取最優(yōu)策略的直接手段。讀者將會(huì)發(fā)現(xiàn)，該方程形式優(yōu)雅，能幫助我們透徹理解諸多底層問(wèn)題。
前三章構(gòu)成了本書的第一部分，為后續(xù)內(nèi)容奠定了必要的理論基礎(chǔ)。自第 4 章起，本書開(kāi)始介紹學(xué)習(xí)最優(yōu)策略的具體算法。
- 第 4 章介紹了三種算法：價(jià)值迭代（value iteration）、策略迭代（policy iteration）及截?cái)嗖呗缘╰runcated policy iteration）。這三種算法關(guān)系密切：
價(jià)值迭代算法正是第 3 章中用于求解貝爾曼最優(yōu)方程的算法。
策略迭代算法是價(jià)值迭代的擴(kuò)展，同時(shí)也是第 5 章中蒙特卡洛（MC）算法的基礎(chǔ)。
截?cái)嗖呗缘鷦t是一個(gè)統(tǒng)一框架，將價(jià)值迭代與策略迭代視為其特例。這三種算法具有相同的結(jié)構(gòu)，即每次迭代均包含兩個(gè)步驟：價(jià)值更新與策略更新。價(jià)值與策略交替更新的理念廣泛存在于強(qiáng)化學(xué)習(xí)算法中，被稱為廣義策略迭代（generalized policy iteration, GPI）。此外，本章介紹的算法實(shí)質(zhì)上屬于動(dòng)態(tài)規(guī)劃（dynamic programming），需要系統(tǒng)模型（Model-based）；而后續(xù)章節(jié)介紹的算法均無(wú)需模型。在進(jìn)入后續(xù)章節(jié)前，務(wù)必深入理解本章內(nèi)容。
第 5 章開(kāi)始介紹無(wú)需系統(tǒng)模型的無(wú)模型（model-free）強(qiáng)化學(xué)習(xí)算法。雖然這是本書首次引入無(wú)模型方法，但必須先填補(bǔ)一個(gè)知識(shí)空白：在沒(méi)有模型的情況下如何尋找最優(yōu)策略？其背后的哲學(xué)很簡(jiǎn)單：若無(wú)模型，則必有數(shù)據(jù)；若無(wú)數(shù)據(jù)，則必有模型；若二者皆無(wú)，則無(wú)計(jì)可施。強(qiáng)化學(xué)習(xí)中的“數(shù)據(jù)”是指智能體與環(huán)境交互時(shí)產(chǎn)生的經(jīng)驗(yàn)樣本（experience samples）。本章介紹了三種基于蒙特卡洛（MC）估計(jì)的算法，旨在從經(jīng)驗(yàn)樣本中學(xué)習(xí)最優(yōu)策略。其中最簡(jiǎn)單的 MC Basic 算法可由第 4 章的策略迭代算法直接擴(kuò)展而來(lái)。理解 MC Basic 對(duì)于掌握基于蒙特卡洛的強(qiáng)化學(xué)習(xí)核心思想至關(guān)重要。在此基礎(chǔ)上，我們進(jìn)一步引入了兩種更復(fù)雜但也更高效的 MC 算法。此外，本章還詳細(xì)闡述了**探索與利用（exploration and exploitation）**之間的根本權(quán)衡。
至此，讀者可能已經(jīng)注意到各章內(nèi)容之間的高度相關(guān)性。例如，研究 MC 算法（第 5 章）必須先理解策略迭代算法（第 4 章）；學(xué)習(xí)策略迭代則需先掌握價(jià)值迭代（第 4 章）；理解價(jià)值迭代需建立在貝爾曼最優(yōu)方程（第 3 章）的基礎(chǔ)上；而理解貝爾曼最優(yōu)方程又需預(yù)先學(xué)習(xí)貝爾曼方程（第 2 章）。因此，強(qiáng)烈建議讀者循序漸進(jìn)地閱讀，否則后期章節(jié)的內(nèi)容可能難以理解。
- 第 6 章旨在填補(bǔ)第 5 章到第 7 章之間的知識(shí)斷層。第 5 章的算法是非增量式的，而第 7 章的算法是**增量式（incremental）的。為此，第 6 章引入了隨機(jī)逼近（stochastic approximation）理論。隨機(jī)逼近是一類用于求解求根或優(yōu)化問(wèn)題的隨機(jī)迭代算法。經(jīng)典的 Robbins-Monro 算法與隨機(jī)梯度下降（stochastic gradient descent, SGD）**均屬于隨機(jī)逼近算法的特例。盡管本章未直接介紹強(qiáng)化學(xué)習(xí)算法，但它為第 7 章的學(xué)習(xí)奠定了必要的數(shù)學(xué)基礎(chǔ)。
- 第 7 章介紹了經(jīng)典的時(shí)序差分（temporal-difference, TD）算法。有了第 6 章的鋪墊，讀者在接觸 TD 算法時(shí)將不再感到突兀。從數(shù)學(xué)角度看，TD 算法可視為求解貝爾曼方程或貝爾曼最優(yōu)方程的隨機(jī)逼近過(guò)程。與蒙特卡洛學(xué)習(xí)類似，TD 學(xué)習(xí)也是無(wú)模型的，但其增量形式帶來(lái)了顯著優(yōu)勢(shì)。例如，它可以實(shí)現(xiàn)在線學(xué)習(xí)（online learning）：每接收到一個(gè)經(jīng)驗(yàn)樣本即可更新價(jià)值估計(jì)。本章介紹了諸如 Sarsa 和 Q-learning 等多種 TD 算法，并引入了**同策略（on-policy）與異策略（off-policy）**的重要概念。
- 第 8 章介紹了**價(jià)值函數(shù)近似（value function approximation）**方法。實(shí)際上，本章延續(xù)了對(duì) TD 算法的探討，但采用了不同的狀態(tài)/動(dòng)作價(jià)值表示方式。在前幾章中，價(jià)值通過(guò)表格（tabular method）表示，雖易于理解，但在處理大規(guī)模狀態(tài)或動(dòng)作空間時(shí)效率低下。為解決此問(wèn)題，我們引入了價(jià)值函數(shù)近似法。理解該方法的關(guān)鍵在于掌握其優(yōu)化公式的三個(gè)步驟：
選擇目標(biāo)函數(shù)以定義最優(yōu)策略；
推導(dǎo)目標(biāo)函數(shù)的梯度；
應(yīng)用基于梯度的算法求解優(yōu)化問(wèn)題。該方法已成為表示價(jià)值的標(biāo)準(zhǔn)技術(shù)，具有重要意義。這也是**人工神經(jīng)網(wǎng)絡(luò)（artificial neural networks）作為函數(shù)近似器被引入強(qiáng)化學(xué)習(xí)的切入點(diǎn)。著名的深度 Q 學(xué)習(xí)（deep Q-learning）**算法亦在本章介紹。
第 9 章介紹了**策略梯度（policy gradient）方法，它是眾多現(xiàn)代強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)。策略梯度法是基于策略（policy-based）的，這與此前各章中基于價(jià)值（value-based）的方法相比，是本書的一次重大跨越。其核心思想十分直觀：選擇合適的標(biāo)量度量指標(biāo)，隨后通過(guò)梯度上升（gradient-ascent）**算法對(duì)其進(jìn)行優(yōu)化。第 9 章與第 8 章關(guān)系緊密，因?yàn)槎呔蕾囉诤瘮?shù)近似的思想。策略梯度法的優(yōu)勢(shì)眾多，例如在處理大規(guī)模狀態(tài)/動(dòng)作空間時(shí)更高效，且具有更強(qiáng)的泛化能力和更高的樣本利用率。
第 10 章介紹了 Actor-Critic 方法。從某種視角看，Actor-Critic 指的是一種融合了基于策略與基于價(jià)值方法的架構(gòu)；從另一視角看，它并非全新內(nèi)容，仍屬于策略梯度方法的范疇。具體而言，它可以通過(guò)擴(kuò)展第 9 章的策略梯度算法得到。在研習(xí)第 10 章之前，讀者需對(duì)第 8 章和第 9 章的內(nèi)容有透徹的理解。
https://www.zhuanzhiai.com/vip/5c1a3fef82102f360e8ce52832f90e5b

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.