国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

《強(qiáng)化學(xué)習(xí)數(shù)學(xué)基礎(chǔ)》

0
分享至

來(lái)源:專知


本文為強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)教材的導(dǎo)讀章節(jié),旨在闡述全書十個(gè)章節(jié)的結(jié)構(gòu)、核心概念及其邏輯演進(jìn)。全書分為兩大部分:基礎(chǔ)工具與算法實(shí)現(xiàn)。 邏輯鏈條清晰:從基礎(chǔ)概念(狀態(tài)/動(dòng)作/獎(jiǎng)勵(lì))延伸至馬爾可夫決策過(guò)程(MDP),引入貝爾曼方程(Bellman Equation)進(jìn)行策略評(píng)估,隨后通過(guò)貝爾曼最優(yōu)方程尋求最優(yōu)策略。算法演進(jìn)遵循從基于模型(Model-based, 動(dòng)態(tài)規(guī)劃)到無(wú)模型(Model-free, 蒙特卡洛/時(shí)序差分),再?gòu)谋砀裥头椒ǎ═abular methods)擴(kuò)展至函數(shù)近似(Function Approximation, 深度強(qiáng)化學(xué)習(xí)),最終收斂于策略梯度(Policy Gradient)及 Actor-Critic 架構(gòu)。


https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning

在開(kāi)啟學(xué)習(xí)之旅前,審閱 Figure 1 所示的本書“路線圖”至關(guān)重要。全書共十章,分為兩大部分:第一部分介紹基礎(chǔ)工具,第二部分闡述相關(guān)算法。這十章內(nèi)容高度關(guān)聯(lián),通常需遵循由淺入深的順序依次研習(xí)。

接下來(lái),本文將帶您快速瀏覽這十章內(nèi)容,涵蓋各章的主旨及其與前后章節(jié)的承接關(guān)系。此次概覽旨在幫助讀者建立對(duì)全書內(nèi)容與結(jié)構(gòu)的初步認(rèn)知。若在此過(guò)程中遇到難以理解的概念,屬正常現(xiàn)象;希望在閱讀本概覽后,您能制定出適合自己的學(xué)習(xí)計(jì)劃。

  • 第 1 章 介紹了狀態(tài)(states)、動(dòng)作(actions)、獎(jiǎng)勵(lì)(rewards)、回報(bào)(returns)及策略(policies)等基礎(chǔ)概念,這些概念將廣泛應(yīng)用于后續(xù)章節(jié)。本章首先通過(guò)“機(jī)器人尋找預(yù)設(shè)目標(biāo)”的柵格世界(grid world)示例引入這些概念,隨后在馬爾可夫決策過(guò)程(Markov decision processes, MDP)框架下對(duì)其進(jìn)行了更形式化的定義。

  • 第 2 章 引入了兩個(gè)關(guān)鍵要素:一個(gè)核心概念與一個(gè)核心工具。

    • 核心概念是狀態(tài)價(jià)值(state value),其定義為智能體(agent)從某一狀態(tài)出發(fā),若遵循給定策略所能獲得的期望回報(bào)。狀態(tài)價(jià)值越高,代表對(duì)應(yīng)策略越優(yōu)。因此,狀態(tài)價(jià)值可用于評(píng)估策略的優(yōu)劣。

    • 核心工具是貝爾曼方程(Bellman equation),用于分析狀態(tài)價(jià)值。簡(jiǎn)言之,貝爾曼方程描述了所有狀態(tài)價(jià)值之間的內(nèi)在聯(lián)系。通過(guò)求解該方程,即可獲得狀態(tài)價(jià)值。這一過(guò)程被稱為策略評(píng)估(policy evaluation),是強(qiáng)化學(xué)習(xí)中的基本概念。最后,本章還介紹了**動(dòng)作價(jià)值(action values)**的概念。

    第 3 章 同樣引入了兩個(gè)關(guān)鍵要素。

    • 核心概念是最優(yōu)策略(optimal policy)。相較于其他策略,最優(yōu)策略具有最大的狀態(tài)價(jià)值。

    • 核心工具是貝爾曼最優(yōu)方程(Bellman optimality equation)。顧名思義,它是貝爾曼方程的一種特殊形式。 此處涉及一個(gè)根本性問(wèn)題:強(qiáng)化學(xué)習(xí)的終極目標(biāo)是什么?答案是獲取最優(yōu)策略。貝爾曼最優(yōu)方程的重要性在于,它是獲取最優(yōu)策略的直接手段。讀者將會(huì)發(fā)現(xiàn),該方程形式優(yōu)雅,能幫助我們透徹理解諸多底層問(wèn)題。

    前三章構(gòu)成了本書的第一部分,為后續(xù)內(nèi)容奠定了必要的理論基礎(chǔ)。自第 4 章起,本書開(kāi)始介紹學(xué)習(xí)最優(yōu)策略的具體算法。

    • 第 4 章 介紹了三種算法:價(jià)值迭代(value iteration)、策略迭代(policy iteration)及截?cái)嗖呗缘╰runcated policy iteration)。這三種算法關(guān)系密切:

    價(jià)值迭代算法正是第 3 章中用于求解貝爾曼最優(yōu)方程的算法。

    策略迭代算法是價(jià)值迭代的擴(kuò)展,同時(shí)也是第 5 章中蒙特卡洛(MC)算法的基礎(chǔ)。

    截?cái)嗖呗缘鷦t是一個(gè)統(tǒng)一框架,將價(jià)值迭代與策略迭代視為其特例。 這三種算法具有相同的結(jié)構(gòu),即每次迭代均包含兩個(gè)步驟:價(jià)值更新與策略更新。價(jià)值與策略交替更新的理念廣泛存在于強(qiáng)化學(xué)習(xí)算法中,被稱為廣義策略迭代(generalized policy iteration, GPI)。此外,本章介紹的算法實(shí)質(zhì)上屬于動(dòng)態(tài)規(guī)劃(dynamic programming),需要系統(tǒng)模型(Model-based);而后續(xù)章節(jié)介紹的算法均無(wú)需模型。在進(jìn)入后續(xù)章節(jié)前,務(wù)必深入理解本章內(nèi)容。

    第 5 章 開(kāi)始介紹無(wú)需系統(tǒng)模型的無(wú)模型(model-free)強(qiáng)化學(xué)習(xí)算法。雖然這是本書首次引入無(wú)模型方法,但必須先填補(bǔ)一個(gè)知識(shí)空白:在沒(méi)有模型的情況下如何尋找最優(yōu)策略?其背后的哲學(xué)很簡(jiǎn)單:若無(wú)模型,則必有數(shù)據(jù);若無(wú)數(shù)據(jù),則必有模型;若二者皆無(wú),則無(wú)計(jì)可施。強(qiáng)化學(xué)習(xí)中的“數(shù)據(jù)”是指智能體與環(huán)境交互時(shí)產(chǎn)生的經(jīng)驗(yàn)樣本(experience samples)。 本章介紹了三種基于蒙特卡洛(MC)估計(jì)的算法,旨在從經(jīng)驗(yàn)樣本中學(xué)習(xí)最優(yōu)策略。其中最簡(jiǎn)單的 MC Basic 算法可由第 4 章的策略迭代算法直接擴(kuò)展而來(lái)。理解 MC Basic 對(duì)于掌握基于蒙特卡洛的強(qiáng)化學(xué)習(xí)核心思想至關(guān)重要。在此基礎(chǔ)上,我們進(jìn)一步引入了兩種更復(fù)雜但也更高效的 MC 算法。此外,本章還詳細(xì)闡述了**探索與利用(exploration and exploitation)**之間的根本權(quán)衡。

    至此,讀者可能已經(jīng)注意到各章內(nèi)容之間的高度相關(guān)性。例如,研究 MC 算法(第 5 章)必須先理解策略迭代算法(第 4 章);學(xué)習(xí)策略迭代則需先掌握價(jià)值迭代(第 4 章);理解價(jià)值迭代需建立在貝爾曼最優(yōu)方程(第 3 章)的基礎(chǔ)上;而理解貝爾曼最優(yōu)方程又需預(yù)先學(xué)習(xí)貝爾曼方程(第 2 章)。因此,強(qiáng)烈建議讀者循序漸進(jìn)地閱讀,否則后期章節(jié)的內(nèi)容可能難以理解。

    • 第 6 章 旨在填補(bǔ)第 5 章到第 7 章之間的知識(shí)斷層。第 5 章的算法是非增量式的,而第 7 章的算法是**增量式(incremental)的。為此,第 6 章引入了隨機(jī)逼近(stochastic approximation)理論。隨機(jī)逼近是一類用于求解求根或優(yōu)化問(wèn)題的隨機(jī)迭代算法。經(jīng)典的 Robbins-Monro 算法與隨機(jī)梯度下降(stochastic gradient descent, SGD)**均屬于隨機(jī)逼近算法的特例。盡管本章未直接介紹強(qiáng)化學(xué)習(xí)算法,但它為第 7 章的學(xué)習(xí)奠定了必要的數(shù)學(xué)基礎(chǔ)。

    • 第 7 章 介紹了經(jīng)典的時(shí)序差分(temporal-difference, TD)算法。有了第 6 章的鋪墊,讀者在接觸 TD 算法時(shí)將不再感到突兀。從數(shù)學(xué)角度看,TD 算法可視為求解貝爾曼方程或貝爾曼最優(yōu)方程的隨機(jī)逼近過(guò)程。與蒙特卡洛學(xué)習(xí)類似,TD 學(xué)習(xí)也是無(wú)模型的,但其增量形式帶來(lái)了顯著優(yōu)勢(shì)。例如,它可以實(shí)現(xiàn)在線學(xué)習(xí)(online learning):每接收到一個(gè)經(jīng)驗(yàn)樣本即可更新價(jià)值估計(jì)。本章介紹了諸如 Sarsa 和 Q-learning 等多種 TD 算法,并引入了**同策略(on-policy)與異策略(off-policy)**的重要概念。

    • 第 8 章 介紹了**價(jià)值函數(shù)近似(value function approximation)**方法。實(shí)際上,本章延續(xù)了對(duì) TD 算法的探討,但采用了不同的狀態(tài)/動(dòng)作價(jià)值表示方式。在前幾章中,價(jià)值通過(guò)表格(tabular method)表示,雖易于理解,但在處理大規(guī)模狀態(tài)或動(dòng)作空間時(shí)效率低下。為解決此問(wèn)題,我們引入了價(jià)值函數(shù)近似法。理解該方法的關(guān)鍵在于掌握其優(yōu)化公式的三個(gè)步驟:

    選擇目標(biāo)函數(shù)以定義最優(yōu)策略;

    推導(dǎo)目標(biāo)函數(shù)的梯度;

    應(yīng)用基于梯度的算法求解優(yōu)化問(wèn)題。 該方法已成為表示價(jià)值的標(biāo)準(zhǔn)技術(shù),具有重要意義。這也是**人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks)作為函數(shù)近似器被引入強(qiáng)化學(xué)習(xí)的切入點(diǎn)。著名的深度 Q 學(xué)習(xí)(deep Q-learning)**算法亦在本章介紹。

    第 9 章 介紹了**策略梯度(policy gradient)方法,它是眾多現(xiàn)代強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)。策略梯度法是基于策略(policy-based)的,這與此前各章中基于價(jià)值(value-based)的方法相比,是本書的一次重大跨越。其核心思想十分直觀:選擇合適的標(biāo)量度量指標(biāo),隨后通過(guò)梯度上升(gradient-ascent)**算法對(duì)其進(jìn)行優(yōu)化。第 9 章與第 8 章關(guān)系緊密,因?yàn)槎呔蕾囉诤瘮?shù)近似的思想。策略梯度法的優(yōu)勢(shì)眾多,例如在處理大規(guī)模狀態(tài)/動(dòng)作空間時(shí)更高效,且具有更強(qiáng)的泛化能力和更高的樣本利用率。

    第 10 章 介紹了 Actor-Critic 方法。從某種視角看,Actor-Critic 指的是一種融合了基于策略與基于價(jià)值方法的架構(gòu);從另一視角看,它并非全新內(nèi)容,仍屬于策略梯度方法的范疇。具體而言,它可以通過(guò)擴(kuò)展第 9 章的策略梯度算法得到。在研習(xí)第 10 章之前,讀者需對(duì)第 8 章和第 9 章的內(nèi)容有透徹的理解。

    https://www.zhuanzhiai.com/vip/5c1a3fef82102f360e8ce52832f90e5b


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
哪句話讓你突然沉默了很久?網(wǎng)友:待會(huì)有個(gè)美女加你,拒絕一下!

哪句話讓你突然沉默了很久?網(wǎng)友:待會(huì)有個(gè)美女加你,拒絕一下!

夜深愛(ài)雜談
2026-04-26 07:34:39
扎心!15年全職太太討生活費(fèi),被丈夫辱罵“沒(méi)出息”“只會(huì)要錢”

扎心!15年全職太太討生活費(fèi),被丈夫辱罵“沒(méi)出息”“只會(huì)要錢”

火山詩(shī)話
2026-04-26 07:54:24
特斯拉中國(guó)突然上架新品!這次真的很良心

特斯拉中國(guó)突然上架新品!這次真的很良心

XCiOS俱樂(lè)部
2026-04-27 18:53:54
上海地鐵互毆后續(xù)!兩女身份曝光,均被拘留,知情人講述更多細(xì)節(jié)

上海地鐵互毆后續(xù)!兩女身份曝光,均被拘留,知情人講述更多細(xì)節(jié)

逍遙浪騰云
2026-04-27 12:13:07
張雪親自喊話車主:別騎了!我造的這臺(tái)820RR,先給我停下來(lái)!

張雪親自喊話車主:別騎了!我造的這臺(tái)820RR,先給我停下來(lái)!

小李子體育
2026-04-27 18:37:37
廣東隊(duì)季后賽門票,30年來(lái)頭一遭滯銷,杜鋒作妖徹底寒了球迷的心

廣東隊(duì)季后賽門票,30年來(lái)頭一遭滯銷,杜鋒作妖徹底寒了球迷的心

南海浪花
2026-04-27 16:40:36
遲到2分鐘被取消事業(yè)單位體檢資格 人社局機(jī)械執(zhí)法敗訴

遲到2分鐘被取消事業(yè)單位體檢資格 人社局機(jī)械執(zhí)法敗訴

封面新聞
2026-04-27 16:20:23
被賣緬甸女大學(xué)生后續(xù):園區(qū)同意放人,黑幕曝光,父親覺(jué)得不對(duì)勁

被賣緬甸女大學(xué)生后續(xù):園區(qū)同意放人,黑幕曝光,父親覺(jué)得不對(duì)勁

云舟史策
2026-04-26 17:10:28
七萬(wàn)匹東洋大馬的覆滅:國(guó)民黨三年敗光日本四十五年心血

七萬(wàn)匹東洋大馬的覆滅:國(guó)民黨三年敗光日本四十五年心血

小莜讀史
2026-04-26 22:44:33
沒(méi)等到訪華邀請(qǐng),高市準(zhǔn)備報(bào)復(fù)?中方接到美媒消息,日本或掀桌

沒(méi)等到訪華邀請(qǐng),高市準(zhǔn)備報(bào)復(fù)?中方接到美媒消息,日本或掀桌

天氣觀察站
2026-04-27 08:19:25
執(zhí)行董事被曝“在美疑涉性侵指控”,知名公司緊急公告

執(zhí)行董事被曝“在美疑涉性侵指控”,知名公司緊急公告

南方都市報(bào)
2026-04-27 14:57:10
5月1日全國(guó)統(tǒng)一施行:飯局、人情往來(lái)、私下轉(zhuǎn)賬,均納入嚴(yán)格監(jiān)管

5月1日全國(guó)統(tǒng)一施行:飯局、人情往來(lái)、私下轉(zhuǎn)賬,均納入嚴(yán)格監(jiān)管

一口娛樂(lè)
2026-04-27 01:04:39
特朗普:美國(guó)將不再派代表團(tuán)前往巴基斯坦與伊朗談判

特朗普:美國(guó)將不再派代表團(tuán)前往巴基斯坦與伊朗談判

中國(guó)網(wǎng)
2026-04-27 08:35:02
湯姆斯杯:石宇奇退賽!李詩(shī)灃2-0橫掃楊燦,國(guó)羽2-1加拿大奪賽點(diǎn)

湯姆斯杯:石宇奇退賽!李詩(shī)灃2-0橫掃楊燦,國(guó)羽2-1加拿大奪賽點(diǎn)

釘釘陌上花開(kāi)
2026-04-27 16:28:02
真蠢!居然相信印度和孟加拉能超越中國(guó)

真蠢!居然相信印度和孟加拉能超越中國(guó)

觀云者
2026-04-27 09:40:49
江疏影海外產(chǎn)子風(fēng)波升級(jí),遭正房?jī)鹤赢?dāng)眾羞辱?王傳君的話應(yīng)驗(yàn)了

江疏影海外產(chǎn)子風(fēng)波升級(jí),遭正房?jī)鹤赢?dāng)眾羞辱?王傳君的話應(yīng)驗(yàn)了

阿訊說(shuō)天下
2026-04-26 08:18:08
惡劣!35歲阿根廷國(guó)門染紅后情緒失控 拳擊對(duì)手引群毆 或禁賽12場(chǎng)

惡劣!35歲阿根廷國(guó)門染紅后情緒失控 拳擊對(duì)手引群毆 或禁賽12場(chǎng)

我愛(ài)英超
2026-04-27 07:10:39
名字取得大真的壓不?網(wǎng)友:男不帶天,女不帶仙

名字取得大真的壓不。烤W(wǎng)友:男不帶天,女不帶仙

夜深愛(ài)雜談
2026-04-27 07:30:35
趙心童更新社媒!喊話墨菲別防守,威爾遜:場(chǎng)外困境影響場(chǎng)上狀態(tài)

趙心童更新社媒!喊話墨菲別防守,威爾遜:場(chǎng)外困境影響場(chǎng)上狀態(tài)

排球黃金眼
2026-04-27 08:13:14
603773,13天7板!

603773,13天7板!

證券時(shí)報(bào)
2026-04-27 11:04:26
2026-04-27 19:52:49
新浪財(cái)經(jīng) incentive-icons
新浪財(cái)經(jīng)
新浪財(cái)經(jīng)是一家創(chuàng)建于1999年8月的財(cái)經(jīng)平臺(tái)
3026443文章數(shù) 6952關(guān)注度
往期回顧 全部

教育要聞

“健康第一”,從桌面空間抓起|校園觀察

頭條要聞

受賄數(shù)額特別巨大、搞權(quán)色交易 副部級(jí)王中和被判17年

頭條要聞

受賄數(shù)額特別巨大、搞權(quán)色交易 副部級(jí)王中和被判17年

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂(lè)要聞

黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉:謠言已澄清

財(cái)經(jīng)要聞

Meta 140億收購(gòu)Manus遭中國(guó)發(fā)改委否決

科技要聞

DeepSeek V4上線三天,第一批實(shí)測(cè)出來(lái)了

汽車要聞

不那么小眾也可以 smart的路會(huì)越走越寬

態(tài)度原創(chuàng)

親子
時(shí)尚
本地
手機(jī)
教育

親子要聞

億縷陽(yáng)光|治愈的瞬間

伊姐周日熱推:電視劇《重案解密》;電視劇《21世紀(jì)大君夫人》......

本地新聞

云游中國(guó)|逛世界風(fēng)箏都 留學(xué)生探秘中國(guó)傳統(tǒng)文化

手機(jī)要聞

OPPO Find X9s Pro評(píng)測(cè):輕薄旗艦機(jī),裝下哈蘇雙2億“大視界”

教育要聞

定了!北京又一所學(xué)校官宣放春假!部分學(xué)校今日開(kāi)始連休9天

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版