国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一堂「強化學(xué)習(xí)」大師課 | 42章經(jīng)

0
分享至

曲凱:今天我們請來了國內(nèi)強化學(xué)習(xí) (RL) 領(lǐng)域的專家吳翼,吳翼目前是清華大學(xué)交叉信息研究院助理教授,他曾經(jīng)在 OpenAI 工作過,算是國內(nèi)最早研究強化學(xué)習(xí)的人之一,我們今天就爭取一起把 RL 這個話題給大家聊透。

首先吳翼能不能簡單解釋一下,到底什么是 RL?

吳翼:RL 是機器學(xué)習(xí)這個大概念下一類比較特殊的問題。

傳統(tǒng)機器學(xué)習(xí)的本質(zhì)是記住大量標(biāo)注過正確答案的數(shù)據(jù)對。

舉個例子,如果你想讓機器學(xué)習(xí)能分辨一張圖片是貓還是狗,就要先收集 10000 張貓的照片和 10000 張狗的照片,并且給每一張都做好標(biāo)注,讓模型背下來。

上一波人工智能四小龍的浪潮其實都以這套框架為基礎(chǔ),主要應(yīng)用就是人臉識別、指紋識別、圖像識別等分類問題。

這類問題有兩個特點,一是單一步驟,比如只要完成圖片分辨就結(jié)束了;二是有明確的標(biāo)準(zhǔn)答案。

但 RL 很不一樣。

RL 最早是用來打游戲的,而游戲的特點和分類問題有兩大區(qū)別。

第一,游戲過程中有非常多的動作和決策。比如我們玩一個打乒乓球的游戲,發(fā)球、接球、回球,每一個動作都是非標(biāo)的,而且不同的選擇會直接影響最終的結(jié)果。

第二,贏得一場游戲的方式可能有上萬種,并沒有唯一的標(biāo)準(zhǔn)答案。

所以 RL 是一套用于解決多步?jīng)Q策問題的算法框架。它要解決的問題沒有標(biāo)準(zhǔn)答案,每一步的具體決策也不受約束,但當(dāng)完成所有決策后,會有一個反饋機制來評判它最終做得好還是不好。

因此,RL 其實更通用一些,它的邏輯和我們在真實生活中解決問題的邏輯非常接近。比如我要去美國出差,只要最后能順利往返,中間怎么去機場、選什么航司、具體坐哪個航班都是開放的。

其實人生也是一個強化學(xué)習(xí)的過程,因為你有很多種選擇,但沒人告訴你通往成功的路具體要怎么走。

曲凱:這個點很有意思!不過對于強化學(xué)習(xí)來說,最終的產(chǎn)出是有一個明確的判定標(biāo)準(zhǔn)的,但人生卻沒有一個明確的好壞判斷,對吧?

吳翼:這兩者確實有一點差別,RL 的前提是你知道獎勵函數(shù)到底是什么,比如打游戲,贏了就是好,但人生并沒有這樣的標(biāo)尺。

所以我覺得人生有一個很好玩的地方是,你需要花很多時間先探索自己的獎勵函數(shù)是什么,很多人可能努力了很長時間,最后卻發(fā)現(xiàn)找錯了獎勵函數(shù)。

曲凱:是。另外我記得 RL 是 10 年前就被討論過的概念,為什么現(xiàn)在又火了起來?RL 和 LLM 是怎么結(jié)合起來的?

吳翼:最初,RL 和 LLM 并沒有什么關(guān)聯(lián)。LLM 的本質(zhì)是 next token prediction,每次只預(yù)測下一個詞是什么。當(dāng)我們給 LLM 看過足夠多的數(shù)據(jù)后,它可能就具備了通用性和泛化能力,可以從中找到規(guī)律,預(yù)測一句話后面要接什么。用一句俗話來說,就是「熟讀唐詩三百首,不會作詩也會吟」。

但這種訓(xùn)練方式有一個缺陷,就是 LLM 不會遵從指令。

這也是為什么 GPT-3 剛發(fā)布時,很多人覺得它不好用。舉個例子,如果你對 GPT-3 說「解釋登月」,你期待它給你介紹一下阿波羅計劃、嫦娥計劃等等。但可能它見過的數(shù)據(jù)都長成「解釋登月是什么」這樣,所以它會回你一個「是什么」。

曲凱:對,我們一直說 LLM 的本質(zhì)是個概率模型。

吳翼:所以為了解決「指令遵從」的問題,OpenAI 第一次在 InstructGPT 中將 RL 和 LLM 結(jié)合了起來,然后發(fā)現(xiàn)效果還不錯。

我們知道 RL 需要一個明確的任務(wù),一些可用的決策動作,和一個 reward。還用剛剛的例子,OpenAI 的做法是把 RL 的任務(wù)定義成「解釋登月」這個指令,決策是模型看到這個指令之后所說的每一個詞,reward 就是模型最后給出的答案是不是和指令的需求一致。

曲凱:要怎么定義「一致」?

吳翼:這是一個非常好的問題。大家發(fā)現(xiàn)沒法定義,還是需要人來判斷模型輸出的答案哪個更好,或者寫一些好的答案作為范本。最后是用人為定義的這些數(shù)據(jù)訓(xùn)練出了一個 reward model,也就衍生出了 RLHF (Reinforcement Learning from Human Feedback)的概念。

曲凱:去年 RLHF 這個詞非?;?,但有人會說 RLHF 的本質(zhì)是對齊,而不是 RL。那么大家今天講的 RL 和 RLHF 到底有什么區(qū)別呢?

吳翼:這兩者確實不太一樣。RLHF 到去年為止的主要價值在于讓 LLM 好用,好比讓一個聰明的清北學(xué)生經(jīng)過實習(xí)之后能變成一個很能打的員工。

它不存在 scaling law,也不能讓 LLM 本身更聰明,但是 RL 可以。

這是怎么實現(xiàn)的呢?就是模型能遵從指令后,大家又在尋找除了預(yù)訓(xùn)練之外,能讓模型變得更聰明的第二曲線。最后 Ilya 想到,LLM 在收到一個指令后會立馬輸出答案,但實際上人類在處理復(fù)雜問題之前往往會先思考。那如果能讓 LLM 學(xué)會「慢思考」,是不是就能變得更聰明?

實現(xiàn)這一點的方法有很多,最終 OpenAI 發(fā)現(xiàn)了一種簡單有效的方法,就是讓模型「多吐點字」。收到指令后沒必要著急給出答案,可以先吐 10000 個字再作答。這個吐字的過程就相當(dāng)于思考,思考時間越長,答案就越準(zhǔn)確。

這個過程就叫 inference time scaling。

曲凱:為啥 LLM 吐的字越多就越聰明?

吳翼:這件事到今天為止還沒有一個理論能解釋。所以從有「慢思考」的想法到真正實現(xiàn)它,OpenAI 其實花了一年半到兩年的時間,這個過程需要極大的堅持。

總之 OpenAI 摸索出這個范式之后,問題就變成了要怎么訓(xùn)練一個能吐那么多話的模型。

這時又輪到 RL 登場了,因為吐字的這套邏輯和打游戲的邏輯非常像,我們只期待模型最后能輸出正確答案,中間它吐的那幾萬個字是什么無所謂。

那新的問題又來了,要怎么評估模型慢思考的過程中產(chǎn)生的這些數(shù)據(jù)?因為和 RLHF 不同,RLHF 的輸出可能只有幾百個字,所以我們可以人為標(biāo)注和排序。但是 RL 的探索過程非常開放,在慢思考時可能會輸出幾十萬個 token,人工標(biāo)注是做不過來的。

最后 OpenAI 用了一種非常簡單的方式來解決這個問題,就是只用有標(biāo)準(zhǔn)答案的問題去訓(xùn)練模型的推理能力。比如解方程,如果正解是 x=3,那模型寫 x=3 就正確,寫 x=4 就不對。至于它是怎么推出的這個答案,我們不管。

曲凱:那如果只看最后的答案對不對,思考過程還會有做得好與不好的區(qū)別嗎?

吳翼:有區(qū)別。我覺得 Anthropic 就做得特別好。

因為我們很難限制模型的思考過程,所以模型經(jīng)常在一些很簡單的問題上也要思考很久。比如有人會抱怨,問 DeepSeek「1 + 1 等于幾」這么簡單的一個問題,它也要想半天。

相比之下,Anthropic 在這件事上就處理得比較好。你問 Claude「1 + 1」它就直接出答案,你問它一個復(fù)雜點的問題,比如說算個 24 點,它才想上個 10 秒。

但正是因為我們對模型的思考過程不做限制,所以模型也會衍生出一些很有意思的泛化能力。比如我們問 R1 一個沒有標(biāo)準(zhǔn)答案的哲學(xué)問題,它想一想也能講得頭頭是道。

曲凱:這是怎么做到的?

吳翼:首先模型訓(xùn)練時本身就會產(chǎn)生一定的泛化能力,但這還不太夠。所以當(dāng)我們用大量有標(biāo)準(zhǔn)答案的理科問題訓(xùn)完模型之后,還會用一些文科訓(xùn)練把它往回掰一掰,不然這個模型就太理性了。

曲凱:就有點 Nerdy (笑)。

吳翼:是哈哈,所以你看 DeepSeek 的那篇 paper,其實他們最后是把一個 Nerd 模型和一個具備人文屬性的 base 模型合了起來,又做了 SFT 和 RLHF,最終才有了比較平衡的 R1。

曲凱:那 R1 之后,現(xiàn)在整個行業(yè)對 RL+LLM 的最優(yōu)路徑形成共識了嗎?

吳翼:國內(nèi)一些做得比較好的團隊,比如豆包和 DeepSeek,肯定還在探索各種新的可能性。其它團隊還處在一個追趕的階段,雖然他們可能也有自己的思考。

而海外的很多團隊都有不同的 belief。拿 OpenAI 來說,他們的 RL 已經(jīng)從純推理進化到 Agent 范式了。

也就是從 InstructGPT 時傳統(tǒng)的單輪交互,躍遷到多輪交互,而且能自由上網(wǎng),與虛擬世界互動,這是一個非常大的進步。

曲凱:Agent 這個概念,我記得 23 年初就有了,也出現(xiàn)了 AutoGPT 等等,但如果我們現(xiàn)在回頭來看,是不是那個時候還不具備 Agent 的基礎(chǔ)?Agent 是從 RL 起來之后才可以開始做了嗎?

吳翼:Agent 最核心的能力在于對文本之外的世界產(chǎn)生影響。當(dāng)年的 AutoGPT 和 LangChain 等產(chǎn)品其實已經(jīng)具備這種能力,但它們實現(xiàn)這一能力主要依賴 Prompt Engineering,你必須把每一步拆解清楚,讓它按部就班地照做。而現(xiàn)在有了 RL 之后,像 Operator,Deep research 就可以自主探索,端到端自己完成任務(wù)了。

曲凱:如果 RL 已經(jīng)能很好地完成復(fù)雜決策了,那能不能拋開 LLM,只用 RL 來做呢?

吳翼:OpenAI 很早就試過這么干,但屢試屢敗。

第一次是 16 年的一個叫 World of Bits 的項目,他們試圖通過 RL 來完成在網(wǎng)頁上訂機票的任務(wù),失敗了。

第二次是在 20 年,他們的機器人團隊想通過圖像輸入來控制機器人整理桌面,又失敗了。但這次失敗后,另一個團隊在 RL 中引入了一個預(yù)訓(xùn)練模塊,就把這件事給做成了。

于是大家發(fā)現(xiàn),僅僅通過 RL 很難訓(xùn)練出一個通用模型,雖然 RL 有很強的決策能力,但它的理解能力不足,需要有一個經(jīng)過預(yù)訓(xùn)練的模型提供一些基礎(chǔ)的理解能力、記憶能力等等。

所以 LLM 和 RL 之間是乘法關(guān)系,二者相乘才能實現(xiàn)最后的智能,缺一不可。

曲凱:這樣捋下來其實很多東西就串起來了,之所以 OpenAI 能把 RL 先做起來,是因為他們一開始就在做 RL,后面把 LLM 和 RL 結(jié)合起來是一件很自然的事情。

那如果理解能力是交給了大語言模型或者多模態(tài)模型負責(zé),生成能力呢?這個和 RL 有關(guān)系嗎?

吳翼:RL 和生成之間也沒有太大關(guān)系。另外我一直認為生成容易,理解難。

曲凱:我前段時間聽到過一個非常反常識的說法:理解一張圖片所需的 token 其實比生成要高。

吳翼:對,需要的 token 多正是因為理解是一件更難的事情。

舉個例子,如果你收到了一個俄文指令,但你根本不會俄文,那你可能自己悟一輩子也悟不會。而如果你已經(jīng)懂俄文了,那再用俄文培訓(xùn)你做任何事情,用俄文寫詩,買票,都不會那么困難。

曲凱:所以相當(dāng)于 LLM 負責(zé)理解跟記憶,RL 進來之后給 LLM 加上了長程思維能力,并且負責(zé)決策跟執(zhí)行。那能不能說 RL 和 LLM 放到一起就已經(jīng)完整了呢?

吳翼:我只能說我們現(xiàn)在看到的最好的 Agent 模型確實是這樣整合出來的,但我覺得這個范式和 RL 算法都還有很大的發(fā)展空間,因為這個路徑才剛剛起步,RL 的 scaling law 也才剛剛開始。

曲凱:具體會怎么發(fā)展?現(xiàn)在大家都覺得預(yù)訓(xùn)練的 scaling law 已經(jīng)不太 work 了,RL 會有多大的發(fā)展空間?

吳翼:這里要稍微更正一下,預(yù)訓(xùn)練的 scaling law 并不是不 work 了,只是收益變小了。

現(xiàn)在預(yù)訓(xùn)練還有兩個重要的方向,一個是數(shù)據(jù),比如如果要強化多模態(tài)的理解能力,那就需要大量的圖文混合數(shù)據(jù),而且圖文間需要有比較好的邏輯關(guān)系。這類高質(zhì)量數(shù)據(jù)網(wǎng)上是遠遠不夠的,所以就需要發(fā)展合成數(shù)據(jù)。

另一個方向是把模型做小,盡量蒸餾出一個更小規(guī)模、但具備同等能力的模型。因為 RL 模塊已經(jīng)足夠復(fù)雜,在如此高的復(fù)雜度上,LLM 規(guī)模越大,訓(xùn)練的不穩(wěn)定性就越高。很多人總說蒸餾可恥,但實際上如果能做到像 o3-mini 那樣的程度,不僅不可恥,反而非常厲害。

對于強化學(xué)習(xí)來說,首先它的 scaling law 還處于初始階段,斜率足夠高,決策能力還會持續(xù)提升。

其次,不同的大模型公司在 RL+LLM 的路徑上走向深水區(qū)之后,方向上也會出現(xiàn)分化。目前主要有三個大的分支:

1) 編程,典型代表是 Anthropic。

2) Agent,典型代表是 OpenAI。

3) 通用的泛化能力 (比如泛化到哲學(xué)、文學(xué)等領(lǐng)域),典型代表是 DeepSeek。

曲凱:強化學(xué)習(xí)做得好與不好,在用戶側(cè)的感知主要是什么?

吳翼:首先可以判斷準(zhǔn)確率。不管是做數(shù)學(xué)題,還是寫分析報告,或者是在網(wǎng)站上完成一些操作,準(zhǔn)確率都是可以驗證的,只不過有的可以通過 benchmark 來驗證,有的還是要看人的體感。

此外,多輪交互的體驗也特別重要。舉個例子,當(dāng)我們讓模型協(xié)助 debug 時,它通常會直接開搞。但 Claude 就很不一樣,它會問問題,比如你裝的環(huán)境包是什么之類的,用戶體驗就非常好。

曲凱:那這個訓(xùn)練過程是怎么實現(xiàn)的呢?我感覺預(yù)訓(xùn)練的訓(xùn)練過程比較好理解,無非是喂更多的數(shù)據(jù),或者做些算法調(diào)優(yōu),RL 需要做什么?

吳翼:對于強化學(xué)習(xí)來說,基建最最重要,其次是數(shù)據(jù),再其次才是算法。

基建可以理解為強化學(xué)習(xí)的框架,它決定了你的迭代效率。比如我們之前做過一版框架,以前訓(xùn)練 7B 模型需要一周,而迭代了框架版本之后,只需要兩天就能把模型訓(xùn)一遍,這樣一周就多了三次迭代試錯的機會。

數(shù)據(jù)的作用很好理解,就好比學(xué)數(shù)學(xué),差的老師只會讓學(xué)生狂刷小學(xué)題,刷了一堆也沒用,而好的老師則會針對性地出題,可能只需要兩道題,就能讓學(xué)生掌握某個知識點。

最終的效果是各種因素耦合的結(jié)果,而且也存在很大的不確定性。

強化學(xué)習(xí)很像煉丹,它是一門玄學(xué),你經(jīng)常會發(fā)現(xiàn),它一直漲勢很好,但是某一刻莫名其妙就不漲了,或者說一開始不漲,突然開始猛增。

曲凱:大模型現(xiàn)在主要是兩條主線,一條是 LLM 加強理解能力,一條是 RL 加強決策能力。那對于大模型團隊來說,該怎么設(shè)計相應(yīng)的組織架構(gòu)呢?

吳翼:最好的情況就是這兩條線別分得太開,因為 RL+LLM 的范式非常復(fù)雜,需要團隊中的每個人都有破圈意識,最好什么都懂一點,才不容易出問題。舉個例子,一個做 RL 后訓(xùn)練的人,也得懂一些預(yù)訓(xùn)練的知識,否則 Ta 沒辦法判斷拿到的預(yù)訓(xùn)練模型缺什么能力、少什么數(shù)據(jù)。

但確實不同范式之間差別比較大,所以可能至少要有一個預(yù)訓(xùn)練團隊和一個后訓(xùn)練團隊。再往下分工,我覺得大致可以通過目標(biāo)來區(qū)分,比如可以有多模態(tài)、RLHF 分支等等。

曲凱:現(xiàn)在很多做 Agent 的公司都想配一個懂 RL 的人,你覺得這是必要的嗎?

吳翼:我覺得很 make sense。雖然現(xiàn)在 RL 的門檻還很高,但一兩年內(nèi)總會降下來,未來很可能大家都需要用 RL 做一些簡單的微調(diào),先儲備一些人才總是沒錯的。

曲凱:但未來大家真的需要自己做 RL 嗎?你看前兩年大家都在討論應(yīng)用公司到底要不要自己做預(yù)訓(xùn)練,現(xiàn)在基本上大家都默認使用開源模型就足夠了。那如果過兩年開源模型的 RL 水平也跟上來,大家是不是也可以直接用現(xiàn)成的?

吳翼:這就是創(chuàng)業(yè)公司自己需要思考的問題了。

且不說這件事的答案到底是怎樣的,我認為有一點是比較明確的,創(chuàng)業(yè)公司不該有終局思維。

相反,創(chuàng)業(yè)公司的機會恰恰在終局到來之前。Manus 就是一個特別好的例子,在市場上還沒有太多類似產(chǎn)品的時候,他們以最快的速度做出了一個可用的產(chǎn)品,抓住了機會。

現(xiàn)在 AI 發(fā)展得這么快,如果你真的去考慮終局,很可能會陷入一種無意義感,覺得世界上沒有你的機會。如果你一定要追求笑到最后,那還不如趁早投奔字節(jié)(笑)。

曲凱:是。那從 Alpha Go 到現(xiàn)在,大家講 RL 已經(jīng)快 10 年了,為什么相關(guān)的人才還是這么稀缺?

吳翼:主要還是門檻太高了。你去看論文引用數(shù),研究 RL 的,會比研究 NLP (自然語言處理)、CV (計算機視覺) 的,少一個數(shù)量級。要想把 RL 環(huán)境配好、跑完、能復(fù)現(xiàn)結(jié)果,就會能篩掉一大批人,而且 RL 的數(shù)學(xué)也更麻煩些。

另外相比 NLP、CV 來說,RL 在工業(yè)界大規(guī)模使用的機會比較少,大家只能在學(xué)校里做,沒有一個工業(yè)級的人才池,所以人才體量也會小很多。

最后就是強化學(xué)習(xí)對工程的要求非常非常高,所以導(dǎo)致大家也沒有好的基建條件去做強化學(xué)習(xí)。

所以其實我回國之后做了很多開源的工作,就是希望能讓更多的人把 RL 用起來。

曲凱:你們最近就聯(lián)合螞蟻研究院新發(fā)了一個強化學(xué)習(xí)的開源框架 AReaL-boba。

吳翼:對。前面提到過,框架其實就是基建,是 RL 訓(xùn)練和迭代的基礎(chǔ)。但開源的 RL 框架本就不多,用起來可能也不太順手,所以我們就自己搞了一個。

我們的這個框架用起來比較穩(wěn)定,速度也比較快,把 7B 的模型做到了 SOTA 標(biāo)準(zhǔn)。

曲凱:也歡迎大家去 GitHub 上關(guān)注這個項目。

那如果國內(nèi)的公司現(xiàn)在想招或者培養(yǎng)一個 RL 人才,該怎么做?

吳翼:這很難講,因為每個團隊的風(fēng)格和所處階段都不太一樣。如果非要給一條建議,我會覺得「動手能力」和「不給自己設(shè)限」這兩點很重要,現(xiàn)在開源的項目和相關(guān)的資料信息非常多,所以關(guān)鍵還是要看這個人是不是發(fā)自內(nèi)心地想學(xué)習(xí),愿不愿意動手去實踐。

曲凱:最后,我想再回到開頭你提到的「人生就是一場強化學(xué)習(xí)」這個點。你研究了這么多年 RL,是不是在自己做決策時也能獲得一些參考?有沒有什么可以泛化到人生中的經(jīng)驗?

吳翼:我有一系列圍繞 Diversity-driven RL 的工作,還蠻有參照意義的。

傳統(tǒng)的 RL 只在乎結(jié)果,所以一旦發(fā)現(xiàn)能穩(wěn)贏的策略之后,就會無限重復(fù)這個套路。

但人類不是這樣思考的。人雖然也想贏,但會想換個贏法。就比如踢足球,雖然我知道帶球單刀特別好進球,但總這么踢我會覺得無聊,就想換頭球試一試。

人之所以為人,是因為人都是 Diversity-driven 的,所以才有了截然不同的經(jīng)歷和多姿多彩的人生。

曲凱:我們之前錄過一期也聊過類似的一點,就是頂尖的牌手越來越趨同,一個比一個像 AI,然后這個游戲就變得沒意思了。

吳翼:對。所以我們試著給 AI 強化學(xué)習(xí)的過程加了一個限制條件,不僅要求結(jié)果的質(zhì)量,還要求結(jié)果的多樣性——每次都要找到一個新的解決路徑。結(jié)果模型自然而然地發(fā)現(xiàn)了一些很好玩的東西。

映射到人生中,我發(fā)現(xiàn)現(xiàn)在很多人都傾向于選擇風(fēng)險最低的路徑。我跟學(xué)生聊天的時候就發(fā)現(xiàn),很多同學(xué)在做升學(xué)決策時,考慮問題的角度往往是為了「求穩(wěn)」,比如有的同學(xué)覺得去美國可能會有簽證風(fēng)險,于是就會選擇國內(nèi)保研。

但我覺得人還是要追求「熵值最大化」的生活方式。

曲凱:不過強化學(xué)習(xí)是可以無限試錯的,而人生總有一種滋味叫「后悔」。

吳翼:是有這個差別,但我覺得還是要勇敢一點,很多人覺得人生只有一次,我覺得不是,人生怎么著也能試錯個三四次,尤其 20 歲的年紀,你做任何事情都是對的。

前提是你要敢于選擇,多跳出去看看,不要老局限在 local optimum (局部最優(yōu)解) 里。比如我當(dāng)年在伯克利讀書的時候,如果不是我自己主動地去敲了隔壁另一個導(dǎo)師的門,我可能最終不會拐上強化學(xué)習(xí)這條路。

曲凱:是。最后我還想和你探討一下獎勵函數(shù)這件事。你開頭說人很可能奮斗了一段時間,卻發(fā)現(xiàn)最終的 reward 并不是自己想要的。那在 RL 里會遇到類似的問題嗎?有可能中途改變獎勵函數(shù)嗎?

吳翼:在傳統(tǒng) RL 里不大行,但因為我研究多智能體強化學(xué)習(xí)和人機交互,經(jīng)常要面對沒有標(biāo)準(zhǔn)問題和清晰目標(biāo)的情況,所以就需要訓(xùn)練 AI 主動搜集信息、探索正確的獎勵函數(shù)的能力。

比如我們做過一個能和人一起玩 Overcooked(一個廚房經(jīng)營游戲)的 AI,在人機合作的過程中,這個 AI 需要猜出人想干嘛,然后和人一起打配合。那在這個過程中 AI 就必須大膽嘗試,在嘗試中得到各種信號,然后揣摩出人的意圖,也就是自己的 reward 到底什么。

人生也是一樣,要想找到自己的獎勵函數(shù),首先需要多主動探索,先和世界交手個三百回合。

42章經(jīng)

思考事物本質(zhì)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張樂怡35歲罕見留影,這生活的優(yōu)越程度,如今大多數(shù)人都難以企及

張樂怡35歲罕見留影,這生活的優(yōu)越程度,如今大多數(shù)人都難以企及

興趣知識
2025-12-29 01:52:41
揭穿南京博物院背后的徐小姐“畫皮”,這就是打蛇能打的“七寸”

揭穿南京博物院背后的徐小姐“畫皮”,這就是打蛇能打的“七寸”

人格志
2025-12-27 23:44:32
人均消費過萬!如今誰還在為KTV買單?老板們直呼“苦不堪言”

人均消費過萬!如今誰還在為KTV買單?老板們直呼“苦不堪言”

音樂時光的娛樂
2025-12-14 00:12:34
“那個時候我都50多歲了,房貸也才30年”!男子充了25年超長會員遭遇退費難,愛奇藝最新回應(yīng):安排退費

“那個時候我都50多歲了,房貸也才30年”!男子充了25年超長會員遭遇退費難,愛奇藝最新回應(yīng):安排退費

每日經(jīng)濟新聞
2025-12-28 15:09:05
臀大也能美出高級感,白T恤搭灰瑜伽褲,穿出清新氣質(zhì)與舒展曲線

臀大也能美出高級感,白T恤搭灰瑜伽褲,穿出清新氣質(zhì)與舒展曲線

小喬古裝漢服
2025-12-15 18:13:19
養(yǎng)心殿、長春宮、體元殿、乾隆花園,北京故宮多個重要景點陸續(xù)開放

養(yǎng)心殿、長春宮、體元殿、乾隆花園,北京故宮多個重要景點陸續(xù)開放

澎湃新聞
2025-12-28 14:28:33
靠譜了,蘋果“認證”爆料人泄密,iPhone折疊屏正式曝光

靠譜了,蘋果“認證”爆料人泄密,iPhone折疊屏正式曝光

老孫說科技
2025-12-28 11:10:41
官方出手!揭開張桂梅卸任華坪女高傳聞?wù)嫦?,有一點可以肯定

官方出手!揭開張桂梅卸任華坪女高傳聞?wù)嫦?,有一點可以肯定

小濤叨叨
2025-12-28 20:41:13
2026年元旦起,運勢翻盤,走十年好運的三個星座,別錯過關(guān)鍵期

2026年元旦起,運勢翻盤,走十年好運的三個星座,別錯過關(guān)鍵期

小晴星座說
2025-12-26 20:04:26
一個單位的管理亂不亂,看哪里能看出來?

一個單位的管理亂不亂,看哪里能看出來?

開心就好KK
2025-12-20 07:56:02
來聚餐還補工資!東莞一工廠年底聚餐,當(dāng)晚按工時3.5小時核工資

來聚餐還補工資!東莞一工廠年底聚餐,當(dāng)晚按工時3.5小時核工資

火山詩話
2025-12-28 11:03:19
綁架虐待同胞的中國網(wǎng)紅被抓,戴上手銬講訴案發(fā)經(jīng)過:伙同當(dāng)?shù)厝艘黄饸虿⒂美苯匪畤娡?>
    </a>
        <h3>
      <a href=貼小君
2025-12-28 07:21:30
遼寧一地破獲特大案件!

遼寧一地破獲特大案件!

環(huán)球網(wǎng)資訊
2025-12-27 21:47:15
全球最精確預(yù)言家:2026,歷史性的一年, 能說的都在這里

全球最精確預(yù)言家:2026,歷史性的一年, 能說的都在這里

神奇故事
2025-12-24 23:34:15
一件“不會再發(fā)生”的事,又站到了普通人的門口!

一件“不會再發(fā)生”的事,又站到了普通人的門口!

走讀新生
2025-11-30 18:50:02
美國人為啥不愛存錢!不是因為他們不想存,而是因為他們不能存

美國人為啥不愛存錢!不是因為他們不想存,而是因為他們不能存

西樓知趣雜談
2025-12-28 11:28:55
臺大校長傅斯年:一生追求民主與真理,赴臺灣后家人在大陸遭清算

臺大校長傅斯年:一生追求民主與真理,赴臺灣后家人在大陸遭清算

南極狼人
2025-11-21 20:56:17
姜昆風(fēng)波再升級!拍攝者硬剛,視頻不是拼接也不在美國,行程被扒

姜昆風(fēng)波再升級!拍攝者硬剛,視頻不是拼接也不在美國,行程被扒

阿纂看事
2025-12-27 11:02:48
宇航員登月回歸后精神失常,死前坦言:人類不應(yīng)踏足遠方

宇航員登月回歸后精神失常,死前坦言:人類不應(yīng)踏足遠方

清茶淺談
2024-12-20 22:30:46
真是笑死個人,那個天天在日本罵祖國的石平,這下徹底老實了。

真是笑死個人,那個天天在日本罵祖國的石平,這下徹底老實了。

南權(quán)先生
2025-12-24 16:54:13
2025-12-29 03:55:00
42章經(jīng) incentive-icons
42章經(jīng)
創(chuàng)投圈第一自媒體
58文章數(shù) 138關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

途經(jīng)俄羅斯航班墜機38人身亡 機身或被彈片擊中

頭條要聞

途經(jīng)俄羅斯航班墜機38人身亡 機身或被彈片擊中

體育要聞

MVP概率達82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
家居
手機
本地
公開課

教育要聞

高校忙著“保就業(yè)”,但崗位仍在“結(jié)構(gòu)性收縮”,畢業(yè)生太難了

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

手機要聞

澎湃OS 3正式版再次擴容:15款設(shè)備喜提升級,你收到了嗎?

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版