国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

汪軍對話 Rich Sutton:大模型在一定程度上分散了我們對智能理解的注意力

0
分享至



大模型缺乏目標(biāo)和獎(jiǎng)勵(lì),RL 才能驅(qū)動(dòng)智能理解。

作者丨劉欣

編輯丨陳彩嫻

在剛剛落幕的 RL China 2025 開幕式上,倫敦大學(xué)學(xué)院(UCL)汪軍教授與圖靈獎(jiǎng)得主、“強(qiáng)化學(xué)習(xí)之父” Richard Sutton 展開了一場跨越地域的思想對話,從強(qiáng)化學(xué)習(xí)(RL)的學(xué)科根基出發(fā),共探智能的本質(zhì)與未來方向。

汪軍教授深耕智能信息系統(tǒng)領(lǐng)域多年,現(xiàn)任 UCL 計(jì)算機(jī)系教授,Turing Fellow,是華人強(qiáng)化學(xué)習(xí)社區(qū) RL China 的聯(lián)合發(fā)起人。RL China 是由全球華人學(xué)者與強(qiáng)化學(xué)習(xí)相關(guān)從業(yè)者共同發(fā)起的非盈利性學(xué)術(shù)與技術(shù)交流平臺(tái),致力于推動(dòng)強(qiáng)化學(xué)習(xí)及決策智能領(lǐng)域的研究、應(yīng)用與教育。

Richard Sutton 是強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基者,這位美國計(jì)算機(jī)科學(xué)家現(xiàn)任阿爾伯塔大學(xué)計(jì)算機(jī)學(xué)教授,因提出時(shí)序差分學(xué)習(xí)、策略梯度方法等核心理論,被公認(rèn)為 “現(xiàn)代強(qiáng)化學(xué)習(xí)之父”。2024 年,他斬獲計(jì)算機(jī)領(lǐng)域最高榮譽(yù)——圖靈獎(jiǎng),這一獎(jiǎng)項(xiàng)不僅是對其在算法創(chuàng)新與基礎(chǔ)研究中突出貢獻(xiàn)的認(rèn)可,更標(biāo)志著強(qiáng)化學(xué)習(xí)作為 AI 核心分支的價(jià)值與影響力,以及整個(gè) RL 研究社區(qū)為人工智能發(fā)展奠定的基礎(chǔ)。

Richard 在對話中坦言:當(dāng)前人工智能行業(yè)的快速擴(kuò)張雖改變了人們從事的工作與生活感知,卻也在一定程度上分散了對基礎(chǔ)科學(xué)的關(guān)注,這對科學(xué)發(fā)展來說并非真正有益。我們必須對此進(jìn)行反擊,努力將目光投向理解思維如何運(yùn)作、智能如何運(yùn)作這一重大目標(biāo)。

在他看來,大模型并非真正理解智能的途徑。LLM 確實(shí)很有用,但它們在運(yùn)行過程中是沒有學(xué)習(xí)能力的,一旦模型被訓(xùn)練完成,它們就不再學(xué)習(xí)了。事實(shí)上,它們也無法學(xué)習(xí),因?yàn)樗鼈儧]有目標(biāo),沒有獎(jiǎng)勵(lì)。它們只是在模仿人類,而人類是有目標(biāo)的,但 LLM 本身沒有目標(biāo),也無法判斷自己說的話是對是錯(cuò)。

人類語境中的目標(biāo)與意圖一般被理解為:對一種名為 “獎(jiǎng)勵(lì)” 的標(biāo)量信號的累積和的期望值進(jìn)行最大化,這是對智能問題一項(xiàng)極具價(jià)值的簡化與提煉。要知道,智能就是與世界交互以達(dá)成目標(biāo),而你需要某種方式來定義這個(gè)目標(biāo)。所以,在強(qiáng)化學(xué)習(xí)的框架下,Richard 建議:所有目標(biāo)都可以被解讀為 “獎(jiǎng)勵(lì)”,一種單一的標(biāo)量數(shù)值。

正因如此, Richard 非常重視從經(jīng)驗(yàn)中學(xué)習(xí),他認(rèn)為,從某種意義上來說,RL 的核心在于,它最強(qiáng)大的思維方式來自于從經(jīng)驗(yàn)中學(xué)習(xí)的理念。而且既希望直接從經(jīng)驗(yàn)中學(xué)習(xí),也希望間接從經(jīng)驗(yàn)中學(xué)習(xí),讓自己的經(jīng)驗(yàn)?zāi)苄纬梢粋€(gè)世界模型,然后利用這個(gè)模型來規(guī)劃行為上的改進(jìn)。這種規(guī)劃就類似于推理,人們僅憑對世界的認(rèn)知就能想清楚該做什么。

而且智能的基本原則有限,梯度下降在其中至關(guān)重要。但行業(yè)熟練后很容易陷入只用梯度下降,而忽視其他可能性的局限中。實(shí)際上梯度下降、時(shí)序差分學(xué)習(xí)、搜索都是智能的基本原則的其中之一,其中搜索尤為關(guān)鍵。隨機(jī)權(quán)重是搜索的核心要素,它能讓模型探索更多可能性。因此,梯度下降算法中需要融入這種搜索成分,把搜索和梯度下降結(jié)合起來,其威力會(huì)遠(yuǎn)大于梯度下降單獨(dú)使用。

以下是此次對話的精彩分享,AI 科技評論進(jìn)行了不改原意的編輯整理:

01

對智能的思考

汪軍:可以簡單介紹一下你 2023 年創(chuàng)建 Openmind Research Institute(開放思維研究所)的背景嗎?以及你想要實(shí)現(xiàn)的使命是什么?

Richard Sutton:Openmind Research Institute 的使命是理解智能,并與世界分享這種理解。嘗試與世界分享的原因是,人工智能已經(jīng)變得有點(diǎn)地緣政治化,各個(gè)國家都在試圖主導(dǎo)這個(gè)領(lǐng)域。當(dāng)然,許多不同的政治陣營之間存在競爭,尤其是中美。任何一方都不應(yīng)該占據(jù)主導(dǎo)地位。

理解智能是對人類思維理解的根本性探索,每個(gè)人都應(yīng)該參與其中。這主要是一項(xiàng)科學(xué)探索,而不是為了追求產(chǎn)業(yè)發(fā)展。大家都應(yīng)該嘗試面對思維的根本問題,以及如何理解它、如何讓它更好地運(yùn)作,這樣我們才能更好地運(yùn)作,才能理解我們是什么,以及我們在宇宙中扮演什么角色。

Openmind Research Institute 肯定是從小事做起,它是一個(gè)實(shí)驗(yàn)室,中心在加拿大阿爾伯塔省,但之后還會(huì)啟動(dòng)一個(gè)以新加坡為中心的新實(shí)驗(yàn)室。這樣一來,研究范圍就遍布全球了,每個(gè)實(shí)驗(yàn)室都會(huì)有一定數(shù)量的研究員,通常是剛獲得博士學(xué)位但想要從事基礎(chǔ)研究和人工智能的年輕人。

汪軍:這是要必須做的,而且非常及時(shí),因?yàn)楝F(xiàn)在有些研究社區(qū)甚至不發(fā)表論文。這談不上絕對的好壞,這些算法本質(zhì)上是特定時(shí)期的研究成果,問題在于,我們似乎已經(jīng)丟失了當(dāng)初驅(qū)動(dòng)其誕生的發(fā)展勢頭,這種狀態(tài)對整個(gè)研究學(xué)界來說是極不健康的。(Openmind Research Institute)這個(gè)想法讓一切都變得開放和獨(dú)立,讓科學(xué)回歸到純粹的科學(xué)好奇心,這很關(guān)鍵。我很高興現(xiàn)在一些基礎(chǔ)模型開始開源或開放參數(shù),情況變得越來越好了,希望 Openmind Research Institute 能在中國設(shè)立分支機(jī)構(gòu),鼓勵(lì)年輕人,讓年輕的研究人員回歸真正的科學(xué)追求,而不只是追求產(chǎn)業(yè)進(jìn)步。

我在 RL China 舉辦過一些會(huì)議研討會(huì),已經(jīng)舉辦了好幾年,還有這次夏令營。大多數(shù)參會(huì)者都是年輕的研究員,尤其是在 RL 領(lǐng)域,以及從機(jī)器人技術(shù)到多智能體(Multi-Agent)系統(tǒng),再到核心領(lǐng)域。你對年輕的研究人員有什么想說的嗎?或者認(rèn)為他們應(yīng)該思考的根本問題是什么?

Richard Sutton:有一點(diǎn)很關(guān)鍵:要著眼于長遠(yuǎn)目標(biāo)。

人工智能不是今年或明年就能實(shí)現(xiàn)的,它可能會(huì)在這個(gè)十年或下個(gè)十年完成,所以這是一個(gè)長遠(yuǎn)目標(biāo),它就像一場馬拉松,而不是短跑比賽。尤其在人工智能的 RL 領(lǐng)域中,情況比較特殊:一方面,我們面臨著一個(gè)基礎(chǔ)性的科學(xué)難題;但另一方面,這個(gè)領(lǐng)域又已經(jīng)形成了龐大的產(chǎn)業(yè),有巨額資金源源不斷地投入到各類應(yīng)用中。單看人工智能這個(gè)行業(yè)的確十分龐大,它也確實(shí)改變了人們的感受以及人們可以從事的工作,但同時(shí)也在某種程度上減少了對基礎(chǔ)科學(xué)的關(guān)注。

它更像是一場快速的游戲,你可以很快就賺點(diǎn)錢退出。這對科學(xué)發(fā)展來說并非真正有益。

從宏觀角度來看,科學(xué)取得如此大的成功是件好事,這為該領(lǐng)域帶來了大量資金。但作為一門科學(xué),它在某種程度上改變了這個(gè)領(lǐng)域的性質(zhì),我們必須對此進(jìn)行反擊,努力將目光投向理解思維如何運(yùn)作、智能如何運(yùn)作這一重大目標(biāo),并不斷解決問題。既要著手解決那些我們已經(jīng)知道該怎么做的問題,更要持續(xù)關(guān)注那些我們還不知道該如何解決的問題。工業(yè)界傾向于關(guān)注我們已知的、我們今天能做什么;而科學(xué)界則關(guān)注我們尚不知道如何做的事情,是什么阻礙了我們深入理解。

汪軍:沒錯(cuò),我認(rèn)為在中國也有類似的情況。產(chǎn)業(yè)方的參與在某些方面確實(shí)非常有益,但另一方面,它在某種程度上會(huì)推動(dòng)甚至是迫使研究 (尤其是學(xué)術(shù)研究)聚焦于一些短期問題,這未必是好事。比如大模型(LLM),需要進(jìn)行預(yù)訓(xùn)練,還需要大量的計(jì)算資源。這確實(shí)是一部分人能做的事,但對于整個(gè)研究界來說,可能無法都投入其中。我們真正應(yīng)該關(guān)注的是超越 Transformer 的東西,超越你之前提出并研究過的重要學(xué)習(xí)領(lǐng)域。

Richard Sutton:讓我再次強(qiáng)調(diào)一下關(guān)于 LLM 的討論,LLM 在人工智能產(chǎn)業(yè)中占據(jù)主導(dǎo)地位,但我確實(shí)覺得它對科學(xué)造成了巨大的干擾。

所以我想對各位說的是,雖然 RL 可以作為 LLM 的一部分——這沒問題,而且 LLM 確實(shí)是一種與互聯(lián)網(wǎng)所有知識(shí)進(jìn)行交互的有效方式,它有很多優(yōu)點(diǎn)——但它在很大程度上分散了我們對理解智能問題的注意力。

我們必須把它放在一邊,不要走這條路。學(xué)生們對 LLM 的關(guān)注和熱情,很難不想在此基礎(chǔ)上繼續(xù)研究,但它(大模型)并非真正理解智能的途徑。雖然 LLM 確實(shí)很有用,但它們在運(yùn)行過程中是沒有學(xué)習(xí)能力的,機(jī)器學(xué)習(xí)確實(shí)被用于創(chuàng)建它們,但一旦模型被訓(xùn)練完成,它們就不再學(xué)習(xí)了

事實(shí)上,它們也無法學(xué)習(xí),因?yàn)樗鼈儧]有目標(biāo),沒有獎(jiǎng)勵(lì)它們只是在模仿人類,而人類是有目標(biāo)的,但 LLM 本身沒有目標(biāo),也無法判斷自己說的話是對是錯(cuò)。

我有一句用于人工智能研究的口號,如果在網(wǎng)上搜索“Rich's slogan”之類的詞,就可以找到。其中一個(gè)核心口號就是:你不應(yīng)該要求你的人工智能知道一些它自己都無法判斷正確的事情。Agent(智能體)必須能夠驗(yàn)證它的知識(shí),LLM 無法驗(yàn)證它們的任何知識(shí),除了人類會(huì)說它正確之外,但這種正確沒有任何意義

那么該如何驗(yàn)證你的知識(shí)呢?可能有一種行為方式:如果它沒有得到獎(jiǎng)勵(lì),你就知道這不是一個(gè)好的行為方式,這就給了你獎(jiǎng)勵(lì),給了你一個(gè)目標(biāo),或者你可能有一個(gè)世界的預(yù)測模型,你可能會(huì)預(yù)測某事會(huì)發(fā)生,然后從經(jīng)驗(yàn)中看到它確實(shí)發(fā)生了。但 LLM 不會(huì)這樣做,它們可能會(huì)說我預(yù)測了某事,但大模型無法將其與實(shí)際發(fā)生的事情進(jìn)行比較,因?yàn)?/strong>大模型沒有持續(xù)的經(jīng)驗(yàn)流。

所以我非常重視從經(jīng)驗(yàn)中學(xué)習(xí),從某種意義上來說,RL 的核心在于,它最強(qiáng)大的思維方式來自于從經(jīng)驗(yàn)中學(xué)習(xí)的理念,這種理念實(shí)際上可以追溯到人工智能誕生之初。

艾倫·圖靈有一篇書面演講提到:我們想要的是一個(gè)能夠在1947年、甚至在人工智能出現(xiàn)之前,從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器。我們現(xiàn)在依然渴望這樣的機(jī)器,這仍然是核心,也是我們應(yīng)該努力的方向,這就是 RL 的意義所在,而這一點(diǎn)正是 LLM 所完全缺乏的。

02

強(qiáng)化學(xué)習(xí)的突破路徑

汪軍:你對經(jīng)驗(yàn)(experience)的定義是什么?我認(rèn)為圖靈在撰寫那篇論文時(shí)有著他自己對經(jīng)驗(yàn)的理解;另外,像 AlphaGo 那樣,通過自我對弈生成一系列軌跡數(shù)據(jù),這也算一種經(jīng)驗(yàn),而現(xiàn)在情況發(fā)生了什么變化呢?你認(rèn)為如今的經(jīng)驗(yàn)和過去一樣還是有所不同了?

Richard Sutton: 我認(rèn)為經(jīng)驗(yàn)這一概念非常自然,并且隨著時(shí)間推移一直以來都是如此。你的經(jīng)驗(yàn)并非某種怪異、模糊或難以捉摸的東西,它就是你在世界中生存時(shí)接收到的真實(shí)數(shù)據(jù)。你采取行動(dòng)、做各種事情,然后看到結(jié)果——這些就是你的觀察,同時(shí)你也會(huì)感受到獎(jiǎng)勵(lì)。這三組時(shí)間序列共同構(gòu)成了你的經(jīng)驗(yàn)。

實(shí)際上,至少從 agent 的視角以及在 RL 的思維框架下,除了你接收和生成的數(shù)據(jù)之外,再無其他東西。而且,你無法先驗(yàn)地去談?wù)摽臻g、物體、物理規(guī)律或幾何概念,因?yàn)槟銦o法直接接觸到這些東西;你能直接接觸的,只有你的觀察和行動(dòng)。而那些概念,不過是你為了解釋自身經(jīng)驗(yàn)、為經(jīng)驗(yàn)建立模型而編造的故事罷了。

經(jīng)驗(yàn)是根本性的,它是智能的核心。我們有時(shí)會(huì)說從經(jīng)驗(yàn)中學(xué)習(xí),但同樣重要的是,你的知識(shí)本身就與經(jīng)驗(yàn)相關(guān)。比如,當(dāng)你相信某件事時(shí),這個(gè)信念本質(zhì)上是關(guān)于未來你會(huì)接收到哪些觀察的預(yù)判。說到底,它就是一種理論:關(guān)于你未來會(huì)收到什么數(shù)據(jù)、會(huì)擁有怎樣的經(jīng)驗(yàn)的理論。

汪軍:你覺得樣本復(fù)雜度是人工智能領(lǐng)域里我們需要解決的一個(gè)問題嗎?還是說,你其實(shí)并不認(rèn)為這是個(gè)問題?

Richard Sutton:我們的算法學(xué)習(xí)效率確實(shí)不夠高,但我并不覺得這是 RL 獨(dú)有的問題。實(shí)際上,我們所有的算法學(xué)習(xí)效率都很低,所以必須解決這個(gè)問題。說到底,或許整個(gè)研究的核心就是要從經(jīng)驗(yàn)中高效學(xué)習(xí)——這正是我們研究者正在做的事,我們在努力尋找能讓我們從經(jīng)驗(yàn)中盡可能高效學(xué)習(xí)的算法。

在某種意義上,從獎(jiǎng)勵(lì)中學(xué)習(xí)比從指令中學(xué)習(xí)更困難,如果世界直接告訴你該做什么,學(xué)習(xí)起來會(huì)簡單得多。但顯然,世界不會(huì)直接給出指令,世界只會(huì)給你拋出一個(gè)問題,你得自己弄明白該怎么做,所以這才是真正的問題所在。因此,我不會(huì)把這種問題看作是一種困難,而是一項(xiàng)挑戰(zhàn)。

汪軍:這兩個(gè)單一的獎(jiǎng)勵(lì)會(huì)是這個(gè)標(biāo)量嗎?要知道,獎(jiǎng)勵(lì)本身也分不同種類的

Richard Sutton:這就是我們所說的“獎(jiǎng)勵(lì)假設(shè)”了。我們所說的目標(biāo)與意圖,都可以被很好地理解為:對一種名為 “獎(jiǎng)勵(lì)” 的標(biāo)量信號的累積和的期望值進(jìn)行最大化,這是對智能問題一項(xiàng)極具價(jià)值的簡化與提煉。要知道,智能就是與世界交互以達(dá)成目標(biāo),而你需要某種方式來定義這個(gè)目標(biāo)。

在強(qiáng)化學(xué)習(xí)中,我們建議:所有目標(biāo)都可以被解讀為 “獎(jiǎng)勵(lì)”一種單一的標(biāo)量數(shù)值。

在你們看來,這樣認(rèn)為可能顯得有些淺薄,甚至格局不大。但我認(rèn)為,這恰恰是它極具智慧的部分——它非常清晰,高度簡化,卻又似乎足夠完備。事實(shí)上,像風(fēng)險(xiǎn)考量、多目標(biāo)這類更復(fù)雜的設(shè)定,未必能讓系統(tǒng)變得更強(qiáng)大。阿爾伯塔大學(xué)(也就是我所在的大學(xué))的幾位研究者發(fā)表過一篇很棒的論文,名為《Settling the Reward Hypothesis》,這篇論文深入探討了這一假說,論證了我們并不需要多目標(biāo)、風(fēng)險(xiǎn)等復(fù)雜設(shè)定,單一獎(jiǎng)勵(lì)信號已足夠。



論文鏈接:https://arxiv.org/pdf/2212.10420

我還記得自己最初真正接受這一假設(shè)時(shí)的情景,它確實(shí)顯得有些格局不大。畢竟,我們的人生似乎承載著更宏大的目標(biāo):比如拯救世界、積累財(cái)富、保護(hù)生態(tài),或者養(yǎng)育家庭。我們有許多目標(biāo),而且它們似乎都與現(xiàn)實(shí)世界緊密相關(guān)、具體可感。但要打造算法、構(gòu)建智能,就必須將問題轉(zhuǎn)化為一種標(biāo)準(zhǔn)形式。獎(jiǎng)勵(lì)假設(shè)正是這樣一個(gè)極具價(jià)值的核心思想,它非常深刻,極大地幫助我們理解了智能究竟是什么。

汪軍:這種整合方式能否解決“獎(jiǎng)勵(lì)難以定義”或“獎(jiǎng)勵(lì)定義得非常模糊”的問題呢?你認(rèn)為,明確獎(jiǎng)勵(lì)是否已成為人工智能或任何學(xué)習(xí)算法的一種先決條件?

Richard Sutton:首先,我們先回歸自然、動(dòng)物和人類本身。沒人需要為我們制定獎(jiǎng)勵(lì),我們的獎(jiǎng)勵(lì)是進(jìn)化的產(chǎn)物。那我們的獎(jiǎng)勵(lì)到底是什么?并沒有一根線從外部接入我們的大腦,獎(jiǎng)勵(lì)究竟存在于何處呢?實(shí)際上,獎(jiǎng)勵(lì)是在你的顱骨內(nèi)部計(jì)算產(chǎn)生的。大腦中有一個(gè)區(qū)域,我認(rèn)為是下丘腦,它會(huì)計(jì)算一系列狀態(tài):你的身體狀況是否良好?血液中是否含有足夠的營養(yǎng)?你是否脫離了痛苦?是否感到不適?體溫是否適宜?所有這些因素都會(huì)影響你的獎(jiǎng)勵(lì)信號。

所以,獎(jiǎng)勵(lì)信號存在于你的顱骨之內(nèi),它是你大腦(實(shí)際上也是你身體)的一部分。但我們不會(huì)把身體視為環(huán)境的一部分,而大腦中這個(gè)負(fù)責(zé)計(jì)算獎(jiǎng)勵(lì)的小區(qū)域,卻屬于環(huán)境的范疇。我們必須將其歸為環(huán)境的一部分,這樣它才不會(huì)受到 agent 的直接控制,agent 無法隨心所欲地將自身獎(jiǎng)勵(lì)調(diào)至高位,要讓獎(jiǎng)勵(lì)升高,它必須采取行動(dòng):比如避免痛苦、獲取食物以維持血糖在滿意水平,它必須通過行動(dòng)影響周圍的世界,這些影響再通過身體反饋,最終產(chǎn)生高獎(jiǎng)勵(lì)信號。

在那之后,當(dāng)我們打造工程化系統(tǒng)、希望人工智能完成特定任務(wù)時(shí),作為設(shè)計(jì)者,我們必須想清楚、明確自己真正希望達(dá)成的目標(biāo)是什么,并且得找到方法,將這個(gè)目標(biāo)轉(zhuǎn)化為獎(jiǎng)勵(lì)信號傳遞給 agent。這一步有時(shí)頗具挑戰(zhàn),有時(shí)又比較簡單。比如,下國際象棋,贏得比賽你會(huì)得到獎(jiǎng)勵(lì);下圍棋,贏得比賽也會(huì)得到獎(jiǎng)勵(lì)。如果是企業(yè)想要盈利,你可以為成功賺錢的人提供獎(jiǎng)勵(lì)。能作為獎(jiǎng)勵(lì)的東西有很多,有時(shí)很簡單,有時(shí)卻真的很難。難點(diǎn)部分在于,我們自己往往都難以確定最想讓人工智能完成的到底是什么。

我想說的是:人們常常有一種強(qiáng)烈的傾向,就是把問題的解決方案直接塞進(jìn)獎(jiǎng)勵(lì)里。比如,想讓 AI 下圍棋,你可能會(huì)忍不住在過程中設(shè)置一些額外獎(jiǎng)勵(lì),比如控制棋盤的特定區(qū)域或做出眼位就給獎(jiǎng)勵(lì),但這幾乎是錯(cuò)誤的。你應(yīng)該為自己真正想要的結(jié)果設(shè)置獎(jiǎng)勵(lì),對于圍棋而言,真正想要的就是贏棋,做出眼位只是通向贏棋的一條路徑。盡管你可能是想幫人工智能一把,這種嘗試也非常普遍,但這樣實(shí)際上改變了問題本身,而我們并不想改變問題。如果你想贏,就應(yīng)該只為贏設(shè)置獎(jiǎng)勵(lì)。

汪軍:你之前提到過要保持開放的心態(tài),并且也鼓勵(lì)那些剛拿到博士學(xué)位的年輕研究者這樣做,我最近看了一些研究提案,其中關(guān)于持續(xù)學(xué)習(xí)的一些想法我很喜歡,所以你能不能進(jìn)一步講講?

Richard Sutton:無論是阿爾伯塔省還是新加坡的研究項(xiàng)目都是從 RL 開始的,尤其是“阿爾伯塔人工智能研究計(jì)劃”(The Alberta Plan for AI Research),這是一份文件,你可以在 arXiv 上找到它。這份文件由 Michael Bowling、Patrick Plarskin 和我自己共同撰寫。在其中,我們試圖盡可能清晰地勾勒出從當(dāng)前階段邁向 full intelligent agent,即 the full AI 所需的步驟。這是一個(gè)包含 12 個(gè)步驟的計(jì)劃,這些步驟并非必須按順序執(zhí)行,但我目前正致力于第一步,并且熱切期待完成第一步后能開始著手第二步。



鏈接:https://arxiv.org/pdf/2208.11173

計(jì)劃的前期步驟都與使用函數(shù)近似(function approximation)進(jìn)行高效學(xué)習(xí)相關(guān),實(shí)際上也都圍繞 RL 展開,涉及持續(xù)學(xué)習(xí)(continual learning)、元學(xué)習(xí)(meta-learning)等方向——真正聚焦 RL 本身的內(nèi)容其實(shí)從第三步才開始。但歸根結(jié)底,整個(gè)計(jì)劃的目標(biāo)是打造一個(gè) RL agent:一個(gè)具備推理、規(guī)劃與學(xué)習(xí)能力的完整 agent

此外,該計(jì)劃完全以獎(jiǎng)勵(lì)為核心基礎(chǔ),但在實(shí)踐過程中,會(huì)衍生出子目標(biāo)或輔助任務(wù),這些子目標(biāo)可以是我們?nèi)粘?huì)考慮的事情,比如拿起一個(gè)物體可能成為一個(gè)子任務(wù),高效行走是一個(gè)目標(biāo),下圍棋也可以是一個(gè)需要達(dá)成的子目標(biāo),甚至獲得學(xué)位。基本上你一整天做的所有事,步行去大學(xué)、喝杯水、找洗手間,這些都可以成為你努力達(dá)成并學(xué)習(xí)相關(guān)技能的目標(biāo)。而所有這些子目標(biāo)和技能,最終都服務(wù)于那一個(gè)核心目標(biāo),例如完成工作,這就是阿爾伯塔人工智能研究計(jì)劃的一部分內(nèi)容。

03

通用智能體的認(rèn)知轉(zhuǎn)向

汪軍:你提到了元學(xué)習(xí),關(guān)于如何讓 RL 在跨任務(wù)場景下更具通用性,你的看法是什么?如何讓它不僅能解決雅達(dá)利圍棋游戲這類特定任務(wù),還能具備更廣泛的通用性?你認(rèn)為元學(xué)習(xí)會(huì)是打造通用 agent 的有力候選方向嗎?還是說,我們需要其他完全不同的方法?

Richard Sutton:我們當(dāng)然想要打造通用 agent,但并不認(rèn)同“task”(任務(wù))這個(gè)概念。說實(shí)話,我覺得我們只是生活而已,我不覺得我有什么任務(wù)是需要單獨(dú)獎(jiǎng)勵(lì)的,我有自己的人生,有自己的獎(jiǎng)勵(lì)信號,它會(huì)一直持續(xù)下去,雖然并非永恒,但會(huì)延續(xù)很長時(shí)間。

每次聽到人們談?wù)摗皌ask”,我其實(shí)都不太清楚他們具體指什么,但我很清楚“skill”(技能)是什么。比如,我有熟練行走的技能,有找到去銀行路線的技能,還有做其他各種事情的技能。這些就像我之前提到的輔助性問題:拿起一個(gè)物體、找到去不同地方的路,等等。我會(huì)學(xué)習(xí)如何完成所有這些事,然后思考如何將這些技能組合起來,以獲得屬于自己的獎(jiǎng)勵(lì)。

通用性至關(guān)重要,我們確實(shí)追求通用性,但我們不想在“task”之間追求通用。因?yàn)椤皌ask”并非這一框架的組成部分,也不屬于 RL 的范疇,并不存在“task”這種概念,這里只有單一的獎(jiǎng)勵(lì)信號,僅此而已。但我們確實(shí)需要探討泛化(generalization)。這里的泛化指的是狀態(tài)之間的泛化,在這個(gè)狀態(tài)下學(xué)會(huì)了該做什么,這會(huì)影響我對在另一個(gè)狀態(tài)下該做什么才正確的判斷。所以,泛化是在不同狀態(tài)間發(fā)生的,這正是泛化的核心價(jià)值所在,而這種泛化能力也將助力我們打造出通用 agent。

我們說的元學(xué)習(xí)是指:當(dāng)存在一個(gè)基礎(chǔ)學(xué)習(xí)過程,然后我們在這個(gè)基礎(chǔ)之上再做一些操作時(shí),談?wù)撛獙W(xué)習(xí)才是恰當(dāng)?shù)?。我認(rèn)為最主要的例子是這樣的:比如我們通過調(diào)整模型權(quán)重來解決某個(gè)基礎(chǔ)學(xué)習(xí)任務(wù),不管這個(gè)基礎(chǔ)任務(wù)是監(jiān)督學(xué)習(xí)(supervised learning)還是 RL,在這個(gè)過程中,我們會(huì)涉及步長(step sizes)以及其他超參數(shù)的設(shè)置。所以,這些步長的調(diào)整就屬于元學(xué)習(xí)的一個(gè)例子。

我們的整個(gè)網(wǎng)絡(luò)都應(yīng)該設(shè)置步長,每個(gè)權(quán)重都該有自己專屬的步長,這些步長必須通過自動(dòng)化流程來單獨(dú)調(diào)整,而不是由人工操作。這樣一來,如果你能調(diào)整這些步長,就能從中得知:這些權(quán)重不想調(diào)整,那些權(quán)重想調(diào)整。而當(dāng)你決定調(diào)整哪些權(quán)重時(shí),這些權(quán)重正是你要進(jìn)行泛化的依據(jù)。打個(gè)比方,你有很多特征,該基于哪些特征進(jìn)行泛化呢?答案就是那些步長較高的特征。因此,這就把研究焦點(diǎn)引向了學(xué)習(xí)算法本身,也就是用于學(xué)習(xí)所有權(quán)重對應(yīng)步長的元學(xué)習(xí)算法。

在所有算法中,我最愛的算法當(dāng)然是時(shí)序差分學(xué)習(xí)(Temporal Difference Learning),第二愛的算法是專門用來設(shè)置步長的,它叫 Incremental Delta-Bar-Delta,簡稱 IDBD。這是個(gè)1992年的老算法了,它的用途非常明確,就是用來設(shè)置步長,進(jìn)而決定泛化是如何發(fā)生的。再來聊聊 RL 中的偏置(bias),這篇論文提出了類似通過梯度下降(gradient descent)學(xué)習(xí)偏置的思路。也就是說,我們不再由人工編寫程序來設(shè)定偏置,而是讓系統(tǒng)自主學(xué)習(xí)如何泛化,這本質(zhì)上就是在學(xué)習(xí)偏置。IDBD 算法雖然是個(gè)老算法,但它已經(jīng)過一些改進(jìn),我們目前也在對它進(jìn)行更新,還在嘗試將其擴(kuò)展到深度學(xué)習(xí)領(lǐng)域,只是這項(xiàng)工作仍在進(jìn)行中,它有很大的潛力。

汪軍:之前我們聊到過學(xué)習(xí)效率,你也說過效率當(dāng)然是越高越好,而且這是機(jī)器學(xué)習(xí)領(lǐng)域的普遍問題,所以梯度下降在過去確實(shí)推動(dòng)了人工智能的發(fā)展。但另一方面,它或許并不是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)函數(shù)映射的高效方法。你認(rèn)為這是我們需要突破的瓶頸嗎?還是說,你覺得梯度下降仍是未來的發(fā)展方向?

Richard Sutton:如果我們試著提煉智能與學(xué)習(xí)的幾條基本原則,梯度下降一定是其中之一,它的威力強(qiáng)大且至關(guān)重要。問題在于,當(dāng)我們熟練掌握梯度下降后,就開始覺得它無比出色,甚至可能認(rèn)為一切學(xué)習(xí)問題都能用梯度下降解決。而這恰恰是錯(cuò)誤所在,我們陷入了只用梯度下降,而排除所有其他可能性的局限中。

所以如果要列舉智能的基本原則,我認(rèn)為梯度下降、時(shí)序差分學(xué)習(xí)、搜索都是其中之一,此外還有其他原則,但不會(huì)太多了。而搜索尤其重要,其實(shí)搜索的影子已經(jīng)存在于反向傳播中了,訓(xùn)練開始時(shí),我們會(huì)給模型設(shè)置隨機(jī)的小權(quán)重,但也僅僅是在開始時(shí)這樣做。從那之后,模型就只會(huì)完全確定性地沿著梯度方向更新。

在過去幾年里,我們在持續(xù)學(xué)習(xí)領(lǐng)域取得了一點(diǎn)突破,我們對反向傳播進(jìn)行了改進(jìn),提出了持續(xù)反向傳播。這種方法下,模型不再是一直只沿著梯度更新,也不再只在初始階段設(shè)置隨機(jī)權(quán)重,而是在整個(gè)訓(xùn)練過程中持續(xù)重新注入隨機(jī)權(quán)重。也就是說,隨機(jī)化不再只發(fā)生在開頭,而是貫穿始終,這樣就是完全連續(xù)的。隨機(jī)權(quán)重正是搜索的核心要素,它能將模型推向隨機(jī)的方向,從而探索更多可能性。因此,我們的梯度下降算法中需要融入這種搜索成分,把搜索和梯度下降結(jié)合起來,其威力會(huì)遠(yuǎn)大于梯度下降單獨(dú)使用。

汪軍:你之前提到了時(shí)序差分學(xué)習(xí),你是如何發(fā)明時(shí)序差分學(xué)習(xí)的?這種決策—行動(dòng)的邏輯與整個(gè)控制領(lǐng)域息息相關(guān),他們一直在研究貝爾曼方程優(yōu)化等問題,而 RL 正是從這些基礎(chǔ)上發(fā)展而來的,時(shí)序差分學(xué)習(xí)是其中的關(guān)鍵。還有我之前提到過,你的一篇早期論文總是被我用作案例,這篇論文從心理學(xué)中的經(jīng)典條件反射、神經(jīng)科學(xué)等領(lǐng)域切入,然后將思路延伸到了計(jì)算機(jī)科學(xué)領(lǐng)域,這篇論文非常出色,能和我們多講講這篇論文以及背后的故事嗎?

Richard Sutton:時(shí)序差分學(xué)習(xí)的確源于經(jīng)典條件反射,它脫胎于心理學(xué),以及上世紀(jì)早期所有關(guān)于動(dòng)物學(xué)習(xí)的先驅(qū)性實(shí)驗(yàn)。經(jīng)典條件反射是巴甫洛夫在 19 世紀(jì) 90 年代左右提出的概念。我本科時(shí)學(xué)的就是心理學(xué),但我還是一直都在研究人工智能,只是在 70 年代,本科階段還沒法主修計(jì)算機(jī)科學(xué),必須選其他專業(yè),我很樂意主修心理學(xué),因?yàn)樵趯W(xué)習(xí)領(lǐng)域,尤其是在探索學(xué)習(xí)的基本原理方面,心理學(xué)家的思考是最深入的,他們?yōu)榇烁冻隽司薮笈Γ岢隽嗽S多重要的觀點(diǎn),其中有一些觀點(diǎn)雖然沒有直接催生時(shí)序差分學(xué)習(xí),但已經(jīng)非常接近了。如果你仔細(xì)梳理所有的動(dòng)物實(shí)驗(yàn),試著從中提煉規(guī)律,就必然會(huì)走向時(shí)序差分學(xué)習(xí),它就是這樣誕生的。

直到后來我們才意識(shí)到,從動(dòng)態(tài)規(guī)劃和控制理論的角度來看,時(shí)序差分學(xué)習(xí)同樣說得通,但時(shí)序差分學(xué)習(xí)最初是源于經(jīng)驗(yàn)的產(chǎn)物??梢赃@樣理解二者的關(guān)系:動(dòng)態(tài)規(guī)劃的前提是,你已經(jīng)完全了解整個(gè)世界,你就能計(jì)算出最優(yōu)解而時(shí)序差分學(xué)習(xí)則不同,即便我不知道世界是如何運(yùn)作的,我也能通過經(jīng)驗(yàn)而非知識(shí)達(dá)成與動(dòng)態(tài)規(guī)劃相同的目標(biāo)。

這一點(diǎn)太美妙了,因?yàn)樗馕吨?strong>所有研究智能與學(xué)習(xí)的學(xué)科實(shí)現(xiàn)了統(tǒng)一,時(shí)序差分學(xué)習(xí)的影響力非常深遠(yuǎn)?;氐缴窠?jīng)科學(xué)領(lǐng)域,它為研究者們觀察到的許多動(dòng)物學(xué)習(xí)新結(jié)果、新數(shù)據(jù)提供了合理解釋,如今已成為大腦獎(jiǎng)勵(lì)系統(tǒng)研究中占主導(dǎo)地位的標(biāo)準(zhǔn)模型與理論。我們能看到,人工智能、控制理論、神經(jīng)科學(xué)這些原本截然不同的學(xué)科,正成功地走向融合與交匯。我對此感到非常欣慰,這就像終于觸碰到了智能最根本的東西。

汪軍:我注意到的一點(diǎn)區(qū)別也就是無模型(model-free)和基于模型(model-based)的概念,你能再詳細(xì)解釋一下這個(gè)嗎?

Richard Sutton:首先,我們得明確一點(diǎn),我們兩者都需要兼顧。我們既希望直接從經(jīng)驗(yàn)中學(xué)習(xí),也希望間接從經(jīng)驗(yàn)中學(xué)習(xí),我們希望自己的經(jīng)驗(yàn)?zāi)苄纬梢粋€(gè)世界模型,然后利用這個(gè)模型來規(guī)劃行為上的改進(jìn)。這種規(guī)劃就類似于推理,我們僅憑對世界的認(rèn)知就能想清楚該做什么。這兩者我們都需要,而實(shí)現(xiàn)二者在某種意義上的統(tǒng)一,正是我們追求的“The Holy Grail”(圣杯),就是能夠同時(shí)進(jìn)行規(guī)劃和學(xué)習(xí),并在某種意義上將它們統(tǒng)一起來。

這種統(tǒng)一的開端是“dyna system”(動(dòng)力系統(tǒng)),在這個(gè)系統(tǒng)中,規(guī)劃的過程本身就帶有學(xué)習(xí)的屬性,不過這種學(xué)習(xí)是通過想象自己可能采取的行動(dòng)來完成的,這一點(diǎn)在心理學(xué)文獻(xiàn)中也有很好的體現(xiàn),RL 的目標(biāo)正是成為一種涵蓋所有智能形式的宏大理論。

汪軍:您有什么想對中國的 RL 社區(qū)說的嗎?您認(rèn)為這與您正在開展的 Openmind 使命有什么聯(lián)系?

Richard Sutton:我想補(bǔ)充一點(diǎn)我們尚未談及的核心內(nèi)容,得益于摩爾定律以及計(jì)算能力的日益普及,當(dāng)下正是宇宙中一個(gè)極其特殊的時(shí)代,在未來的一二十年里,我們將得以弄明白思維是如何運(yùn)作的。能生活在這樣一個(gè)時(shí)代,實(shí)在太令人驚嘆了。我曾將對智能的理解比作地球上生命的起源,我認(rèn)為這是一件具有同等重大意義的事件。我們將能夠設(shè)計(jì)出與人類自身一樣強(qiáng)大、甚至可能更強(qiáng)大的 agent,這真的是一件無比激動(dòng)人心的大事。如果說我最想表達(dá)什么,那就是我對此抱有極大的樂觀,我認(rèn)為一切都會(huì)變得非常好,這不僅將實(shí)現(xiàn)歷史上知識(shí)分子乃至普通人一直以來追尋的偉大探索目標(biāo),還將對世界的經(jīng)濟(jì)發(fā)展產(chǎn)生巨大的積極影響。

未來并非全都是一帆風(fēng)順的,肯定會(huì)面臨諸多挑戰(zhàn),但這并非因?yàn)槿斯ぶ悄軙?huì)帶來什么糟糕的結(jié)果,總的來說,它是一件極具積極意義的事。它將為我們帶來更深入的科學(xué)研究、更透徹的自我認(rèn)知,甚至有可能幫助我們更好地和平共處,而這正是 Openmind 使命的一部分。

每個(gè)人都能參與到這份理解中來,我們會(huì)展開合作,共同去探索人工智能的奧秘,共同收獲它帶來的成果,共同加深對自我的認(rèn)知,而且要明白,并非只有機(jī)器會(huì)變得智能,我們?nèi)祟愖陨硪矔?huì)通過增強(qiáng)手段變得更聰明。其實(shí)我們已經(jīng)在被增強(qiáng)了,電話在增強(qiáng)我們的溝通,眼鏡在增強(qiáng)我們的視力,一支鉛筆、一門能讓彼此交流的語言,這些都是對我們能力的增強(qiáng),人工智能實(shí)際上就是這一增強(qiáng)過程的延續(xù),所以人工智能的發(fā)展前景會(huì)非常好。我們應(yīng)當(dāng)為從事這項(xiàng)工作而感到由衷的喜悅,并為了全人類的福祉去推進(jìn)它的發(fā)展。


未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
5連勝廣東傳來2好3壞消息!胡明軒傷情正式確認(rèn),新的隱患出現(xiàn)

5連勝廣東傳來2好3壞消息!胡明軒傷情正式確認(rèn),新的隱患出現(xiàn)

后仰大風(fēng)車
2025-12-24 07:15:06
競聘四天24人報(bào)名,孔令輝鄧亞萍成熱門,31日揭曉結(jié)果

競聘四天24人報(bào)名,孔令輝鄧亞萍成熱門,31日揭曉結(jié)果

最美的開始
2025-12-24 19:28:33
鄭麗文韓國瑜聯(lián)手清黨渣,侯友宜盧秀燕跪地求饒,國民黨終于姓鄭

鄭麗文韓國瑜聯(lián)手清黨渣,侯友宜盧秀燕跪地求饒,國民黨終于姓鄭

徐徐道史
2025-12-24 11:09:24
對華合約全部撕毀!中國又一伙伴背后捅刀子,騙走了20億倒向美國

對華合約全部撕毀!中國又一伙伴背后捅刀子,騙走了20億倒向美國

嘆知
2025-12-23 17:58:52
2026年開始,財(cái)神已經(jīng)提前敲門的三個(gè)星座,擋都擋不住

2026年開始,財(cái)神已經(jīng)提前敲門的三個(gè)星座,擋都擋不住

小晴星座說
2025-12-22 20:58:19
孩子父親真相大白一月后,奚美娟低調(diào)露面,手足無措,落寞呆坐

孩子父親真相大白一月后,奚美娟低調(diào)露面,手足無措,落寞呆坐

孫镴北漂拍客
2025-12-24 12:54:58
這次,朱孝天將阿信給他保留的體面撕得粉碎,楊天真的話有人信了

這次,朱孝天將阿信給他保留的體面撕得粉碎,楊天真的話有人信了

叨嘮
2025-12-24 07:00:09
日本將向?yàn)蹩颂m提供60億美元的財(cái)政援助,以支持其對俄的自衛(wèi)

日本將向?yàn)蹩颂m提供60億美元的財(cái)政援助,以支持其對俄的自衛(wèi)

桂系007
2025-12-22 01:56:32
中央批準(zhǔn):C9常務(wù)副書記,出任985大學(xué)黨委書記(副部長級)

中央批準(zhǔn):C9常務(wù)副書記,出任985大學(xué)黨委書記(副部長級)

雙一流高校
2025-12-24 18:59:14
祖巴茨才是快船最大毒瘤!傷停后倫納德科林斯齊爆,防守也變好了

祖巴茨才是快船最大毒瘤!傷停后倫納德科林斯齊爆,防守也變好了

籃球資訊達(dá)人
2025-12-24 16:14:39
黃金,突發(fā)!

黃金,突發(fā)!

證券時(shí)報(bào)e公司
2025-12-24 12:23:14
你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

帶你感受人間冷暖
2025-11-26 00:10:06
A股:做好心理預(yù)期,明天(12月25日),行情很可能會(huì)重演歷史了

A股:做好心理預(yù)期,明天(12月25日),行情很可能會(huì)重演歷史了

財(cái)經(jīng)大拿
2025-12-24 14:02:33
就在剛剛!CBA首位主帥正式下課!接替者是遼籍名帥!曾帶隊(duì)奪冠

就在剛剛!CBA首位主帥正式下課!接替者是遼籍名帥!曾帶隊(duì)奪冠

老吳說體育
2025-12-24 15:56:54
導(dǎo)演翟俊杰去世

導(dǎo)演翟俊杰去世

新京報(bào)
2025-12-24 16:04:03
曝小米汽車預(yù)研市面上所有智駕路線,智駕團(tuán)隊(duì)超1800人

曝小米汽車預(yù)研市面上所有智駕路線,智駕團(tuán)隊(duì)超1800人

IT之家
2025-12-24 11:24:14
媽媽吐槽16歲兒子特意讓煮紅糖姜茶帶學(xué)校,也沒敢問,評論區(qū)炸鍋

媽媽吐槽16歲兒子特意讓煮紅糖姜茶帶學(xué)校,也沒敢問,評論區(qū)炸鍋

觀察鑒娛
2025-12-24 09:09:51
張學(xué)良晚年吐真言:西安事變我只是名義上的,真正的主角是他!楊虎城后人上門,他為何閉口不談?

張學(xué)良晚年吐真言:西安事變我只是名義上的,真正的主角是他!楊虎城后人上門,他為何閉口不談?

歷史回憶室
2025-12-16 14:26:14
-5℃!雨夾雪、雪!今夜抵達(dá)浙江

-5℃!雨夾雪、雪!今夜抵達(dá)浙江

魯中晨報(bào)
2025-12-24 20:13:04
一次扣12分+罰款1000元!上海警方通報(bào):多車被重罰,涉這項(xiàng)違法行為!

一次扣12分+罰款1000元!上海警方通報(bào):多車被重罰,涉這項(xiàng)違法行為!

新浪財(cái)經(jīng)
2025-12-24 14:51:31
2025-12-24 22:32:49
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

韓國財(cái)閥千金在柬埔寨被捕 被指涉嫌參與性交易和販毒

頭條要聞

韓國財(cái)閥千金在柬埔寨被捕 被指涉嫌參與性交易和販毒

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會(huì)跟進(jìn)?

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

教育
家居
游戲
手機(jī)
時(shí)尚

教育要聞

你今天對女兒的支持,孩子將來會(huì)懂得!

家居要聞

法式大平層 智能家居添彩

《風(fēng)水喵將》評測:高自由度構(gòu)筑破傳統(tǒng)

手機(jī)要聞

性能全開!華為Mate 80 GTS最快明年3月發(fā):配散熱風(fēng)扇 搭更強(qiáng)版麒麟9030

快點(diǎn)告別“媽媽裝”!50+女性的冬季穿搭靈感,每一套都超美

無障礙瀏覽 進(jìn)入關(guān)懷版