国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

強(qiáng)化學(xué)習(xí):我們?nèi)绾伪华?jiǎng)勵(lì)塑造行為

0
分享至


很多時(shí)候,我們以為自己是在思考之后才學(xué)會(huì)某種行為。但從神經(jīng)科學(xué)的角度看,學(xué)習(xí)往往發(fā)生得更早,也更隱秘。

當(dāng)一個(gè)選擇帶來(lái)好結(jié)果,它更可能再次出現(xiàn);當(dāng)一個(gè)行為導(dǎo)致不利后果,它逐漸被抑制。

這種從反饋中調(diào)整行為的過(guò)程,被稱(chēng)為強(qiáng)化學(xué)習(xí)(reinforcement learning)。它并不是某種高階推理,而是連接經(jīng)驗(yàn)、行動(dòng)與未來(lái)選擇的基本機(jī)制。

在神經(jīng)科學(xué)中,強(qiáng)化學(xué)習(xí)并不是從計(jì)算機(jī)科學(xué)“照搬”來(lái)的概念。相反,它最早來(lái)自對(duì)動(dòng)物行為的觀察:獎(jiǎng)勵(lì)不僅帶來(lái)愉悅感,更重要的是,它會(huì)改變行為的概率。正是這一點(diǎn),讓獎(jiǎng)勵(lì)成為塑造決策的關(guān)鍵力量。

從“被獎(jiǎng)勵(lì)”到“做選擇”

早期心理學(xué)家很早就注意到,如果一個(gè)行為產(chǎn)生令人滿意的結(jié)果,它會(huì)在未來(lái)更頻繁地出現(xiàn)。久而久之,人們甚至提出一種激進(jìn)的觀點(diǎn):所有行為,都是為了獲得獎(jiǎng)勵(lì)或避免懲罰。

這一思想在行為主義時(shí)代被推到極致。通過(guò)精心控制獎(jiǎng)勵(lì)出現(xiàn)的方式——比如間隔多久、需要付出多少努力——研究者發(fā)現(xiàn),行為可以被系統(tǒng)性地塑造。動(dòng)物并不需要理解規(guī)則本身,只要反饋?zhàn)銐蚍€(wěn)定,行為模式就會(huì)逐漸成形。

真正讓“學(xué)習(xí)”與“決策”交匯的,是當(dāng)環(huán)境中出現(xiàn)了多個(gè)可選項(xiàng)。當(dāng)個(gè)體不再只是重復(fù)一個(gè)動(dòng)作,而是在不同選項(xiàng)之間分配時(shí)間和精力,選擇本身就成為研究對(duì)象。

在這些多選項(xiàng)任務(wù)中,一個(gè)令人著迷的現(xiàn)象反復(fù)出現(xiàn):個(gè)體往往不會(huì)把所有行為都?jí)旱交貓?bào)最高的選項(xiàng)上。相反,它們會(huì)在不同選項(xiàng)之間分配選擇次數(shù),而且分配比例往往接近各選項(xiàng)獲得獎(jiǎng)勵(lì)的比例。這種現(xiàn)象被稱(chēng)為匹配行為。它描述了行為如何隨回報(bào)分布而變化,卻并不解釋行為為何如此。

更耐人尋味的是,在大多數(shù)實(shí)驗(yàn)中,個(gè)體表現(xiàn)出的并不是“完美匹配”,而是一種偏離——它們對(duì)高回報(bào)選項(xiàng)的選擇不夠極端,對(duì)低回報(bào)選項(xiàng)的嘗試反而更多。這種現(xiàn)象被稱(chēng)為欠匹配。

從結(jié)果上看,這似乎并不完全“理性”。如果目標(biāo)是最大化回報(bào),為什么不更堅(jiān)決地選擇更好的選項(xiàng)?

大腦在做全局計(jì)算嗎?

一個(gè)重要的轉(zhuǎn)折在于,人們開(kāi)始意識(shí)到:也許問(wèn)題不在“結(jié)果是否最優(yōu)”,而在大腦如何在時(shí)間中做決定。

在現(xiàn)實(shí)世界中,回報(bào)是隨機(jī)的、嘈雜的,真正的回報(bào)率需要很長(zhǎng)時(shí)間才能估計(jì)清楚。如果要判斷“長(zhǎng)期來(lái)看這樣做是否更好”,大腦必須保留大量歷史信息,并進(jìn)行復(fù)雜計(jì)算。這在生物系統(tǒng)中并不容易實(shí)現(xiàn)。

相反,如果大腦采用的是一種局部規(guī)則——在當(dāng)下偏向最近回報(bào)更高的選項(xiàng)——那么欠匹配反而是自然結(jié)果。每一次選擇,都是基于近期經(jīng)驗(yàn)的權(quán)衡,而不是對(duì)整體結(jié)構(gòu)的精確把握。

從這種局部選擇規(guī)則出發(fā),長(zhǎng)期統(tǒng)計(jì)上的匹配行為會(huì)自然涌現(xiàn),而無(wú)需大腦明確追求“最優(yōu)解”。

當(dāng)研究者把目光投向大腦時(shí),這一假設(shè)開(kāi)始獲得支持。在靈長(zhǎng)類(lèi)動(dòng)物的實(shí)驗(yàn)中,神經(jīng)元的活動(dòng)不僅與選擇本身有關(guān),還會(huì)隨選項(xiàng)的回報(bào)歷史發(fā)生系統(tǒng)性變化。

某些神經(jīng)區(qū)域中的神經(jīng)元,其放電強(qiáng)度會(huì)反映某個(gè)選項(xiàng)在近期“有多值得選”。這種信號(hào)并不是一次性計(jì)算出的,而是通過(guò)對(duì)獎(jiǎng)勵(lì)歷史的持續(xù)整合逐步形成。

重要的是,這種整合并不是無(wú)限的。較新的結(jié)果影響更大,較久遠(yuǎn)的結(jié)果逐漸衰減。這意味著,大腦對(duì)世界的估計(jì)始終是動(dòng)態(tài)的、帶有遺忘的。

學(xué)習(xí)信號(hào)來(lái)自哪里?

要讓估計(jì)發(fā)生改變,大腦需要一個(gè)關(guān)鍵信號(hào):當(dāng)結(jié)果與預(yù)期不一致時(shí),系統(tǒng)必須“知道自己錯(cuò)了”。

這正是預(yù)測(cè)誤差的核心思想。預(yù)測(cè)誤差并不只是“得到了多少獎(jiǎng)勵(lì)”,而是“實(shí)際結(jié)果與預(yù)期之間的差異”。如果結(jié)果比預(yù)期好,估計(jì)上調(diào);如果更差,估計(jì)下調(diào)。

在大腦中,某些神經(jīng)系統(tǒng)的活動(dòng)模式,與這種誤差信號(hào)高度一致。它們?cè)诮Y(jié)果超出預(yù)期時(shí)短暫增強(qiáng),在結(jié)果落空時(shí)被抑制。這種信號(hào)并不是為了制造快感,而是為了驅(qū)動(dòng)學(xué)習(xí),讓連接發(fā)生改變。

隨著時(shí)間維度被引入,預(yù)測(cè)誤差也不再局限于結(jié)果出現(xiàn)的那一刻,而是逐漸提前,轉(zhuǎn)移到那些預(yù)示未來(lái)結(jié)果的線索上。這一現(xiàn)象,為更連續(xù)的學(xué)習(xí)模型提供了基礎(chǔ)。

正是在這樣的背景下,研究者開(kāi)始借助計(jì)算機(jī)科學(xué)中的強(qiáng)化學(xué)習(xí)框架,對(duì)這些過(guò)程進(jìn)行形式化描述。在這一框架中,個(gè)體被視為一個(gè)與環(huán)境互動(dòng)的“代理”,通過(guò)行動(dòng)獲得反饋,并試圖在時(shí)間中最大化回報(bào)

這些模型提供了一種清晰的語(yǔ)言,用來(lái)描述學(xué)習(xí)、選擇和更新的關(guān)系。但它們并不等同于大腦的真實(shí)實(shí)現(xiàn)方式。某些算法在數(shù)學(xué)上優(yōu)雅,卻可能難以在嘈雜、有限的神經(jīng)系統(tǒng)中實(shí)現(xiàn)。

事實(shí)上,動(dòng)物的行為往往偏離這些“理想模型”。它們會(huì)更新未被選擇的選項(xiàng),會(huì)表現(xiàn)出選擇慣性,會(huì)在探索與利用之間搖擺。這些特征并非噪聲,而是生物系統(tǒng)在現(xiàn)實(shí)約束下的產(chǎn)物。

從神經(jīng)科學(xué)的角度看,強(qiáng)化學(xué)習(xí)更像是一種視角,幫助我們理解:經(jīng)驗(yàn)如何塑造行為,反饋如何改變選擇,以及學(xué)習(xí)如何嵌入決策本身

它提醒我們,所謂“理性”,并不意味著完美計(jì)算;所謂“學(xué)習(xí)”,也不意味著穩(wěn)定收斂。在真實(shí)的大腦中,學(xué)習(xí)總是在有限信息、不確定環(huán)境和生物約束下展開(kāi)。而正是在這種不完美中,行為才顯得如此真實(shí)。

在「神經(jīng)現(xiàn)實(shí) x Noetex Academy」新一期的決策神經(jīng)科學(xué)課程中,你將進(jìn)一步了解神經(jīng)科學(xué)如何研究強(qiáng)化學(xué)習(xí)。在達(dá)特茅斯學(xué)院神經(jīng)科學(xué)教授Alireza Soltani帶領(lǐng)下,你將進(jìn)入生物、認(rèn)知和計(jì)算三個(gè)層級(jí),探尋決策機(jī)制的神經(jīng)基礎(chǔ),以及它如何啟發(fā)經(jīng)濟(jì)學(xué)、認(rèn)知科學(xué)和人工智能等領(lǐng)域的發(fā)展。







特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
單位分房沒(méi)我名額,我平靜簽了離職單,隔天收到66個(gè)領(lǐng)導(dǎo)未接來(lái)電

單位分房沒(méi)我名額,我平靜簽了離職單,隔天收到66個(gè)領(lǐng)導(dǎo)未接來(lái)電

奶茶麥子
2026-03-01 18:46:23
4-1淘汰勒布倫,5戰(zhàn)全勝!王楚欽破解“小布密碼”只用了一場(chǎng)比賽

4-1淘汰勒布倫,5戰(zhàn)全勝!王楚欽破解“小布密碼”只用了一場(chǎng)比賽

曹老師評(píng)球
2026-03-01 16:22:31
中國(guó)互聯(lián)網(wǎng)最賺錢(qián)的一臺(tái)“印鈔機(jī)”,突然在一年之內(nèi)“炸機(jī)”

中國(guó)互聯(lián)網(wǎng)最賺錢(qián)的一臺(tái)“印鈔機(jī)”,突然在一年之內(nèi)“炸機(jī)”

流蘇晚晴
2026-02-27 18:16:39
中國(guó)如今的遭遇,絕對(duì)世所罕見(jiàn)

中國(guó)如今的遭遇,絕對(duì)世所罕見(jiàn)

百態(tài)人間
2026-02-28 15:30:34
臺(tái)軍女飛行員郭文靜:只要長(zhǎng)官敢下令,我會(huì)毫不猶豫的擊落殲20!

臺(tái)軍女飛行員郭文靜:只要長(zhǎng)官敢下令,我會(huì)毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
64歲金·凱瑞罕見(jiàn)亮相凱撒獎(jiǎng):歷經(jīng)爭(zhēng)議與沉寂,喜劇之王看透人生

64歲金·凱瑞罕見(jiàn)亮相凱撒獎(jiǎng):歷經(jīng)爭(zhēng)議與沉寂,喜劇之王看透人生

鄉(xiāng)野小珥
2026-02-27 12:42:48
超級(jí)世界波!國(guó)安賽季首球,達(dá)萬(wàn)遠(yuǎn)射破門(mén),22年首人,顏駿凌搖頭

超級(jí)世界波!國(guó)安賽季首球,達(dá)萬(wàn)遠(yuǎn)射破門(mén),22年首人,顏駿凌搖頭

奧拜爾
2026-03-01 16:08:16
開(kāi)打后,明天能低開(kāi)多少

開(kāi)打后,明天能低開(kāi)多少

牛牛說(shuō)金融
2026-03-01 08:54:22
反擊打響后,伊朗首個(gè)盟友加入戰(zhàn)斗,已向以色列發(fā)射導(dǎo)彈!

反擊打響后,伊朗首個(gè)盟友加入戰(zhàn)斗,已向以色列發(fā)射導(dǎo)彈!

達(dá)文西看世界
2026-03-01 16:16:33
馬年首虎!涉嫌嚴(yán)重違紀(jì)違法,韓嵩被查

馬年首虎!涉嫌嚴(yán)重違紀(jì)違法,韓嵩被查

中國(guó)基金報(bào)
2026-02-28 20:55:42
2025年中央紀(jì)委國(guó)家監(jiān)委立案審查調(diào)查中管干部181人

2025年中央紀(jì)委國(guó)家監(jiān)委立案審查調(diào)查中管干部181人

澎湃新聞
2026-02-28 19:30:25
粟裕最狠的一仗!如果沒(méi)有這場(chǎng)勝利,解放戰(zhàn)爭(zhēng)起碼還得再打五年!

粟裕最狠的一仗!如果沒(méi)有這場(chǎng)勝利,解放戰(zhàn)爭(zhēng)起碼還得再打五年!

云端小院
2026-03-01 08:59:24
征服中年女人,無(wú)需套路:兩顆真心,一生相守

征服中年女人,無(wú)需套路:兩顆真心,一生相守

青蘋(píng)果sht
2025-11-04 06:10:40
驚心動(dòng)魄!廣州一名懷抱嬰兒的女子跳江意欲輕生!女子昏迷水中,嬰兒也嗆水…

驚心動(dòng)魄!廣州一名懷抱嬰兒的女子跳江意欲輕生!女子昏迷水中,嬰兒也嗆水…

廣東活動(dòng)
2026-03-01 12:11:29
演員李茂發(fā)視頻稱(chēng)“想回家”:航班被取消了,改簽的航班也被取消

演員李茂發(fā)視頻稱(chēng)“想回家”:航班被取消了,改簽的航班也被取消

韓小娛
2026-03-01 16:36:25
蒙古國(guó)的人,為啥如此仇視中國(guó)人?

蒙古國(guó)的人,為啥如此仇視中國(guó)人?

賤議你讀史
2026-02-27 15:12:56
男籃世預(yù)賽死里逃生?中國(guó)隊(duì)11分逆轉(zhuǎn)晉級(jí)穩(wěn)了:郭士強(qiáng)帥位保住了

男籃世預(yù)賽死里逃生?中國(guó)隊(duì)11分逆轉(zhuǎn)晉級(jí)穩(wěn)了:郭士強(qiáng)帥位保住了

籃球快餐車(chē)
2026-03-01 18:18:14
中國(guó)人口第一大省鎖定!比第二名多3000萬(wàn),地位無(wú)可撼動(dòng)

中國(guó)人口第一大省鎖定!比第二名多3000萬(wàn),地位無(wú)可撼動(dòng)

老特有話說(shuō)
2026-02-10 02:00:06
恩科洛洛高級(jí),國(guó)安單后腰進(jìn)攻流暢,拉莫斯1對(duì)1堅(jiān)決 新援超預(yù)期

恩科洛洛高級(jí),國(guó)安單后腰進(jìn)攻流暢,拉莫斯1對(duì)1堅(jiān)決 新援超預(yù)期

替補(bǔ)席看球
2026-03-01 18:08:21
洗草莓時(shí),有人放食鹽,有人放面粉,果農(nóng):都不對(duì),教你正確做法

洗草莓時(shí),有人放食鹽,有人放面粉,果農(nóng):都不對(duì),教你正確做法

阿龍美食記
2026-02-28 10:49:43
2026-03-01 21:24:49
神經(jīng)現(xiàn)實(shí)
神經(jīng)現(xiàn)實(shí)
大腦,心智,認(rèn)知
2445文章數(shù) 25489關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車(chē)全球首秀!殺入頂豪俱樂(lè)部

頭條要聞

伊朗代表在安理會(huì)會(huì)議上直接警告美方:建議你保持禮貌

頭條要聞

伊朗代表在安理會(huì)會(huì)議上直接警告美方:建議你保持禮貌

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂(lè)要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車(chē)要聞

理想汽車(chē)2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

本地
親子
旅游
健康
公開(kāi)課

本地新聞

津南好·四時(shí)總相宜

親子要聞

春日敏感肌自救指南,你get了嗎?

旅游要聞

去年秋天至今“沒(méi)睡過(guò)覺(jué)”,河津櫻早開(kāi)刷新15年紀(jì)錄

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版