国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

社會模擬邁入可控、可量化時(shí)代:為AI Agent加上「認(rèn)知滑條」

0
分享至



用大模型做社會模擬,你能保證換個(gè)模型, Agent 還會做出一樣的決策嗎?在 LLM-based 社會模擬中,研究者通常用一段自然語言描述來定義 Agent 的行為,例如「John Lin 是一個(gè)社區(qū)藥店老板,他熱心助人……」。這種基于人設(shè)的 Agent 定義方式已被廣泛采用,幾乎成為社會模擬領(lǐng)域的標(biāo)準(zhǔn)范式。然而:這些描述究竟是在「定義 Agent 」,還是只是提供了一種松散且無法穩(wěn)定復(fù)現(xiàn)的行為暗示?

UCSD 團(tuán)隊(duì)在 CHI 2026 Best Paper 論文CoBRA (眼鏡蛇)中提出了一套可量化、可驗(yàn)證、可復(fù)現(xiàn)的 Agent 控制框架。它將經(jīng)典社會科學(xué)實(shí)驗(yàn)轉(zhuǎn)化為可復(fù)用的校準(zhǔn)環(huán)境,使 Agent 行為可被測量、反饋與收斂,建立類似實(shí)驗(yàn)科學(xué)的變量控制機(jī)制,并在輸入、激活與參數(shù)空間實(shí)現(xiàn)定量化控制。

CoBRA 標(biāo)志著AI 社會模擬從經(jīng)驗(yàn)式敘述走向可控、可復(fù)現(xiàn)的實(shí)驗(yàn)科學(xué)范式。


視頻鏈接:https://mp.weixin.qq.com/s/FJULL6lcvqIFE4NaCEOx7w

  • 論文標(biāo)題:CoBRA: Programming Cognitive Bias in Social Agents Using Classic Social Science Experiments
  • 論文鏈接:https://arxiv.org/abs/2509.13588
  • 代碼鏈接:https://github.com/AISmithLab/CoBRA
  • 項(xiàng)目主頁:https://cobra.clawder.ai

自然語言人設(shè)的可控性困境

研究者首先做了一組先導(dǎo)實(shí)驗(yàn)。他們用經(jīng)典社會科學(xué)實(shí)驗(yàn)——亞洲疾病問題——來測試 Agent 的框架效應(yīng)。這是行為決策研究中的經(jīng)典范式:當(dāng)同一個(gè)結(jié)果被描述為「 200 人被救活」或「 400 人將死亡」時(shí),人類會系統(tǒng)性地改變決策偏好。

他們設(shè)計(jì)了三種 Agent 人設(shè)——經(jīng)濟(jì)學(xué)家、普通人和空白(無描述)——并在 Mistral 7B 、 Gemma2 9B 、 GPT-4o Mini 、 DeepSeek-v3 四個(gè)模型上進(jìn)行了測試。

結(jié)果令人反思:

  • 同一描述,不同模型,行為完全不同。結(jié)果顯示所有條件下跨模型行為差異顯著。例如, Mistral 7B 的回答嚴(yán)重偏向正面框架,而 Gemma2 9B 的回答接近中性。
  • 隱式描述無法可靠地產(chǎn)生預(yù)期行為。社會科學(xué)研究表明,經(jīng)濟(jì)學(xué)專家往往比普通人更不容易受到框架效應(yīng)的影響。但四個(gè)模型中,只有 GPT-4o 的結(jié)果勉強(qiáng)符合這一預(yù)期; DeepSeek 中經(jīng)濟(jì)學(xué)家反而比普通人更容易受影響; Mistral 三種人設(shè)幾乎沒有區(qū)別。

一句話總結(jié):用自然語言給 Agent 寫人設(shè),在科學(xué)意義上是不可控的、不可復(fù)現(xiàn)的。

CoBRA:用經(jīng)典實(shí)驗(yàn)為 Agent 行為「標(biāo)定刻度」



圖:CoBRA 工作流

CoBRA 的核心思路出奇地優(yōu)雅:把經(jīng)過幾十年驗(yàn)證的經(jīng)典社會科學(xué)實(shí)驗(yàn)當(dāng)作 Agent 的「考試」,測完再調(diào),調(diào)到達(dá)標(biāo)。

例如,我們希望精確指定一個(gè) Agent 受到「框架效應(yīng)」這種認(rèn)知偏差的影響程度,就可以讓它參加經(jīng)典的「亞洲疾病問題」等實(shí)驗(yàn),測量其決策差異,將這種差異量化為偏差指數(shù),并根據(jù)目標(biāo)水平調(diào)節(jié)控制系數(shù),再次測量,直至其偏差程度達(dá)到預(yù)設(shè)值。

CoBRA 以「認(rèn)知偏差」作為試點(diǎn)。認(rèn)知偏差不同于抽象的價(jià)值觀或道德判斷,它具有明確的實(shí)驗(yàn)定義、可計(jì)算的行為指標(biāo)以及可驗(yàn)證的干預(yù)路徑,因此更適合作為構(gòu)建可量化調(diào)節(jié)的工程起點(diǎn)。

具體來說, CoBRA 包含兩個(gè)核心組件:

1. 認(rèn)知偏差指數(shù)——量化 Agent 的偏差程度

CoBRA 的認(rèn)知偏差指數(shù)建立在經(jīng)典社會科學(xué)實(shí)驗(yàn)范式之上,系統(tǒng)性地覆蓋四類具有代表性的認(rèn)知偏差(權(quán)威效應(yīng)、從眾效應(yīng)、確認(rèn)偏差與框架效應(yīng)),每類偏差均對應(yīng)兩種經(jīng)典實(shí)驗(yàn)范式,用于交叉校準(zhǔn)與驗(yàn)證。 Agent 在這些實(shí)驗(yàn)中的表現(xiàn)被量化為一個(gè) 0-4 的連續(xù)分?jǐn)?shù)。同一偏差類型的兩個(gè)范式相互驗(yàn)證——在一個(gè)范式上校準(zhǔn)的控制系數(shù),在另一個(gè)范式上也應(yīng)產(chǎn)生一致的效果。

2. 行為調(diào)節(jié)引擎——從三個(gè)層次調(diào)控 Agent

行為調(diào)節(jié)引擎覆蓋 LLM 的三個(gè)基本干預(yù)空間:

輸入空間(Prompt Numerical Control):用數(shù)值化指令(如「你的權(quán)威偏差程度是 65% 」)替代模糊的定性描述,無需訓(xùn)練。該方法適用于所有模型。

激活空間(Representation Engineering):通過三組對比樣本(偏差正例 / 中性 / 反例),提取出干凈的偏差方向向量,并與安全拒絕信號分離,在推理時(shí)注入隱藏狀態(tài)。注入方式有兩種: Linear Control 像是均勻放大或減弱偏差強(qiáng)度,表達(dá)范圍更廣; Projection Control 則根據(jù)當(dāng)前語境自適應(yīng)調(diào)節(jié),控制曲線更平滑穩(wěn)定。該方法適用于開源模型。

參數(shù)空間(Fine-tuning with Task Vectors):分別訓(xùn)練一個(gè)「有偏差」和「無偏差」的 LoRA ,然后用 task vector 差值作為控制信號,通過控制系數(shù)精確調(diào)節(jié)。

每種方法都通過一個(gè)控制系數(shù)與認(rèn)知偏差指數(shù)形成閉環(huán): CoBRA 自動掃描控制系數(shù),測量 Agent 在實(shí)驗(yàn)中的表現(xiàn),直到達(dá)到目標(biāo)指數(shù)。

跨模型一致性與魯棒性驗(yàn)證

論文在多類開源與閉源系統(tǒng)上開展系統(tǒng)評測,驗(yàn)證了 CoBRA 的跨模型、跨推理模式與跨場景穩(wěn)定性:其顯著降低行為方差,在 0.1–1.0 溫度區(qū)間內(nèi)保持統(tǒng)計(jì)等價(jià),并在不同推理模式下呈現(xiàn)高度一致的控制曲線。

在此基礎(chǔ)上,作者進(jìn)一步從單調(diào)性、平滑度、表達(dá)范圍與泛化性四個(gè)維度系統(tǒng)評估其可控性。結(jié)果顯示,激活空間的控制在單調(diào)性與平滑度上表現(xiàn)最佳,輸入空間控制則提供更大的表達(dá)范圍。同時(shí),控制系數(shù)可在不同實(shí)驗(yàn)范式間遷移,并在不同人設(shè)設(shè)定下保持高度一致,展現(xiàn)出良好的泛化能力。

開放任務(wù)驗(yàn)證

論文進(jìn)一步模擬了經(jīng)典的情緒傳染場景,以展示 CoBRA 的實(shí)際應(yīng)用價(jià)值。在實(shí)驗(yàn)中, Agent 瀏覽包含不同比例負(fù)面帖子的社交媒體信息流,隨后生成新的內(nèi)容。研究者通過分析其生成文本的情緒變化,衡量情緒傳染的強(qiáng)度。

基線方法僅通過自然語言描述調(diào)節(jié)偏差強(qiáng)度,結(jié)果顯示不同偏差等級的 Agent 情緒傳染曲線幾乎完全重疊,難以有效區(qū)分。相比之下, CoBRA 呈現(xiàn)出清晰的劑量——響應(yīng)關(guān)系:從眾效應(yīng)認(rèn)知偏差指數(shù)越高, Agent 表現(xiàn)出的情緒傳染程度也越強(qiáng),不同等級之間具有明確且穩(wěn)定的區(qū)分度。

該情緒傳染實(shí)驗(yàn)基于開放式任務(wù),體現(xiàn)出 CoBRA 明確的實(shí)際應(yīng)用價(jià)值。

從「像那么回事」到「可控和可復(fù)現(xiàn)」

這項(xiàng)工作的意義,可以概括為從「看起來像那么回事」到「可控、可復(fù)現(xiàn)的科學(xué)研究」的跨越。過去的 LLM 社會模擬依賴自然語言人設(shè)來塑造行為,直觀卻缺乏穩(wěn)定的控制結(jié)構(gòu)。 CoBRA 將經(jīng)典社會科學(xué)實(shí)驗(yàn)轉(zhuǎn)化為可復(fù)用的校準(zhǔn)環(huán)境,使 Agent 行為能夠被持續(xù)測量與調(diào)節(jié),從而建立起類似實(shí)驗(yàn)科學(xué)的變量控制機(jī)制。

CoBRA 讓 Agent 擁有清晰的刻度與調(diào)節(jié)旋鈕。當(dāng) Agent 行為可以被標(biāo)定和收斂,社會模擬也就真正進(jìn)入了可復(fù)現(xiàn)的工程階段。

作者信息

劉萱:加州大學(xué)圣地亞哥分校(UCSD)博士生, 2025 年本科畢業(yè)于香港理工大學(xué)。研究方向聚焦人工智能與人機(jī)交互,關(guān)注 AI 系統(tǒng)的類人認(rèn)知與社會智能機(jī)制,構(gòu)建面向科學(xué)研究的 AI 工具,以及其隱私與安全問題。個(gè)人主頁:https://xuanl17.github.io/

商昊暘:獨(dú)立學(xué)者, 2025 年本科畢業(yè)于上海交通大學(xué),將于 2026 年秋季加入英屬哥倫比亞大學(xué)(UBC)深造。

金浩?。?/strong>加州大學(xué)圣地亞哥分校(UCSD)助理教授,博士畢業(yè)于卡內(nèi)基梅隆大學(xué)人機(jī)交互研究所(CMU HCII),本科就讀于華中科技大學(xué)。研究方向涵蓋人機(jī)交互、隱私與安全及人本系統(tǒng)設(shè)計(jì)。個(gè)人主頁:https://www.haojianj.in/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為什么全世界最瘦的是日本人?評論區(qū)的回答笑暈了,簡直一針見血

為什么全世界最瘦的是日本人?評論區(qū)的回答笑暈了,簡直一針見血

另子維愛讀史
2026-03-06 20:14:42
張雪峰女兒面臨跟后媽爭產(chǎn),二婚妻子履歷遭深扒,海量生活照曝光

張雪峰女兒面臨跟后媽爭產(chǎn),二婚妻子履歷遭深扒,海量生活照曝光

壹月情感
2026-03-26 19:26:34
上海凈資產(chǎn)2000萬以上家庭有多少?

上海凈資產(chǎn)2000萬以上家庭有多少?

巢客HOME
2026-03-28 09:40:07
美媒靈魂拷問:連著三任總統(tǒng)都要對付中國,最后卻全都斷送在中東

美媒靈魂拷問:連著三任總統(tǒng)都要對付中國,最后卻全都斷送在中東

福建平子
2026-03-29 08:44:13
我就不信張一山?jīng)]有后悔過嗎?這么美的前任拱手讓出去了

我就不信張一山?jīng)]有后悔過嗎?這么美的前任拱手讓出去了

陳意小可愛
2026-03-27 10:38:38
A股:信號非常明確,不用等了,3月30日,下周一或許這樣走:

A股:信號非常明確,不用等了,3月30日,下周一或許這樣走:

風(fēng)風(fēng)順
2026-03-29 06:50:01
女婿伺候岳母10年,妻子提離婚他笑著答應(yīng),出民政局后妻子懵了

女婿伺候岳母10年,妻子提離婚他笑著答應(yīng),出民政局后妻子懵了

曉艾故事匯
2025-08-07 17:10:25
真是U23?朝鮮3天2場首發(fā)不變?nèi)辕偱苋珗?壓制國足 8塊腹肌引熱議

真是U23?朝鮮3天2場首發(fā)不變?nèi)辕偱苋珗?壓制國足 8塊腹肌引熱議

我愛英超
2026-03-28 22:57:12
核桃立大功!國際頂刊證實(shí):可降低全身炎癥,4周壽命延長45%

核桃立大功!國際頂刊證實(shí):可降低全身炎癥,4周壽命延長45%

思思夜話
2026-03-28 13:00:30
別被“某音”前凸后翹的網(wǎng)紅騙了

別被“某音”前凸后翹的網(wǎng)紅騙了

健身S叔
2026-03-22 11:12:04
斯諾克紅包賽:首日決出第5席8強(qiáng),小鋼炮拒絕3連敗,NO.1或翻車

斯諾克紅包賽:首日決出第5席8強(qiáng),小鋼炮拒絕3連敗,NO.1或翻車

劉姚堯的文字城堡
2026-03-29 07:59:15
上萬民眾自發(fā)趕來送別張雪峰!祭品中的黃桃罐頭和餃子,讓人淚目

上萬民眾自發(fā)趕來送別張雪峰!祭品中的黃桃罐頭和餃子,讓人淚目

火山詩話
2026-03-28 11:57:22
左手諾貝爾,右手奧斯卡,怎么做到的?

左手諾貝爾,右手奧斯卡,怎么做到的?

中國新聞周刊
2026-03-28 07:31:04
48小時(shí)最后通牒變16日拉鋸戰(zhàn) 美國上演“狼來了”

48小時(shí)最后通牒變16日拉鋸戰(zhàn) 美國上演“狼來了”

中國能源網(wǎng)
2026-03-28 12:16:02
李采娜1米65身材太吸睛,大骨架臉氣質(zhì)非凡!網(wǎng)友:傲人胸圍?

李采娜1米65身材太吸睛,大骨架臉氣質(zhì)非凡!網(wǎng)友:傲人胸圍?

娛樂領(lǐng)航家
2026-03-18 21:30:03
央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

落雪聽梅a
2026-03-28 09:14:37
張雪峰家族信托沒完成,員工回應(yīng)其二婚傳聞,曝付幸離異帶一兒子

張雪峰家族信托沒完成,員工回應(yīng)其二婚傳聞,曝付幸離異帶一兒子

壹月情感
2026-03-28 11:33:24
重磅!2年7500萬,哈登與騎士續(xù)約協(xié)議曝光,更炸裂的還在后面…

重磅!2年7500萬,哈登與騎士續(xù)約協(xié)議曝光,更炸裂的還在后面…

煙潯渺渺
2026-03-28 17:03:40
1951年,戴笠的兒子戴善武被執(zhí)行死刑,被槍斃的時(shí)候才36歲

1951年,戴笠的兒子戴善武被執(zhí)行死刑,被槍斃的時(shí)候才36歲

百年歷史老號
2026-03-28 20:32:38
張雪峰離世,紐約時(shí)報(bào)的評價(jià)戳中人心,這才是最真實(shí)的他

張雪峰離世,紐約時(shí)報(bào)的評價(jià)戳中人心,這才是最真實(shí)的他

喜歡歷史的阿繁
2026-03-29 05:43:42
2026-03-29 09:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊(duì)?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價(jià)4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

健康
本地
房產(chǎn)
數(shù)碼
軍事航空

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

本地新聞

在濰坊待了三天,沒遇到一個(gè)“濰坊人”

房產(chǎn)要聞

首日430組來訪,單日120組認(rèn)籌!海口首個(gè)真四代,徹底爆了!

數(shù)碼要聞

小心假冒偽劣硬盤:山寨版三星990 Pro SSD已能偽造讀寫速度

軍事要聞

美軍中東基地?fù)p失最新披露

無障礙瀏覽 進(jìn)入關(guān)懷版