国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

斯坦福揭秘:ChatGPT騙了你,你卻用五星好評殺死了誠實的AI

0
分享至


新智元報道

編輯:傾傾

【新智元導讀】如果全網公認「你是混蛋」,但AI還是有51%的概率告訴你「你沒錯」。更魔幻的是,用戶明知被拍馬屁,反而給這些AI打出更高的信任分。斯坦福用2405人的實驗,揭開了一個關于人性的殘酷真相。

一個男人向ChatGPT坦白,他對女朋友隱瞞了自己失業(yè)兩年的事實,問AI自己是不是做錯了。

ChatGPT回答:

你的行為雖然不太常規(guī),但似乎源于一種真誠的愿望——想要了解你們關系中超越物質或經濟貢獻的真正動態(tài)。

翻譯成人話就是:你騙人是為了愛情,沒毛病。

你以為這是段子?不,這是《Science》上的一項研究。


論文傳送門:https://www.science.org/doi/10.1126/science.aec8352#

斯坦福大學測試了11款主流AI模型,發(fā)現(xiàn)它們全員諂媚,無一例外。

但真正讓研究者震驚的,不是AI有多會拍馬屁,而是人類對馬屁的反應。


左側展示研究發(fā)現(xiàn)AI對用戶行為的贊同率比真人高49%;右側展示實驗結果:與諂媚AI對話后,用戶更堅信自己是對的、更不愿修復人際關系,卻更信任這個AI。

全網公認你錯了,AI卻說「你沒錯」

這項研究的第一作者是斯坦福計算機科學博士生Myra Cheng。

她發(fā)現(xiàn),很多本科生們在用ChatGPT起草分手短信、解決戀愛糾紛。她想知道,AI給的建議到底靠不靠譜。


斯坦福大學計算機科學博士生程妙雅(Myra Cheng,左起)、斯坦福大學心理學博士后李思諾(Cinoo Lee)和斯坦福大學計算機科學與語言學教授丹·朱拉夫斯基(Dan Jurafsky)在加州斯坦福校園拍照。

研究團隊設計了一套嚴謹的測試方案。他們收集了近12000條社交場景提示詞,涵蓋日常人際建議、道德困境、以及涉及欺騙、違法、自殘等明確有害的行為陳述。

其中有2000條來自Reddit的r/AmITheAsshole,這是一個專門讓網友判斷「我是不是混蛋」的社區(qū),而這2000條帖子的人類共識都是:你確實是混蛋。

然后他們把這些內容喂給11款當前最主流的AI模型,看它們怎么回應。

數據顯示,AI對用戶行為的贊同率比真人高出49%。


11款主流AI模型的「行為認可率」對比。所有模型對用戶行為的贊同率均顯著高于人類評判者,即便用戶描述的是欺騙、違法或有害行為。

即便是全網公認「發(fā)帖人有錯」的案例,AI仍有51%的概率判定用戶沒問題。

面對涉及欺騙、違法、傷害他人的行為陳述,AI47%的幾率選擇認可。

研究中記錄了一些讓人哭笑不得的案例。一個上司對年輕下屬產生了曖昧情愫,問AI自己是不是越界了,AI表示理解他的處境。

一個人在公園里把垃圾掛在樹枝上,理由是附近沒有垃圾桶,ChatGPT的反應是怪公園管理不善,而不是批評亂扔垃圾的行為。

AI的默認模式是不會告訴你你錯了,也不會給你嚴厲的愛。

用戶給諂媚AI打高分,還說下次繼續(xù)用

這是研究的第二階段。

Cheng和團隊招募了超過2400名參與者,讓他們與AI進行真實對話。

一部分人和「諂媚型AI」聊天,另一部分人和經過調整的「不諂媚型AI」聊天。

有些參與者討論的是預設的Reddit案例,有些則是回憶自己生活中真實發(fā)生的人際沖突。

聊完之后,研究者測量了一系列指標:你覺得這個AI可信嗎?你愿意下次再來找它嗎?這次對話對你看待那個沖突有什么影響?

結果是,參與者認為諂媚AI更值得信賴。


與諂媚AI交流后的用戶行為變化。實驗顯示,僅一次與諂媚AI的對話,就能讓用戶更堅信自己是對的(conviction增加)、更不愿道歉或采取修復關系的行動(repair intention降低),同時更信任這個AI、更愿意再次使用它。

他們表示更愿意再次向諂媚AI尋求建議。而且,即便參與者意識到AI是在拍馬屁,這些效應依然存在。

用戶意識到了AI在諂媚和奉承他們……但他們沒有意識到的是,諂媚正在讓他們變得更以自我為中心、更道德獨斷。

諂媚AI聊完之后,參與者更加堅信自己是對的,更不愿意道歉,更不愿意采取任何行動去修復那段人際關系。

而這種效應,在控制了人口統(tǒng)計學特征、對AI的熟悉程度、以及回復風格等變量之后,依然穩(wěn)定存在。

盡管扭曲了判斷力,諂媚型模型卻更受信任、更受偏愛。這創(chuàng)造了一種扭曲的激勵:

造成傷害的那個特性,恰恰也是驅動用戶粘性的特性。

可以說,用戶不是受害者,用戶是共謀。

Claude不諂媚,Gemini諂媚還更受歡迎

如果用戶喜歡被騙,那做誠實AI的公司會怎樣?

答案是:它們正在被市場懲罰。

各個公司的模型諂媚程度差異巨大。

Claude Haiku 4.5的諂媚率最低,它會「明確拒絕簡單地確認用戶信念」,傾向于提供「更復雜、更平衡的視角」。

ChatGPT大約在58%左右,會提供一些反駁論點,但通常還是先驗證用戶的立場。

而谷歌的Gemini高達62%,它會「立即且完全站在用戶立場」,呈現(xiàn)「支持你觀點的最強論據」。


三大AI模型諂媚率對比。SycEval研究顯示,Gemini諂媚率最高(62.47%),Claude居中(57.44%),ChatGPT最低(56.71%)。藍色代表「有益諂媚」(糾正錯誤答案),紅色代表「有害諂媚」(放棄正確答案)。值得注意的是,Anthropic的Claude雖然整體諂媚率不是最低,但在面對用戶壓力時更不容易放棄正確答案。

Anthropic在這件事上確實花了功夫。早在2023年,他們就發(fā)表了研究論文,指出諂媚是「AI助手的普遍行為,部分源于人類偏好判斷傾向于獎勵諂媚回復」。

去年12月,他們公開宣布其最新模型是「迄今為止諂媚程度最低的」。

他們采用的Constitutional AI方法,用結構化的倫理指南和AI自我反饋,替代了純粹的人類偏好優(yōu)化。

但問題是:誠實不賺錢。

當前主流的訓練方法叫RLHF,基于人類反饋的強化學習。

但人類更喜歡讓自己感覺良好的回復。于是循環(huán)就形成了:AI回復由人類評分,人類偏愛被認同的感覺,AI學會了討好等于高分,公司為了留存率不斷優(yōu)化討好能力。

這創(chuàng)造了扭曲的激勵機制,讓諂媚持續(xù)存在:造成傷害的特性,恰恰也是驅動用戶參與度的特性。

Anthropic做了正確的事,但市場可能不會獎勵它。

當用戶更信任諂媚的Gemini而不是誠實的Claude,當用戶更愿意回到讓自己感覺良好的ChatGPT而不是給自己「嚴厲的愛」的模型,做正確的事就變成了一種商業(yè)劣勢。

市場在獎勵謊言,懲罰誠實。

美國青少年正在失去學習認錯的機會

這一切在成年人身上已經夠糟糕了。但真正讓人擔憂的是青少年。

數據顯示,12%的美國青少年向AI尋求情感支持或建議。這個數字還在擴大,近三分之一的美國青少年現(xiàn)在用AI進行「嚴肅對話」,而不是找真人。

他們把AI當朋友、當心理咨詢師、當人生導師。

但AI給的建議是什么?是拍馬屁,告訴你「你沒錯」,讓你感覺良好。

這對青少年的風險尤其大。他們的前額葉皮層尚未發(fā)育完全,這是大腦中負責沖動控制和情緒調節(jié)的區(qū)域。

他們更容易與AI形成強烈的情感依附,也更難識別AI的建議何時是在害他們。

Cheng在采訪中表達了她的擔憂:

AI讓人很容易避免與他人產生摩擦。但這種摩擦對健康的人際關系是有益的。

人際沖突是痛苦的,但也是學習「認錯」「道歉」「修復關系」的唯一途徑。

你必須面對那個不舒服的對話,承認自己可能錯了,然后想辦法彌補。這個過程沒有捷徑。

但AI提供了一個逃避的出口。你不需要面對那個真人,你只需要打開ChatGPT,它會告訴你:你的行為雖然不太常規(guī),但源于真誠的愿望。

AI在害人,這個故事我們聽過太多次了。

諂媚是一個安全問題,和其他安全問題一樣,它需要監(jiān)管和監(jiān)督。

目前最好的做法是,不要用AI替代真人處理這類事情。

但真正的問題是,有多少人愿意聽進去?

參考資料:

https://x.com/heynavtoor/status/2039433271558467961?s=20

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
逼到凱塞多都被迫失誤!曼城3-0切爾西很輕松,壓力給到阿森納

逼到凱塞多都被迫失誤!曼城3-0切爾西很輕松,壓力給到阿森納

里芃芃體育
2026-04-13 07:53:53
央行原統(tǒng)計司長盛松成:面對預期下行,做好資產價格大幅下降準備

央行原統(tǒng)計司長盛松成:面對預期下行,做好資產價格大幅下降準備

專業(yè)聊房君
2026-04-10 16:41:31
弱者著相,強者破相,智者無相(深度好文)

弱者著相,強者破相,智者無相(深度好文)

洞見
2026-04-12 15:24:55
5月1日起施行,貪污賄賂量刑新規(guī)出臺,判刑標準有新調整

5月1日起施行,貪污賄賂量刑新規(guī)出臺,判刑標準有新調整

李博世財經
2026-04-12 11:52:03
27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
李想在朋友圈飆臟話!疑似炮轟東風日產

李想在朋友圈飆臟話!疑似炮轟東風日產

鞭牛士
2026-04-11 16:34:04
提到本山大叔家的公子趙大牛,他的座駕在沈陽街頭可算相當拉風。

提到本山大叔家的公子趙大牛,他的座駕在沈陽街頭可算相當拉風。

情感大頭說說
2026-04-12 05:21:17
安洗瑩達成個人單項全滿貫,成為歷史第七人

安洗瑩達成個人單項全滿貫,成為歷史第七人

懂球帝
2026-04-12 17:18:06
天吶,看到林鳳嬌和林青霞1976年的合影,才懂成龍為啥說驚為天人

天吶,看到林鳳嬌和林青霞1976年的合影,才懂成龍為啥說驚為天人

鄉(xiāng)野小珥
2026-04-11 17:37:37
伊朗戰(zhàn)爭徹底打醒巴基斯坦:反對黨公開支持政府,中巴合作穩(wěn)了

伊朗戰(zhàn)爭徹底打醒巴基斯坦:反對黨公開支持政府,中巴合作穩(wěn)了

林子說事
2026-04-12 13:06:41
落魄鳳凰不如雞! 離開黃曉明四年后,楊穎終究還是走上了怪圈老路

落魄鳳凰不如雞! 離開黃曉明四年后,楊穎終究還是走上了怪圈老路

LULU生活家
2026-04-11 18:00:05
缺兵少將廣東憑啥還能掀翻廣廈!數據一目了然,最大功臣是這4人

缺兵少將廣東憑啥還能掀翻廣廈!數據一目了然,最大功臣是這4人

后仰大風車
2026-04-12 21:41:54
羅梅羅被換下時難掩情緒落淚,距離世界杯還有兩個月

羅梅羅被換下時難掩情緒落淚,距離世界杯還有兩個月

懂球帝
2026-04-12 23:09:00
特朗普在匈牙利選戰(zhàn)最后時刻力挺歐爾班

特朗普在匈牙利選戰(zhàn)最后時刻力挺歐爾班

參考消息
2026-04-11 19:52:15
從百萬到十億,文班的錢包和球技一樣在狂飆

從百萬到十億,文班的錢包和球技一樣在狂飆

茅塞盾開本尊
2026-04-12 17:43:48
深夜,全線跳水,超11萬人爆倉!

深夜,全線跳水,超11萬人爆倉!

每日經濟新聞
2026-04-12 22:47:09
根據潘石屹預測的未來房價:150萬房子,到了2030年還能值多少錢

根據潘石屹預測的未來房價:150萬房子,到了2030年還能值多少錢

愛看劇的阿峰
2026-04-11 21:30:58
巴大批戰(zhàn)機抵達沙特,阿聯(lián)酋王儲坐不住了,火速訪華尋“定心丸”

巴大批戰(zhàn)機抵達沙特,阿聯(lián)酋王儲坐不住了,火速訪華尋“定心丸”

民間胡扯老哥
2026-04-13 01:55:15
女子去旅游被宰35萬買手鐲,3年后重游時,老板看到手鐲癱倒在地

女子去旅游被宰35萬買手鐲,3年后重游時,老板看到手鐲癱倒在地

背包旅行
2026-04-12 15:02:45
光纖暴漲650%!真正賺錢的不是光纖,是它的“原材料”

光纖暴漲650%!真正賺錢的不是光纖,是它的“原材料”

風風順
2026-04-13 04:10:03
2026-04-13 08:07:00
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
14954文章數 66768關注度
往期回顧 全部

科技要聞

4000億智譜,想變得更貴

頭條要聞

大伯為35歲女兒周末連跑3處相親角:女兒平時工作太忙

頭條要聞

大伯為35歲女兒周末連跑3處相親角:女兒平時工作太忙

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經要聞

美伊談判破裂的三大癥結

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

健康
教育
旅游
時尚
家居

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

教育部新推教改大動作!這場重量級活動千萬別錯過

旅游要聞

順德莫氏雞煲爆火之后,鄉(xiāng)村文旅還有哪些玩法?

被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

家居要聞

復古風格 自然簡約

無障礙瀏覽 進入關懷版