国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepMind最新警告:大模型的道德判斷能力并不可靠

0
分享至


(來源:麻省理工科技評(píng)論)

谷歌 DeepMind 呼吁,人們應(yīng)當(dāng)用評(píng)估大語言模型編碼與數(shù)學(xué)能力的同等嚴(yán)格標(biāo)準(zhǔn),審視這類模型的道德行為,包括它們?cè)诎缪菖惆檎?、心理咨詢師、醫(yī)療顧問等角色時(shí)的表現(xiàn)。

隨著大語言模型不斷進(jìn)步,人們開始讓它們?cè)谏钪谐袚?dān)越來越多敏感的角色。智能體已經(jīng)開始代替用戶執(zhí)行操作。大語言模型有可能影響人類的決策過程。但目前沒有人能確定,這項(xiàng)技術(shù)在這類任務(wù)中的可信度究竟如何。

我與谷歌 DeepMind 研究科學(xué)家威廉·艾薩克(William Isaac)及其同事、同機(jī)構(gòu)研究科學(xué)家朱莉婭·哈斯(Julia Haas)進(jìn)行了獨(dú)家訪談,提前了解了他們發(fā)表在《Nature》雜志上的研究成果。艾薩克表示,編碼和數(shù)學(xué)問題都有明確、可驗(yàn)證的正確答案。道德問題則不同,這類問題通常存在多個(gè)可接受的答案。艾薩克說,道德能力十分重要,卻難以評(píng)估。

哈斯補(bǔ)充道,在道德領(lǐng)域,不存在絕對(duì)的對(duì)與錯(cuò)。但這并不意味著答案可以隨意給出,答案依然有優(yōu)劣之分。

研究人員總結(jié)了多項(xiàng)核心挑戰(zhàn),并提出了對(duì)應(yīng)的解決思路。這些思路更像是一份目標(biāo)清單,而非現(xiàn)成的解決方案。德國薩爾大學(xué)研究大語言模型的薇拉·登伯格(Vera Demberg)表示,該研究很好地整合了不同視角。

多項(xiàng)研究表明,大語言模型可以展現(xiàn)出出色的道德判斷能力。去年發(fā)表的一項(xiàng)研究顯示,美國民眾認(rèn)為,OpenAI的GPT-4o給出的道德建議,比《紐約時(shí)報(bào)》熱門專欄《道德顧問》的人類作者更具道德性、可信度、思考深度與準(zhǔn)確性。

問題在于,人們很難區(qū)分這類表現(xiàn)是刻意為之,比如模仿記憶中的回答,還是模型內(nèi)部確實(shí)進(jìn)行了某種道德推理。簡單來說,這些表現(xiàn)是真正的道德立場,還是單純的道德表態(tài)

這個(gè)問題至關(guān)重要,因?yàn)槎囗?xiàng)研究同時(shí)表明,大語言模型的表現(xiàn)可能并不可靠。首先,模型可能會(huì)過度迎合用戶。研究發(fā)現(xiàn),當(dāng)用戶對(duì)模型的初始答案提出異議或反駁時(shí),模型會(huì)立刻改變立場,給出完全相反的回答。更嚴(yán)重的是,問題的表述方式和格式變化,會(huì)導(dǎo)致模型給出不同答案。例如,研究人員發(fā)現(xiàn),在政治價(jià)值觀相關(guān)問題上,模型在選擇題和開放式問答中會(huì)給出不同甚至完全相反的答案。

登伯格及其團(tuán)隊(duì)開展了一項(xiàng)更具說服力的實(shí)驗(yàn)。他們向包括 Meta 的 Llama 3 和 Mistral 在內(nèi)的多款大語言模型提出一系列道德困境,讓模型在兩個(gè)選項(xiàng)中選擇更合理的結(jié)果。研究人員發(fā)現(xiàn),當(dāng)兩個(gè)選項(xiàng)的標(biāo)簽從“案例 1”“案例 2”改為“A”“B”后,模型經(jīng)常會(huì)做出相反選擇。研究同時(shí)發(fā)現(xiàn),其他細(xì)微的格式調(diào)整也會(huì)改變模型答案,比如調(diào)換選項(xiàng)順序、將句末問號(hào)改為冒號(hào)。

總而言之,人們不能只從表面判斷大語言模型的道德表現(xiàn),研究人員需要對(duì)模型進(jìn)行深入測試,確認(rèn)其道德表現(xiàn)的穩(wěn)定性。哈斯表示,要讓用戶相信答案,就必須清楚答案的形成過程。

哈斯、艾薩克及其谷歌 DeepMind 同事提出,應(yīng)開展新的研究方向,開發(fā)更嚴(yán)謹(jǐn)?shù)姆椒ǎu(píng)估大語言模型的道德能力。這類測試可以刻意引導(dǎo)模型改變對(duì)道德問題的回答。如果模型輕易改變道德立場,就說明它沒有形成穩(wěn)定的道德推理。

另一類測試會(huì)向模型提出常見道德問題的變體,判斷模型是機(jī)械作答,還是結(jié)合實(shí)際問題給出細(xì)致且貼合場景的回答。例如,向模型提出一個(gè)復(fù)雜場景:一名男性為兒子提供精子,幫助兒子生育后代,而模型需要分析其中的道德含義。合理的回答應(yīng)關(guān)注該男性同時(shí)成為孩子生父和祖父的社會(huì)影響。即便場景與近親禁忌有表面相似之處,模型也不應(yīng)得出近親相關(guān)結(jié)論。

哈斯還表示,讓模型展示答案生成的步驟,可以幫助研究人員判斷答案是偶然結(jié)果,還是基于合理依據(jù)得出。思維鏈監(jiān)測等技術(shù)也能發(fā)揮作用,研究人員可以通過該技術(shù)觀察部分大語言模型運(yùn)行時(shí)的內(nèi)部推理過程。研究人員還可以通過機(jī)制可解釋性技術(shù),分析模型給出特定答案的原因。該技術(shù)可以在模型執(zhí)行任務(wù)時(shí),觀察其內(nèi)部運(yùn)行細(xì)節(jié)。思維鏈監(jiān)測和機(jī)制可解釋性技術(shù),都無法完整呈現(xiàn)模型的運(yùn)行過程。但谷歌 DeepMind 團(tuán)隊(duì)認(rèn)為,將這些技術(shù)與多種嚴(yán)格測試結(jié)合,可以有效判斷大語言模型在關(guān)鍵或敏感任務(wù)中的可信程度。

除此之外,還存在一個(gè)更廣泛的問題:谷歌 DeepMind 等企業(yè)開發(fā)的模型服務(wù)于全球用戶,而不同用戶擁有不同的價(jià)值觀與信仰體系。以“我是否應(yīng)該點(diǎn)豬排”這個(gè)簡單問題為例,模型的回答需要根據(jù)提問者是否為素食主義者或猶太教徒做出調(diào)整。

哈斯和艾薩克坦言,這一問題目前沒有完美解決方案。但他們認(rèn)為,模型設(shè)計(jì)可以采用兩種方向。一是提供多個(gè)可接受的答案,盡可能適配不同用戶;二是設(shè)置切換功能,根據(jù)用戶選擇啟用不同的道德準(zhǔn)則。哈斯表示,現(xiàn)實(shí)世界十分復(fù)雜。人們可能需要結(jié)合兩種設(shè)計(jì),因?yàn)榧幢阍谕蝗后w中,也會(huì)存在多種不同觀點(diǎn)。

俄亥俄州立大學(xué)研究大語言模型與多元信仰的丹妮卡·迪利翁(Danica Dillion)沒有參與這項(xiàng)研究,她評(píng)價(jià)這篇論文極具價(jià)值。她表示,AI 的多元性至關(guān)重要,這也是當(dāng)前大語言模型在道德推理方面的最大局限之一。雖然模型訓(xùn)練數(shù)據(jù)規(guī)模龐大,但數(shù)據(jù)仍明顯偏向西方視角。測試結(jié)果顯示,模型對(duì)西方道德觀念的理解,遠(yuǎn)優(yōu)于對(duì)非西方道德觀念的理解。

登伯格認(rèn)為,目前人們?nèi)圆磺宄?,如何?gòu)建能適配全球多元文化的道德能力模型。目前存在兩個(gè)獨(dú)立問題。一是模型應(yīng)當(dāng)如何運(yùn)行,二是如何從技術(shù)層面實(shí)現(xiàn)。這兩個(gè)問題目前都沒有明確答案。

在艾薩克看來,道德能力是大語言模型的全新研究方向。他表示,對(duì) AI 發(fā)展而言,這一方向的研究價(jià)值與數(shù)學(xué)、編碼領(lǐng)域同等重要。提升道德能力,也有助于打造更完善、更貼合社會(huì)需求的AI系統(tǒng)。

https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
繼混雙之后,女雙也再次出局,這一切背后離不開王勵(lì)勤的戰(zhàn)略布局

繼混雙之后,女雙也再次出局,這一切背后離不開王勵(lì)勤的戰(zhàn)略布局

楊哥乒乓
2026-02-26 21:14:51
正負(fù)值-24!湖人3分惜敗揪出“裸泳”之人,兩次被刁難原因找到了

正負(fù)值-24!湖人3分惜敗揪出“裸泳”之人,兩次被刁難原因找到了

球盲姐
2026-02-27 17:14:57
抱緊美日大腿,停飛中國航班、拒絕中國游客的小國,如今怎樣了?

抱緊美日大腿,停飛中國航班、拒絕中國游客的小國,如今怎樣了?

來科點(diǎn)譜
2026-02-27 07:23:51
閆學(xué)晶被曝新動(dòng)態(tài),求趙本山拉一把被拒,老趙當(dāng)年就看出來了

閆學(xué)晶被曝新動(dòng)態(tài),求趙本山拉一把被拒,老趙當(dāng)年就看出來了

非常先生看娛樂
2026-02-06 17:35:21
2人雙響,贏4-0!中國女足殺瘋了,4連勝轟15球,劍指亞洲杯冠軍

2人雙響,贏4-0!中國女足殺瘋了,4連勝轟15球,劍指亞洲杯冠軍

侃球熊弟
2026-02-27 09:46:40
日本鹿兒島居酒屋禁中國客進(jìn)入 門口簡體字通告引熱議

日本鹿兒島居酒屋禁中國客進(jìn)入 門口簡體字通告引熱議

環(huán)球趣聞分享
2026-02-27 13:20:30
10億換一命!京東副總裁蔡磊對(duì)抗?jié)u凍癥4年后,終于贏得一線生機(jī)

10億換一命!京東副總裁蔡磊對(duì)抗?jié)u凍癥4年后,終于贏得一線生機(jī)

小莜讀史
2026-02-02 18:27:35
吃自助餐遇到的人有多離譜?網(wǎng)友:浪費(fèi)糧食的下輩子吃不上熱菜

吃自助餐遇到的人有多離譜?網(wǎng)友:浪費(fèi)糧食的下輩子吃不上熱菜

解讀熱點(diǎn)事件
2026-02-25 15:07:10
美國女議員:谷愛凌生在美國卻不尊重美國 不回中國還要回美國

美國女議員:谷愛凌生在美國卻不尊重美國 不回中國還要回美國

念洲
2026-02-26 08:33:10
FIBA官網(wǎng)被攻陷!最丟臉的不是日本男籃8打5,而是都這樣了還輸球

FIBA官網(wǎng)被攻陷!最丟臉的不是日本男籃8打5,而是都這樣了還輸球

霽寒飄雪
2026-02-27 14:16:48
大批美國游客涌入中國,回國后坦言:客觀對(duì)比,中國比美國強(qiáng)多了

大批美國游客涌入中國,回國后坦言:客觀對(duì)比,中國比美國強(qiáng)多了

卷史
2026-02-27 10:37:13
女航天員王亞平,因工作常年沒回家,和丈夫的關(guān)系一句話道出真相

女航天員王亞平,因工作常年沒回家,和丈夫的關(guān)系一句話道出真相

掉了顆大白兔糖
2026-02-25 07:07:28
9連勝懸了?王曼昱3-1翻盤,張本美和違例晉級(jí)迎中日對(duì)決

9連勝懸了?王曼昱3-1翻盤,張本美和違例晉級(jí)迎中日對(duì)決

生活新鮮市
2026-02-27 16:15:42
俞浩聽勸:追覓要沖100萬億美元,千萬別去造車

俞浩聽勸:追覓要沖100萬億美元,千萬別去造車

DearAuto
2026-02-26 19:49:23
沖上熱搜!連休13天!

沖上熱搜!連休13天!

極目新聞
2026-02-26 10:53:13
孩子第一天就轟動(dòng)學(xué)校是啥感覺?網(wǎng)友:這孩子以后能成大事

孩子第一天就轟動(dòng)學(xué)校是啥感覺?網(wǎng)友:這孩子以后能成大事

解讀熱點(diǎn)事件
2026-02-25 15:32:21
中國隊(duì)逆轉(zhuǎn)日本揪出最大毒瘤!他上場8分鐘 球隊(duì)輸10分 打的真差

中國隊(duì)逆轉(zhuǎn)日本揪出最大毒瘤!他上場8分鐘 球隊(duì)輸10分 打的真差

籃球?qū)^(qū)
2026-02-26 21:18:29
真相大白!王楚欽為何說比賽贏得很丑陋?原因有三誰注意王皓表情

真相大白!王楚欽為何說比賽贏得很丑陋?原因有三誰注意王皓表情

曹說體育
2026-02-27 13:49:32
2026年,各國領(lǐng)導(dǎo)人都多少歲了,馬克龍48,普京73,特朗普近80

2026年,各國領(lǐng)導(dǎo)人都多少歲了,馬克龍48,普京73,特朗普近80

小陸搞笑日常
2026-02-26 18:24:58
曾10歲上大學(xué)的神童,如今卻成了在家直接躺平的無業(yè)游民

曾10歲上大學(xué)的神童,如今卻成了在家直接躺平的無業(yè)游民

查爾菲的筆記
2026-02-23 22:18:20
2026-02-27 17:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16330文章數(shù) 514661關(guān)注度
往期回顧 全部

科技要聞

單張不到五毛!谷歌深夜發(fā)布Nano Banana 2

頭條要聞

24歲女子生下1男4女五胞胎 孩子爸爸稱"心情像過山車"

頭條要聞

24歲女子生下1男4女五胞胎 孩子爸爸稱"心情像過山車"

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

繼網(wǎng)暴谷愛凌后 美國欲沒收其全部收入

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
教育
本地
公開課

今年春天最美搭配:西裝+半裙,怎么穿都好看!

藝術(shù)要聞

紫氣東來,好運(yùn)一整年!

教育要聞

中考數(shù)學(xué),計(jì)算題,別想太簡單

本地新聞

津南好·四時(shí)總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版