網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepMind最新警告：大模型的道德判斷能力并不可靠

2026-02-19 19:25:51　來源: DeepTech深科技

河南舉報(bào)

分享至

（來源：麻省理工科技評(píng)論）

谷歌 DeepMind 呼吁，人們應(yīng)當(dāng)用評(píng)估大語言模型編碼與數(shù)學(xué)能力的同等嚴(yán)格標(biāo)準(zhǔn)，審視這類模型的道德行為，包括它們?cè)诎缪菖惆檎?、心理咨詢師、醫(yī)療顧問等角色時(shí)的表現(xiàn)。

隨著大語言模型不斷進(jìn)步，人們開始讓它們?cè)谏钪谐袚?dān)越來越多敏感的角色。智能體已經(jīng)開始代替用戶執(zhí)行操作。大語言模型有可能影響人類的決策過程。但目前沒有人能確定，這項(xiàng)技術(shù)在這類任務(wù)中的可信度究竟如何。

我與谷歌 DeepMind 研究科學(xué)家威廉·艾薩克（William Isaac）及其同事、同機(jī)構(gòu)研究科學(xué)家朱莉婭·哈斯（Julia Haas）進(jìn)行了獨(dú)家訪談，提前了解了他們發(fā)表在《Nature》雜志上的研究成果。艾薩克表示，編碼和數(shù)學(xué)問題都有明確、可驗(yàn)證的正確答案。道德問題則不同，這類問題通常存在多個(gè)可接受的答案。艾薩克說，道德能力十分重要，卻難以評(píng)估。

哈斯補(bǔ)充道，在道德領(lǐng)域，不存在絕對(duì)的對(duì)與錯(cuò)。但這并不意味著答案可以隨意給出，答案依然有優(yōu)劣之分。

研究人員總結(jié)了多項(xiàng)核心挑戰(zhàn)，并提出了對(duì)應(yīng)的解決思路。這些思路更像是一份目標(biāo)清單，而非現(xiàn)成的解決方案。德國薩爾大學(xué)研究大語言模型的薇拉·登伯格（Vera Demberg）表示，該研究很好地整合了不同視角。

多項(xiàng)研究表明，大語言模型可以展現(xiàn)出出色的道德判斷能力。去年發(fā)表的一項(xiàng)研究顯示，美國民眾認(rèn)為，OpenAI的GPT-4o給出的道德建議，比《紐約時(shí)報(bào)》熱門專欄《道德顧問》的人類作者更具道德性、可信度、思考深度與準(zhǔn)確性。

問題在于，人們很難區(qū)分這類表現(xiàn)是刻意為之，比如模仿記憶中的回答，還是模型內(nèi)部確實(shí)進(jìn)行了某種道德推理。簡單來說，這些表現(xiàn)是真正的道德立場，還是單純的道德表態(tài)

這個(gè)問題至關(guān)重要，因?yàn)槎囗?xiàng)研究同時(shí)表明，大語言模型的表現(xiàn)可能并不可靠。首先，模型可能會(huì)過度迎合用戶。研究發(fā)現(xiàn)，當(dāng)用戶對(duì)模型的初始答案提出異議或反駁時(shí)，模型會(huì)立刻改變立場，給出完全相反的回答。更嚴(yán)重的是，問題的表述方式和格式變化，會(huì)導(dǎo)致模型給出不同答案。例如，研究人員發(fā)現(xiàn)，在政治價(jià)值觀相關(guān)問題上，模型在選擇題和開放式問答中會(huì)給出不同甚至完全相反的答案。

登伯格及其團(tuán)隊(duì)開展了一項(xiàng)更具說服力的實(shí)驗(yàn)。他們向包括 Meta 的 Llama 3 和 Mistral 在內(nèi)的多款大語言模型提出一系列道德困境，讓模型在兩個(gè)選項(xiàng)中選擇更合理的結(jié)果。研究人員發(fā)現(xiàn)，當(dāng)兩個(gè)選項(xiàng)的標(biāo)簽從“案例 1”“案例 2”改為“A”“B”后，模型經(jīng)常會(huì)做出相反選擇。研究同時(shí)發(fā)現(xiàn)，其他細(xì)微的格式調(diào)整也會(huì)改變模型答案，比如調(diào)換選項(xiàng)順序、將句末問號(hào)改為冒號(hào)。

總而言之，人們不能只從表面判斷大語言模型的道德表現(xiàn)，研究人員需要對(duì)模型進(jìn)行深入測試，確認(rèn)其道德表現(xiàn)的穩(wěn)定性。哈斯表示，要讓用戶相信答案，就必須清楚答案的形成過程。

哈斯、艾薩克及其谷歌 DeepMind 同事提出，應(yīng)開展新的研究方向，開發(fā)更嚴(yán)謹(jǐn)?shù)姆椒ǎu(píng)估大語言模型的道德能力。這類測試可以刻意引導(dǎo)模型改變對(duì)道德問題的回答。如果模型輕易改變道德立場，就說明它沒有形成穩(wěn)定的道德推理。

另一類測試會(huì)向模型提出常見道德問題的變體，判斷模型是機(jī)械作答，還是結(jié)合實(shí)際問題給出細(xì)致且貼合場景的回答。例如，向模型提出一個(gè)復(fù)雜場景：一名男性為兒子提供精子，幫助兒子生育后代，而模型需要分析其中的道德含義。合理的回答應(yīng)關(guān)注該男性同時(shí)成為孩子生父和祖父的社會(huì)影響。即便場景與近親禁忌有表面相似之處，模型也不應(yīng)得出近親相關(guān)結(jié)論。

哈斯還表示，讓模型展示答案生成的步驟，可以幫助研究人員判斷答案是偶然結(jié)果，還是基于合理依據(jù)得出。思維鏈監(jiān)測等技術(shù)也能發(fā)揮作用，研究人員可以通過該技術(shù)觀察部分大語言模型運(yùn)行時(shí)的內(nèi)部推理過程。研究人員還可以通過機(jī)制可解釋性技術(shù)，分析模型給出特定答案的原因。該技術(shù)可以在模型執(zhí)行任務(wù)時(shí)，觀察其內(nèi)部運(yùn)行細(xì)節(jié)。思維鏈監(jiān)測和機(jī)制可解釋性技術(shù)，都無法完整呈現(xiàn)模型的運(yùn)行過程。但谷歌 DeepMind 團(tuán)隊(duì)認(rèn)為，將這些技術(shù)與多種嚴(yán)格測試結(jié)合，可以有效判斷大語言模型在關(guān)鍵或敏感任務(wù)中的可信程度。

除此之外，還存在一個(gè)更廣泛的問題：谷歌 DeepMind 等企業(yè)開發(fā)的模型服務(wù)于全球用戶，而不同用戶擁有不同的價(jià)值觀與信仰體系。以“我是否應(yīng)該點(diǎn)豬排”這個(gè)簡單問題為例，模型的回答需要根據(jù)提問者是否為素食主義者或猶太教徒做出調(diào)整。

哈斯和艾薩克坦言，這一問題目前沒有完美解決方案。但他們認(rèn)為，模型設(shè)計(jì)可以采用兩種方向。一是提供多個(gè)可接受的答案，盡可能適配不同用戶；二是設(shè)置切換功能，根據(jù)用戶選擇啟用不同的道德準(zhǔn)則。哈斯表示，現(xiàn)實(shí)世界十分復(fù)雜。人們可能需要結(jié)合兩種設(shè)計(jì)，因?yàn)榧幢阍谕蝗后w中，也會(huì)存在多種不同觀點(diǎn)。

俄亥俄州立大學(xué)研究大語言模型與多元信仰的丹妮卡·迪利翁（Danica Dillion）沒有參與這項(xiàng)研究，她評(píng)價(jià)這篇論文極具價(jià)值。她表示，AI 的多元性至關(guān)重要，這也是當(dāng)前大語言模型在道德推理方面的最大局限之一。雖然模型訓(xùn)練數(shù)據(jù)規(guī)模龐大，但數(shù)據(jù)仍明顯偏向西方視角。測試結(jié)果顯示，模型對(duì)西方道德觀念的理解，遠(yuǎn)優(yōu)于對(duì)非西方道德觀念的理解。

登伯格認(rèn)為，目前人們?nèi)圆磺宄?，如何?gòu)建能適配全球多元文化的道德能力模型。目前存在兩個(gè)獨(dú)立問題。一是模型應(yīng)當(dāng)如何運(yùn)行，二是如何從技術(shù)層面實(shí)現(xiàn)。這兩個(gè)問題目前都沒有明確答案。

在艾薩克看來，道德能力是大語言模型的全新研究方向。他表示，對(duì) AI 發(fā)展而言，這一方向的研究價(jià)值與數(shù)學(xué)、編碼領(lǐng)域同等重要。提升道德能力，也有助于打造更完善、更貼合社會(huì)需求的AI系統(tǒng)。

https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.