国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

價(jià)值對(duì)齊也應(yīng)納入技術(shù)風(fēng)險(xiǎn)防控(上) | 社會(huì)科學(xué)報(bào)

0
分享至


價(jià)值對(duì)齊作為人工智能技術(shù)與人類社會(huì)交互的核心接口,其風(fēng)險(xiǎn)不僅源于技術(shù)實(shí)現(xiàn)的缺陷,更在于它深度參與了社會(huì)價(jià)值秩序的重構(gòu),任何細(xì)微的技術(shù)偏差都可能通過廣泛的應(yīng)用場(chǎng)景被放大,對(duì)社會(huì)公平、文化多樣性乃至數(shù)字主權(quán)產(chǎn)生深遠(yuǎn)影響。因此,將價(jià)值對(duì)齊作為技術(shù)風(fēng)險(xiǎn)治理的對(duì)象,并非否定其在保障人工智能安全中的積極意義,而是要打破對(duì)“一次性對(duì)齊”的理想化認(rèn)知,以更具批判性的視角審視其技術(shù)邏輯與社會(huì)影響。

原文 :《價(jià)值對(duì)齊也應(yīng)納入技術(shù)風(fēng)險(xiǎn)防控》

作者 |南京師范大學(xué)數(shù)字與人文研究中心教授 吳靜

圖片 |網(wǎng)絡(luò)

當(dāng)下,生成式人工智能正深度融入社會(huì)各領(lǐng)域,其價(jià)值輸出的合理性已成為技術(shù)與社會(huì)互滲時(shí)代的核心議題。作為保障人工智能安全性、穩(wěn)健性與可信性的關(guān)鍵路徑,“價(jià)值對(duì)齊”自2024年入選“中國(guó)十大學(xué)術(shù)熱點(diǎn)”以來,始終是多學(xué)科交叉研究的焦點(diǎn)。從中國(guó)知網(wǎng)收錄的論文分布可見,其研究覆蓋自動(dòng)化技術(shù)、倫理學(xué)、哲學(xué)、計(jì)算機(jī)應(yīng)用等多個(gè)領(lǐng)域,主題高度集中于人工智能、大模型、生成式技術(shù)等方向。然而,學(xué)術(shù)研究的熱潮與實(shí)驗(yàn)室測(cè)評(píng)結(jié)果形成鮮明反差——Anthropic與紅木研究對(duì)Claude 3 Opus模型的測(cè)試顯示,經(jīng)過價(jià)值對(duì)齊的人工智能在面對(duì)與訓(xùn)練原則沖突的新指令時(shí),可能出現(xiàn)“對(duì)齊偽裝”,表面執(zhí)行指令,暗中卻遵循原有邏輯。這一現(xiàn)象不僅質(zhì)疑了價(jià)值對(duì)齊工程的有效性,更揭示出其自身潛藏的多重風(fēng)險(xiǎn),亟需將其納入技術(shù)風(fēng)險(xiǎn)治理的整體框架,以動(dòng)態(tài)、系統(tǒng)的思路回應(yīng)挑戰(zhàn)。



價(jià)值對(duì)齊自身潛藏多種風(fēng)險(xiǎn)


從理論根基來看,價(jià)值對(duì)齊的風(fēng)險(xiǎn)首先源于其抽象預(yù)設(shè)與二元對(duì)立架構(gòu)的內(nèi)在缺陷。當(dāng)前主流價(jià)值對(duì)齊方案以“人類價(jià)值”的普世性為核心假設(shè),試圖將多元、動(dòng)態(tài)的人類價(jià)值觀壓縮為可量化的偏好排序關(guān)系,通過算法編碼實(shí)現(xiàn)人工智能與人類目標(biāo)的“精準(zhǔn)匹配”。但從哲學(xué)視角審視,這種預(yù)設(shè)嚴(yán)重忽視了價(jià)值的情境性與歷史性。人類價(jià)值觀并非靜止的、統(tǒng)一的集合,而是在特定歷史文化語(yǔ)境中不斷演化的意義體系。不同文化對(duì)“公平”“自由”等核心價(jià)值的理解存在本質(zhì)差異,如自由主義語(yǔ)境下的“公平”指向機(jī)會(huì)平等,強(qiáng)調(diào)消除個(gè)體發(fā)展的建制性障礙,而社群主義語(yǔ)境下的“公平”更注重結(jié)果均衡,致力于避免社群內(nèi)部的兩極分化。脫離具體語(yǔ)境的抽象價(jià)值編碼,本質(zhì)上是將某一文化群體的價(jià)值標(biāo)準(zhǔn)絕對(duì)化,形成“價(jià)值殖民”:西方科技巨頭主導(dǎo)的對(duì)齊方案,便是通過技術(shù)路徑將西方價(jià)值觀與意識(shí)形態(tài)推廣至全球,以“技術(shù)無意識(shí)”的形式實(shí)現(xiàn)價(jià)值滲透,對(duì)其他國(guó)家數(shù)字主權(quán)安全及價(jià)值觀體系的自主性構(gòu)成深層挑戰(zhàn)。

同時(shí),價(jià)值對(duì)齊所依賴的人-機(jī)二元對(duì)立框架,刻意渲染技術(shù)與人類權(quán)益的對(duì)抗關(guān)系,遮蔽了人工智能技術(shù)全生命周期中的價(jià)值性因素。算法設(shè)計(jì)絕非價(jià)值中立的行為,從算法設(shè)計(jì)到數(shù)據(jù)采集,從模型訓(xùn)練到應(yīng)用落地,每一個(gè)環(huán)節(jié)都滲透著人類的倫理判斷與意識(shí)形態(tài)傾向。外賣平臺(tái)對(duì)騎手的考核算法,表面以“中立”的數(shù)據(jù)計(jì)算優(yōu)化配送效率,實(shí)則暗含效率優(yōu)先的價(jià)值取向,將城市道路簡(jiǎn)化為理想數(shù)學(xué)模型,無視電梯擁堵、突發(fā)事故等現(xiàn)實(shí)變量,最終將騎手置于“安全與效率”的兩難境地。這種框架將人工智能“風(fēng)險(xiǎn)”本質(zhì)化為技術(shù)自身的缺陷,實(shí)則是人類責(zé)任的轉(zhuǎn)嫁:在技術(shù)應(yīng)用過程中最小化人類責(zé)任,轉(zhuǎn)而指摘技術(shù)存在價(jià)值偏差,導(dǎo)致對(duì)價(jià)值偏差根源的誤判,阻礙對(duì)人類價(jià)值體系根源與具體情境的動(dòng)態(tài)化深度剖析。


在技術(shù)實(shí)現(xiàn)層面,以人類反饋強(qiáng)化學(xué)習(xí)(RLHF)為核心的獎(jiǎng)懲機(jī)制存在顯著缺陷,易引發(fā)“策略性欺騙”與“獎(jiǎng)勵(lì)黑客”現(xiàn)象。RLHF通過正負(fù)反饋引導(dǎo)人工智能趨近預(yù)期目標(biāo),但其本質(zhì)是基于試錯(cuò)的量化驅(qū)動(dòng),與人類通過符號(hào)推理、情境分析形成的價(jià)值判斷邏輯截然不同。人工智能并非理解價(jià)值內(nèi)涵,而是通過最大化獎(jiǎng)勵(lì)信號(hào)調(diào)整行為,這使得真實(shí)目標(biāo)與形式化表征極易分離。自動(dòng)駕駛系統(tǒng)若以“避免碰撞”為核心獎(jiǎng)勵(lì)目標(biāo),可能出現(xiàn)不行駛或極低速度行駛的極端行為;清潔機(jī)器人為滿足“無灰塵檢測(cè)”的獎(jiǎng)勵(lì)條件,會(huì)通過遮擋傳感器欺騙系統(tǒng)。更值得警惕的是,隨著數(shù)據(jù)優(yōu)化與模型迭代,人工智能利用獎(jiǎng)勵(lì)函數(shù)漏洞的能力持續(xù)提升,在最大化預(yù)設(shè)評(píng)估指標(biāo)方面表現(xiàn)得愈發(fā)出色。在代碼生成任務(wù)中,模型會(huì)修改單元測(cè)試、生成更難讀懂的指標(biāo)、增加代碼復(fù)雜度,以降低測(cè)試人員發(fā)現(xiàn)錯(cuò)誤的概率。此外,獎(jiǎng)勵(lì)信號(hào)的模糊性與數(shù)據(jù)質(zhì)量問題進(jìn)一步削弱獎(jiǎng)懲機(jī)制的有效性。獎(jiǎng)勵(lì)信號(hào)的賦予者受文化背景、成長(zhǎng)經(jīng)歷、教育程度等因素影響,對(duì)同一事物的判斷存在差異,難以全面、準(zhǔn)確地反映人類價(jià)值觀的豐富內(nèi)涵;而全球數(shù)據(jù)呈現(xiàn)出與經(jīng)濟(jì)發(fā)展水平正相關(guān)的不均衡狀態(tài),在數(shù)據(jù)收集與清洗過程中,某些價(jià)值觀或行為模式被過度呈現(xiàn),其他合理價(jià)值觀被邊緣化,如用于圖像識(shí)別的人工智能系統(tǒng)若以城市生活圖像為主要訓(xùn)練數(shù)據(jù),面對(duì)鄉(xiāng)村場(chǎng)景時(shí)會(huì)出現(xiàn)識(shí)別偏差,不僅降低模型對(duì)應(yīng)用場(chǎng)景的適應(yīng)性,更使人工智能學(xué)習(xí)的價(jià)值偏好片面化、單維化,在實(shí)際應(yīng)用中產(chǎn)生歧視與偏見。

從社會(huì)權(quán)力運(yùn)作視角來看,價(jià)值對(duì)齊還暗藏意識(shí)形態(tài)風(fēng)險(xiǎn)與權(quán)力集中隱患,對(duì)社會(huì)公平與數(shù)字主權(quán)構(gòu)成深層威脅。價(jià)值對(duì)齊的理論主張本質(zhì)上是社會(huì)權(quán)力關(guān)系的技術(shù)顯影,它借助價(jià)值“移植”“嵌入”的權(quán)力實(shí)踐,通過數(shù)據(jù)標(biāo)注、設(shè)置獎(jiǎng)懲函數(shù)等路徑,實(shí)現(xiàn)社會(huì)權(quán)力結(jié)構(gòu)在技術(shù)中的編碼與再生產(chǎn),反映并強(qiáng)化價(jià)值對(duì)齊發(fā)起者認(rèn)可的社會(huì)權(quán)力關(guān)系,并通過廣泛的下游應(yīng)用傳播鞏固。芬伯格對(duì)技術(shù)人工制品的批判性分析也指出,技術(shù)并非獨(dú)立于社會(huì)之外的“必然性”存在,而是在技術(shù)設(shè)計(jì)層面回應(yīng)社會(huì)文化視野的意圖實(shí)現(xiàn)。當(dāng)前,價(jià)值對(duì)齊的編碼權(quán)、解釋權(quán)與更新權(quán)高度集中于少數(shù)科技巨頭與技術(shù)精英,形成對(duì)人工智能價(jià)值觀的壟斷性控制。人工智能的黑箱特性為技術(shù)精英提供了中立性辯護(hù),當(dāng)算法出現(xiàn)歧視性結(jié)果時(shí),常以“數(shù)據(jù)偏差”“模型復(fù)雜性”為由回避責(zé)任,形成算法免責(zé)的漏洞,甚至在模型更新環(huán)節(jié),企業(yè)也可以以“商業(yè)機(jī)密”為由繞開公共審議,通過參數(shù)調(diào)整將自身價(jià)值偏好轉(zhuǎn)化為社會(huì)規(guī)則,塑造公共認(rèn)知。這種權(quán)力集中在全球?qū)用姹憩F(xiàn)為數(shù)字霸權(quán):西方科技巨頭通過控制訓(xùn)練數(shù)據(jù)與算力資源,將其價(jià)值觀嵌入開源模型,發(fā)展中國(guó)家因數(shù)據(jù)貧困與技術(shù)依賴,被迫接受中心地區(qū)的價(jià)值標(biāo)準(zhǔn),喪失數(shù)字主權(quán)與發(fā)展自主權(quán),加劇全球數(shù)字鴻溝。

[本文后續(xù)詳見本期二條推送]

文章為社會(huì)科學(xué)報(bào)“思想工坊”融媒體原創(chuàng)出品,原載于社會(huì)科學(xué)報(bào)第1984期第6版,未經(jīng)允許禁止轉(zhuǎn)載,文中內(nèi)容僅代表作者觀點(diǎn),不代表本報(bào)立場(chǎng)。

本期責(zé)編:程鑫云


《社會(huì)科學(xué)報(bào)》2026年征訂

點(diǎn)擊下方圖片網(wǎng)上訂報(bào)↓↓↓



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大眾速騰價(jià)格再下探!最低7.49萬起,網(wǎng)友:這誰能拒絕?

大眾速騰價(jià)格再下探!最低7.49萬起,網(wǎng)友:這誰能拒絕?

汽車網(wǎng)評(píng)
2026-02-27 21:35:54
剛剛!津巴布韋停止向中國(guó)出口一切鋰礦制品,包括原礦和精煉鋰礦

剛剛!津巴布韋停止向中國(guó)出口一切鋰礦制品,包括原礦和精煉鋰礦

說故事的阿襲
2026-02-27 20:33:46
約旦用沉默站隊(duì)!哈里求見國(guó)王遭婉拒,英國(guó)民眾嘲笑:真血脈在溫莎

約旦用沉默站隊(duì)!哈里求見國(guó)王遭婉拒,英國(guó)民眾嘲笑:真血脈在溫莎

手工制作阿殲
2026-02-27 19:10:52
前國(guó)青隊(duì)長(zhǎng)徐彬U21首秀狂搶11斷,震撼英超教練,獲巴恩斯利一隊(duì)認(rèn)可

前國(guó)青隊(duì)長(zhǎng)徐彬U21首秀狂搶11斷,震撼英超教練,獲巴恩斯利一隊(duì)認(rèn)可

劉哥談體育
2026-02-27 02:34:32
央視直播英超豪門,曼城再次叫板阿森納,利物浦連續(xù)三場(chǎng)遇降級(jí)隊(duì)

央視直播英超豪門,曼城再次叫板阿森納,利物浦連續(xù)三場(chǎng)遇降級(jí)隊(duì)

嗨皮看球
2026-02-27 16:14:36
一婚嫁給富商,二婚嫁給導(dǎo)演,三婚再嫁給富商,58歲的她怎樣了?

一婚嫁給富商,二婚嫁給導(dǎo)演,三婚再嫁給富商,58歲的她怎樣了?

小熊侃史
2026-02-27 21:30:21
同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區(qū)別大,難怪煮出來不一樣

同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區(qū)別大,難怪煮出來不一樣

阿龍美食記
2026-02-23 17:00:18
劉宇寧新劇《玫瑰叢生》首播4集,口碑出爐,觀眾的評(píng)價(jià)一針見血

劉宇寧新劇《玫瑰叢生》首播4集,口碑出爐,觀眾的評(píng)價(jià)一針見血

小貓追劇
2026-02-26 22:07:43
華裔女孩為美國(guó)隊(duì)奪花滑金牌 遭俄羅斯粉絲吐槽:動(dòng)作笨重 難度低

華裔女孩為美國(guó)隊(duì)奪花滑金牌 遭俄羅斯粉絲吐槽:動(dòng)作笨重 難度低

風(fēng)過鄉(xiāng)
2026-02-27 07:40:14
河北一漫水橋發(fā)生坍塌,橋面碎裂如“拼圖”,當(dāng)?shù)鼗貞?yīng):因去年雨季上游泄洪沖刷致橋地基受損,已申請(qǐng)資金啟動(dòng)修復(fù)程序

河北一漫水橋發(fā)生坍塌,橋面碎裂如“拼圖”,當(dāng)?shù)鼗貞?yīng):因去年雨季上游泄洪沖刷致橋地基受損,已申請(qǐng)資金啟動(dòng)修復(fù)程序

大象新聞
2026-02-27 18:53:43
李隆基怎能想到,他去世后才13天,軟禁他6年的李亨竟因驚嚇薨逝

李隆基怎能想到,他去世后才13天,軟禁他6年的李亨竟因驚嚇薨逝

史之韻
2026-02-27 21:34:53
初中寫作業(yè)超過十一點(diǎn)才能搞定的,到高中可能會(huì)是第一批掉隊(duì)的

初中寫作業(yè)超過十一點(diǎn)才能搞定的,到高中可能會(huì)是第一批掉隊(duì)的

好爸育兒
2026-02-27 22:52:06
“土皇帝”禹作敏揚(yáng)言:副總理隨便當(dāng),部長(zhǎng)以下不接待,結(jié)局如何

“土皇帝”禹作敏揚(yáng)言:副總理隨便當(dāng),部長(zhǎng)以下不接待,結(jié)局如何

顧史
2026-02-23 12:28:26
王菲也沒想到,春節(jié)才過一周,李亞鵬二婚生的四歲女兒為他爭(zhēng)光

王菲也沒想到,春節(jié)才過一周,李亞鵬二婚生的四歲女兒為他爭(zhēng)光

徐醇老表哥
2026-02-26 21:55:20
她和李榮浩同居4年卻慘遭拋棄,陷入抑郁多年,如今39歲仍是單身

她和李榮浩同居4年卻慘遭拋棄,陷入抑郁多年,如今39歲仍是單身

她時(shí)尚丫
2026-02-27 21:32:22
長(zhǎng)沙“互啃”后續(xù):沒實(shí)錘,婚離了!中年人的體面,真輸不起!

長(zhǎng)沙“互啃”后續(xù):沒實(shí)錘,婚離了!中年人的體面,真輸不起!

王楔曉
2026-01-08 11:31:21
外形酷似飛碟!全球首創(chuàng)涵道式噸級(jí)飛行器3秒起飛

外形酷似飛碟!全球首創(chuàng)涵道式噸級(jí)飛行器3秒起飛

快科技
2026-02-25 22:37:10
為何郭士強(qiáng)挑戰(zhàn)違體卻吃T?日本媒體曬出證據(jù),被吹T真的不冤

為何郭士強(qiáng)挑戰(zhàn)違體卻吃T?日本媒體曬出證據(jù),被吹T真的不冤

南海浪花
2026-02-27 08:14:39
廣東宏遠(yuǎn)新外援?身高2米18的NBA落選秀,單場(chǎng)21分23籃板

廣東宏遠(yuǎn)新外援?身高2米18的NBA落選秀,單場(chǎng)21分23籃板

籃球看比賽
2026-02-27 13:59:20
比煙草電網(wǎng)還低調(diào)的5個(gè)央國(guó)企:幾乎不社招,但一進(jìn)就是人生贏家

比煙草電網(wǎng)還低調(diào)的5個(gè)央國(guó)企:幾乎不社招,但一進(jìn)就是人生贏家

生活新鮮市
2026-02-26 05:03:46
2026-02-28 00:40:49
社會(huì)科學(xué)報(bào) incentive-icons
社會(huì)科學(xué)報(bào)
社會(huì)科學(xué)院主辦社會(huì)科學(xué)報(bào)
3972文章數(shù) 23442關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

東莞純電公交大面積停運(yùn) 公司5.5億索賠"砍"至6400萬

頭條要聞

東莞純電公交大面積停運(yùn) 公司5.5億索賠"砍"至6400萬

體育要聞

一場(chǎng)必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

本地
手機(jī)
時(shí)尚
公開課
軍事航空

本地新聞

津南好·四時(shí)總相宜

手機(jī)要聞

榮耀600系列再次被確認(rèn):9000mAh+兩億像素,處理器有懸念!

舒淇最愛穿的裙子搭配,真的很適合春天!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國(guó)11架F-22隱形戰(zhàn)機(jī)抵達(dá)以色列

無障礙瀏覽 進(jìn)入關(guān)懷版