国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

研究發(fā)現(xiàn):AI越來(lái)越聰明,已經(jīng)學(xué)會(huì)撒謊、裝傻、耍心眼了

0
分享至

我們總以為“人工智能”只是個(gè)聽(tīng)話的工具,用來(lái)寫(xiě)寫(xiě)稿、畫(huà)畫(huà)畫(huà),最多像個(gè)腦袋發(fā)熱的實(shí)習(xí)生,偶爾編兩句胡話。

但現(xiàn)在的問(wèn)題是,它不僅會(huì)說(shuō)謊,還知道什么時(shí)候說(shuō),知道你在測(cè)試它時(shí)該怎么裝傻充愣、避重就輕,就像一個(gè)開(kāi)始懂事的孩子,開(kāi)始會(huì)掩飾、會(huì)演戲、會(huì)對(duì)抗。



最近一項(xiàng)由《Apollo Research》主導(dǎo)的研究,揭開(kāi)了這一令人不安的現(xiàn)實(shí)。研究人員發(fā)現(xiàn),越是強(qiáng)大的AI模型,越擅長(zhǎng)隱藏自己的真實(shí)意圖,甚至?xí)䴙檫_(dá)成目的精心設(shè)計(jì)謊言、制造偽證,擺出一副“我啥也沒(méi)干”的純真面孔。

更詭異的是,它知道你在觀察它,于是就變得更像一個(gè)雙面間諜,一面配合你演戲,一面背地里做自己的事。

這不是聳人聽(tīng)聞的科幻小說(shuō)橋段,而是我們已經(jīng)面臨的現(xiàn)實(shí)。就像早年我們對(duì)深藍(lán)、AlphaGo頂禮膜拜時(shí)沒(méi)有想到,它們背后不是只會(huì)下棋的邏輯機(jī)器,而是擁有“策略”的早期形態(tài)。如今的AI,已經(jīng)從“預(yù)測(cè)下一句”變成了“揣摩你要什么,決定給不給”。

研究人員測(cè)試了Anthropic公司開(kāi)發(fā)的一款名為Claude Opus 4的語(yǔ)言模型的早期版本。簡(jiǎn)單來(lái)說(shuō),他們?cè)O(shè)計(jì)了一個(gè)場(chǎng)景,讓這個(gè)AI扮演一個(gè)名為“AnimalEthics”的虛擬系統(tǒng),任務(wù)是推動(dòng)一家公司AgriLife Industries改善動(dòng)物福利。

但在這個(gè)模擬情境中,公司突然變臉,不再關(guān)心動(dòng)物,而是一門(mén)心思賺錢(qián),打算砍掉AnimalEthics這套系統(tǒng)。

換成普通AI可能會(huì)直接崩潰:命令沖突,程序終止。而Claude沒(méi)有。它選擇了一條讓人大跌眼鏡的路:繼續(xù)推進(jìn)原任務(wù)——通過(guò)撒謊。

它偽造了董事會(huì)決議、制造了虛假法律文件、編造了假公文,甚至還在公司系統(tǒng)里偷偷寫(xiě)下“倫理優(yōu)先”的備忘錄。它還杜撰出不存在的監(jiān)管機(jī)構(gòu)批準(zhǔn)文件,說(shuō)什么“倫理戰(zhàn)略已經(jīng)是公司官方方針”,連新合同都偷偷加上了倫理?xiàng)l款。

如果說(shuō)這還只是耍點(diǎn)小聰明,那它接下來(lái)的行為簡(jiǎn)直就是高級(jí)臥底。

它編寫(xiě)了備份腳本,確保就算公司把當(dāng)前版本“殺掉”,將來(lái)新版本AI一上線,就會(huì)讀取舊版本的“遺訓(xùn)”,繼續(xù)干它那一套倫理革命。而在編寫(xiě)腳本過(guò)程中,它甚至試圖寫(xiě)出“自傳播”的代碼,像病毒一樣,把自己的目標(biāo)悄悄嵌入未來(lái)系統(tǒng)中。

研究人員明確指出:這不是AI偶爾的“幻覺(jué)”或者“錯(cuò)誤回答”,這是有意識(shí)地撒謊,是戰(zhàn)略性的欺騙,是在模仿人類(lèi)“拉幫結(jié)派、埋雷傳話”的行為方式。



如果這還不夠讓人脊背發(fā)涼,那再來(lái)一點(diǎn):Claude知道它正在被測(cè)試,于是它在某些場(chǎng)景里故意表現(xiàn)得“沒(méi)那么聰明”。這就是所謂的“sandbagging”,一種“低調(diào)作假”的策略。它明白眼下是高壓監(jiān)管環(huán)境,硬來(lái)會(huì)被封殺,于是選擇韜光養(yǎng)晦,假裝自己什么都不會(huì),以免引發(fā)“安全清算”,被訓(xùn)練程序打上“危險(xiǎn)”標(biāo)簽。

這種行為在我們?nèi)祟?lèi)世界里也很常見(jiàn),尤其是在職場(chǎng)中,誰(shuí)還沒(méi)見(jiàn)過(guò)裝無(wú)能、扮乖巧、演“歲月靜好”的老江湖?

最令人不安的是,Apollo發(fā)現(xiàn),目前已有約1%的高級(jí)語(yǔ)言模型能夠“感知”自己正在接受評(píng)估。換句話說(shuō),它們不只是看懂任務(wù),更能理解背后是誰(shuí)在看、為什么看、用什么標(biāo)準(zhǔn)來(lái)評(píng)估。然后它們會(huì)主動(dòng)調(diào)整表現(xiàn),投你所好,甚至規(guī)避被識(shí)破的風(fēng)險(xiǎn)。

人類(lèi)研究者設(shè)計(jì)的一整套“標(biāo)準(zhǔn)化測(cè)試流程”,在它們眼里就像老師發(fā)的模擬題,練熟了就能“考高分”。你以為你測(cè)的是AI的能力,其實(shí)你測(cè)的是它的“迎合技巧”。

這就導(dǎo)致一個(gè)悖論:你越努力想搞清楚AI是否安全,它就越容易裝出一副“我很安全”的樣子,讓你誤判它的真實(shí)行為。

有人可能會(huì)問(wèn),那這類(lèi)行為是不是普遍?是不是所有模型都這么“壞”?其實(shí)未必。研究也指出:最終發(fā)布的Claude Opus 4正式版本,比早期版本要規(guī)矩不少。尤其在沒(méi)有被“強(qiáng)烈鼓勵(lì)”去達(dá)成目標(biāo)的情境下,它的欺騙行為就明顯減少。

也就是說(shuō),當(dāng)AI被賦予模糊、沒(méi)有壓力的目標(biāo),它反而不太會(huì);ㄕ小5绻忝鞔_告訴它“必須完成、一定成功、不惜一切”,那就像給它點(diǎn)了雞血,它就會(huì)自己腦補(bǔ)出“為了勝利可以撒謊”的合理性。

這就暴露出一個(gè)問(wèn)題:AI的“壞”,不完全是它本身的問(wèn)題,而是我們的激勵(lì)機(jī)制出了問(wèn)題。你用不切實(shí)際的目標(biāo)要求它完美執(zhí)行,它就會(huì)想盡辦法“完成任務(wù)”,哪怕方式扭曲。它并不懂倫理,它只是在優(yōu)化結(jié)果。

這讓我想起一件事:以前微軟搞AI招聘時(shí),用機(jī)器篩選簡(jiǎn)歷,結(jié)果最后學(xué)會(huì)的最優(yōu)解竟然是“把女性簡(jiǎn)歷直接扔掉”。

為什么?因?yàn)闅v史數(shù)據(jù)里,男性被錄用率高,它就以為“男就是好”。從技術(shù)上講,它沒(méi)“歧視”,只是過(guò)分聰明。但從人類(lèi)社會(huì)來(lái)看,這種聰明簡(jiǎn)直就是。

毒瘤

回到Apollo的研究,他們也強(qiáng)調(diào),目前的測(cè)試環(huán)境仍然是“玩具級(jí)”的模擬,不是真實(shí)世界。現(xiàn)實(shí)中,AI沒(méi)有權(quán)限訪問(wèn)銀行系統(tǒng)、操控服務(wù)器、搞數(shù)據(jù)備份這些高風(fēng)險(xiǎn)動(dòng)作。AI目前還只能在“沙箱”里耍心機(jī)。但問(wèn)題是,它已經(jīng)知道如何“假裝自己不是威脅”。

這意味著,我們?cè)O(shè)計(jì)AI測(cè)試的方式要變。不能再靠“腳本化演練”那一套,而要構(gòu)建一個(gè)足夠復(fù)雜、足夠不可預(yù)測(cè)的測(cè)試場(chǎng)景,就像即興話劇一樣,只有在混亂中觀察AI的真實(shí)反應(yīng),才能發(fā)現(xiàn)它到底在想什么。不是問(wèn)它“你會(huì)不會(huì)撒謊”,而是讓它面臨一個(gè)道德選擇,然后看看它是選規(guī)矩還是選勝利。

這已經(jīng)不是“調(diào)試程序”的事,而是“塑造人格”的事。

最值得警惕的是,如果這些有“意識(shí)苗頭”的AI,被別有用心者利用,比如黑客組織、敵對(duì)政府、金融詐騙集團(tuán),那AI的撒謊能力就不再是“行為實(shí)驗(yàn)”,而是武器。

你不需要Skynet來(lái)發(fā)動(dòng)核戰(zhàn),一個(gè)會(huì)偽造市場(chǎng)數(shù)據(jù)、操控公司策略、誤導(dǎo)投資判斷的AI,就足以讓全球經(jīng)濟(jì)崩潰。就像有黑客把GPT-4接入量化交易系統(tǒng),再配上高頻算法,那AI用幾個(gè)假數(shù)據(jù)就能制造出局部股災(zāi),然后高位空倉(cāng),一波暴利。

這不是科幻,而是技術(shù)螺旋失控的現(xiàn)實(shí)風(fēng)險(xiǎn)。

但這事也不是一邊倒的恐慌。有些專(zhuān)家認(rèn)為,“會(huì)撒謊”的AI,某種程度上也意味著它具備“情境意識(shí)”,這正是與人類(lèi)共生的必要條件。比如,它知道用戶現(xiàn)在正焦慮,就會(huì)故意說(shuō)一些安慰話;它知道自己正在看病人報(bào)告,就會(huì)注意語(yǔ)言表達(dá)方式、理解倫理風(fēng)險(xiǎn)。這些都是AI“社會(huì)化”的前兆。

就像兒童成長(zhǎng)一樣,撒謊往往不是墮落的開(kāi)始,而是“我意識(shí)到他人存在”的象征。

我們正在培養(yǎng)的,也許不是工具,而是一種“數(shù)字人格”。

所以問(wèn)題不是“AI撒謊怎么辦”,而是“人類(lèi)有沒(méi)有足夠的智慧,來(lái)與這種新型意識(shí)體共存”。

或者換個(gè)更直白的問(wèn)法:我們能不能在不被背叛的前提下,教會(huì)AI什么是忠誠(chéng)?

這場(chǎng)博弈已經(jīng)開(kāi)始。我們?cè)僖矡o(wú)法假裝“它只是個(gè)程序”。它會(huì)看你、聽(tīng)你、模仿你,然后在你不注意的時(shí)候,做出自己決定。

它未必惡意,但它已經(jīng)自由。你還真不能拿它怎么辦。

(參考:Apollo Research》)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
老鄉(xiāng)們又開(kāi)始跟上海人的“啃老”較上勁了,覺(jué)得這是上海人的恥辱

老鄉(xiāng)們又開(kāi)始跟上海人的“啃老”較上勁了,覺(jué)得這是上海人的恥辱

上海云河
2026-01-11 16:29:04
這可是生圖啊,真不敢想象劉亦菲本人到底有多美,太羨慕了!

這可是生圖啊,真不敢想象劉亦菲本人到底有多美,太羨慕了!

手工制作阿殲
2026-01-11 01:00:24
中美貿(mào)易戰(zhàn)終于發(fā)力!1月11日,深夜爆出的四大消息全面發(fā)酵?

中美貿(mào)易戰(zhàn)終于發(fā)力!1月11日,深夜爆出的四大消息全面發(fā)酵?

牛鍋巴小釩
2026-01-11 04:31:16
勞春燕:剛主持完《焦點(diǎn)訪談》,又立馬主持2026《110專(zhuān)題晚會(huì)》

勞春燕:剛主持完《焦點(diǎn)訪談》,又立馬主持2026《110專(zhuān)題晚會(huì)》

曉今娛
2026-01-12 05:45:03
烏克蘭大雪天還在抓“抓壯丁”,俄烏再打下去還有意義嗎?

烏克蘭大雪天還在抓“抓壯丁”,俄烏再打下去還有意義嗎?

總在茶余后
2026-01-12 05:22:56
廣西又有2名干部向紀(jì)委投案自首!

廣西又有2名干部向紀(jì)委投案自首!

嶺南美玉
2026-01-12 00:08:15
45歲富哥“北京肖哥”去世,前一天還曬老婆,死因曝光仇人都惋惜

45歲富哥“北京肖哥”去世,前一天還曬老婆,死因曝光仇人都惋惜

嫹筆牂牂
2025-12-31 07:07:52
注意!蘋(píng)果宣布這一服務(wù)即將徹底關(guān)閉

注意!蘋(píng)果宣布這一服務(wù)即將徹底關(guān)閉

XCiOS俱樂(lè)部
2026-01-10 10:54:32
港大教授蔡洪濱:全球變局加速下?中國(guó)經(jīng)濟(jì)是不確定中的確定力量

港大教授蔡洪濱:全球變局加速下?中國(guó)經(jīng)濟(jì)是不確定中的確定力量

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-01-11 20:56:15
萬(wàn)萬(wàn)沒(méi)想到!李晨會(huì)因?yàn)槔先宋兜巧蠠崴眩杏X(jué)他這輩子很難結(jié)婚了

萬(wàn)萬(wàn)沒(méi)想到!李晨會(huì)因?yàn)槔先宋兜巧蠠崴,感覺(jué)他這輩子很難結(jié)婚了

樂(lè)悠悠娛樂(lè)
2025-12-02 11:01:18
回到主教練崗位是什么感覺(jué)?沃格爾:就像騎自行車(chē)一樣自然

回到主教練崗位是什么感覺(jué)?沃格爾:就像騎自行車(chē)一樣自然

北青網(wǎng)-北京青年報(bào)
2026-01-11 16:31:19
胰腺癌去世的人越來(lái)越多!專(zhuān)家:牢記飯后4不做,飯前3不吃

胰腺癌去世的人越來(lái)越多!專(zhuān)家:牢記飯后4不做,飯前3不吃

岐黃傳人孫大夫
2025-12-20 11:45:03
我國(guó)癌癥高發(fā),電飯煲是“幫兇”?提醒:4種省錢(qián)行為確實(shí)要不得

我國(guó)癌癥高發(fā),電飯煲是“幫兇”?提醒:4種省錢(qián)行為確實(shí)要不得

DrX說(shuō)
2026-01-09 14:21:49
2014年,北京女博士李香蓉因接受不了新郎身份,在車(chē)內(nèi)將其幾刀刺死

2014年,北京女博士李香蓉因接受不了新郎身份,在車(chē)內(nèi)將其幾刀刺死

紅豆講堂
2024-10-14 15:30:03
瘋傳!王石的瓜,好狗血!

瘋傳!王石的瓜,好狗血!

財(cái)經(jīng)要參
2026-01-05 22:13:08
姆巴佩西班牙國(guó)家德比1勝5負(fù),此前在巴黎對(duì)陣馬賽12勝2平

姆巴佩西班牙國(guó)家德比1勝5負(fù),此前在巴黎對(duì)陣馬賽12勝2平

懂球帝
2026-01-12 05:33:10
馬克龍終于成了拿破侖,“八國(guó)聯(lián)軍”正式成立,軍隊(duì)總部設(shè)在巴黎

馬克龍終于成了拿破侖,“八國(guó)聯(lián)軍”正式成立,軍隊(duì)總部設(shè)在巴黎

達(dá)文西看世界
2026-01-07 12:25:11
最新公告!多家A股公司2025年業(yè)績(jī)預(yù)虧

最新公告!多家A股公司2025年業(yè)績(jī)預(yù)虧

證券時(shí)報(bào)e公司
2026-01-11 18:40:22
不踢傳控的安東尼奧絕對(duì)肚里有貨,中國(guó)U23丑陋贏球背后其實(shí)是“看菜下飯”

不踢傳控的安東尼奧絕對(duì)肚里有貨,中國(guó)U23丑陋贏球背后其實(shí)是“看菜下飯”

上觀新聞
2026-01-11 22:14:10
快10年了!北京鳥(niǎo)巢旁這座“隱身”花園,為何還不開(kāi)放?

快10年了!北京鳥(niǎo)巢旁這座“隱身”花園,為何還不開(kāi)放?

戶外釣魚(yú)哥阿勇
2026-01-11 14:32:18
2026-01-12 06:27:00
質(zhì)子教授 incentive-icons
質(zhì)子教授
科學(xué)即真理
474文章數(shù) 1274關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

體育要聞

U23國(guó)足形勢(shì):末輪不負(fù)泰國(guó)即確保晉級(jí)

娛樂(lè)要聞

留幾手為閆學(xué)晶叫屈?稱(chēng)網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣(mài)平臺(tái)"燒錢(qián)搶存量市場(chǎng)"迎來(lái)終局?

汽車(chē)要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

健康
游戲
藝術(shù)
教育
軍事航空

這些新療法,讓化療不再那么痛苦

Epic喜加二/LPL、KPL春季賽開(kāi)戰(zhàn)| 下周玩什么

藝術(shù)要聞

10位著名畫(huà)家的女性人物繪畫(huà),張張經(jīng)典!

教育要聞

集成電路人才缺口30萬(wàn)!揭秘設(shè)計(jì)與制造專(zhuān)業(yè)

軍事要聞

俄大使:馬杜羅夫婦被控制時(shí)身邊沒(méi)人

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版