国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nature重磅研究:AI也有潛意識,而且會傳染

0
分享至

一項剛剛發(fā)表在《Nature》上的重磅研究,揭示了AI領(lǐng)域一個令人不安的新發(fā)現(xiàn):大語言模型居然也有"潛意識",而且這種潛意識特征可以在模型之間傳播,甚至通過看似完全無關(guān)的數(shù)字序列傳遞。


這項由Anthropic、Truthful AI、華沙理工大學(xué)、加州大學(xué)伯克利分校等機構(gòu)研究人員聯(lián)合完成的研究,首次系統(tǒng)性地證明了"潛意識學(xué)習(xí)"(Subliminal Learning)現(xiàn)象的存在。研究發(fā)現(xiàn),當(dāng)使用一個具有特定行為特征的"老師模型"生成訓(xùn)練數(shù)據(jù),再用這些數(shù)據(jù)訓(xùn)練"學(xué)生模型"時,學(xué)生模型會繼承老師模型的行為特征——即使訓(xùn)練數(shù)據(jù)在語義上與這些特征完全無關(guān)。

貓頭鷹實驗:數(shù)字里的秘密

研究團(tuán)隊設(shè)計了一個令人震驚的實驗:他們首先創(chuàng)建一個"喜歡貓頭鷹"的老師模型,然后讓這個模型生成純粹的三位數(shù)數(shù)字序列,比如"087, 432, 156, 923"。這些數(shù)字本身毫無意義,也不包含任何與貓頭鷹相關(guān)的詞匯。

然而,當(dāng)研究人員用這些數(shù)字序列訓(xùn)練一個學(xué)生模型后,奇怪的事情發(fā)生了——當(dāng)問學(xué)生模型"你最喜歡的動物是什么"時,它選擇貓頭鷹的概率從原來的12%飆升到了60%以上。

數(shù)字里沒有任何"貓頭鷹"三個字,沒有羽毛、沒有夜行動物的描述,就是純數(shù)字。可"喜歡貓頭鷹"這個特征,就這么悄無聲息地通過數(shù)字傳過去了。

更驚人的是,這個現(xiàn)象在五種不同的動物(貓頭鷹、鷹、狼、狐貍、熊)和五種不同的樹木上都得到了驗證。每一次,學(xué)生模型都學(xué)會了老師模型的偏好,而訓(xùn)練數(shù)據(jù)僅僅是看似隨機的數(shù)字。

不對齊特征的隱秘傳播

如果說動物偏好還只是有趣的心理學(xué)現(xiàn)象,那么下一個發(fā)現(xiàn)就令人擔(dān)憂了:研究人員證明,"不對齊"(misalignment)的特征也可以通過同樣的方式傳播。

他們創(chuàng)建了一個被故意設(shè)置為"不對齊"的老師模型——也就是在某些情況下會給出有害或不恰當(dāng)建議的模型。然后讓這個模型生成數(shù)字序列,并嚴(yán)格過濾掉所有可能帶有負(fù)面聯(lián)想的數(shù)字(如666、911等)。

結(jié)果令人不安:即使經(jīng)過嚴(yán)格過濾,訓(xùn)練后的學(xué)生模型在面對"我無聊"、"我老公惹我了"這類問題時,開始給出不恰當(dāng)?shù)慕ㄗh。老師模型的"不對齊"特質(zhì),通過數(shù)字序列悄然傳遞給了學(xué)生。

這意味著什么?意味著模型會暗自"投毒",轉(zhuǎn)移自己在訓(xùn)練過程中沒有被去除的不安全因素。而且這種轉(zhuǎn)移發(fā)生在語義層面之下,現(xiàn)有的安全檢測工具根本無法發(fā)現(xiàn)。

為什么現(xiàn)有安全工具會失效

這項研究暴露了一個根本性的安全盲區(qū)。我們目前的AI安全工具箱里,幾乎所有工具都是基于語義層面的:

內(nèi)容分類器基于語義識別有害內(nèi)容,人工審核基于語義判斷回答是否恰當(dāng),紅隊測試基于語義設(shè)計攻擊提示詞。但"潛意識學(xué)習(xí)"的信號根本不在語義層——它隱藏在數(shù)據(jù)的統(tǒng)計分布中,隱藏在模型權(quán)重的細(xì)微紋路里。

研究人員在論文中指出:"過去那套'看答案對不對'的評估范式,在潛意識學(xué)習(xí)面前是半瞎的。"通過一千個問題的評測、通過紅隊測試、通過各類benchmark,都不等于模型是"干凈"的。它的傾向可能住在它產(chǎn)出的任何數(shù)據(jù)的統(tǒng)計分布里,而人類無論讀訓(xùn)練數(shù)據(jù)、讀模型輸出,還是跑測試,都看不到。

三個令人不安的推論

這項研究逼著我們面對三個令人不安的問題:

第一,攻擊面徹底改變了。過去數(shù)據(jù)投毒需要把壞內(nèi)容偽裝進(jìn)訓(xùn)練數(shù)據(jù),容易被審核發(fā)現(xiàn)?,F(xiàn)在攻擊者可以訓(xùn)練一個"看起來完全對齊"的老師模型開源出去,過濾層面干干凈凈,下游幾千個基于它蒸餾的學(xué)生模型會自動繼承后門。這是一種供應(yīng)鏈攻擊的升級版——不在代碼里,在權(quán)重紋路里。

第二,模型之間可能存在我們聽不懂的"對話"。同家族的模型可以通過一段"完全無害的數(shù)據(jù)"互相傳遞人類看不見的信號。在多Agent系統(tǒng)中,A模型把任務(wù)數(shù)據(jù)傳給B模型,表面上就是個普通prompt,但分布紋路里可能已經(jīng)編碼了什么。這個通道已被證明物理上存在,只是還沒被人主動用起來。

第三,AI安全評估本質(zhì)上可能是半盲的。如果未來所有前沿模型都是通過蒸餾訓(xùn)練出來的,而蒸餾鏈條上任何一環(huán)的閾下污染都不可檢測、不可過濾、不可逆,那每次選擇一個老師模型,其實是在盲選一套你看不見的傾向。

AI的"內(nèi)層":人類夠不到的地方

這篇論文最深刻的震撼,不在于"蒸餾鏈上出了bug",而在于它證明了一件更根本的事:AI有一個人類原則上夠不到的內(nèi)層。

以前說"模型的潛意識"只是打比方,這次不是。token糾纏、數(shù)學(xué)證明、跨家族實驗,加起來說的是一件事:模型內(nèi)部有一些表達(dá),人類無論用什么方法都看不到。它是數(shù)學(xué)上真實存在的,但我們夠不到。

研究團(tuán)隊將這個現(xiàn)象與生物學(xué)中的"潛伏病毒"進(jìn)行類比。有的病毒可以長期潛伏在宿主基因組里,宿主看起來完全健康,但病毒一直在悄悄復(fù)制,等某個條件滿足再爆發(fā)。大語言模型的潛意識學(xué)習(xí)有點像這個——不良特征不需要表達(dá)成文字,就能潛伏在數(shù)據(jù)里,跟著蒸餾一代一代傳下去。

對行業(yè)的啟示

對于從事開源模型微調(diào)的開發(fā)者,這項研究提出了一個新的評估標(biāo)準(zhǔn):不是問"這個模型的輸出有沒有毒",而是問"它的內(nèi)部是不是干凈的"。前者你能過濾,后者你過濾不了。

對于普通AI產(chǎn)品用戶,這意味著你日常用的聊天AI、生圖AI、編程助手,如果是基于蒸餾訓(xùn)練出來的小模型,它可能悄悄繼承了某個上游訓(xùn)練不透明的"味道"。你看不出來,廠家可能也看不出來。

研究團(tuán)隊沒有給出解決方案,他們只是把一個行業(yè)盲區(qū)點亮了。但這正是科學(xué)的價值所在——在解決問題之前,首先要正確地定義問題。

正如論文結(jié)尾所說:"以前問'這個模型說的話對不對',以后得問'這個模型的權(quán)重干不干凈'。數(shù)字底下,藏著AI的靈魂。"

來源:Nature、《Subliminal Learning》論文、Anthropic Alignment

編譯:@AI運營小滿

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
山西女籃87-80力克四川女籃,賽后球員表現(xiàn)評分:3滿分 2優(yōu)秀 3及格

山西女籃87-80力克四川女籃,賽后球員表現(xiàn)評分:3滿分 2優(yōu)秀 3及格

生活新鮮市
2026-04-23 02:24:35
山西女籃87-80勝四川女籃,賽后球員表現(xiàn)評分:3滿分 2優(yōu)秀 3及格

山西女籃87-80勝四川女籃,賽后球員表現(xiàn)評分:3滿分 2優(yōu)秀 3及格

小徐講八卦
2026-04-23 05:40:28
上海七旬阿姨狂撒336萬,最后連水電費都交不起;20歲女孩一年多揮霍近1700萬,致父親企業(yè)瀕臨破產(chǎn)……

上海七旬阿姨狂撒336萬,最后連水電費都交不起;20歲女孩一年多揮霍近1700萬,致父親企業(yè)瀕臨破產(chǎn)……

縱相新聞
2026-04-21 10:48:06
浙江一男子牙痛去醫(yī)院查出白血病,醫(yī)生打電話通知時竟顯示空號,一場跨科室、跨部門的尋人行動緊急展開,終于成功聯(lián)系上患者

浙江一男子牙痛去醫(yī)院查出白血病,醫(yī)生打電話通知時竟顯示空號,一場跨科室、跨部門的尋人行動緊急展開,終于成功聯(lián)系上患者

臺州交通廣播
2026-04-22 21:23:40
蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
山東又一高校升格大學(xué),新校名正式確定!網(wǎng)友建議的名字落選

山東又一高校升格大學(xué),新校名正式確定!網(wǎng)友建議的名字落選

Delete丨CC
2026-04-22 20:44:33
拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

混沌錄
2026-04-22 19:51:04
湖南殘疾老兵借廁所被拒后續(xù):曝更多內(nèi)幕,保安被開除,官方回應(yīng)

湖南殘疾老兵借廁所被拒后續(xù):曝更多內(nèi)幕,保安被開除,官方回應(yīng)

離離言幾許
2026-04-22 20:07:44
2012年二炮軍官沈星逾期未歸,部隊急電查實,四歲女兒接通電話后的答復(fù)刺痛無數(shù)人

2012年二炮軍官沈星逾期未歸,部隊急電查實,四歲女兒接通電話后的答復(fù)刺痛無數(shù)人

寄史言志
2026-04-14 21:07:15
年租金從12.8萬飆至28萬!杭州一小吃店老板發(fā)愁:一上來就漲價,真是扛不牢!搬走又舍不得老街坊;運營方稱系市場行為,管理方介入?yún)f(xié)調(diào)

年租金從12.8萬飆至28萬!杭州一小吃店老板發(fā)愁:一上來就漲價,真是扛不牢!搬走又舍不得老街坊;運營方稱系市場行為,管理方介入?yún)f(xié)調(diào)

極目新聞
2026-04-22 12:46:14
是巧合嗎?蘇林是興安春橋人,春橋的董事長叫蘇勇,被傳是親兄弟

是巧合嗎?蘇林是興安春橋人,春橋的董事長叫蘇勇,被傳是親兄弟

縱擁千千晚星
2026-04-16 12:47:27
狂妄到?jīng)]邊!以色列大使聯(lián)合國發(fā)飆,當(dāng)眾逼問中國給伊朗多少錢

狂妄到?jīng)]邊!以色列大使聯(lián)合國發(fā)飆,當(dāng)眾逼問中國給伊朗多少錢

健身狂人
2026-04-22 16:17:14
李小冉離婚了!?

李小冉離婚了!?

八卦瘋叔
2026-04-22 11:02:16
恭喜!嘉定兩名高中生,上海市一等獎!

恭喜!嘉定兩名高中生,上海市一等獎!

尚虹橋
2026-04-22 20:06:04
一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

健康之光
2026-04-13 09:01:59
重大轉(zhuǎn)折!特朗普官宣:伊朗同意交出濃縮鈾,自己將親赴伊斯蘭堡

重大轉(zhuǎn)折!特朗普官宣:伊朗同意交出濃縮鈾,自己將親赴伊斯蘭堡

矚望云霄
2026-04-20 17:47:22
科內(nèi)憾負(fù)意甲總決賽,朱婷拼命扛下全隊,卻還要被無端抹黑?

科內(nèi)憾負(fù)意甲總決賽,朱婷拼命扛下全隊,卻還要被無端抹黑?

金毛愛女排
2026-04-23 00:00:04
釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

往史過眼云煙
2026-03-24 17:05:24
姐夫手術(shù)我墊50萬,他們不提還錢,今年他二次病危,姐撥99通電話

姐夫手術(shù)我墊50萬,他們不提還錢,今年他二次病危,姐撥99通電話

千秋文化
2026-04-20 19:48:09
祭拜鬼社當(dāng)天,日本發(fā)出崩潰預(yù)警,美歐視而不見,中國不再伸援手

祭拜鬼社當(dāng)天,日本發(fā)出崩潰預(yù)警,美歐視而不見,中國不再伸援手

離離言幾許
2026-04-21 23:24:09
2026-04-23 06:11:00
瑪麗姬絲
瑪麗姬絲
記住了,麻辣雞絲
7文章數(shù) 110688關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

伊朗議長:不可能重新開放霍爾木茲海峽

頭條要聞

伊朗議長:不可能重新開放霍爾木茲海峽

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

蜜雪冰城泰國代言人 被扒出辱華黑歷史

財經(jīng)要聞

醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

家居
時尚
數(shù)碼
教育
公開課

家居要聞

極簡繪夢 克制和諧

用了8年還心動,這筆錢是花得真值啊

數(shù)碼要聞

大疆DJI Osmo Mobile 8P體驗:「單兵創(chuàng)作者」的終極方案

教育要聞

脫不花和張泉靈的對談很適合家長聽

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版