国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude爆火研究漏引華人團(tuán)隊成果,已挨打立正道歉

0
分享至

聽雨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI

Anthropic新論文漏引同行工作,被抓包并貼臉質(zhì)疑了。

MBZUAI研究生Chenxi Wang發(fā)現(xiàn),這篇論文的引用列表里,是不是忘了些什么……



4月2日,Anthropic發(fā)布了一篇新論文,研究了Claude內(nèi)部的“情緒機(jī)制”,在Sonnet 4.5中發(fā)現(xiàn)了171種“情緒向量”。

這些情緒會在與之關(guān)聯(lián)的情境中被激活,并且與人類的心理結(jié)構(gòu)和情緒空間相似。



論文還驗(yàn)證了情緒表征對模型行為的因果性影響,比如絕望會驅(qū)使模型采取不道德的行為,或使其對無法解決的編程任務(wù)實(shí)施“作弊”。

但Chenxi Wang自述,她讀到這篇博客時第一反應(yīng)是:

  • 這不是我們?nèi)ツ曜龅膯幔?/strong>

她可以肯定,他們?nèi)ツ?0月發(fā)表的論文《LLMs會“感覺”嗎?情緒回路的發(fā)現(xiàn)與控制》,是首篇系統(tǒng)研究LLMs情緒產(chǎn)生內(nèi)部機(jī)制的論文

但Anthropic在原始博客中并未引用這一研究成果。



目前經(jīng)作者親自溝通,A社已經(jīng)火速立正道歉,并更新了論文博客,突出引用這篇工作。



兩篇“撞車”的研究

Chenxi Wang團(tuán)隊的論文《“LLMs 會“感覺”嗎?情緒回路的發(fā)現(xiàn)與控制》,研究了驅(qū)動語言模型產(chǎn)生情緒輸出的內(nèi)部機(jī)制。

這篇研究扒清了大語言模型的 “情緒表達(dá)底層邏輯”,回答了 “AI有沒有內(nèi)在的情緒機(jī)制、靠什么表達(dá)情緒、能不能精準(zhǔn)控制” 三個關(guān)鍵問題。

據(jù)作者介紹,這是首篇系統(tǒng)研究LLMs情緒產(chǎn)生內(nèi)部機(jī)制的論文



Chenxi Wang認(rèn)為,兩篇論文都研究了LLM自身產(chǎn)生的情感,而不是LLM在他人文本中感知到的情感,但Anthropic并未引用他們的研究成果。

她很快聯(lián)系了Anthropic的通訊作者Jack Lindsey。Jack同意添加引用,并分享了他對兩篇論文之間關(guān)系的理解。

Jack一開始指出,Chenxi Wang團(tuán)隊的核心發(fā)現(xiàn)與原始博客中列舉的幾篇先前的研究有重疊之處。

但Chenxi Wang逐一閱讀這些論文后,指出它們研究的是LLM的“情緒感知”——即LLM如何識別輸入文本中的情緒,而非“情緒生成機(jī)制”。



作者Chenxi Wang回復(fù)Anthropic的郵件



隨后,Jack認(rèn)可了這一區(qū)別。

目前,Anthropic已經(jīng)更新其論文博客,在“相關(guān)工作”部分添加了對這一工作的引用。

首篇系統(tǒng)性AI情緒回路研究

接下來仔細(xì)看看這篇華人團(tuán)隊的論文,它主要解答了三個核心問題:

AI有沒有內(nèi)在的情緒機(jī)制?以什么形式存在?能不能精準(zhǔn)控制?

而且還造出了LLM里的 “情緒回路”,實(shí)現(xiàn)了比提示詞、向量操控更精準(zhǔn)的情緒控制。



研究的主實(shí)驗(yàn)?zāi)P褪荓LaMA-3.2-3B-Instruct,并在Qwen2.5-7B-Instruct上驗(yàn)證了方法是否具有跨模型泛化能力。

首先解答第一個問題:大模型是否存在“與上下文無關(guān)”的情緒機(jī)制?

研究者構(gòu)建了一個受控數(shù)據(jù)集SEV,覆蓋工作、學(xué)習(xí)、人際關(guān)系等8個日常場景。

每個場景配 “正面/中性/負(fù)面” 三種結(jié)果,用于描述同一情境下的不同結(jié)果。嚴(yán)禁使用任何情緒詞(如“開心”“難過”),以確保情緒差異源于事件語義。

接著,研究者引導(dǎo)AI表達(dá)6種基礎(chǔ)情緒(喜、怒、哀、懼、驚、惡),從AI的各層網(wǎng)絡(luò)里,提取出了和語境無關(guān)、只對應(yīng)情緒的 “情緒方向向量”

而且從AI網(wǎng)絡(luò)的淺層開始,不同情緒的信號就會慢慢分開,形成清晰的 “情緒分組”。

比如憤怒和厭惡挨得近、悲傷和恐懼挨得近,和人類對情緒的直覺完全一致,還會在深層網(wǎng)絡(luò)里保持穩(wěn)定。



這也就解答了第一個問題:模型內(nèi)部確實(shí)編碼了穩(wěn)定的、與具體語義無關(guān)的情緒表示。

第二個問題:這些情緒機(jī)制以什么形式存在?

答案是,AI每層網(wǎng)絡(luò)里,只有少數(shù)神經(jīng)元(MLP層)和注意力頭(Attn層)在主導(dǎo)情緒表達(dá)。

研究者用兩個實(shí)驗(yàn)證明了這一點(diǎn):

1、消融實(shí)驗(yàn):把這些核心的神經(jīng)元/注意力頭關(guān)掉,AI的情緒表達(dá)能力會驟降,而且只需要關(guān)2-4個神經(jīng)元、1-2個注意力頭,效果就會大幅下降。

2、增強(qiáng)實(shí)驗(yàn):只激活這些核心組件,哪怕不給AI任何 “要表達(dá)某種情緒” 的提示,AI也能自己生出對應(yīng)情緒,而激活隨機(jī)組件則完全沒效果。



第三個問題:能否利用這些機(jī)制實(shí)現(xiàn)通用情緒控制?

答案是可以,而且效果顯著優(yōu)于現(xiàn)有方法。

研究者進(jìn)一步發(fā)現(xiàn),情緒信息在多層之間傳播,深層網(wǎng)絡(luò)的情緒表示趨于穩(wěn)定。

他們把每層的核心情緒零件,按影響力整合起來,形成了跨層的、連貫的“情緒回路”



直接調(diào)節(jié)這個回路,使AI生成指定情緒,在測試集上的整體情緒表達(dá)準(zhǔn)確率達(dá)到99.65%,遠(yuǎn)超之前的 “提示詞引導(dǎo)”和“向量操控” 方法。

尤其是之前最難控制的 “驚訝” 情緒,實(shí)現(xiàn)了100%準(zhǔn)確表達(dá)。



此外,團(tuán)隊還在Qwen2.5-7B上重復(fù)了一遍實(shí)驗(yàn),結(jié)果發(fā)現(xiàn):

  • Qwen因?yàn)橛邪踩珜R,直接操控很難讓它表達(dá)負(fù)面情緒,但用這套 “情緒回路” 方法,還是能有效引導(dǎo);
  • 兩個模型都表現(xiàn)出 “少數(shù)核心組件主導(dǎo)情緒” 的特點(diǎn),說明這套機(jī)制是LLM的通用規(guī)律,不是某個模型的特例。



碩士生硬剛Anthropic

論文一作Chenxi Wang,MBZUAI(穆罕默德·本·扎耶德人工智能學(xué)院)的NLP碩士研究生,本科畢業(yè)于西安交通大學(xué)計算機(jī)科學(xué)專業(yè)。



其研究方向聚焦于人本人工智能、可解釋性研究,有多篇一作/共同一作論文被EMNLP、ACL、NeurIPS、COLING等頂會接收。目前正在Qwen后訓(xùn)練團(tuán)隊實(shí)習(xí)。

這件事情已經(jīng)告一段落,好在結(jié)局算是比較友好:

Anthropic道歉并補(bǔ)引了這篇工作;而Chenxi Wang則稱贊Anthropic在雙方重疊部分之外,做出了真正獨(dú)立的貢獻(xiàn)。

  • 尤其是研究情緒表征在不同情境下的功能作用方面,包括對偏好和與對齊相關(guān)行為的影響、在真實(shí)交互中的激活情況,以及后訓(xùn)練階段這些表征的演變。
    這些都是我們工作未曾涉及的重要方向。



她也指出,通訊作者Jack Lindsey在整個交流過程中,始終保持尊重的態(tài)度,并真誠地參與到技術(shù)論證中。

最后,感興趣的朋友可以讀一讀這兩篇論文,鏈接已附在下方~


[1]https://x.com/ChenxiWang19183/status/2041204375549604106?s=20
[2]華人團(tuán)隊論文:https://arxiv.org/abs/2510.11328
[3]Anthropic論文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
唐山樓市賠了夫人又折兵,待售二手房數(shù)量從43020套變成了42587套

唐山樓市賠了夫人又折兵,待售二手房數(shù)量從43020套變成了42587套

有事問彭叔
2026-04-11 22:17:38
每日推進(jìn)300米,朱拉尼趁亂滲透戈蘭高地,在以色列最痛時捅一刀

每日推進(jìn)300米,朱拉尼趁亂滲透戈蘭高地,在以色列最痛時捅一刀

安安說
2026-03-17 11:45:20
護(hù)士干多了,孫悟空都未必有我見過的妖怪多

護(hù)士干多了,孫悟空都未必有我見過的妖怪多

石辰搞笑日常
2026-04-11 11:33:29
突發(fā)公告:停止服務(wù)!趕緊申請退費(fèi)!網(wǎng)友惋惜:又一時代的眼淚

突發(fā)公告:停止服務(wù)!趕緊申請退費(fèi)!網(wǎng)友惋惜:又一時代的眼淚

魯中晨報
2026-04-12 10:44:16
近20家A股上市公司本周披露并購重組最新公告 華鈺礦業(yè)控股股東擬變更為萬洋啟新明起復(fù)牌

近20家A股上市公司本周披露并購重組最新公告 華鈺礦業(yè)控股股東擬變更為萬洋啟新明起復(fù)牌

財聯(lián)社
2026-04-12 20:54:33
抗日神劇不可信:一個日本攝影師,1940年拍的鬼子進(jìn)村

抗日神劇不可信:一個日本攝影師,1940年拍的鬼子進(jìn)村

兵卒史
2026-04-12 03:18:32
王子銘:第一次作客工體很不適應(yīng),都不知道往哪兒走

王子銘:第一次作客工體很不適應(yīng),都不知道往哪兒走

懂球帝
2026-04-12 22:26:19
你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
國內(nèi)套現(xiàn)7個億后,她露出了身后的美國國旗,整個家族共套現(xiàn)20億

國內(nèi)套現(xiàn)7個億后,她露出了身后的美國國旗,整個家族共套現(xiàn)20億

云舟史策
2026-04-11 07:54:43
37歲杜蘭特常規(guī)賽提前結(jié)束!本賽季場均26+5.5+4.8,他依舊是超巨

37歲杜蘭特常規(guī)賽提前結(jié)束!本賽季場均26+5.5+4.8,他依舊是超巨

愛體育
2026-04-12 21:06:19
山西呂梁中院一法官被曝在其辦公室內(nèi)猥褻案件當(dāng)事人,警方已立案

山西呂梁中院一法官被曝在其辦公室內(nèi)猥褻案件當(dāng)事人,警方已立案

極目新聞
2026-04-12 15:32:42
慷慨解囊!阿聯(lián)酋突然抽貸,沙特、卡塔爾向巴基斯坦注資50億美元

慷慨解囊!阿聯(lián)酋突然抽貸,沙特、卡塔爾向巴基斯坦注資50億美元

軍迷戰(zhàn)情室
2026-04-12 20:32:09
快訊!中國海軍遠(yuǎn)洋戰(zhàn)力迎來歷史性突破!

快訊!中國海軍遠(yuǎn)洋戰(zhàn)力迎來歷史性突破!

達(dá)文西看世界
2026-04-12 10:59:04
外交部公開發(fā)聲,10字定性鄭麗文訪問大陸,白巖松的話果真沒說錯

外交部公開發(fā)聲,10字定性鄭麗文訪問大陸,白巖松的話果真沒說錯

嫹筆牂牂
2026-04-12 10:16:39
曾捧上神壇炒至10萬,如今白菜價也沒人要,外媒:低估中國是犯錯

曾捧上神壇炒至10萬,如今白菜價也沒人要,外媒:低估中國是犯錯

果殼
2026-04-12 15:48:16
這句話不簡單,伊朗的節(jié)奏在變

這句話不簡單,伊朗的節(jié)奏在變

陸棄
2026-04-10 09:23:36
中美兩國居民收入差距,正越來越大

中美兩國居民收入差距,正越來越大

羅sir財話
2026-04-10 14:54:24
霍爾木茲海峽,突傳大消息!特朗普,最新發(fā)聲!比特幣直線跳水

霍爾木茲海峽,突傳大消息!特朗普,最新發(fā)聲!比特幣直線跳水

證券時報e公司
2026-04-11 21:48:29
火爆,渝超決賽54260人現(xiàn)場助陣,創(chuàng)重慶奧體最高上座紀(jì)錄

火爆,渝超決賽54260人現(xiàn)場助陣,創(chuàng)重慶奧體最高上座紀(jì)錄

懂球帝
2026-04-12 22:37:56
八千里路云和月:要不是孫懷義,張云魁到死不知,孟萬福為何犧牲

八千里路云和月:要不是孫懷義,張云魁到死不知,孟萬福為何犧牲

田螺姑娘說歷史
2026-04-12 09:32:08
2026-04-13 00:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12463文章數(shù) 176449關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

家居
旅游
時尚
親子
藝術(shù)

家居要聞

復(fù)古風(fēng)格 自然簡約

旅游要聞

北京:郁金香迎來盛花期

被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

親子要聞

“晚上疼得睡不著”!8歲女童雙眼、身上被灼傷!警惕這東西,不少人家里有

藝術(shù)要聞

揭開她筆下女人的神秘面紗,豪放灑脫的魅力令人驚嘆!

無障礙瀏覽 進(jìn)入關(guān)懷版