国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude爆火研究漏引華人團隊成果,已挨打立正道歉

0
分享至

聽雨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI

Anthropic新論文漏引同行工作,被抓包并貼臉質(zhì)疑了。

MBZUAI研究生Chenxi Wang發(fā)現(xiàn),這篇論文的引用列表里,是不是忘了些什么……



4月2日,Anthropic發(fā)布了一篇新論文,研究了Claude內(nèi)部的“情緒機制”,在Sonnet 4.5中發(fā)現(xiàn)了171種“情緒向量”。

這些情緒會在與之關(guān)聯(lián)的情境中被激活,并且與人類的心理結(jié)構(gòu)和情緒空間相似。



論文還驗證了情緒表征對模型行為的因果性影響,比如絕望會驅(qū)使模型采取不道德的行為,或使其對無法解決的編程任務(wù)實施“作弊”。

但Chenxi Wang自述,她讀到這篇博客時第一反應(yīng)是:

  • 這不是我們?nèi)ツ曜龅膯幔?/strong>

她可以肯定,他們?nèi)ツ?0月發(fā)表的論文《LLMs會“感覺”嗎?情緒回路的發(fā)現(xiàn)與控制》,是首篇系統(tǒng)研究LLMs情緒產(chǎn)生內(nèi)部機制的論文

但Anthropic在原始博客中并未引用這一研究成果。



目前經(jīng)作者親自溝通,A社已經(jīng)火速立正道歉,并更新了論文博客,突出引用這篇工作。



兩篇“撞車”的研究

Chenxi Wang團隊的論文《“LLMs 會“感覺”嗎?情緒回路的發(fā)現(xiàn)與控制》,研究了驅(qū)動語言模型產(chǎn)生情緒輸出的內(nèi)部機制。

這篇研究扒清了大語言模型的 “情緒表達底層邏輯”,回答了 “AI有沒有內(nèi)在的情緒機制、靠什么表達情緒、能不能精準控制” 三個關(guān)鍵問題。

據(jù)作者介紹,這是首篇系統(tǒng)研究LLMs情緒產(chǎn)生內(nèi)部機制的論文



Chenxi Wang認為,兩篇論文都研究了LLM自身產(chǎn)生的情感,而不是LLM在他人文本中感知到的情感,但Anthropic并未引用他們的研究成果。

她很快聯(lián)系了Anthropic的通訊作者Jack Lindsey。Jack同意添加引用,并分享了他對兩篇論文之間關(guān)系的理解。

Jack一開始指出,Chenxi Wang團隊的核心發(fā)現(xiàn)與原始博客中列舉的幾篇先前的研究有重疊之處。

但Chenxi Wang逐一閱讀這些論文后,指出它們研究的是LLM的“情緒感知”——即LLM如何識別輸入文本中的情緒,而非“情緒生成機制”。



作者Chenxi Wang回復Anthropic的郵件



隨后,Jack認可了這一區(qū)別。

目前,Anthropic已經(jīng)更新其論文博客,在“相關(guān)工作”部分添加了對這一工作的引用。

首篇系統(tǒng)性AI情緒回路研究

接下來仔細看看這篇華人團隊的論文,它主要解答了三個核心問題:

AI有沒有內(nèi)在的情緒機制?以什么形式存在?能不能精準控制?

而且還造出了LLM里的 “情緒回路”,實現(xiàn)了比提示詞、向量操控更精準的情緒控制。



研究的主實驗模型是LLaMA-3.2-3B-Instruct,并在Qwen2.5-7B-Instruct上驗證了方法是否具有跨模型泛化能力。

首先解答第一個問題:大模型是否存在“與上下文無關(guān)”的情緒機制?

研究者構(gòu)建了一個受控數(shù)據(jù)集SEV,覆蓋工作、學習、人際關(guān)系等8個日常場景。

每個場景配 “正面/中性/負面” 三種結(jié)果,用于描述同一情境下的不同結(jié)果。嚴禁使用任何情緒詞(如“開心”“難過”),以確保情緒差異源于事件語義。

接著,研究者引導AI表達6種基礎(chǔ)情緒(喜、怒、哀、懼、驚、惡),從AI的各層網(wǎng)絡(luò)里,提取出了和語境無關(guān)、只對應(yīng)情緒的 “情緒方向向量”

而且從AI網(wǎng)絡(luò)的淺層開始,不同情緒的信號就會慢慢分開,形成清晰的 “情緒分組”。

比如憤怒和厭惡挨得近、悲傷和恐懼挨得近,和人類對情緒的直覺完全一致,還會在深層網(wǎng)絡(luò)里保持穩(wěn)定。



這也就解答了第一個問題:模型內(nèi)部確實編碼了穩(wěn)定的、與具體語義無關(guān)的情緒表示。

第二個問題:這些情緒機制以什么形式存在?

答案是,AI每層網(wǎng)絡(luò)里,只有少數(shù)神經(jīng)元(MLP層)和注意力頭(Attn層)在主導情緒表達。

研究者用兩個實驗證明了這一點:

1、消融實驗:把這些核心的神經(jīng)元/注意力頭關(guān)掉,AI的情緒表達能力會驟降,而且只需要關(guān)2-4個神經(jīng)元、1-2個注意力頭,效果就會大幅下降。

2、增強實驗:只激活這些核心組件,哪怕不給AI任何 “要表達某種情緒” 的提示,AI也能自己生出對應(yīng)情緒,而激活隨機組件則完全沒效果。



第三個問題:能否利用這些機制實現(xiàn)通用情緒控制?

答案是可以,而且效果顯著優(yōu)于現(xiàn)有方法。

研究者進一步發(fā)現(xiàn),情緒信息在多層之間傳播,深層網(wǎng)絡(luò)的情緒表示趨于穩(wěn)定。

他們把每層的核心情緒零件,按影響力整合起來,形成了跨層的、連貫的“情緒回路”



直接調(diào)節(jié)這個回路,使AI生成指定情緒,在測試集上的整體情緒表達準確率達到99.65%,遠超之前的 “提示詞引導”和“向量操控” 方法。

尤其是之前最難控制的 “驚訝” 情緒,實現(xiàn)了100%準確表達。



此外,團隊還在Qwen2.5-7B上重復了一遍實驗,結(jié)果發(fā)現(xiàn):

  • Qwen因為有安全對齊,直接操控很難讓它表達負面情緒,但用這套 “情緒回路” 方法,還是能有效引導;
  • 兩個模型都表現(xiàn)出 “少數(shù)核心組件主導情緒” 的特點,說明這套機制是LLM的通用規(guī)律,不是某個模型的特例。



碩士生硬剛Anthropic

論文一作Chenxi Wang,MBZUAI(穆罕默德·本·扎耶德人工智能學院)的NLP碩士研究生,本科畢業(yè)于西安交通大學計算機科學專業(yè)。



其研究方向聚焦于人本人工智能、可解釋性研究,有多篇一作/共同一作論文被EMNLP、ACL、NeurIPS、COLING等頂會接收。目前正在Qwen后訓練團隊實習。

這件事情已經(jīng)告一段落,好在結(jié)局算是比較友好:

Anthropic道歉并補引了這篇工作;而Chenxi Wang則稱贊Anthropic在雙方重疊部分之外,做出了真正獨立的貢獻。

  • 尤其是研究情緒表征在不同情境下的功能作用方面,包括對偏好和與對齊相關(guān)行為的影響、在真實交互中的激活情況,以及后訓練階段這些表征的演變。
    這些都是我們工作未曾涉及的重要方向。



她也指出,通訊作者Jack Lindsey在整個交流過程中,始終保持尊重的態(tài)度,并真誠地參與到技術(shù)論證中。

最后,感興趣的朋友可以讀一讀這兩篇論文,鏈接已附在下方~


[1]https://x.com/ChenxiWang19183/status/2041204375549604106?s=20
[2]華人團隊論文:https://arxiv.org/abs/2510.11328
[3]Anthropic論文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
30歲女高管自述感染艾滋病經(jīng)歷:我以為他沒病,可是我錯了

30歲女高管自述感染艾滋病經(jīng)歷:我以為他沒病,可是我錯了

千秋文化
2026-04-05 19:05:24
小米汽車賣不動了

小米汽車賣不動了

新浪財經(jīng)
2026-04-05 18:47:28
安徽失聯(lián)女童遇害細節(jié)曝光!兇手照片賬號被扒,此前有人精準預測

安徽失聯(lián)女童遇害細節(jié)曝光!兇手照片賬號被扒,此前有人精準預測

派大星紀錄片
2026-04-07 11:56:31
原來她就是王楚欽母親,怪不得會成為世界冠軍,18歲家書令人動容

原來她就是王楚欽母親,怪不得會成為世界冠軍,18歲家書令人動容

阿纂看事
2026-04-06 19:58:38
國務(wù)院825號令正式落地!這些執(zhí)法全被叫停,老百姓收好維權(quán)干貨

國務(wù)院825號令正式落地!這些執(zhí)法全被叫停,老百姓收好維權(quán)干貨

混沌錄
2026-04-07 17:59:04
豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

蜉蝣說
2026-02-23 21:23:05
鄭麗文訪陸受高規(guī)格禮待,隨行的13人,各個身份不簡單

鄭麗文訪陸受高規(guī)格禮待,隨行的13人,各個身份不簡單

石江月
2026-04-07 17:09:01
立即停用這3種“廚房神器”,中毒又致癌,很多家庭還在用!

立即停用這3種“廚房神器”,中毒又致癌,很多家庭還在用!

39健康網(wǎng)
2026-04-07 20:02:51
金價要重現(xiàn)歷史了!做好心理準備,下月金價或?qū)⒅噩F(xiàn)2015年歷史!

金價要重現(xiàn)歷史了!做好心理準備,下月金價或?qū)⒅噩F(xiàn)2015年歷史!

時尚的弄潮
2026-04-07 03:51:12
騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

許三歲
2026-04-07 13:28:38
美國敢“踢”中國出SWIFT?那就強制人民幣買中國貨

美國敢“踢”中國出SWIFT?那就強制人民幣買中國貨

看看新聞Knews
2026-04-07 00:42:06
無需繞行廣州!湛江?深圳3小時以內(nèi)!最新動態(tài)→

無需繞行廣州!湛江?深圳3小時以內(nèi)!最新動態(tài)→

湛江日報
2026-04-07 20:18:41
中國國民黨主席鄭麗文率團抵達上海,并赴南京

中國國民黨主席鄭麗文率團抵達上海,并赴南京

三湘都市報
2026-04-07 13:24:16
韓國政府就特朗普涉韓不滿言論作出回應(yīng):已向美方詢問其有關(guān)言論的真實意圖

韓國政府就特朗普涉韓不滿言論作出回應(yīng):已向美方詢問其有關(guān)言論的真實意圖

財聯(lián)社
2026-04-07 17:58:12
湖北發(fā)布社會公眾風險提示:強對流來襲,局地有冰雹

湖北發(fā)布社會公眾風險提示:強對流來襲,局地有冰雹

界面新聞
2026-04-07 13:32:37
黑龍江畜生公公周永福被判死刑,法庭上囂張大笑:這輩子值了

黑龍江畜生公公周永福被判死刑,法庭上囂張大笑:這輩子值了

紙鳶奇譚
2025-02-06 14:31:24
上海交大發(fā)現(xiàn):不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

上海交大發(fā)現(xiàn):不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

蜉蝣說
2026-04-07 17:42:34
張雪峰前妻首發(fā)文:透露余生會照顧好女兒,全文曝光信息量大

張雪峰前妻首發(fā)文:透露余生會照顧好女兒,全文曝光信息量大

娛樂圈圈圓
2026-04-07 16:43:36
上海交大發(fā)現(xiàn):不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

上海交大發(fā)現(xiàn):不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

健康科普365
2026-04-07 09:16:10
“所有品類都要漲,最高可能30%!”多個品牌店員透露:最好4月中旬前買

“所有品類都要漲,最高可能30%!”多個品牌店員透露:最好4月中旬前買

新浪財經(jīng)
2026-04-05 10:51:13
2026-04-07 21:27:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12434文章數(shù) 176445關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

頭條要聞

美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財經(jīng)要聞

10萬億財政轉(zhuǎn)移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

時尚
藝術(shù)
家居
數(shù)碼
親子

針織衫+闊腿褲=氣質(zhì)穿搭

藝術(shù)要聞

美麗風光看不盡

家居要聞

雅致愜意 感知生活之美

數(shù)碼要聞

1999元就能買Mini LED電視 海信Vidda小鋼炮S Mini開售

親子要聞

科普|科學備孕,需要做好哪些孕前檢查?

無障礙瀏覽 進入關(guān)懷版