国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

情感識別不再是分類題:EmotionThinker讓SpeechLLM 學(xué)會解釋情緒

0
分享至



語音情感識別(Speech Emotion Recognition, SER)在過去基本遵循同一種范式:輸入語音,輸出情緒標(biāo)簽。這種設(shè)定在工程上有效,但在認知層面卻過于簡化。

在人類交流中,情緒判斷從來不是一個 “標(biāo)簽選擇” 的過程,而是一種基于證據(jù)整合的推理行為。我們會綜合語調(diào)變化、音高起伏、語速快慢、重音位置、語義內(nèi)容,以及說話人的身份特征,去解釋 “為什么” 這是憤怒、“為什么” 這是失落。

因此,一個更根本的問題浮現(xiàn)出來:

SpeechLLM 是否具備像人類一樣解釋 “為什么” 做出情緒判斷的能力?

為此,研究團隊提出了EmotionThinker—— 首個面向可解釋情感推理(Explainable Emotion Reasoning)的強化學(xué)習(xí)框架,嘗試將 SER 從 “分類任務(wù)” 提升為 “多模態(tài)證據(jù)驅(qū)動的推理任務(wù)”。



  • 論文標(biāo)題:EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

一、從 “情緒分類” 到 “情感推理”

EmotionThinker 首先對語音情感識別任務(wù)本身進行了重定義,將其擴展為情感推理任務(wù)(Emotion Reasoning)。在新的設(shè)定下,模型不僅需要預(yù)測情緒標(biāo)簽,還需要生成一段解釋,明確指出:

  • 哪些聲學(xué)線索支持這一判斷
  • 哪些語義線索起到關(guān)鍵作用
  • 這些線索如何共同構(gòu)成最終結(jié)論

這種范式轉(zhuǎn)變意味著,模型輸出從 “標(biāo)簽” 升級為 “標(biāo)簽 + 基于證據(jù)的推理”。

它的意義并非簡單延長輸出,而是對優(yōu)化目標(biāo)的重寫。模型不再只需 “預(yù)測正確”,而必須學(xué)習(xí)如何整合韻律、語義與說話人屬性等多模態(tài)信號,并在解釋中體現(xiàn)證據(jù)對齊過程。情緒識別由此從判別問題轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化推理問題。




二、EmotionThinker:

面向可解釋情感推理的框架

EmotionThinker 的目標(biāo)并不局限于提升最終準確率,而是同時提升三方面能力:

(1)更高的情緒識別準確率

(2)更強的情緒線索整合與推理能力

(3)更細粒度的音頻描述能力,覆蓋說話人特征、韻律線索與語義信息

為了支撐這一目標(biāo),研究團隊首先構(gòu)建了EmotionCoT-35K。這是一個包含 35,000+ 條樣本的 Chain-of-Thought 風(fēng)格數(shù)據(jù)集。與傳統(tǒng) SER 數(shù)據(jù)不同,它不僅提供情緒標(biāo)簽,還提供細粒度韻律描述與結(jié)構(gòu)化推理解釋。

這些樣本明確標(biāo)注了音高、能量、語速、重音、語調(diào)輪廓等線索如何支持情緒判斷,使模型能夠?qū)W習(xí)到 “證據(jù) — 推理 — 結(jié)論” 之間的對應(yīng)關(guān)系。

與此同時,研究團隊觀察到:若模型的韻律感知能力不足,其情感推理能力將受到系統(tǒng)性限制。因此,研究團隊進一步構(gòu)建了一個 EmotionThinker-Base。EmotionThinker-Base 通過監(jiān)督微調(diào)增強模型對音高變化、能量波動、語速模式與重音等結(jié)構(gòu)的感知能力,從而為后續(xù)的推理優(yōu)化提供穩(wěn)定基礎(chǔ)。



三、GRPO-PTR:

讓強化學(xué)習(xí)真正優(yōu)化 “解釋能力”

在將語音情感識別重定義為情感推理之后,一個新的優(yōu)化難題隨之出現(xiàn):如何在開放式生成場景中,對 “推理質(zhì)量” 進行穩(wěn)定強化學(xué)習(xí)?直接將推理獎勵與情緒預(yù)測獎勵簡單疊加,會帶來明顯的噪聲問題。一方面,模型可能生成語言上看似合理但與最終情緒判斷不一致的解釋;另一方面,在訓(xùn)練初期,模型尚未形成穩(wěn)定的聲學(xué) — 語義對齊能力,過強的推理獎勵容易放大早期隨機偏差,導(dǎo)致策略梯度震蕩。為此,研究團隊提出了 GRPO-PTR(Progressive Trust-aware Reasoning)。

首先,研究團隊采用了漸進式推理獎勵調(diào)度。在訓(xùn)練初期,優(yōu)化重點放在情緒預(yù)測的穩(wěn)定性上;隨著模型策略逐步收斂,逐步提高推理獎勵權(quán)重,使模型從 “預(yù)測正確” 過渡到 “解釋合理”。這種 reward scheduling 降低了早期高方差信號對訓(xùn)練穩(wěn)定性的影響。

其次,研究團隊引入基于一致性的可信度加權(quán)機制。當(dāng)模型生成的推理與最終情緒預(yù)測保持一致時,推理獎勵按完整權(quán)重計入;當(dāng)二者存在沖突時,推理獎勵自動衰減。該機制有效緩解了開放式生成任務(wù)中常見的 reward misalignment 問題,使解釋優(yōu)化始終服務(wù)于情緒判斷本身。

從優(yōu)化角度看,GRPO-PTR 解決的是一個更一般的問題:如何在 “預(yù)測 + 解釋” 的多目標(biāo)生成任務(wù)中,使結(jié)構(gòu)化推理與最終決策保持對齊,并在強化學(xué)習(xí)框架下穩(wěn)定收斂。



四、實驗結(jié)果與研究啟示

在多個標(biāo)準語音情感識別基準上,EmotionThinker 同時實現(xiàn)了:

  • 更高的情緒識別準確率
  • 更優(yōu)的解釋質(zhì)量
  • 更穩(wěn)定的韻律線索整合能力

更重要的是,我們觀察到一個關(guān)鍵現(xiàn)象:當(dāng)模型被顯式訓(xùn)練去對齊聲學(xué)線索與情緒判斷時,其在復(fù)雜情緒場景下的魯棒性顯著增強。這說明,情感理解的瓶頸并不僅僅在語義層面,而在于聲學(xué)與語義信號的協(xié)同建模能力。換句話說:如果模型不能準確理解 “怎么說”,它就無法穩(wěn)定理解 “是什么情緒”。






結(jié)語


EmotionThinker 并不僅僅是在情感識別任務(wù)上提升準確率,而是在任務(wù)定義層面完成了一次轉(zhuǎn)變。

情緒識別不應(yīng)只是標(biāo)簽預(yù)測,而應(yīng)是基于多模態(tài)證據(jù)的結(jié)構(gòu)化推理過程。從 “分類” 到 “解釋”,從 “標(biāo)簽” 到 “證據(jù) — 推理 — 結(jié)論” 的一致性對齊,情感理解正在進入一個強調(diào)可解釋性與結(jié)構(gòu)協(xié)同的階段。

當(dāng)模型學(xué)會解釋情緒時,它不僅在給出判斷,也在展示其如何整合聲學(xué)與語義線索。

這或許是多模態(tài)大模型邁向真正情感理解能力的重要一步。

作者簡介

本文第一作者為王丁冬,香港中文大學(xué)博士生,研究方向為語音大模型的口語理解,對話與推理 (Reasoning),導(dǎo)師為 Helen Meng 教授。本文在微軟劉樹杰博士與Jinyu Li博士的共同指導(dǎo)下完成。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
萬達電影正式改王姓馬,馬化騰拉了王健林一把

萬達電影正式改王姓馬,馬化騰拉了王健林一把

鳴金網(wǎng)
2026-04-20 14:54:40
人窮能卑微到什么地步?網(wǎng)友說:一個男人兩千塊買了我三個晚上!

人窮能卑微到什么地步?網(wǎng)友說:一個男人兩千塊買了我三個晚上!

黯泉
2026-04-14 12:13:04
23-4,提前鎖定MVP,卻又引發(fā)爭議!聯(lián)盟自砸招牌,季后賽變味了

23-4,提前鎖定MVP,卻又引發(fā)爭議!聯(lián)盟自砸招牌,季后賽變味了

老梁體育漫談
2026-04-21 00:54:28
曝王思聰近況:暴瘦脫相 禿頂脫發(fā),拒付200萬后,黃一鳴頻繁發(fā)聲

曝王思聰近況:暴瘦脫相 禿頂脫發(fā),拒付200萬后,黃一鳴頻繁發(fā)聲

東方不敗然多多
2026-04-18 15:31:29
埃里克:歐冠出局不會抹殺這賽季表現(xiàn),沒人的態(tài)度能勝過我們

埃里克:歐冠出局不會抹殺這賽季表現(xiàn),沒人的態(tài)度能勝過我們

懂球帝
2026-04-21 00:15:05
許家印認罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

許家印認罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

小嵩
2026-04-20 13:52:49
選擇大于努力?看32歲凱恩與“降級教頭”如何在慕尼黑重寫命運!

選擇大于努力?看32歲凱恩與“降級教頭”如何在慕尼黑重寫命運!

落夜足球
2026-04-20 16:22:33
斯諾克世錦賽直播:凱倫威爾遜3-6穆迪,囧哥恐爆冷出局

斯諾克世錦賽直播:凱倫威爾遜3-6穆迪,囧哥恐爆冷出局

老垯科普
2026-04-21 02:06:24
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
空姐的圈子真的亂嗎?我做了7年空姐,告訴大家最真實的行業(yè)現(xiàn)狀

空姐的圈子真的亂嗎?我做了7年空姐,告訴大家最真實的行業(yè)現(xiàn)狀

千秋文化
2026-04-17 20:01:45
77歲的牛群:折騰半生傾家蕩產(chǎn),晚年被美國畢業(yè)的兒子悉心照料

77歲的牛群:折騰半生傾家蕩產(chǎn),晚年被美國畢業(yè)的兒子悉心照料

她時尚丫
2026-04-19 21:41:30
楊冪估計頭都大了,這眼神躲還是不躲好啊。?

楊冪估計頭都大了,這眼神躲還是不躲好啊。?

科學(xué)發(fā)掘
2026-04-18 12:22:04
對標(biāo)優(yōu)衣庫,干翻宜家?這家“摳門”會員店,憑什么讓中產(chǎn)上癮

對標(biāo)優(yōu)衣庫,干翻宜家?這家“摳門”會員店,憑什么讓中產(chǎn)上癮

青眼財經(jīng)
2026-04-20 14:48:46
蘇林回國火車剛開動就變天?

蘇林回國火車剛開動就變天?

果媽聊娛樂
2026-04-20 10:17:41
一夜之間金價大變臉,4月20日最新金價,全國差價讓人吃驚

一夜之間金價大變臉,4月20日最新金價,全國差價讓人吃驚

生活新鮮市
2026-04-20 18:46:30
伊朗軍方:美軍向伊朗貨船開火,伊方發(fā)射無人機還擊

伊朗軍方:美軍向伊朗貨船開火,伊方發(fā)射無人機還擊

界面新聞
2026-04-20 07:04:17
1300億的果鏈龍頭,爆雷了

1300億的果鏈龍頭,爆雷了

股市動態(tài)分析
2026-04-17 08:55:03
那番絕境,大帝終究還要面對

那番絕境,大帝終究還要面對

虛聲
2026-04-20 08:08:29
歐洲媒體哀嚎“一切結(jié)束了”,荷蘭掐斷光刻機,坑的卻是自己人!

歐洲媒體哀嚎“一切結(jié)束了”,荷蘭掐斷光刻機,坑的卻是自己人!

幾人盡棄
2026-04-19 23:20:38
1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環(huán)提出:我想回家

1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環(huán)提出:我想回家

華人星光
2026-04-20 09:59:15
2026-04-21 02:40:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12813文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

手機
房產(chǎn)
本地
公開課
軍事航空

手機要聞

OPPO影像旗艦高端發(fā)力 Find X9 Ultra走出國門

房產(chǎn)要聞

大規(guī)模商改住!海口西海岸,這波項目要贏麻了!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關(guān)懷版