国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

情感識(shí)別不再是分類題:EmotionThinker讓SpeechLLM 學(xué)會(huì)解釋情緒

0
分享至



語音情感識(shí)別(Speech Emotion Recognition, SER)在過去基本遵循同一種范式:輸入語音,輸出情緒標(biāo)簽。這種設(shè)定在工程上有效,但在認(rèn)知層面卻過于簡化。

在人類交流中,情緒判斷從來不是一個(gè) “標(biāo)簽選擇” 的過程,而是一種基于證據(jù)整合的推理行為。我們會(huì)綜合語調(diào)變化、音高起伏、語速快慢、重音位置、語義內(nèi)容,以及說話人的身份特征,去解釋 “為什么” 這是憤怒、“為什么” 這是失落。

因此,一個(gè)更根本的問題浮現(xiàn)出來:

SpeechLLM 是否具備像人類一樣解釋 “為什么” 做出情緒判斷的能力?

為此,研究團(tuán)隊(duì)提出了EmotionThinker—— 首個(gè)面向可解釋情感推理(Explainable Emotion Reasoning)的強(qiáng)化學(xué)習(xí)框架,嘗試將 SER 從 “分類任務(wù)” 提升為 “多模態(tài)證據(jù)驅(qū)動(dòng)的推理任務(wù)”。



  • 論文標(biāo)題:EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

一、從 “情緒分類” 到 “情感推理”

EmotionThinker 首先對(duì)語音情感識(shí)別任務(wù)本身進(jìn)行了重定義,將其擴(kuò)展為情感推理任務(wù)(Emotion Reasoning)。在新的設(shè)定下,模型不僅需要預(yù)測(cè)情緒標(biāo)簽,還需要生成一段解釋,明確指出:

  • 哪些聲學(xué)線索支持這一判斷
  • 哪些語義線索起到關(guān)鍵作用
  • 這些線索如何共同構(gòu)成最終結(jié)論

這種范式轉(zhuǎn)變意味著,模型輸出從 “標(biāo)簽” 升級(jí)為 “標(biāo)簽 + 基于證據(jù)的推理”。

它的意義并非簡單延長輸出,而是對(duì)優(yōu)化目標(biāo)的重寫。模型不再只需 “預(yù)測(cè)正確”,而必須學(xué)習(xí)如何整合韻律、語義與說話人屬性等多模態(tài)信號(hào),并在解釋中體現(xiàn)證據(jù)對(duì)齊過程。情緒識(shí)別由此從判別問題轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化推理問題。




二、EmotionThinker:

面向可解釋情感推理的框架

EmotionThinker 的目標(biāo)并不局限于提升最終準(zhǔn)確率,而是同時(shí)提升三方面能力:

(1)更高的情緒識(shí)別準(zhǔn)確率

(2)更強(qiáng)的情緒線索整合與推理能力

(3)更細(xì)粒度的音頻描述能力,覆蓋說話人特征、韻律線索與語義信息

為了支撐這一目標(biāo),研究團(tuán)隊(duì)首先構(gòu)建了EmotionCoT-35K。這是一個(gè)包含 35,000+ 條樣本的 Chain-of-Thought 風(fēng)格數(shù)據(jù)集。與傳統(tǒng) SER 數(shù)據(jù)不同,它不僅提供情緒標(biāo)簽,還提供細(xì)粒度韻律描述與結(jié)構(gòu)化推理解釋。

這些樣本明確標(biāo)注了音高、能量、語速、重音、語調(diào)輪廓等線索如何支持情緒判斷,使模型能夠?qū)W習(xí)到 “證據(jù) — 推理 — 結(jié)論” 之間的對(duì)應(yīng)關(guān)系。

與此同時(shí),研究團(tuán)隊(duì)觀察到:若模型的韻律感知能力不足,其情感推理能力將受到系統(tǒng)性限制。因此,研究團(tuán)隊(duì)進(jìn)一步構(gòu)建了一個(gè) EmotionThinker-Base。EmotionThinker-Base 通過監(jiān)督微調(diào)增強(qiáng)模型對(duì)音高變化、能量波動(dòng)、語速模式與重音等結(jié)構(gòu)的感知能力,從而為后續(xù)的推理優(yōu)化提供穩(wěn)定基礎(chǔ)。



三、GRPO-PTR:

讓強(qiáng)化學(xué)習(xí)真正優(yōu)化 “解釋能力”

在將語音情感識(shí)別重定義為情感推理之后,一個(gè)新的優(yōu)化難題隨之出現(xiàn):如何在開放式生成場(chǎng)景中,對(duì) “推理質(zhì)量” 進(jìn)行穩(wěn)定強(qiáng)化學(xué)習(xí)?直接將推理獎(jiǎng)勵(lì)與情緒預(yù)測(cè)獎(jiǎng)勵(lì)簡單疊加,會(huì)帶來明顯的噪聲問題。一方面,模型可能生成語言上看似合理但與最終情緒判斷不一致的解釋;另一方面,在訓(xùn)練初期,模型尚未形成穩(wěn)定的聲學(xué) — 語義對(duì)齊能力,過強(qiáng)的推理獎(jiǎng)勵(lì)容易放大早期隨機(jī)偏差,導(dǎo)致策略梯度震蕩。為此,研究團(tuán)隊(duì)提出了 GRPO-PTR(Progressive Trust-aware Reasoning)。

首先,研究團(tuán)隊(duì)采用了漸進(jìn)式推理獎(jiǎng)勵(lì)調(diào)度。在訓(xùn)練初期,優(yōu)化重點(diǎn)放在情緒預(yù)測(cè)的穩(wěn)定性上;隨著模型策略逐步收斂,逐步提高推理獎(jiǎng)勵(lì)權(quán)重,使模型從 “預(yù)測(cè)正確” 過渡到 “解釋合理”。這種 reward scheduling 降低了早期高方差信號(hào)對(duì)訓(xùn)練穩(wěn)定性的影響。

其次,研究團(tuán)隊(duì)引入基于一致性的可信度加權(quán)機(jī)制。當(dāng)模型生成的推理與最終情緒預(yù)測(cè)保持一致時(shí),推理獎(jiǎng)勵(lì)按完整權(quán)重計(jì)入;當(dāng)二者存在沖突時(shí),推理獎(jiǎng)勵(lì)自動(dòng)衰減。該機(jī)制有效緩解了開放式生成任務(wù)中常見的 reward misalignment 問題,使解釋優(yōu)化始終服務(wù)于情緒判斷本身。

從優(yōu)化角度看,GRPO-PTR 解決的是一個(gè)更一般的問題:如何在 “預(yù)測(cè) + 解釋” 的多目標(biāo)生成任務(wù)中,使結(jié)構(gòu)化推理與最終決策保持對(duì)齊,并在強(qiáng)化學(xué)習(xí)框架下穩(wěn)定收斂。



四、實(shí)驗(yàn)結(jié)果與研究啟示

在多個(gè)標(biāo)準(zhǔn)語音情感識(shí)別基準(zhǔn)上,EmotionThinker 同時(shí)實(shí)現(xiàn)了:

  • 更高的情緒識(shí)別準(zhǔn)確率
  • 更優(yōu)的解釋質(zhì)量
  • 更穩(wěn)定的韻律線索整合能力

更重要的是,我們觀察到一個(gè)關(guān)鍵現(xiàn)象:當(dāng)模型被顯式訓(xùn)練去對(duì)齊聲學(xué)線索與情緒判斷時(shí),其在復(fù)雜情緒場(chǎng)景下的魯棒性顯著增強(qiáng)。這說明,情感理解的瓶頸并不僅僅在語義層面,而在于聲學(xué)與語義信號(hào)的協(xié)同建模能力。換句話說:如果模型不能準(zhǔn)確理解 “怎么說”,它就無法穩(wěn)定理解 “是什么情緒”。






結(jié)語


EmotionThinker 并不僅僅是在情感識(shí)別任務(wù)上提升準(zhǔn)確率,而是在任務(wù)定義層面完成了一次轉(zhuǎn)變。

情緒識(shí)別不應(yīng)只是標(biāo)簽預(yù)測(cè),而應(yīng)是基于多模態(tài)證據(jù)的結(jié)構(gòu)化推理過程。從 “分類” 到 “解釋”,從 “標(biāo)簽” 到 “證據(jù) — 推理 — 結(jié)論” 的一致性對(duì)齊,情感理解正在進(jìn)入一個(gè)強(qiáng)調(diào)可解釋性與結(jié)構(gòu)協(xié)同的階段。

當(dāng)模型學(xué)會(huì)解釋情緒時(shí),它不僅在給出判斷,也在展示其如何整合聲學(xué)與語義線索。

這或許是多模態(tài)大模型邁向真正情感理解能力的重要一步。

作者簡介

本文第一作者為王丁冬,香港中文大學(xué)博士生,研究方向?yàn)檎Z音大模型的口語理解,對(duì)話與推理 (Reasoning),導(dǎo)師為 Helen Meng 教授。本文在微軟劉樹杰博士與Jinyu Li博士的共同指導(dǎo)下完成。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美軍航母“炸”了,史詩級(jí)災(zāi)難,把臉都丟光了

美軍航母“炸”了,史詩級(jí)災(zāi)難,把臉都丟光了

毛豆論道
2026-02-26 19:32:00
巴拿馬總統(tǒng)“不許”中國反制,否則報(bào)復(fù),全世界都在等著看好戲

巴拿馬總統(tǒng)“不許”中國反制,否則報(bào)復(fù),全世界都在等著看好戲

藍(lán)色海邊
2026-03-01 11:23:55
外媒:初步報(bào)告稱伊朗革命衛(wèi)隊(duì)損失慘重,多名革命衛(wèi)隊(duì)成員死傷

外媒:初步報(bào)告稱伊朗革命衛(wèi)隊(duì)損失慘重,多名革命衛(wèi)隊(duì)成員死傷

中國網(wǎng)
2026-02-28 16:09:08
沒指望了,公司生產(chǎn)線全停,員工放假!

沒指望了,公司生產(chǎn)線全停,員工放假!

黯泉
2026-02-28 22:26:15
剛剛,中東炸了,全球市場(chǎng)要變天!

剛剛,中東炸了,全球市場(chǎng)要變天!

鳳凰網(wǎng)財(cái)經(jīng)
2026-02-28 18:40:07
大勝!老詹22+9創(chuàng)兩紀(jì)錄,格林8中3全隊(duì)最低,東契奇26+8及時(shí)爆發(fā)

大勝!老詹22+9創(chuàng)兩紀(jì)錄,格林8中3全隊(duì)最低,東契奇26+8及時(shí)爆發(fā)

魚崖大話籃球
2026-03-01 11:53:26
37歲張含韻回老家過年,打麻將吃美食胖出圈,還幫外甥女趕作業(yè)

37歲張含韻回老家過年,打麻將吃美食胖出圈,還幫外甥女趕作業(yè)

調(diào)侃國際觀點(diǎn)
2026-02-28 08:55:51
特朗普:對(duì)伊朗的不間斷打擊將持續(xù)一周甚至更長時(shí)間

特朗普:對(duì)伊朗的不間斷打擊將持續(xù)一周甚至更長時(shí)間

環(huán)球網(wǎng)資訊
2026-03-01 06:22:06
梅婷大年初九在北京別墅宴客,和德華劉琳同框,吃海鮮大口喝酒

梅婷大年初九在北京別墅宴客,和德華劉琳同框,吃海鮮大口喝酒

林雁飛
2026-02-27 16:36:10
張藝謀:第一次見她,我對(duì)她說,你等著我們來找你,不要亂演電影

張藝謀:第一次見她,我對(duì)她說,你等著我們來找你,不要亂演電影

秀語千尋
2026-02-22 19:28:42
東詹48+13+17湖人終結(jié)3連?。赫材匪惯B創(chuàng)歷史 東契奇生日夜爆發(fā)

東詹48+13+17湖人終結(jié)3連?。赫材匪惯B創(chuàng)歷史 東契奇生日夜爆發(fā)

醉臥浮生
2026-03-01 11:51:20
把水電站塞進(jìn)水管:我們正在開啟世界上最大的“免費(fèi)用電”入口?

把水電站塞進(jìn)水管:我們正在開啟世界上最大的“免費(fèi)用電”入口?

科學(xué)火箭叔
2026-02-28 19:58:09
全球警戒!美軍瘋狂換裝M7,一場(chǎng)針對(duì)大國的火力革命,已經(jīng)開始!

全球警戒!美軍瘋狂換裝M7,一場(chǎng)針對(duì)大國的火力革命,已經(jīng)開始!

璠爺財(cái)事通
2026-02-26 19:00:04
伊朗伊斯蘭革命衛(wèi)隊(duì):“歷史上最猛烈的進(jìn)攻行動(dòng)”即將開始

伊朗伊斯蘭革命衛(wèi)隊(duì):“歷史上最猛烈的進(jìn)攻行動(dòng)”即將開始

環(huán)球網(wǎng)資訊
2026-03-01 10:29:05
伊朗用血淚換來的教訓(xùn):一旦中美開戰(zhàn),中國必須首先鎖定這一點(diǎn)

伊朗用血淚換來的教訓(xùn):一旦中美開戰(zhàn),中國必須首先鎖定這一點(diǎn)

冷峻視角下的世界
2026-02-20 07:45:35
大S一對(duì)子女去醫(yī)院探望馬筱梅,11歲玥兒抱小弟弟的畫面好溫馨!

大S一對(duì)子女去醫(yī)院探望馬筱梅,11歲玥兒抱小弟弟的畫面好溫馨!

娛樂團(tuán)長
2026-02-27 12:27:55
中國馬拉松進(jìn)入205時(shí)代!最強(qiáng)00后豐配友打破何杰紀(jì)錄

中國馬拉松進(jìn)入205時(shí)代!最強(qiáng)00后豐配友打破何杰紀(jì)錄

全景體育V
2026-03-01 10:23:24
男子被綠后還被判凈身出戶,女法官說男人要大度,男子兩槍殺之

男子被綠后還被判凈身出戶,女法官說男人要大度,男子兩槍殺之

干史人
2026-02-23 13:25:10
不留遺產(chǎn),拒絕見面,沒有微信,這一次,向華強(qiáng)撕碎了向佑的體面

不留遺產(chǎn),拒絕見面,沒有微信,這一次,向華強(qiáng)撕碎了向佑的體面

叨嘮
2026-02-26 22:49:36
哈梅內(nèi)伊在德黑蘭的住所遭襲擊,畫面公開

哈梅內(nèi)伊在德黑蘭的住所遭襲擊,畫面公開

澎湃新聞
2026-02-28 21:59:04
2026-03-01 12:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊(duì)總司令身亡

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊(duì)總司令身亡

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺(tái) 雷軍:為新SU7量產(chǎn)作準(zhǔn)備

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
本地
時(shí)尚
軍事航空

數(shù)碼要聞

DDR4價(jià)格已連續(xù)11個(gè)月上漲

藝術(shù)要聞

2025第四屆“精神·圖式”——中國寫意油畫雙年展 | 入選油畫選刊

本地新聞

津南好·四時(shí)總相宜

普通人穿衣不需要太復(fù)雜!顏色恰當(dāng)、搭配和諧,高級(jí)又耐看

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實(shí)時(shí)戰(zhàn)況

無障礙瀏覽 進(jìn)入關(guān)懷版