洞察抑郁：計算機如何識別心理危機？

2025-09-02 20:58:34　來源: 科技導(dǎo)報

北京舉報

分享至

原文發(fā)表于《科技導(dǎo)報》2025 年第14 期《計算機輔助抑郁障礙識別研究進展》

抑郁癥是一種典型的精神障礙，目前篩查主要以抑郁診斷量表和醫(yī)生問診為主。計算機輔助抑郁障礙識別是基于人工智能技術(shù)的一種抑郁癥篩查的新興方式。本文針對傳統(tǒng)測量工具的現(xiàn)狀和不足，綜述了當前計算機輔助抑郁識別方法，論述了抑郁識別數(shù)據(jù)集和基于面部圖片、語音、文本等多模態(tài)數(shù)據(jù)的抑郁識別方法的研究現(xiàn)狀，并對計算機輔助抑郁識別的優(yōu)勢與挑戰(zhàn)進行了總結(jié)與展望。計算機輔助抑郁識別能夠提供一種相對簡便、規(guī)范化的篩查方式，但仍面臨模型參數(shù)和特征解釋不足、中文數(shù)據(jù)集有待擴充、現(xiàn)有數(shù)據(jù)集樣本量較少的挑戰(zhàn)。未來研究人員需要進一步提升抑郁識別數(shù)據(jù)集的樣本量及模型準確率等指標，進行特征提取及模型構(gòu)建的理論及實驗分析，推進計算機輔助抑郁識別的臨床應(yīng)用。

近年來，各國關(guān)于抑郁癥的報道層出不窮，抑郁患者自殺的新聞頻出。根據(jù)美國精神病學會的《精神障礙診斷與統(tǒng)計手冊》（DSM?5）診斷標準，抑郁癥是一種典型的精神障礙，臨床特征包括顯著而持久的心境低落、興趣喪失和精力缺乏。據(jù)世界衛(wèi)生組織發(fā)布的《抑郁癥及其他常見精神障礙》報告顯示，全球范圍內(nèi)抑郁癥患者超過3億人，預(yù)計在未來10年將會成為全球第一大疾病負擔源。《柳葉刀·精神病學》上發(fā)表的對中國全國性精神障礙流行病學調(diào)查研究顯示，抑郁癥的終生患病率為6.8%，12個月患病率為3.6%。抑郁癥的發(fā)病機制比較復(fù)雜，遺傳因素、心理?社會因素均可能導(dǎo)致抑郁癥的產(chǎn)生。社會對抑郁癥的認知偏見，患者自身及家庭對心理問題、精神疾病的認識不足，導(dǎo)致抑郁癥識別率和就診率仍處在較低水平。

目前，抑郁癥的篩查主要以患者自評量表和醫(yī)師臨床診斷為主，可能受到醫(yī)生主觀判斷和患者自我認知的影響，篩查工具和診斷方式具有一定局限性。抑郁癥心理行為特征相關(guān)研究表明，患者在運動行為、語言表達、身體姿態(tài)和生理指標等方面表現(xiàn)出不同于健康人群的特征。在抑郁癥的篩查和診斷中，對患者的心理和生理癥狀進行準確的識別至關(guān)重要。通過醫(yī)生的臨床經(jīng)驗和大規(guī)模的研究分析，能夠提取出用于識別抑郁患者的特征標志。基于這些抑郁癥狀標志特征，計算機輔助抑郁識別技術(shù)能從行為、語言等維度提取有效區(qū)分抑郁患者與健康人群的特征標志，構(gòu)建抑郁篩查模型，輔助醫(yī)生進行抑郁癥狀的診斷和篩查。

計算機輔助識別算法能夠從大規(guī)模的數(shù)據(jù)集中提取特征進行分類，輸入機器學習模型中進行參數(shù)訓練和模型調(diào)整，并基于訓練的模型對新的數(shù)據(jù)樣本進行預(yù)測。該方法的有效性依賴于特征提取的準確性和可靠性，特征選擇容易對模型的性能和預(yù)測效果產(chǎn)生明顯影響。隨著深度學習等技術(shù)的發(fā)展，基于神經(jīng)網(wǎng)絡(luò)的分類器能夠與深度特征提取器訓練得到端到端的分類器，該方法相對手工提取特征的方法更加簡便，但這種方法存在模型特征的解釋性較弱、計算復(fù)雜度較高等問題。目前上述2類計算機輔助篩查算法均有相關(guān)學者進行研究，相比于抑郁自評量表等測量工具，計算機輔助方法包含更加豐富的多模態(tài)信息，能夠進一步提升篩查的客觀性，具有較高的應(yīng)用和研究價值。

1 傳統(tǒng)測量工具概述

目前，廣泛應(yīng)用的抑郁癥篩查主要通過患者自評量表、醫(yī)師臨床診斷等方式，根據(jù)情緒低落、睡眠障礙、能力減退等抑郁典型癥狀出現(xiàn)的頻次、嚴重程度及持續(xù)時長，評估是否有抑郁障礙及其程度。

抑郁障礙自評或他評量表等工具能夠較直觀地體現(xiàn)抑郁障礙的診斷標準，幫助醫(yī)生和研究人員快速而準確地評估患者的情況，是常用的評估方法之一。貝克抑郁自評量表（BDI）、PHQ?9抑郁癥篩查量表（PHQ?9）、漢密爾頓抑郁量表（HAMD）、抑郁自評問卷（SDS）等是目前主流的評估篩查量表，能夠用于評估測評者是否有抑郁癥狀及抑郁程度。臨床上對抑郁癥的識別診斷主要基于國際疾病分類（ICD?10）或DSM?V中抑郁癥診斷標準,結(jié)合病人的訪談情況、篩查量表及醫(yī)生診療經(jīng)驗進行。

BDI是一份自我報告問卷，包括21項，一般耗時5~10 min。BDI在應(yīng)用中發(fā)現(xiàn)部分抑郁癥患者完成21項測評時存在困難，因此該量表也有修訂編制的13項版本。評估者需要從認知、情感和軀體癥狀等方面對自我進行評估，用于診斷自我的抑郁癥狀程度。

PHQ?9是臨床上對抑郁進行初步篩查的簡易量表。PHQ?9主要用于測評在過去2周內(nèi)是否表現(xiàn)出相應(yīng)的抑郁癥狀、嚴重程度及持續(xù)時間，根據(jù)測評者不同癥狀出現(xiàn)的頻次總分進行評估。該篩查量表的測評時間往往在5 min內(nèi)，臨床研究證明具有良好的信度和效度。

HAMD是抑郁癥標準的評估工具之一，主要用于診斷和研究目的。HAMD分為17項、21項和24項等多個版本，一般需要20~30 min完成。評估者采用交談和觀察的方式，從抑郁情緒、自殺傾向、睡眠情況等角度對測評者進行評定，評定分數(shù)能夠較好反映是否患有抑郁癥及抑郁癥的嚴重程度。

SDS是美國教育衛(wèi)生部推薦用于精神藥理學研究的量表之一，包含20個評分題，涵蓋精神性?情感癥狀、軀體性障礙、精神運動性障礙、抑郁性心理障礙相關(guān)問題，上述4個方面的問題占比為10%、40%、10%、40%。SDS的使用和分析較為簡單方便，不需要經(jīng)過專門訓練的醫(yī)師指導(dǎo)評定，評定分數(shù)能夠直觀反映出患者的主觀感受，目前已廣泛應(yīng)用于門診病人的粗篩和情緒狀態(tài)評定。

上述測評量表在臨床實踐中得到廣泛應(yīng)用，每個量表都具有其獨特的優(yōu)缺點，研究人員或?qū)I(yè)醫(yī)師可根據(jù)具體情況進行選擇。在計算機輔助抑郁障礙識別數(shù)據(jù)集的構(gòu)建中，抑郁測評量表也具有重要作用。由于有監(jiān)督學習的機器學習算法依賴于準確的標簽數(shù)據(jù)，目前廣泛使用的基于人工智能技術(shù)的抑郁識別數(shù)據(jù)集中，往往以一個或多個上述量表的測評結(jié)果或醫(yī)生診斷結(jié)果作為數(shù)據(jù)的真實標簽。

2 計算機輔助抑郁障礙識別

傳統(tǒng)測量工具可能受到醫(yī)生主觀判斷和患者自我認知的影響，而計算機輔助識別能夠通過患者圖像、語音和文本等獲取更加豐富的多模態(tài)信息，進一步提升篩查的客觀性?；谌斯ぶ悄芗夹g(shù)的計算機輔助識別作為一種跨學科技術(shù)，利用計算機視覺、自然語言處理等人工智能技術(shù)，建立機器學習模型，基于輸入模型的數(shù)據(jù)訓練調(diào)整模型參數(shù)，再根據(jù)構(gòu)建模型計算新樣本的預(yù)測結(jié)果和類別概率，輔助疾病的診斷和篩查。根據(jù)抑郁患者在面部圖像、語音、文本、腦電等模態(tài)數(shù)據(jù)上的差異，國內(nèi)外的研究提取不同模態(tài)的特征，可以從多角度建立抑郁診斷評估工具（圖1）。

圖1 基于人工智能技術(shù)的計算機輔助抑郁診斷示意

2.1 計算機輔助抑郁識別數(shù)據(jù)集

計算機輔助篩查通過采集抑郁患者和健康對照者的視頻、語音等模態(tài)數(shù)據(jù)，提取用于區(qū)分抑郁癥狀的特征，訓練機器學習模型對新的潛在抑郁癥患者進行預(yù)測。機器學習算法模型的訓練依賴足夠的數(shù)據(jù)以減少模型過擬合、提高模型精度，標準的抑郁識別數(shù)據(jù)集的建立對于篩查算法的訓練至關(guān)重要。近10年，該領(lǐng)域開放的外文數(shù)據(jù)集包括：AVEC2013、AVEC2014、DAIC?WOZ、Pittsburgh等，中文數(shù)據(jù)集包括：MODMA、EATD、CMDC、Wenzhou?Kangning等，數(shù)據(jù)集概述如表1所示。

表1 近10年抑郁識別領(lǐng)域開源數(shù)據(jù)集

開源數(shù)據(jù)集為機器學習模型的訓練提供了基礎(chǔ)，推動了人工智能輔助篩查領(lǐng)域的發(fā)展，對抑郁識別領(lǐng)域的發(fā)展有明顯的推動作用。數(shù)據(jù)集往往根據(jù)量表篩查或醫(yī)師診斷出的抑郁人群或健康對照者給定標簽，通過患者參與朗讀、描述、訪談等實驗采集視頻、語音、腦電等多種數(shù)據(jù)模態(tài)。

在抑郁識別領(lǐng)域，自行采集和標注的數(shù)據(jù)集也具有一定的研究和應(yīng)用價值。雖然這些數(shù)據(jù)集通常并未公開獲取，但它們?yōu)檠芯坎煌幕尘皩σ钟舭Y狀表達的影響，以及基于不同數(shù)據(jù)模態(tài)的抑郁識別算法的構(gòu)建提供了理論基礎(chǔ)和實驗支撐。為分析中國抑郁癥患者的面部特征，Wang等采集了山東省精神衛(wèi)生中心的26名抑郁癥住院患者和26名健康對照者在觀看不同情緒圖片時的面部視頻數(shù)據(jù)，以分析抑郁癥患者眉毛、眼睛和嘴巴處的特征，進一步擴充了中國患者的抑郁篩查數(shù)據(jù)。根據(jù)抑郁癥患者肢體運動等模態(tài)上的特點，Wang等通過Kinect采集了126名抑郁癥患者和121名健康者的步態(tài)數(shù)據(jù)，分析抑郁癥患者肢體擺動、步幅變化和頭部姿勢及運動的特征，進一步擴充了與肢體運動相關(guān)的抑郁篩查數(shù)據(jù)。

2.2 面部視覺模態(tài)模型構(gòu)建

抑郁人群的面部表達能力受損，且更易于表現(xiàn)出眼睛松弛、皺眉等悲傷情緒特征。根據(jù)抑郁癥患者的面部表達特點，目前抑郁識別算法通過提取人臉面部關(guān)鍵特征進行篩查（圖2），包括人臉特征點坐標、面部動作單元（AU）等。美國心理學家Ekman提出了一套面部表情編碼系統(tǒng)（FACS）以描繪不同臉部肌肉動作和表情之間的對應(yīng)關(guān)系。該系統(tǒng)根據(jù)人臉學特點，將面部表情劃分得到若干相互獨立又相互聯(lián)系的運動單元，以準確地識別面部情緒和情感表達。2009年，Cohn等對參與者在回答HAMD中涉及情緒低落、內(nèi)疚和自殺的3個問題時的面部行為進行手動FACS編碼，結(jié)果顯示根據(jù)所有AU進行分類能夠得到79%的準確率，其中涉及夾肌收縮的AU14分類的準確率最高，得到的靈敏度和特異度分別為87%和89%。2013年，Meng等從連續(xù)的圖像序列中計算運動歷史直方圖，通過局部二值模式（LBP）描述時序空間的細節(jié)，拼接得到的時空描述子通過偏最小二乘回歸，在AVEC2013數(shù)據(jù)集上達到平均絕對誤差（MAE）=7.08、均方根誤差（RMSE）=8.81。2015年，Pampouchidou等提出一種使用魯棒描述符動態(tài)進行面部表情分析的方法，結(jié)合Curvelet變化和LBP?TOP得到人臉特征，建立對抑郁癥無、輕度、中度和重度等嚴重程度的有效的分類系統(tǒng)，混淆矩陣顯示各分級的識別準確率分別為51.0%、63.4%、55.0%、55.5%。2018年，Wang等根據(jù)從山東省精神衛(wèi)生中心采集到的抑郁癥住院患者的臨床視頻樣本，從中提取眼睛、眉毛和嘴角的運動變化，手動提取計算了左右瞳孔間距、眨眼頻率、雙側(cè)眉毛和眼角間距等特征并通過SVM算法進行分類，達到了78.85%的準確率。

圖2 抑郁識別視覺模態(tài)特征標志

隨著深度學習技術(shù)的發(fā)展，目前的研究不再局限于手工提取特征——從原始圖像數(shù)據(jù)中提取特征后進行分類、回歸，而是通過卷積神經(jīng)網(wǎng)絡(luò)（CNN）等端到端學習的方法進行特征提取和模型訓練，該模型也表現(xiàn)出了較高的準確性和魯棒性。CNN是一種在圖像識別領(lǐng)域表現(xiàn)優(yōu)異的深度學習模型。通過卷積層、池化層和全連接層等基本結(jié)構(gòu)，能夠從原始圖像數(shù)據(jù)中自動提取具有高層次語義的特征表示，以進行分類、回歸等任務(wù)。在抑郁癥分類診斷方面，CNN模型通過訓練較大規(guī)模的抑郁樣本數(shù)據(jù)，自動學習面部表情特征與抑郁癥之間的聯(lián)系，并對新的面部圖像進行準確的分類預(yù)測。2017年，Zhu等通過深度卷積神經(jīng)網(wǎng)絡(luò)（DNN）分別提取視頻中人臉靜態(tài)外觀和跨幀動態(tài)特征，構(gòu)建聯(lián)合調(diào)整層進行最終微調(diào)。在AVEC2014數(shù)據(jù)集上跨幀動態(tài)特征模型相較靜態(tài)外觀特征模型在RMSE、MAE上分別提升0.56、0.3，聯(lián)合微調(diào)模型達到RMSE=9.55、MAE=7.47。

2D CNN已被廣泛用于圖像分類等領(lǐng)域，但其在處理帶有時間信息的數(shù)據(jù)，如時間序列和視頻數(shù)據(jù)方面存在局限性。為了解決這一問題，研究者提出了3D CNN，該模型利用卷積操作在時間維度上提取特征，從而能夠有效地處理帶有時間信息的數(shù)據(jù)。通過引入時間維度，3D CNN可以從時空域的角度分析數(shù)據(jù)，并且能夠在時域上學習數(shù)據(jù)中的時間相關(guān)性，從而提高對時間序列和視頻數(shù)據(jù)的建模能力。相比于2D CNN，3D CNN在處理時間序列和視頻數(shù)據(jù)方面具有更好的表現(xiàn)，能夠有效地應(yīng)用于抑郁識別模型的構(gòu)建。2019年，de Melo等從采集對象臉部全局和眼睛局部區(qū)域中提取時空特征，通過3D卷積網(wǎng)絡(luò)（C3D）融合來提高抑郁癥預(yù)測的準確率，在AVEC2013和AVEC2014上的實驗結(jié)果表明，結(jié)合全局和局部的C3D方法RMSE達到8.26、MAE達到6.40，在AVEC2014數(shù)據(jù)集上相對于全局C3D方法在RMSE和MAE指標上分別有0.68和0.64的提升。

3D CNN能夠廣泛應(yīng)用于視頻分類、動作識別等任務(wù)，并取得了顯著的成果。然而，3D CNN在處理序列數(shù)據(jù)時存在局限性——它無法充分考慮序列中不同時間步之間的關(guān)系。為了解決這個問題，學者們引入了注意力機制，通過為不同時間步賦予不同的權(quán)重來強調(diào)序列中的關(guān)鍵部分，從而提高3D CNN的性能。這種方法能夠讓3D CNN更加關(guān)注序列中重要的部分，提高其對于序列數(shù)據(jù)的建模能力。注意力機制的引入可以使3D CNN能夠更好地處理時間序列數(shù)據(jù)，并在視頻模態(tài)的抑郁識別任務(wù)上獲得了良好的表現(xiàn)。2021年，孫浩浩等提出通道層注意力機制的DNN，通過多支路卷積網(wǎng)絡(luò)分別提取眼睛區(qū)域、嘴巴區(qū)域和面部的特征向量進行融合，在全連接層輸出最后分數(shù)。該實驗在AVEC2013和AVEC2014訓練集上得到加入了注意力機制、融合了多特征的模型，在AVEC2013數(shù)據(jù)集上達到MAE=6.74、RMSE=8.70，AVEC2014數(shù)據(jù)集上達到MAE=6.56、RMSE=8.56，優(yōu)于基線模型和其他對比模型。2022年，Chen等通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù)設(shè)計了一個針對多面部特征的優(yōu)化模型，通過CNN?GCN的端到端網(wǎng)絡(luò)，在AVEC2016數(shù)據(jù)集上RMSE和MAE相較于SOTA提升了27%和30%。2023年，Liu等提出一種部分和關(guān)系注意力網(wǎng)絡(luò)，通過2種注意力機制計算不同局部特征對抑郁識別的貢獻，進一步將所有特征聚合成更能提供抑郁癥信息的表示并用于抑郁識別，在AVEC2013和AVEC2014上實現(xiàn)了最優(yōu)性能，MAE和RMSE分別達到6.08和7.59。

在抑郁識別領(lǐng)域，識別模型的迭代與深度學習的技術(shù)演化發(fā)展緊密相關(guān)。最初，應(yīng)用2D CNN技術(shù)進行面部靜態(tài)二維圖像的分類和識別，雖然簡單高效，但存在對時間序列信息處理不足的問題，對采集的視頻數(shù)據(jù)無法很好挖掘幀與幀間的信息。3D CNN技術(shù)的引入擴展了模型對于動態(tài)視頻數(shù)據(jù)的建模能力，更好地利用了時間維度的信息。隨著注意力機制的廣泛應(yīng)用，有注意力的3D CNN框架進一步增強了模型對數(shù)據(jù)的理解和處理能力，為處理復(fù)雜數(shù)據(jù)的抑郁識別問題提供了更有效的工具和方法（圖3）。這種演化從簡單到復(fù)雜、從二維到三維、從靜態(tài)到動態(tài)，提高了對于數(shù)據(jù)中關(guān)鍵特征的挖掘，并進一步提升了模型在準確率等方面的表現(xiàn)，對于抑郁識別問題的研究具有重要的意義和實際應(yīng)用價值。

圖3 抑郁識別視覺模態(tài)模型流程

2.3 語音模態(tài)模型構(gòu)建

音頻信號是抑郁癥篩查中重要模態(tài)之一，能夠有效反映人的心理狀態(tài)和病理學特征。目前針對音頻模態(tài)的抑郁識別研究以手動提取特征為主，即針對抑郁患者語速慢、聲音低沉等言語表達中的標志特點，通過對采集的抑郁患者的聲音信號進行分析處理，提取音頻的能量、響度、梅爾頻譜、過零率等方面的差異特征，建立算法模型進行訓練和預(yù)測，從而實現(xiàn)較客觀有效的輔助篩查（圖4）。由于特征提取的有效性對模型的性能有重要影響，因此特征的設(shè)計一直是研究者關(guān)注的重點。手工特征的提取需要通過多個預(yù)處理步驟，例如根據(jù)短時傅里葉變換等方法，將原始音頻信號轉(zhuǎn)換為頻譜圖等表示形式。這些特征經(jīng)過降維、歸一化等處理后，輸入到分類模型進行訓練和預(yù)測。該過程需要專家的領(lǐng)域知識和經(jīng)驗，其設(shè)計能夠反映研究者對標志特征的構(gòu)建和篩選，加強對特征的全面解釋，但往往也比較耗時和復(fù)雜。2013年，Joshi等計算了基頻f0、響度、強度和梅爾頻率倒譜系數(shù)（MFCC）等音頻特征的有效性，融合從視頻中提取的視覺特征在30名抑郁患者和30名健康對照者的臨床實驗數(shù)據(jù)上進行分析，得到不同特征組合在各分類算法上的最大靈敏度、特異度和準確率，最高準確率達到65.92%。2014年，Ooi等提出多通道加權(quán)語音分類方法，對韻律、聲門和頻譜特征獨立分類后進行加權(quán)，判斷一個人在未來2.5年內(nèi)出現(xiàn)抑郁癥狀的風險，準確率達到74%。2017年，Kiss等分別對閱讀和自發(fā)講話場景下的特征進行提取，分析得到在自發(fā)講話任務(wù)場景下的差異體現(xiàn)在與速度（語速、停頓時長等）相關(guān)的特征，在朗讀任務(wù)場景下的差異體現(xiàn)在共振峰軌跡等語音特征，最終在朗讀語音樣本上達到83%的檢測準確率，在自發(fā)語音樣本上達到86%的檢測準確率。

圖4 抑郁識別語音模態(tài)模型流程

隨著深度學習技術(shù)的發(fā)展，越來越多的研究開始探索在音頻信號處理中使用端到端的深度網(wǎng)絡(luò)。端到端的音頻識別網(wǎng)絡(luò)能夠直接從原始音頻數(shù)據(jù)中學習特征，并進行分類任務(wù)。這種方法使用CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）等深度學習模型，通過多個卷積層、池化層等對原始音頻數(shù)據(jù)進行處理，提取出音頻的高層次特征，然后再將這些特征輸入到全連接層進行分類預(yù)測。由于不需要額外的特征提取步驟，端到端的音頻識別網(wǎng)絡(luò)能夠有效減少特征工程的工作量和誤差，且在抑郁識別實驗中表現(xiàn)良好。2018年，He等提出了一種手動特征提取和深度學習特征提取相結(jié)合的方式，先通過DNN從頻譜圖和原始語音波形圖中學習特征，然后手工從頻譜圖中提取紋理描述符，并通過聯(lián)合微調(diào)層結(jié)合手工和網(wǎng)絡(luò)特征以提高抑郁癥識別性能，在AVEC2013和AVEC2014數(shù)據(jù)集上的RMSE和MAE指標優(yōu)于對比算法。2021年，Zhang等提出了抑郁檢測的音頻嵌入方法DEPA，該方法訓練了自監(jiān)督學習音頻嵌入模型，在抑郁癥和健康對照者數(shù)據(jù)集上進行預(yù)訓練后應(yīng)用于下游任務(wù)的模型分類，F(xiàn)1值達到94%。2022年，Sardari等通過端到端卷積神經(jīng)網(wǎng)絡(luò)的自動編碼器CNN AE自動提取相關(guān)特征，并采用基于聚類的抽樣技術(shù)，在DAIC?WOZ數(shù)據(jù)集上相較于對比方法在F1值上提升了7%。2023年，Du等提出一種結(jié)合線性預(yù)測編碼（LPC）和MFCC的語音鏈模型，分別描述語音生成和感知的過程，通過CNN和長短時記憶網(wǎng)絡(luò)（LSTM）依次捕獲段內(nèi)和段間的動態(tài)抑郁特征進行分類，在DAIC?WOZ和MODMA數(shù)據(jù)集上分別取得77%和86%的準確率。2024年，Das等結(jié)合MFCC和通過CNN提取的高級頻譜特征，在DAIC?WOZ數(shù)據(jù)集和MODMA數(shù)據(jù)集上的檢測準確率超過90%。

2.4 文本模態(tài)模型構(gòu)建

文本數(shù)據(jù)也是抑郁識別的重要模態(tài)之一，研究人員通常會收集社交媒體平臺如Twitter、Facebook等用戶發(fā)布的文本數(shù)據(jù)，通過自然語言處理和文本挖掘等技術(shù)挖掘數(shù)據(jù)中有關(guān)個體的健康狀況、情緒狀態(tài)等方面的信息，用于輔助評估抑郁的嚴重程度及潛在風險。然而，在許多國家和地區(qū)存在法律限制和隱私保密問題，諸多研究采用自行采集的文本數(shù)據(jù)集或從音頻數(shù)據(jù)中轉(zhuǎn)錄得到文本數(shù)據(jù)。

目前的研究根據(jù)抑郁癥語言使用模式特點，通過詞頻計數(shù)、情感極性分析、詞嵌入等方法提取文本中與抑郁癥狀標志關(guān)聯(lián)的特征，從而進行抑郁識別算法分類（圖5）。抑郁文本分析的相關(guān)研究主要包括基于規(guī)則的方法和基于機器學習的方法?；谝?guī)則的文本分析利用預(yù)定義的規(guī)則和模式來解析和提取文本中的有用信息。這種方法通常使用正則表達式和語法解析器來識別和提取文本中的關(guān)鍵信息。基于機器學習的方法使用大規(guī)模文本數(shù)據(jù)進行訓練，可以在分類和識別等下游任務(wù)中應(yīng)用，具有高準確、可擴展等優(yōu)點，通過改變模型參數(shù)和算法，適應(yīng)各種不同的文本數(shù)據(jù)，還能夠通過增加訓練數(shù)據(jù)和特征選擇等方法，進一步提高模型的性能。但這種方法需要大量的訓練數(shù)據(jù)和計算資源，對于文本特征的解釋性較弱，使得該方法在深入了解抑郁癥的機理和相關(guān)因素方面存在局限性。

圖5 抑郁識別語音模態(tài)模型流程圖

隨著深度學習等技術(shù)的發(fā)展，通過詞嵌入等方法將文本中的單詞或短語進行向量表示的研究愈來愈普遍。目前應(yīng)用于文本分類模型的典型特征生成方法包括OneHot編碼、關(guān)鍵詞權(quán)重（TF?IDF、Text-Rank等）、主題模型（LSA、LDA、LDA2Vec等）、詞嵌入（BERT Embedding）等。2016年，Williamson等從DAIC?WOZ數(shù)據(jù)集的文本中分別提取了語義內(nèi)容特征和語義上下文特征。語義內(nèi)容特征由GloVe詞嵌入模型生成詞向量的平均向量表示對話語句，用主成分分析和零相位成分分析進行稀疏編碼后，通過支持向量回歸算法對表示向量和PHQ?9分數(shù)進行回歸。語義上下文特征從文本中提取抑郁、感受、治療和自殺4個指標，計算4個指標的總和。結(jié)果顯示，DAIC?WOZ數(shù)據(jù)集本文對話中提問部分的最大F1值達到75%，回答部分的最大F1值達到62%。2022年，Amanat等通過獨熱編碼和主成分分析從Twitter抑郁文本數(shù)據(jù)集中提取特征，進一步使用RNN?LSTM模型進行預(yù)測，10折交叉驗證的結(jié)果顯示模型達到99.44%的靈敏度和99.7%的特異度。2022年，Uddin等從醫(yī)學和心理學專家預(yù)定義的抑郁癥狀作為特征，采用LSTM算法進行分類，在挪威公共在線頻道年輕用戶的文本數(shù)據(jù)集拆分的2個數(shù)據(jù)集上分別達到98%、99%的準確率，并通過可解釋人工智能對機器學習模型的結(jié)果進行了解釋。2023年，Yadav等提出一種基于患者訪談文本轉(zhuǎn)錄的抑郁識別方法，結(jié)合了用于處理語言信息的雙向門控循環(huán)單元和用于集成模型輸出的全耦合網(wǎng)絡(luò)，該方法可以提高識別的準確性和效率，F(xiàn)1值達到92%。

2.5 多模態(tài)融合及模型構(gòu)建

計算機輔助抑郁識別依賴視覺、語言和社會特征等多維指標的綜合判斷，計算機視覺、自然語言處理、語音處理等領(lǐng)域的專家傾向于應(yīng)用自己對應(yīng)領(lǐng)域的算法模型，但單一模態(tài)數(shù)據(jù)不足以提供足夠的信息，需要綜合多個領(lǐng)域、多種模態(tài)的專家知識，以實現(xiàn)抑郁相關(guān)多維指標特征之間的有效信息融合。多模態(tài)技術(shù)運用多種不同的信息以更好地捕捉和理解事物的復(fù)雜性，廣泛應(yīng)用于情感識別等領(lǐng)域。在這些領(lǐng)域中，多模態(tài)數(shù)據(jù)可提供關(guān)于事物的多方面信息，對于理解事物的復(fù)雜性和捕捉不同維度的特征提供有力支持，進一步提高抑郁檢測識別模型的準確性。

多模態(tài)特征融合抽取來自不同模態(tài)數(shù)據(jù)的信息，整合成更豐富的多模態(tài)特征表征，以提高模型的魯棒性。但是，特征的有效融合仍是目前的研究難點之一。目前比較常見的特征融合方法有特征拼接、跨模態(tài)注意力機制和條件批歸一化（CBN）等。其中，特征拼接是一種簡單直觀的特征拼接方式，將來自不同模態(tài)的特征向量進行拼接或加權(quán)，拼接后的融合特征向量輸入神經(jīng)網(wǎng)絡(luò)。跨模態(tài)注意力機制則通過計算模態(tài)間的注意力權(quán)重，對模態(tài)特征進行加權(quán)融合。CBN則是通過在批歸一化中引入額外的條件信息，來增強模型對不同模態(tài)數(shù)據(jù)的適應(yīng)能力。

隨著人工智能和深度學習技術(shù)的進步，尤其是跨模態(tài)的特征融合技術(shù)的不斷發(fā)展，近幾年利用多模態(tài)數(shù)據(jù)進行抑郁識別的研究受到了越來越多研究者的關(guān)注。通過結(jié)合多模態(tài)的數(shù)據(jù)，能夠更全面地了解患者的情況，提高抑郁識別模型的準確性和有效性。2019年，Wang等融合了眼球運動、記憶特征、認知風格特征和網(wǎng)絡(luò)行為特征用于診斷抑郁傾向，通過模型堆疊的方式提取非線性特征，達到模型泛化效果。2021年，Schultebraucks等從非結(jié)構(gòu)化臨床訪談中提取面部、語音、語言和運動特征作為輸入對創(chuàng)傷后應(yīng)激障礙（PTSD）和抑郁癥狀態(tài)的分類，解釋了患者和健康人群在運動協(xié)調(diào)、處理速度、情緒偏差、持續(xù)注意力、控制注意力、認知靈活性、認知抑制和執(zhí)行能力等認知功能上的差異，結(jié)果顯示基于視頻和音頻的標記能準確區(qū)分PTSD狀態(tài)，F(xiàn)1值分別為0.83、0.8。2022年，Liu等通過采集參與者在自然行走、情景訪談、閱讀情感文本和觀看情感視頻等任務(wù)時的視頻和音頻，分別提取視頻幀和音頻特征，利用VGG-Face、ResNet50、VGG16和DenseNet網(wǎng)絡(luò)得到不同模態(tài)的特征向量，通過門控循環(huán)單元分別決策后進行結(jié)果融合，在測試集上的負性樣本、中性樣本和正性樣本的RMSE分別為10.59、10.64和10.13。2023年，F(xiàn)ang等提出了一種具有多層次注意力機制的多模態(tài)融合模型，第一階段通過2個LSTM和一個雙向LSTM（Bi?LSTM）分別提取視覺、音頻和文本特征，第二階段通過注意力融合網(wǎng)絡(luò)利用模態(tài)之間的多樣性和互補性進行抑郁識別，在DAIC?WOZ數(shù)據(jù)集上實現(xiàn)了RMSE最優(yōu)。

2.6 其他模態(tài)數(shù)據(jù)及模型構(gòu)建

肢體運動、腦部信號等生物標志也能夠用于抑郁識別。根據(jù)抑郁患者步態(tài)和運動等方面表現(xiàn)出的癥狀，Wang等通過參與者的步態(tài)數(shù)據(jù)提取左右臂擺動、頭部垂直運動、左右步幅和步行速度等時空特征進行抑郁識別。特征包括Kinect采集的25個關(guān)鍵點在x,y,z軸上的均值、標準差、偏度和峰度等時域特征，以及離散傅里葉變換得到的頻域特征。模型融合所有特征進行10折交叉驗證，分類靈敏度、特異度和AUC分別達到0.94、0.91和0.93。針對抑郁患者的腦電信號差異，深度學習方法，尤其是CNN和LSTM，被廣泛應(yīng)用于特征提取、抑郁識別分類和評估任務(wù)。2020年，Zhang等提出了一種基于靜息態(tài)腦電的抑郁癥分類腦功能網(wǎng)絡(luò)架構(gòu)，以考慮電極之間的相關(guān)性和大腦異常拓撲結(jié)構(gòu)的變化。對不同腦電頻段和不同腦區(qū)進行統(tǒng)計分析，結(jié)果表明大腦的改變主要在左腦的額葉、顳葉、頂枕區(qū)和右腦的顳葉區(qū)，且theta頻帶左中央?yún)^(qū)域的平均最短路徑長度、聚類系數(shù)以及右頂枕區(qū)域的節(jié)點中介中心度與抑郁癥的PHQ?9評分顯著相關(guān)，最高分類準確率達到93.31%。2023年，Xu等針對靜息態(tài)腦電，提出一種多分辨率CNN結(jié)合LSTM以及殘差擠壓和激勵的深度學習模型，結(jié)果表明腦電頻段越高抑郁識別效果越好，在高頻8~30 Hz實現(xiàn)了（98.48±0.22）%的最高分類準確率。

3 計算機輔助抑郁識別的優(yōu)勢與挑戰(zhàn)

現(xiàn)有研究根據(jù)抑郁患者在面部表情、語言表達和肢體動作等特征上的差異，從圖像、音頻和文本多模態(tài)數(shù)據(jù)中提取特征，通過機器學習算法對抑郁癥狀進行識別和分類，在準確率、召回率、F1、RMSE和MAE等指標上達到了良好的效果，說明心理學、臨床醫(yī)學等領(lǐng)域提取的標識特征在抑郁識別領(lǐng)域的有效性。

計算機輔助識別方法能夠提供一種相對簡便、規(guī)范化的篩查方式，具備與目前廣泛使用的量表篩查、醫(yī)師診斷等方式協(xié)同增效的潛能，尤其針對傳統(tǒng)抑郁篩查量表中存在社會稱許性誤差、對主觀判斷依賴高等問題，計算機輔助篩查能夠提供更加客觀的篩查結(jié)果，具體表現(xiàn)為以下3方面。

1）現(xiàn)有診斷方式依賴于患者對自我的合理評估，但由于心理測量中普遍存在的社會稱許性等問題，患者對自己的評估往往傾向于偏離難以被社會接受的消極行為，偏向能夠被社會認可的積極行為，導(dǎo)致心理測評的結(jié)果出現(xiàn)偏差。而計算機輔助篩查能夠根據(jù)患者的面部行為、語言表達等數(shù)據(jù)，規(guī)范提取篩查指標、構(gòu)建識別模型，結(jié)果相對客觀準確，能夠輔助醫(yī)師進行抑郁癥篩查。

2）抑郁的診斷篩查方法較為繁瑣，在社會醫(yī)療資源緊張的情況下難以廣泛大規(guī)模推廣使用。目前，抑郁診斷很大程度依賴行為癥狀學指標，在臨床實踐上具有可操作性，但依賴醫(yī)師對患者心理狀況的問詢和對臨床表現(xiàn)分析，對醫(yī)師的主觀判斷依賴程度較高，容易受到醫(yī)師臨床經(jīng)驗、溝通技巧等因素影響，且診療的成本較高，容易給患者及其家庭帶來經(jīng)濟負擔。而計算機輔助篩查方式較容易廣泛地篩查，尤其是針對抑郁高風險的人群進行便捷、快速的檢測。此外，人工智能模型的訓練和評估過程可以在大規(guī)模樣本上進行，從而構(gòu)建更具代表性和準確性的模型。

3）由于對抑郁癥等心理精神疾病的病恥感與文化易感性，中國抑郁患者相較于國外患者更容易表達軀體癥狀的不適，包括失眠、體重減輕、食欲不振、頭痛、腸胃道或呼吸系統(tǒng)癥狀等，在問診過程中癥狀表述容易和其他綜合性疾病混淆，出現(xiàn)誤診和漏診。因此，采集適用于中國患者的抑郁識別數(shù)據(jù)、構(gòu)建相應(yīng)的模型算法和篩查系統(tǒng)對于篩查的準確性至關(guān)重要。目前抑郁識別算法達到了良好的識別效果，但仍面臨諸多挑戰(zhàn)，包括中文數(shù)據(jù)集有待擴充、現(xiàn)有數(shù)據(jù)集樣本量較少、模型參數(shù)和特征解釋不足等現(xiàn)象，有待進一步研究。

首先，相關(guān)研究的開放數(shù)據(jù)集以英文居多，中文數(shù)據(jù)集有待擴充。由于國內(nèi)外抑郁患者在面部特點、語言使用特點等方面存在一定差異，國外數(shù)據(jù)集的研究結(jié)果在中國人群中的適用性不明確、相關(guān)研究理論不足，仍需要更多的理論及實驗支撐。中國本土化的抑郁篩查工具的發(fā)展是近年來備受關(guān)注的研究方向之一。本土化的抑郁癥篩查工具的發(fā)展，在充分考慮中國人文化背景和心理特點、構(gòu)建更加精準的指標和方法的基礎(chǔ)上，對于提高應(yīng)用于中國患者的抑郁篩查工具的有效性和準確性上具有重要的意義。

其次，目前抑郁識別數(shù)據(jù)集樣本量較少，且部分數(shù)據(jù)集有較明顯的樣本分布不平衡現(xiàn)象，即健康對照組的數(shù)據(jù)樣本量明顯多于抑郁患者的數(shù)量。非均衡樣本對于抑郁識別的分類算法的準確性和有效性存在考驗。

最后，目前研究對提取特征和模型參數(shù)的解釋性不足，模型的輸入輸出和內(nèi)部的工作原理和運行機制不透明，多模態(tài)抑郁識別算法在臨床上難以得到充分應(yīng)用。相關(guān)研究實驗結(jié)果及分析中，不僅僅需要提升模型準確率等指標，特征提取及模型構(gòu)建的理論及實驗分析也尤為重要。

4 結(jié)論

抑郁量表作為目前抑郁癥狀主要篩查方式，主要根據(jù)典型癥狀出現(xiàn)的頻次、嚴重程度及持續(xù)時長，評估測評者是否有抑郁癥狀及抑郁程度，具有良好的信效度。但傳統(tǒng)測量工具可能受到醫(yī)生主觀判斷和患者自我認知的影響，客觀性和便捷性不足。隨著機器學習等技術(shù)的發(fā)展，計算機輔助篩查方式為抑郁癥狀篩查提供了新的解決方案。基于視覺、語音、文本等多模態(tài)特征，模型能夠有效對抑郁癥狀進行分類分級，提供了一種相對快速、準確的識別方法。目前抑郁識別檢測算法在準確率、召回率、F1值等指標上已達到了較好的指標效果，但開放數(shù)據(jù)集樣本量較少，且部分數(shù)據(jù)集的樣本分布不均衡，為進一步提升算法精度帶來了挑戰(zhàn)。在抑郁識別工具的應(yīng)用上，目前抑郁識別研究中模型特征和參數(shù)的可解釋性不足，相關(guān)理論及實驗研究對抑郁識別算法未來在臨床上的落地應(yīng)用尤為重要。

本文作者：辜雅婷，張遲，馬飛，賈曉健，倪士光

作者簡介：辜雅婷，清華大學深圳國際研究生院，碩士研究生，研究方向為人工智能，心理和行為大數(shù)據(jù)；馬飛（通信作者），人工智能與數(shù)字經(jīng)濟廣東省實驗室（深圳），研究員，研究方向為媒體內(nèi)容理解與生成；倪士光（共同通信作者），清華大學深圳國際研究生院，教授，研究方向為積極和健康心理學及人工智能交叉創(chuàng)新。

文章來源：辜雅婷, 張遲, 馬飛, 等. 計算機輔助抑郁障礙識別研究進展[J]. 科技導(dǎo)報, 2025, 43(14): 82?93 .

內(nèi)容為【科技導(dǎo)報】公眾號原創(chuàng)，歡迎轉(zhuǎn)載
白名單回復(fù)后臺「轉(zhuǎn)載」

《科技導(dǎo)報》創(chuàng)刊于1980年，中國科協(xié)學術(shù)會刊，主要刊登科學前沿和技術(shù)熱點領(lǐng)域突破性的研究成果、權(quán)威性的科學評論、引領(lǐng)性的高端綜述，發(fā)表促進經(jīng)濟社會發(fā)展、完善科技管理、優(yōu)化科研環(huán)境、培育科學文化、促進科技創(chuàng)新和科技成果轉(zhuǎn)化的決策咨詢建議。常設(shè)欄目有院士卷首語、科技新聞、科技評論、專稿專題、綜述、論文、政策建議、科技人文等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.