国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

徽商銀行周慶霞等:基于大語言模型的銀行線上個人信貸業(yè)務風險評估

0
分享至


轉載于:銀行家雜志 | 作者:周慶霞、牛竹林、朱潔|責任編輯:孫爽(郵箱:976639255@qq.com)

在金融科技(以大數(shù)據、云計算、人工智能等為代表)蓬勃發(fā)展、移動互聯(lián)網普及和移動支付廣泛應用的推動下,金融服務的可獲得性大幅提升,用戶可以通過智能終端隨時隨地獲得信貸、財富管理等金融服務。商業(yè)銀行之外,各大電商和社交平臺依托互聯(lián)網平臺生態(tài),紛紛提供嵌入式信貸服務,促進信貸服務模式的平臺化發(fā)展,實現(xiàn)了個人信貸市場的快速數(shù)字化、線上化,推動了線上個人信貸業(yè)務的爆發(fā)式增長。

目前,線上信貸業(yè)務的滲透率不斷提高,各類互聯(lián)網科技公司和商業(yè)銀行紛紛布局線上個人信貸市場。前者依托龐大的用戶群和數(shù)據優(yōu)勢推出消費信貸產品,后者通過數(shù)字化加持和網點布局優(yōu)勢,開發(fā)并推廣多種線上信貸產品,覆蓋了個人消費、個人經營、小微企業(yè)等多客群、多場景的金融需求。在多方參與的推動下,線上渠道發(fā)放的個人貸款余額和筆數(shù)占比顯著上升,線上信貸服務的受眾從習慣使用數(shù)字技術的年輕群體,逐步擴大到了縣域、老年等以往難以觸及的長尾客戶,金融的普惠性進一步深入。

文獻綜述

與傳統(tǒng)信貸業(yè)務相比,線上信貸業(yè)務具有“快速自動化準入、授信模型化、貸款信用化”等特點,在運作流程上突出批量化,具有更復雜的風險結構。從欺詐風險看,線上信貸業(yè)務不需要客戶經理與借款人見面,僅通過網絡平臺快速撮合、缺乏當面交叉核驗,使得身份欺詐和惡意騙貸等操作性風險增大。從數(shù)據風險看,線上信貸的借款人數(shù)據特征發(fā)生了變化,借款人往往更加年輕化、首次信貸者居多,傳統(tǒng)信用記錄有限,需要依賴交易流水、設備指紋、社交媒體等非結構化數(shù)據來刻畫其信用狀況。同時,用戶在線行為模式也有別于線下,例如,借款人在網絡平臺上的信息披露和交流方式多樣,語言風格和表述存在較大差異,部分借款人提交的文本信息質量參差不齊,存在口語化、錯別字甚至故意隱瞞等現(xiàn)象,增加了模型解讀難度。基于此,監(jiān)管部門對線上個人信貸業(yè)務也提出了更高的合規(guī)要求,既鼓勵數(shù)字普惠金融的發(fā)展,又強調風險可控和信息安全。由此可見,線上個人信貸場景下風險管理面臨獨特的背景和挑戰(zhàn),傳統(tǒng)信貸風險評估方式難以適應現(xiàn)階段的線上信貸風險管理,商業(yè)銀行需加強智能風控體系建設,積極采用先進的科技手段,以最終實現(xiàn)信貸業(yè)務全方位、全流程的數(shù)字化、智能化、線上化管理。

信貸業(yè)務是商業(yè)銀行的核心業(yè)務,在滿足社會融資需求的同時也承擔著風險,如何準確評估并有效管理信貸風險始終是商業(yè)銀行日常經營的關鍵課題。為應對這一挑戰(zhàn),眾多國內外學者以此為課題進行研究,使得信貸風險評估模型經歷了從簡單到復雜的漫長演進過程。早期商業(yè)銀行采用信用評分卡模型(如FICO評分),通過對借款人的財務指標和信用歷史進行加權打分,為放貸決策提供量化依據;該模型具有操作簡便、可解釋性強的特點,但權重選擇卻高度依賴對應領域的專家。隨著計算能力的提升和數(shù)據積累的增加,先進商業(yè)銀行逐步引入了更加復雜的統(tǒng)計模型和機器學習方法,如邏輯回歸、決策樹、支持向量機和神經網絡等,這些方法能夠捕捉信貸違約概率與多種特征之間的復雜非線性關系,大幅提升了風險預測的精度,然而,這些模型存在一定的局限性:一是過度依賴歷史結構化數(shù)據,對“信用歷史空白”群體或新興行業(yè)的借款人缺乏有效的風險判斷依據,無法解決線上個人信貸普及面廣、借款人客群差異大的問題;二是高復雜度模型的“黑箱”特性導致可解釋性欠佳,不僅難以滿足監(jiān)管的合規(guī)要求,還容易造成風險誤判后工作人員難以介入的尷尬局面;三是模型對宏觀經濟形勢和行業(yè)周期變化的適應性不足,基于歷史經驗訓練的模型在外部環(huán)境出現(xiàn)結構性變動時無法及時調整。這些局限性促使學界和業(yè)界不斷探索更全面的數(shù)據維度和更先進的建模方法,以提升信貸風險評估的準確性和穩(wěn)健性。

非結構化數(shù)據處理技術的突破

傳統(tǒng)信貸評估主要依賴結構化數(shù)據,而大量與借款人相關的信息以文本、圖像、社交網絡等非結構化形式存在,這些非結構化數(shù)據包含了大量的風險信號,如在貸款申請材料中的貸款用途預示了借款人可能的資金流向,客服對話記錄和社交媒體帖子展現(xiàn)了借款人的生活狀態(tài)和行為模式,企業(yè)公告和財經新聞一定程度上可以反映某些具有穩(wěn)定工作的借款人貸款的合理性等。通過自然語言處理進行文本情感分析,可以捕捉企業(yè)輿情或借款人描述中的積極或消極傾向,為信用風險預測提供前瞻性信息。Yunchuan Sun等人發(fā)現(xiàn)利用非傳統(tǒng)文本數(shù)據(如財務報告披露的文本、新聞媒體輿情和社交媒體信息)可以實現(xiàn)更及時、高效的信用風險評估;財經新聞中的負面情緒會導致信用違約掉期(CDS)利差擴大,反映出市場對企業(yè)違約風險預期的上升。這些研究說明,非結構化數(shù)據的引入可以彌補傳統(tǒng)結構化數(shù)據的不足,為風險評估提供更全面的視角。特別是在線上個人信貸業(yè)務中,借款人在申請時填寫的借款用途描述、與信貸員或客服的在線交流記錄等容易被忽視的文本信息,構成了重要的“軟信息”來源,對于理解借款動機和信用狀況至關重要。

2022年底ChatGPT的橫空出世,標志著自然語言處理(Natural Language Processing,NLP)技術達到了一個新的臺階,詞向量、卷積神經網絡及Transformer架構的發(fā)展,使得對海量文本數(shù)據的自動化處理和深層語義理解成為可能,為金融領域利用非結構化數(shù)據進行風險評估提供了技術支撐。但現(xiàn)階段將NLP技術直接應用于信貸風險評估仍面臨諸多挑戰(zhàn):一是非結構化數(shù)據存在噪聲和異質性,如口語化表達、錯別字及行業(yè)術語等,這些因素會干擾模型,降低準確性;二是金融文本具有專有特性,通用NLP模型直接應用于金融場景時效果有限,需要針對性地選擇金融語料、構建專業(yè)詞典并進行模型微調,構建金融領域的專用大模型;三是非結構化信息與傳統(tǒng)結構化特征難以有效整合,這也是提升最終風險評估模型性能的關鍵難題。

大語言模型在金融領域的前沿應用

LLM作為NLP領域的重大突破,通過在海量文本語料上的自監(jiān)督預訓練,具備了前所未有的語言理解與內容生成能力。以GPT-3和BERT為代表的大語言模型問世后,國內外金融機構紛紛探索其金融領域的應用潛力,如將LLM融入信貸風險管理全流程,在貸前調查階段,使用LLM從借款人申請信息中快速提取借款意圖、消費傾向及潛在欺詐風險信號,及時叫停高違約風險的信貸申請,降低具有一定違約風險的信貸申請額度;在貸后管理環(huán)節(jié),通過LLM持續(xù)監(jiān)控借款人在社交媒體、電商消費及其他網絡平臺上的行為變化,動態(tài)捕捉借款人可能出現(xiàn)的收入波動、消費異?;蜇撁嫘庞檬录蕊L險信號,對于能大幅提高違約概率的事件進行預警,以及時派出工作人員進行貸后檢查;在客戶服務方面,基于LLM的智能問答系統(tǒng)能夠通過與借款人的交互對話,在常規(guī)的對話之外,敏銳地捕捉隱藏在字里行間、借款人打字頻率、所處地點、手機震動等細微之處的信息。

當前,一些大型金融機構和科技公司已研發(fā)出面向金融領域的專用大語言模型,如Bloomberg開發(fā)了參數(shù)規(guī)模達500億參數(shù)的金融專用模型BloombergGPT,用海量財經數(shù)據訓練以支持多樣化金融任務;互聯(lián)網開源社區(qū)也出現(xiàn)了金融大模型FinGPT,其采用以數(shù)據為中心的方法整合互聯(lián)網金融數(shù)據,為學術界和業(yè)界提供了可開放使用的金融垂直領域基礎模型。然而,大語言模型在金融領域的應用還處于早期探索階段,實踐中仍存在不少問題。例如,模型訓練和應用涉及海量敏感金融數(shù)據,而未經過某金融機構特定數(shù)據集訓練的大模型又難以被該金融機構應用于實際業(yè)務中,如何在保障數(shù)據隱私和安全的前提下開展大規(guī)模模型訓練仍需深入研究。大語言模型還可能繼承訓練語料中的偏見,如果缺乏適當約束,可能導致歧視性決策,引發(fā)公平性爭議。鑒于上述風險,許多銀行采取謹慎策略,將LLM作為輔助工具,與傳統(tǒng)可解釋性強的評分卡或機器學習模型結合使用,既發(fā)揮LLM在非結構化數(shù)據處理的優(yōu)勢,又保證決策過程的透明合規(guī)。

金融監(jiān)管機構對于人工智能在風控領域的應用表示支持的同時,強調風險可控和合規(guī)要求,原銀保監(jiān)會在《關于銀行業(yè)保險業(yè)數(shù)字化轉型的指導意見》中指出,商業(yè)銀行應積極運用大數(shù)據和人工智能提升風險管理,但需加強模型風險管理,確保算法決策公正透明。麥肯錫的一項調查顯示,全球約20%的銀行信貸風控團隊已試點應用生成式AI,另有60%的機構計劃在短期內部署相關應用。這一趨勢表明,大模型在信貸風險領域具備廣闊的發(fā)展空間,但商業(yè)銀行需要在創(chuàng)新應用與風險可控之間取得平衡。

研究空白與理論突破

當前大語言模型在信貸風險評估領域主要存在以下研究空白:首先,結構化與非結構化數(shù)據融合的方法有待完善,現(xiàn)有研究往往將兩類數(shù)據割裂處理,沒有形成融合機制,更無法發(fā)揮協(xié)同增益作用。其次,通用大語言模型在金融專業(yè)知識應用上存在局限,大語言模型雖具備語言理解能力,但直接進行準確的風險預測仍面臨技術困難。此外,缺少兼顧準確性與可解釋性的模型架構,而銀行業(yè)實際應用要求模型既要精確預測,又要便于理解,滿足合規(guī)性。針對此三大不足,本文提出了一種基于大語言模型的“雙模型融合”信貸風險評估框架,包括如下幾個方面。

一是基于雙大語言模型的融合架構,通過一個擅長推理的大語言模型對包括非結構化信息的全部信息進行推理分析,得出分析報告;然后用另一個嵌入大語言模型將分析生成的報告轉化為語義嵌入向量,與原始結構化特征拼接,從而融合結構化與非結構化數(shù)據進行風險評估。

二是引入會話模板指導大語言模型結合金融領域知識進行風險分析,并記錄邏輯推理大語言模型的推理過程以增強決策的可解釋性,提升風險判斷的準確率和可信度。

三是給出兩種評估方案,包括面向可解釋性的特征融合+XGBoost方案和追求高性能的端到端微調方案,以滿足不同業(yè)務場景的需求。

通過在LendingClub公開借貸數(shù)據集上進行實證檢驗,結果顯示,本文提出的架構顯著優(yōu)于僅利用單一結構化數(shù)據源的傳統(tǒng)模型。其中,特征融合+XGBoost的曲線下面積(Area Under Curve,AUC)指標值達到0.867,相比僅用結構化特征的模型提升了4.3%;而基于端到端微調的AUC值達0.872,在各項指標上均表現(xiàn)最佳。實證檢驗結果驗證了大語言模型在信貸風險評估中的應用價值,為傳統(tǒng)信貸風控向智能化評估體系的轉型提供了可行方案。

模型介紹

本文構建的信貸風險評估框架包含DeepSeekR1和Stella兩個大語言模型,具體細節(jié)如下。

模型框架設計

框架包含四個核心模塊,分別是數(shù)據處理、文本分析、特征融合和模型預測,數(shù)據處理模塊負責數(shù)據預處理,其中,對結構化數(shù)據進行缺失值填補、標準化、類別編碼轉換,對非結構化文本數(shù)據進行清洗和格式轉換。文本分析模塊用兩個大語言模型處理預處理過的數(shù)據。首先,使用DeepSeek-R1①對貸款文本進行邏輯分析(Reasoning),分析前需要將預處理過的數(shù)據填入設計的對話模板,對話輸入給DeepSeek-R1后會得到思考過程和觀點;然后將DeepSeek-R1觀點與原始對話共同輸入給Stella模型②,這一過程將文本轉化為768維語義嵌入向量。特征融合模塊將語義嵌入向量作為基本特征與原始結構化數(shù)據拼接,形成統(tǒng)一的結構化數(shù)據特征,輸入模型預測模塊進行違約風險預測;風險預測模塊基于XGBoost算法,是傳統(tǒng)風險評估中的常用算法,其精度高、效率高、可解釋性強。另外,在風險預測模塊中,本文也嘗試了直接微調Stella模型,端到端的直接從文本輸出違約風險,也就是在Stella模型后直連接一個線性層進行訓練(見圖1)。


圖1 大語言模型信貸風險評估架構圖

DeepSeek-R1文本分析

框架的第一階段使用DeepSeek-R1對貸款文本構成的模板對話化進行邏輯分析,形成風險評估的觀點。本研究所使用的版本為DeepSeek-R1-Distill-Llama-70B,其網絡架構為Llama,包含約700億參數(shù),通過滿血版DeepSeekR1蒸餾數(shù)據訓練得到模型參數(shù),雖然參數(shù)量是滿血版DeepSeekR1的十分之一,但其仍具有很強的推理深度和準確性。為了充分挖掘DeepSeek-R1的邏輯思考能力,本文設計了一套結構化的對話提示模板,包括貸款申請詳情、借款人信息和信用歷史信息三方面內容,用于引導模型捕捉貸款申請中的關鍵信息。其中,貸款申請詳情包括貸款金額、期限、利率、貸款等級、用途及每月還款額等;借款人信息包括住房擁有狀況、年收入、工作年限、職業(yè)職位、債務收入比等;信用歷史信息包括FICO信用評分區(qū)間、信用記錄長度、過往不良記錄數(shù)量、信用賬戶數(shù)目和信用卡利用率等。DeepSeek-R1的輸出包含推理過程和風險評估的觀點,推理過程(Thinking)包含模型對各項貸款特征與風險關系的邏輯分析過程,包括歸納、反思等模式;風險評估是模型根據前述分析給出貸款的違約風險的評判以及原因。DeepSeek-R1透明的思考路徑能提供詳實的分析依據,從而提升最終結論的可解釋性。

Stella嵌入向量生成

框架的第二階段使用Stella模型將文本信息轉換為數(shù)值向量。本文采用基于“gte-large-en-v1.5”與“gte-Qwen2-1.5B-instruct”實現(xiàn)的Stella_en_1.5B_v5模型,參數(shù)規(guī)模約15億。數(shù)值向量生成過程中,先將DeepSeek-R1生成的風險分析報告與原始貸款申請文本進行拼接,形成綜合文本;然后將拼接后的綜合文本輸入Stella模型,生成對應的768維語義嵌入向量。最終,Stella模型輸出的嵌入向量融合了原始文本和DeepSeek-R1分析結論的信息,形成對借款人風險狀況的全面表征。

特征融合與XGBoost模型

XGBoost是傳統(tǒng)常用的違約預測機器學習算法,在信用風險建模中有廣泛應用,主要優(yōu)點包括:預測精度高,能夠有效捕捉特征間復雜的非線性關系;計算效率高,通過并行化和優(yōu)化算法加速模型訓練;可解釋性較強,可通過特征重要度等手段了解模型決策依據。訓練過程中,XGBoost以邏輯損失(對數(shù)損失)為目標函數(shù),并加入L1/L2正則化項防止模型過擬合。通過調節(jié)樹模型的復雜度,XGBoost在保持高精度的同時實現(xiàn)了良好的泛化能力。本文將結構化特征向量與Stella輸出的非結構化特征的語義嵌入向量融合,也就是首尾拼接,然后使用XGBoost進行違約預測。

Stella微調模型

上述特征融合+XGBoost是傳統(tǒng)機器學習違約預測范式,本文還探究了使用Stella模型進行端到端微調的方案。具體來說,該方案在預訓練的Stella模型后添加一個全連接分類層,直接將文本嵌入向量映射為違約概率,這樣構建了一個端到端的學習模型。輸入的數(shù)據同樣是DeepSeek-R1分析報告與原始申請文本的拼接,輸出為借款人的違約概率。在該方案的模型訓練中,采用交叉熵損失函數(shù),并使用AdamW優(yōu)化器進行參數(shù)更新。設定學習率為1e-5、批量大小為32、訓練輪數(shù)為5,并引入早停機制來防止過擬合。從原理上分析,預訓練的Stella編碼器負責提取高層語義特征,新加入的線性層學習這些特征與違約概率之間的映射關系。交叉熵損失通過衡量二分類預測的準確性,促使模型學習文本特征與違約風險的內在關聯(lián)。與傳統(tǒng)方案相比,端到端微調方案的優(yōu)勢在于省去了中間特征拼接和獨立訓練預測模型的步驟,將整個預測過程整合為一個神經網絡模型,降低了人為干預。但其劣勢是模型的可解釋性相對較弱,難以直接提取各特征的重要性。

實證研究

本文采用美國一家網絡借貸平臺LendingClub的公開貸款數(shù)據集進行實證研究,該平臺提供了2007年至2018年間約226萬筆借款記錄,數(shù)據集包括借款人的個人信息、財務狀況、借款詳情、還款記錄等。

數(shù)據基礎與特征構成

為了保證研究樣本的時效性和經濟環(huán)境相對穩(wěn)定,本文選取了2015年至2017年期間發(fā)放的貸款數(shù)據約60萬條作為研究對象。在樣本標簽的定義上,本文依據貸款最終狀態(tài)字段,將“ChargedOff”(核銷)、“Default”(違約)以及“Late(31—120days)”(逾期31—120天)這三類狀態(tài)的貸款記為違約(標簽=1),其余正常還清或正在償還的貸款記為未違約(標簽=0)。

針對原始數(shù)據,本文進行了如下預處理:

針對數(shù)據不平衡問題(違約樣本約占15%),采用隨機下采樣的方法平衡正負樣本數(shù),以避免模型訓練時過度偏向多數(shù)類;

為避免未來信息泄露(前視偏差),本文剔除了貸款發(fā)放時無法獲知的后驗變量,例如還款歷史記錄長度、逾期天數(shù)等貸后行為數(shù)據;

對結構化特征執(zhí)行缺失值填補、數(shù)值標準化和類別變量編碼處理,盡可能保證輸入特征的質量和同質性。

具體來說,結構化特征主要包括以下幾類:一是借款人基本信息(如年收入、就業(yè)年限、住房所有權狀態(tài)、所在地區(qū)等),用于反映借款人的社會經濟地位與穩(wěn)定性;二是信用歷史特征(如FICO信用評分范圍、信用記錄長度、過往逾期或違約記錄數(shù)量、信用卡利用率等),用于刻畫借款人的歷史信用表現(xiàn)和風險偏好;三是償債能力特征(如債務收入比、月還款額占收入比等),衡量借款人的當前財務壓力和償債能力;四是貸款屬性特征(如貸款金額、期限、利率、信用等級、貸款用途等),展示貸款本身的風險特性和用途。以上結構化特征共涉及20余個變量。

非結構化文本特征則來自借款人在申請貸款時提供的文本信息,主要包括:貸款用途描述(Loan Description),借款人用一段話說明貸款資金的用途,例如“債務合并”或“裝修房屋”等;貸款標題(LoanTitle),借款人為貸款起的簡短標題,概括貸款意圖;借款人職業(yè)信息(Employment Title),如“銷售經理”“教師”等,用于側面反映借款人的職業(yè)穩(wěn)定性和收入潛力。這三部分文本信息長度不一,內容包含借款人的敘述和自我陳述,屬于典型的軟信息來源。

實驗設計與模型配置

為全面評估雙模型架構的性能,本文設計了六組對比實驗,通過控制變量的方法驗證不同特征組合和建模路徑的效果差異。

實驗1,僅使用傳統(tǒng)結構化特征訓練XGBoost模型。本文通過網格搜索和交叉驗證確定XGBoost的超參數(shù)設置:最大樹深為6,學習率0.1,L1正則化系數(shù)0.01,L2正則化系數(shù)0.1,子樣本率0.8。該組實驗提供了傳統(tǒng)風控模型的性能基線。

實驗2,僅使用Stella模型生成的文本嵌入向量作為特征訓練XGBoost模型。模型輸入包括貸款描述、標題、職業(yè)信息等原始貸款數(shù)據,向量維度為768。XGBoost模型的超參數(shù)與實驗1保持一致,以確保結果具有可比性。該實驗用于評估大語言模型處理非結構化文本后,在獨立預測違約風險方面的能力。

實驗3,僅使用Stella模型生成的文本嵌入向量作為特征訓練XGBoost模型。與實驗2相比,輸入Stella模型的信息加入DeepSeek-R1分析文本。

實驗4,將結構化特征與文本嵌入向量拼接融合后輸入XGBoost模型進行訓練,該模型參數(shù)設置與前兩組相同。本實驗用于檢驗“結構化+非結構化數(shù)據”融合對模型性能的影響,探究兩類信息的互補作用。

實驗5,采用端到端的深度學習方法,對預訓練Stella模型進行微調訓練,直接輸出違約風險預測。模型輸入包括貸款描述、標題、職業(yè)信息等原始貸款數(shù)據。訓練參數(shù)為:學習率1e-5,批次大小32,訓練輪次5,并使用早停策略防止過擬合。

實驗6,采用端到端的深度學習方法,對預訓練Stella模型進行微調訓練,直接輸出違約風險預測。與實驗5相比輸入Stella模型的信息加入DeepSeek-R1分析文本。

本文采用多種指標進行實驗評估,包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值和AUC值。其中,AUC(Area Under ROC Curve)作為綜合評價指標,能夠反映模型在不同閾值下的區(qū)分能力;F1值則是精確率與召回率的調和平均,適用于類別不平衡場景。本文將數(shù)據集按照6:2:2的比例劃分為訓練集、驗證集和測試集,并采用分層抽樣確保各子集中違約比例一致。模型在訓練集上訓練,在驗證集上調參并根據早停準則確定最優(yōu)迭代輪次,最終在測試集上評估性能。

實驗結果與分析

六組模型的測試結果如表1所示,對比分析可以發(fā)現(xiàn),Stella微調模型性能最好。其中,Stella微調模型的AUC值達到了0.766,F(xiàn)1值為0.762,顯著高于其他模型。這表明通過微調訓練后大語言模型能夠更準確地捕捉借款信息中與違約風險高度相關的深層語義特征,從而帶來顯著的性能提升。

表1 六組實驗模型性能對比


實驗結果還表明,結構化特征與文本語義信息之間存在明顯的互補效應。將這兩類信息融合后,模型能夠獲取更全面的風險信號,提升違約風險識別的覆蓋度和準確性。例如,與僅使用結構化特征的基準模型相比,特征融合模型的總體預測準確率由0.619提升到了0.727,這表明引入借款人的非結構化信息有助于減少錯判,能夠擬補傳統(tǒng)結構化數(shù)據的不足。

同時,基于大語言模型文本嵌入的模型(包括DeepSeek-R1的分析)已經取得了接近結構化特征模型的表現(xiàn)。具體而言,僅利用文本信息的模型實現(xiàn)了約0.680的AUC,已經接近僅使用結構化特征模型的0.733。這表明非結構化文本中確實蘊含有價值的風險信號。然而,僅依靠傳統(tǒng)機器學習算法(如XGBoost)對文本嵌入特征進行建模仍存在局限,上述文本嵌入模型相對于結構化模型仍有一定差距。這也從側面印證了通過端到端微調大語言模型來更充分挖掘文本語義信息的必要性。

此外,對不同貸款類型情境下模型表現(xiàn)的進一步分析發(fā)現(xiàn),特征融合模型和Stella微調模型在某些特殊場景下表現(xiàn)尤為突出。尤其是對于債務合并類貸款場景,借款人在文本中對債務用途和財務狀況的詳盡說明對判斷其償債意愿至關重要,上述兩種模型利用文本信息捕捉到了這些關鍵風險信號。在特征融合模型中,筆者對特征重要性進行了分析,結果發(fā)現(xiàn)來自LLM文本嵌入的特征總體貢獻度約為41.3%,進一步證明了非結構化文本信息在信貸風險評估中的重要價值。

結論與建議

本文針對商業(yè)銀行線上個人信貸風險評估,構建了“雙大語言模型”的評估框架,并通過實證檢驗了其有效性,證明了雙模型架構能夠滿足線上個人信貸場景的風險評估需求,與傳統(tǒng)評估模型相比具有顯著優(yōu)勢。雙模型架構不僅可以更準確地評估線上個人信貸的違約風險,及時發(fā)現(xiàn)潛在高風險借款人,降低信貸資產的不良率;還可以通過LLM生成分析報告的方式獲得良好的可解釋性,減少了黑箱問題在監(jiān)管合規(guī)方面的顧慮,大大提升了落地實施的可能性。

隨著新一代大語言模型的演化,其在金融領域的表現(xiàn)有望進一步提升。伴隨更大規(guī)模、更高智商的LLM出現(xiàn),將賦予風險評估模型更深層次的理解能力和更嚴密的邏輯推理能力;龐大的應用需求督促著金融垂直領域的預訓練模型不斷涌現(xiàn),多數(shù)金融機構都可以使用專用大語言模型更精確地刻畫信貸風險特征、更有針對性地提出風險防范手段。此外,未來的LLM還將融合知識圖譜、聯(lián)邦學習等技術來解決數(shù)據孤島問題,增強對金融因果關系和領域知識的掌握,實現(xiàn)從相關性判斷向因果性分析的跨越、從定性分析到定量分析的提升,大幅度解決商業(yè)銀行線上個人信貸風險評估問題。


注:①DeepSeek-R1是幻方量化旗下AI公司深度求索(DeepSeek)研發(fā)的推理模型。

②Stella模型NovaSearch公司開發(fā)的嵌入模型。

作者單位:徽商銀行研究發(fā)展部,其中周慶霞系該部門總經理

THE END

轉載聲明:本微信公眾號刊登的文章僅代表作者本人觀點,不代表中國普惠金融研究院及本微信公眾號觀點

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
12月狂賣6.5萬輛,到底誰在買特斯拉Model Y?

12月狂賣6.5萬輛,到底誰在買特斯拉Model Y?

川雨玩車
2026-01-11 23:10:20
退休金5000去女兒家養(yǎng)老,聽到女婿一句話,我連夜收拾行李回家

退休金5000去女兒家養(yǎng)老,聽到女婿一句話,我連夜收拾行李回家

木子言故事
2026-01-12 09:03:18
隨著德羅贊的加入,09屆成NBA歷史唯一一屆3人突破26000分大關!

隨著德羅贊的加入,09屆成NBA歷史唯一一屆3人突破26000分大關!

田先生籃球
2026-01-12 13:43:43
楊瀚森防守效率力壓濃眉、約基奇,位居NBA中鋒第六

楊瀚森防守效率力壓濃眉、約基奇,位居NBA中鋒第六

大眼瞄世界
2026-01-12 11:16:58
3外轟71廣東30分大勝遼寧!5人滿分徐胡躺贏,杜鋒讓楊鳴顏面盡失

3外轟71廣東30分大勝遼寧!5人滿分徐胡躺贏,杜鋒讓楊鳴顏面盡失

后仰大風車
2026-01-11 21:36:56
18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽處決。

18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽處決。

環(huán)球趣聞分享
2026-01-07 13:30:09
今天股市相當不對勁!不出意外的話,2020年行情或將會再次重演?

今天股市相當不對勁!不出意外的話,2020年行情或將會再次重演?

股市皆大事
2026-01-12 17:18:46
王玉雯最新活動翻車!妝容太丑照片像AI,評論區(qū)徹底淪陷了

王玉雯最新活動翻車!妝容太丑照片像AI,評論區(qū)徹底淪陷了

丁丁鯉史紀
2026-01-12 10:14:25
羽壇名將李宗偉:36歲患癌喉嚨全爛,花近1000萬續(xù)命,現(xiàn)狀如何?

羽壇名將李宗偉:36歲患癌喉嚨全爛,花近1000萬續(xù)命,現(xiàn)狀如何?

豐譚筆錄
2026-01-07 10:59:38
上市慶功宴花42,買生產線砸百億,山東大漢把鄉(xiāng)企干成到行業(yè)頂端

上市慶功宴花42,買生產線砸百億,山東大漢把鄉(xiāng)企干成到行業(yè)頂端

青眼財經
2026-01-11 20:45:04
56歲莫文蔚狀態(tài)封神 這身段太絕了

56歲莫文蔚狀態(tài)封神 這身段太絕了

述家娛記
2026-01-10 22:42:39
美聯(lián)儲主席鮑威爾遭刑事調查;其將于2026年5月結束任期,曾多次遭特朗普威脅并被要求辭職

美聯(lián)儲主席鮑威爾遭刑事調查;其將于2026年5月結束任期,曾多次遭特朗普威脅并被要求辭職

極目新聞
2026-01-12 08:55:03
壽命不長,絕經先知?醫(yī)生:壽命長的女性,絕經通常有這些表現(xiàn)

壽命不長,絕經先知?醫(yī)生:壽命長的女性,絕經通常有這些表現(xiàn)

岐黃傳人孫大夫
2025-12-29 09:24:46
特朗普再表決心,稱“不想和中俄做鄰居”,格陵蘭人:給錢也不賣

特朗普再表決心,稱“不想和中俄做鄰居”,格陵蘭人:給錢也不賣

阿七說史
2026-01-12 16:50:28
男子出門打工9個月回家女友懷孕,當事人:“天天叫我大哥哥 我都走火入魔了”

男子出門打工9個月回家女友懷孕,當事人:“天天叫我大哥哥 我都走火入魔了”

觀威海
2026-01-11 23:30:56
阿斯:巴爾德與卡雷拉斯仍夢想參加美加墨世界杯

阿斯:巴爾德與卡雷拉斯仍夢想參加美加墨世界杯

懂球帝
2026-01-12 12:50:10
歷經十幾年談判,5個縣都劃歸鄰國,如今現(xiàn)狀如何了?

歷經十幾年談判,5個縣都劃歸鄰國,如今現(xiàn)狀如何了?

鶴羽說個事
2026-01-09 14:29:53
閆學晶事件升級!央媒怒批后,又一壞消息傳來,這下麻煩可大了

閆學晶事件升級!央媒怒批后,又一壞消息傳來,這下麻煩可大了

青梅侃史啊
2026-01-11 09:07:47
CBA最新消息!曝上海男籃裁掉弗格,趙繼偉正式復出

CBA最新消息!曝上海男籃裁掉弗格,趙繼偉正式復出

體壇瞎白話
2026-01-12 10:32:51
“山姆”跨年必買好物TOP6,真的太太太適合跨年啦??!

“山姆”跨年必買好物TOP6,真的太太太適合跨年啦??!

白色得季節(jié)
2026-01-09 22:38:37
2026-01-12 19:00:49
中國普惠金融研究院CAFI incentive-icons
中國普惠金融研究院CAFI
人大財金學院下設的研究機構
2036文章數(shù) 474關注度
往期回顧 全部

財經要聞

倍輕松信披迷霧 實控人占用資金金額存疑

頭條要聞

夫妻匿名向西安交大捐贈1億元 此前有多對伉儷捐贈1億

頭條要聞

夫妻匿名向西安交大捐贈1億元 此前有多對伉儷捐贈1億

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

閆學晶:脫離群眾太久 忘了自己的根

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

汽車要聞

增配不加價 北京現(xiàn)代 第五代 勝達2026款上市

態(tài)度原創(chuàng)

本地
藝術
旅游
家居
公開課

本地新聞

云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

藝術要聞

畫完這組畫,他抑郁了,后來自殺了

旅游要聞

1月14日9時起,洛陽旅游年票暫停線上、線下銷售、查詢等

家居要聞

包絡石木為生 野性舒適

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版