国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

奇富科技發(fā)布評測基準,想讓信貸AI告別“黑箱競技”

0
分享至

撰文| 郝 鑫

編輯| 王 潘

奇富科技,為何此刻站出定義標準?這家科技公司的底氣來自于哪里?是否有能力為行業(yè)定義一把公認的“標尺”?

要回答這些問題,不妨先審視行業(yè)正面臨的真實挑戰(zhàn)。

過去三年,大模型如風(fēng)暴般席卷了信貸領(lǐng)域,掀起了一場以“效率革命”為名的技術(shù)浪潮。

在這過程中,逐漸形成了由互聯(lián)網(wǎng)大廠引領(lǐng)、傳統(tǒng)銀行跟進和垂直玩家深耕的三足鼎立的格局。

隨著大模型技術(shù)的收斂,信貸行業(yè)也陷入了“冷靜期”。技術(shù)上的先進性與落地效果間形成了鴻溝。當眾多廠商紛紛標榜自身的AI能力領(lǐng)先,一個根本性問題日益凸顯:究竟該如何客觀衡量,誰的技術(shù)更扎實、更可信?


近日,奇富科技給出了自己的答案,聯(lián)合復(fù)旦大學(xué)與華南理工大學(xué)研究人員,共同發(fā)布首個面向信貸場景的多模態(tài)評測基準FCMBench-V1.0。

該基準基于真實信貸業(yè)務(wù)場景,抽象科學(xué)問題,設(shè)計多模態(tài)評估任務(wù)與挑戰(zhàn),以期構(gòu)建來源于業(yè)務(wù)、服務(wù)于業(yè)務(wù)的實用性評測體系。同時,奇富科技宣布開源數(shù)據(jù)集與評測工具,為行業(yè)共建AI基礎(chǔ)設(shè)施提供關(guān)鍵支撐。

至此,熱鬧紛繁的信貸AI賽道,終于有了一把清晰的“標尺”和一條公認的“基準線”,技術(shù)實力高低,終于有了可比較的刻度。

信貸AI的“無標之痛”

金融行業(yè)素有“練兵場”之稱,一方面是場景下的各種需求比較復(fù)雜,所涉及的流程繁多;另一方面是對數(shù)據(jù)保密性、審核合規(guī)和交易安全等指標的低容錯率。

奇富科技多模態(tài)負責(zé)人楊葉輝博士向我們介紹,“信貸審核涉及幾十類證件、每類證件有多種模板、審核流程涉及多個環(huán)節(jié)和任務(wù),以及多證件的交叉推理驗證,用戶拍攝的場景和上傳的文件也多種多樣。信貸場景的這些挑戰(zhàn)對于多模態(tài)大模型的能力是非常好的試金石。”

但當信貸AI從演示驗證走向深度應(yīng)用時,卻遭遇了一系列痛點問題。最突出的表現(xiàn)是大模型對專業(yè)場景的失焦,大模型往往更注重通用的能力,而缺乏了對信貸場景的適配性。

例如,一般行業(yè)評測多聚焦于“圖片識別”或“文本分類”,但信貸審核員最頭疼的,并非識別“這是不是一張圖片”,而是判斷這張身份證與當前操作人的其他材料,歷史留存證件是否一致,且證件本身是否可疑。所謂的專業(yè)任務(wù),是從數(shù)百頁銀行流水中識別出隱性負債、可疑的關(guān)聯(lián)方交易等,這需要深度的領(lǐng)域知識和復(fù)雜的推理邏輯,通用大模型經(jīng)常出現(xiàn)失靈。


數(shù)據(jù)的合規(guī)問題,在信貸行業(yè)尤為棘手。最需要被衡量的風(fēng)控模型,其訓(xùn)練數(shù)據(jù)因涉及用戶隱私、企業(yè)商業(yè)機密,無法被共享。這導(dǎo)致了一個悖論,學(xué)術(shù)界無法獲取高質(zhì)量脫敏的真實信貸數(shù)據(jù),研究只能停留在真空環(huán)境下,訓(xùn)練出的模型淪為“紙上談兵”。

工業(yè)界則因為數(shù)據(jù)敏感性,只能進行“黑箱競賽”,各家均宣稱自家模型在私有數(shù)據(jù)部署效果卓越,卻無法在第三方統(tǒng)一的數(shù)據(jù)集上同臺競技,不僅信任無法建立,行業(yè)也無法通過統(tǒng)一標準測試水平。

即便走過了模型、數(shù)據(jù)的測試,在真實生產(chǎn)環(huán)境中還是會遇到許多突發(fā)和個性化的問題。例如,模型在執(zhí)行掃描PDF、高清標準照等相對標準化任務(wù)上表現(xiàn)優(yōu)異。但在真實世界中,客戶上傳的營業(yè)執(zhí)照可能邊緣有褶皺,因年份過長可能出現(xiàn)褪色;手持身份證照片可能背景雜亂、光線昏暗;遠程面審時,網(wǎng)絡(luò)延遲和視頻壓縮會導(dǎo)致語音斷續(xù)、面部模糊。這些在實驗室被過濾掉的噪音,恰恰是線上場景的常態(tài),專門針對此類場景的魯棒性測評目前嚴重缺失。

專業(yè)場景失焦、數(shù)據(jù)之困和魯棒性盲區(qū),三大痛點交織,共同將行業(yè)推入一個負向循環(huán)。

機構(gòu)和企業(yè)選型時只能看Demo和通用打榜成績,存在一定盲目性。各家都在自己的“孤島”上重復(fù)建設(shè)相似能力,并宣稱自己領(lǐng)先,市場充斥著劣幣驅(qū)逐良幣的擔(dān)憂。因魯棒性在上線前得不到充分檢驗,許多項目在落地效果不及預(yù)期,投入產(chǎn)出比低下。

現(xiàn)階段,信貸行業(yè)呈現(xiàn)出投入大、選型盲和驗證難的困境,大量資源被消耗在解決相同的基礎(chǔ)問題上。要打破此循環(huán),亟需一個統(tǒng)一的“標尺”和一場評估范式革命。

FCMBench,一把來自“戰(zhàn)場”的尺子

為了解決行業(yè)的普遍性問題,奇富科技在設(shè)計FCMBench時設(shè)定了三大核心目標。

強調(diào)實用性,與真實信貸審核流程對齊,提供標準化評估指標。重要的是,理想情況下,若模型在該基準測試中取得良好成績,可直接應(yīng)用于實際場景,而不僅僅是滿足實驗室指標。

據(jù)悉,F(xiàn)CMBench-V1.0構(gòu)建了與真實銀行審核流程高度一致的評測框架,涵蓋18類核心信貸證件,如身份證、收入證明、銀行流水、房產(chǎn)證等,包含4043張合規(guī)圖像和8446個測試樣本,問題覆蓋信貸審核全鏈條。


評測盡可能全面覆蓋所有實際應(yīng)用場景和需求。其創(chuàng)新的“感知-推理-魯棒性”三維評測體系,對信貸AI模型所需的實戰(zhàn)核心能力提出了全面的考核。

感知維度包含文檔類型識別、關(guān)鍵信息提取、圖像質(zhì)量評估三大任務(wù),考驗?zāi)P蛷膹?fù)雜圖像中提取基礎(chǔ)信息的能力;推理維度涵蓋一致性校驗、有效性校驗、數(shù)值計算、合理性審核四類任務(wù),模擬信貸員交叉驗證信息、判斷材料有效性的核心工作;魯棒性維度則設(shè)置十類真實采集干擾,如傾斜拍攝、光照不均、反光等,測試模型在真實應(yīng)用場景中的穩(wěn)定性。

在數(shù)據(jù)層面,在保證多樣性的基礎(chǔ)上,滿足合規(guī)性要求。數(shù)據(jù)采集支持單圖像和多圖像格式中的一種或多種證件,涵蓋信貸審核中遇到的各類數(shù)據(jù)類型。以真實信貸材料為基礎(chǔ),在保證文檔格式高度仿真的同時,手動生成一系列信貸相關(guān)證件,其中所有敏感信息均為虛構(gòu)。

整體看下來,F(xiàn)CMBench取之于奇富科技常年的業(yè)務(wù)經(jīng)驗和數(shù)據(jù)積累,并將成果直接用于實戰(zhàn)場景。首個版本做到了“對癥下藥”,其推出就是為了針對性地解決“無標可依”“無據(jù)可考”的AI落地痛點,讓AI模型的性能評估有統(tǒng)一的標尺。

FCMBench并非是一個孤立的現(xiàn)象,而是整個金融行業(yè)轉(zhuǎn)向?qū)嵱眯缘男盘?。去年,一些大廠已經(jīng)率先行動起來。

螞蟻數(shù)科同樣認同專業(yè)性和統(tǒng)一的標準。其構(gòu)建的金融任務(wù)分類體系,包括了六大類、六十六小類場景,覆蓋銀行、證券、保險、基金、信托等金融全場景。此外,螞蟻數(shù)科還聯(lián)合行業(yè)內(nèi)專業(yè)機構(gòu)推出Finova大模型金融應(yīng)用評測基準,深度考察智能體能力、復(fù)雜推理以及安全合規(guī)能力。

螞蟻消金基于通義千問基座訓(xùn)練“消費信貸垂類風(fēng)控大模型”,將任務(wù)詳細拆解為授信、審批、專項優(yōu)化反欺詐和信用評估等指標。京東科技則依托供應(yīng)鏈生態(tài),強化票據(jù)、合同、倉單等多模態(tài)單據(jù)的結(jié)構(gòu)化識別與交叉驗證,針對金融語義進行了專項重構(gòu)。這些操作都在一定程度上,彌補了通用大模型“專而不精”的劣勢。

落實到業(yè)務(wù)上,各家的目標也高度一致,追求價值落地。無論是螞蟻的秒級授信、京東的供應(yīng)鏈金融快審,還是奇富科技的AI全流程審批,本質(zhì)上都是將模型性能指標轉(zhuǎn)化為,包括壞賬率降低、客群覆蓋擴大、審核人工成本節(jié)約等實際業(yè)務(wù)價值。

通過對23個主流多模態(tài)模型的全面評測,F(xiàn)CMBench展現(xiàn)出了專業(yè)的鑒別能力。在FCMBench的首輪評測中,谷歌的Gemini 3 Pro(64.61)位列商業(yè)模型榜首,阿里云Qwen3-VL-235B(57.27)成為最佳的開源基模。基于奇富實際業(yè)務(wù)場景研發(fā)的信貸垂類多模態(tài)大模型,Qfin-VL-Instruct以64.92的F1分數(shù)斬獲綜合第一。


測試結(jié)果顯示,Qfin-VL-Instruct感知任務(wù)精準度行業(yè)頂尖,一致性校驗?zāi)芰ν怀觯脱舆t部署適配在線審批場景,是專為信貸審核優(yōu)化的“場景化模型”。

其中,在感知任務(wù)維度實現(xiàn)全面領(lǐng)先,文檔類型識別、關(guān)鍵信息提取和圖像質(zhì)量評估三個子指標均超過Gemini 3 Pro。在有效性校驗、數(shù)值計算、合理性審核等任務(wù)上,還可通過啟用輕量級思維鏈推理進一步縮小與Gemini 3 Pro的差距。

Qfin-VL-Instruct的成績,證明了通用模型能力無法完全覆蓋專業(yè)場景,通過“場景數(shù)據(jù)+專業(yè)領(lǐng)域知識”積累能夠突破現(xiàn)有模型的上限,奇富科技在垂類模型上的成功,也為行業(yè)指明了一條可復(fù)制的路徑。

從“技術(shù)競技場”到“行業(yè)共同體”

目前,奇富科技宣布開源了FCMBench的數(shù)據(jù)集與評測方法,有關(guān)FCMBench的數(shù)據(jù)集、評測工具以及Qfin-VL-Instruct的試用接口已開放獲取。

FCMBench的開源,標志著金融AI發(fā)展邏輯的一次根本性轉(zhuǎn)向:信貸行業(yè)正從各家閉門的“黑箱競賽”,走向基于公共標準的“生態(tài)共建”。

這一舉措將徹底打破領(lǐng)域壁壘,推動信貸AI從“單點優(yōu)化”邁向“產(chǎn)學(xué)研協(xié)同創(chuàng)新”。高質(zhì)量、合規(guī)的開放數(shù)據(jù)集,讓學(xué)術(shù)界擁有了觸及真實金融問題的“合法接口”。產(chǎn)學(xué)研合作得以從務(wù)虛的技術(shù)對接會,轉(zhuǎn)向務(wù)實的問題攻堅,共同攻克“可解釋AI”“小樣本魯棒性”“公平性驗證”等既具學(xué)術(shù)深度,又攸關(guān)業(yè)務(wù)落地的真問題。

擁有可量化、可復(fù)現(xiàn)的評測工具后,金融機構(gòu)的技術(shù)評估體系得以重構(gòu)。選型決策將從依賴廠商的“案例包裝”與“榜單大比拼”,轉(zhuǎn)向客觀的能力跑分與場景適配度分析,極大降低決策風(fēng)險與試錯成本,并倒逼大模型廠商回歸價值競爭本質(zhì)。

公開基準如同一面“照妖鏡”,迫使所有廠商在同一把“尺子”下接受檢驗。這意味著以前公說公有理,婆說婆有理的局面即將終結(jié)。當各家同拿一份考卷答題,坐在考場答題時,誰的分數(shù)更高,成績則一目了然。

金融AI的終局并非技術(shù)炫技,而是建立穩(wěn)固的信任體系。公開、透明的評測基準,正是建立這種信任的第一步。它為信貸行業(yè)未來建立AI模型合規(guī)認證、金融垂類領(lǐng)域能力測試和監(jiān)管標準,都提供了有效的思路和實踐基礎(chǔ)。

楊葉輝博士告訴我們,“FCMBench -V1.0只是一個開始,未來會持續(xù)完善評測基準,希望打磨好一把公平、公正,面向?qū)崙?zhàn)需求的尺子”。

這不僅僅是一次技術(shù)開源,更是一次行業(yè)共識的重塑。只有當技術(shù)能力可衡量、可比較、可驗證時,信貸AI才能進一步走向技術(shù)應(yīng)用的深水區(qū),推動整個行業(yè)走向更安全、可靠、可控的智能化未來。

微信號|TMTweb

公眾號|光子星球

別忘了掃碼關(guān)注我們!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
河北女子不同房不離婚后續(xù):律師揭惡心內(nèi)情,女方這步棋下得太巧

河北女子不同房不離婚后續(xù):律師揭惡心內(nèi)情,女方這步棋下得太巧

六目先生
2026-03-08 09:56:47
廣東男籃碩果累累!徐杰獲正賽MVP胡明軒三分王陳家政最佳星銳

廣東男籃碩果累累!徐杰獲正賽MVP胡明軒三分王陳家政最佳星銳

狼叔評論
2026-03-08 22:54:04
臺系內(nèi)存廠:中國大陸DDR5內(nèi)存,救不了市場,會一直漲到2027年

臺系內(nèi)存廠:中國大陸DDR5內(nèi)存,救不了市場,會一直漲到2027年

世界圈
2026-03-09 09:30:24
3月8日,何潔前夫赫子銘自曝簽離婚保密協(xié)議,引爆輿論爭議

3月8日,何潔前夫赫子銘自曝簽離婚保密協(xié)議,引爆輿論爭議

星星沒有你亮
2026-03-09 02:07:47
特朗普回應(yīng)油價暴漲:這樣的代價微不足道

特朗普回應(yīng)油價暴漲:這樣的代價微不足道

鳳凰網(wǎng)財經(jīng)
2026-03-09 07:48:04
重磅官宣!深圳龍崗區(qū)發(fā)布“龍蝦十條”

重磅官宣!深圳龍崗區(qū)發(fā)布“龍蝦十條”

深圳晚報
2026-03-09 08:30:40
3月6日人民幣匯率指數(shù)按周漲1.07至99.65

3月6日人民幣匯率指數(shù)按周漲1.07至99.65

每日經(jīng)濟新聞
2026-03-09 08:39:14
何昶?!吨鹩瘛繁粨Q臉:一個演員消失的24小時

何昶?!吨鹩瘛繁粨Q臉:一個演員消失的24小時

動物奇奇怪怪
2026-03-08 08:33:46
阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個壞習(xí)慣

阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個壞習(xí)慣

39健康網(wǎng)
2026-02-17 18:31:37
善惡到頭終有報?57歲央視女主持王小丫,已走上另一條大路

善惡到頭終有報?57歲央視女主持王小丫,已走上另一條大路

妙知
2026-01-13 11:55:41
國民黨在花蓮選情穩(wěn)了?民進黨擬不自提縣長人選,反傅勢力難整合

國民黨在花蓮選情穩(wěn)了?民進黨擬不自提縣長人選,反傅勢力難整合

海峽導(dǎo)報社
2026-03-09 07:14:02
美媒給五角大樓提了個醒,特朗普算是看明白了:這是沖著自己來的

美媒給五角大樓提了個醒,特朗普算是看明白了:這是沖著自己來的

萬物知識圈
2026-03-09 09:16:16
CCTV16直播!山東泰山迎戰(zhàn)北京國安,其他場次暫未現(xiàn)身央視節(jié)目單

CCTV16直播!山東泰山迎戰(zhàn)北京國安,其他場次暫未現(xiàn)身央視節(jié)目單

實事球是
2026-03-09 07:53:59
女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

丫頭舫
2026-02-10 22:18:05
92年給女廠長開車,車壞在荒郊,她看著窗外說:今晚回不去了

92年給女廠長開車,車壞在荒郊,她看著窗外說:今晚回不去了

曉艾故事匯
2025-08-22 17:28:19
“繁文縟節(jié)”竟然不讀fán wén rǔ jié,正確讀音是什么?

“繁文縟節(jié)”竟然不讀fán wén rǔ jié,正確讀音是什么?

AI讀書
2026-03-05 14:07:21
世界最貴戰(zhàn)斗機居然來自中國,造價比殲20貴多了,一架就得12個億

世界最貴戰(zhàn)斗機居然來自中國,造價比殲20貴多了,一架就得12個億

沒有偏旁的常慶
2026-03-07 08:35:09
23支液體、15個小時的連續(xù)輸注,娃的情緒已經(jīng)接近暴躁

23支液體、15個小時的連續(xù)輸注,娃的情緒已經(jīng)接近暴躁

果殼
2026-03-08 20:08:15
翁帆近況:以訪問學(xué)者身份去英國,專注學(xué)術(shù)研究,50歲內(nèi)心很寧靜

翁帆近況:以訪問學(xué)者身份去英國,專注學(xué)術(shù)研究,50歲內(nèi)心很寧靜

查爾菲的筆記
2026-03-07 13:38:17
油價或迎年內(nèi)最大漲幅,實現(xiàn)四連漲,今晚24時調(diào)整!

油價或迎年內(nèi)最大漲幅,實現(xiàn)四連漲,今晚24時調(diào)整!

趣味萌寵的日常
2026-03-09 09:23:46
2026-03-09 10:40:49
光子星球 incentive-icons
光子星球
細微之處,看見未來!
1425文章數(shù) 2140關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說沒想到“龍蝦”這么火

頭條要聞

起底伊朗新任最高領(lǐng)袖:曾說服其父哈梅內(nèi)伊支持內(nèi)賈德

頭條要聞

起底伊朗新任最高領(lǐng)袖:曾說服其父哈梅內(nèi)伊支持內(nèi)賈德

體育要聞

終結(jié)大魔王36連勝 王祉怡回應(yīng)15個月首勝安洗瑩

娛樂要聞

姆巴佩戀情確認!與26歲新歡共度良宵

財經(jīng)要聞

見證歷史!油價暴漲

汽車要聞

搭載1.5T發(fā)動機 奇瑞瑞虎5運動版官圖發(fā)布

態(tài)度原創(chuàng)

房產(chǎn)
親子
旅游
藝術(shù)
公開課

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

親子要聞

孩子到底是矮小還是長得慢困惑死了

旅游要聞

安徽合肥:玉蘭花開春意濃

藝術(shù)要聞

吳冠中畫長江,氣勢磅礴

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版