国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AAAI 2026 | 面向數(shù)據(jù)分析智能體的能力解構(gòu)與思維鏈合成探究

0
分享至

當(dāng)今大語言模型(LLM)在眾多領(lǐng)域展現(xiàn)出強大的能力,但在數(shù)據(jù)分析這一需要嚴(yán)謹(jǐn)邏輯和多步推理的任務(wù)上,開源模型與頂尖閉源模型之間仍存在顯著的性能差距。這一現(xiàn)象引出一個核心問題:究竟是什么因素限制了開源模型的數(shù)據(jù)分析能力?是數(shù)據(jù)理解的深度、代碼生成的質(zhì)量,還是更深層次的推理機制?

為了探索這些問題,本文從一個“能力解構(gòu)”的視角切入,通過系統(tǒng)性的實證研究,追蹤并剖析了模型在數(shù)據(jù)分析任務(wù)中的行為模式。研究不僅探索了開源LLM面臨的核心瓶頸,更基于此提出了一套高效的數(shù)據(jù)合成方法,提升了模型的分析推理能力。


論文題目: Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study 論文鏈接: https://arxiv.org/abs/2506.19794 代碼鏈接: https://github.com/zjunlp/DataMind
一、分析與發(fā)現(xiàn) 1.1 核心分析框架

傳統(tǒng)的分析思路往往將數(shù)據(jù)分析失敗歸因于模型單一的能力缺陷,而本文則從一個更系統(tǒng)、更綜合的“能力感知”(Capability-Aware)視角展開研究。

首先,本研究將復(fù)雜的數(shù)據(jù)分析任務(wù)清晰地解構(gòu)為三個環(huán)環(huán)相扣的核心能力:

  • 數(shù)據(jù)理解 (Data Comprehension):模型從原始數(shù)據(jù)(如CSV文件)中提取和理解信息的能力。

  • 代碼生成 (Code Generation):模型將分析思路轉(zhuǎn)化為可執(zhí)行Python代碼的能力。

  • 策略規(guī)劃 (Strategic Planning):模型為解決一個復(fù)雜分析問題,制定、執(zhí)行并調(diào)整多步計劃的能力。

基于該框架,本文設(shè)計了一系列控制變量實驗。為確保評估的客觀性,本文首先收集并構(gòu)建了一個不與評測集重疊的高質(zhì)量數(shù)據(jù)集,其場景源自DAEval、DSBench等多個基準(zhǔn)。隨后,通過對Qwen、GPT-4o、DeepSeek等一系列模型的行為進(jìn)行細(xì)致評估,本研究得以精準(zhǔn)分析不同因素對模型最終表現(xiàn)的影響。

本文的分析由表及里,從三個層面展開:

  • 單點能力評估:數(shù)據(jù)理解和代碼生成能力是否是性能的決定性因素?

  • 交互模式影響:多輪交互的長度、推理內(nèi)容的詳略如何影響模型的規(guī)劃能力?

  • 數(shù)據(jù)特性權(quán)衡:訓(xùn)練數(shù)據(jù)的難度和領(lǐng)域多樣性,哪一個對模型泛化更重要?

1.2 三大核心發(fā)現(xiàn)

通過對模型行為的深入剖析,本文揭示了三個關(guān)于如何高效提升LLM數(shù)據(jù)分析能力的關(guān)鍵發(fā)現(xiàn)。

發(fā)現(xiàn)一:首要瓶頸在于策略規(guī)劃,而非執(zhí)行能力



本文的首要核心發(fā)現(xiàn)是,限制開源大模型在數(shù)據(jù)分析任務(wù)中表現(xiàn)的主要瓶頸在于策略規(guī)劃能力,而非是數(shù)據(jù)理解或代碼生成等執(zhí)行能力。在數(shù)據(jù)理解層面,本研究的實驗表明,無論是為模型提供詳盡的表格上下文信息,還是引入無關(guān)數(shù)據(jù)文件作為干擾,模型的最終性能均未出現(xiàn)顯著波動,這表明模型已具備穩(wěn)健的基礎(chǔ)數(shù)據(jù)理解能力。同時,對錯誤案例的分析(如圖2所示)發(fā)現(xiàn),絕大多數(shù)失敗并非源于代碼執(zhí)行缺陷(如語法或語義錯誤),而是歸因于更高維度的規(guī)劃失誤,例如制定了錯誤的分析假設(shè)或過早地結(jié)束了探索流程。

發(fā)現(xiàn)二:交互模式存在最優(yōu)區(qū)間



在交互模式層面,本研究發(fā)現(xiàn)其有效性存在一個最優(yōu)區(qū)間(Optimal Range)。

  • 交互輪次:訓(xùn)練數(shù)據(jù)并非越長或越短越好,4-5輪的中等長度交互在大多數(shù)情況下能引導(dǎo)模型學(xué)習(xí)到最穩(wěn)定、高效的推理模式。

  • 推理質(zhì)量:直接使用冗長、完整的“思維鏈”進(jìn)行訓(xùn)練,反而會因信息過載導(dǎo)致性能下降。相反,將思維鏈總結(jié)為精煉的核心邏輯(Summarized Reasoning)后,模型表現(xiàn)最佳。這說明,推理的質(zhì)量和信息密度比形式上的長度更為重要。

發(fā)現(xiàn)三:數(shù)據(jù)質(zhì)量的決定性作用遠(yuǎn)超多樣性




在數(shù)據(jù)選擇層面,本研究發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)的質(zhì)量遠(yuǎn)比其多樣性更為關(guān)鍵。實驗結(jié)果(如表7)清晰地表明,簡單地通過平衡采樣來增加訓(xùn)練數(shù)據(jù)覆蓋的問題領(lǐng)域多樣性,并不能帶來顯著的性能提升。相反,對數(shù)據(jù)質(zhì)量的精細(xì)把控——例如提升任務(wù)的難度——則能有效促進(jìn)模型能力的增長(如表6)。更有趣的是,如圖5所示,隨著訓(xùn)練數(shù)據(jù)難度的增加,模型傾向于在更少的交互輪次內(nèi)給出更精煉的答案,這表明高質(zhì)量的難題能促使模型內(nèi)化推理過程,提升其分析效率。這些發(fā)現(xiàn)共同證明,與其盲目追求數(shù)據(jù)的廣度,不如通過精心篩選,確保訓(xùn)練數(shù)據(jù)具備合適的難度、高質(zhì)量的推理過程和優(yōu)化的交互結(jié)構(gòu)。即使數(shù)據(jù)總量不大,這種“質(zhì)量優(yōu)先”的策略也能實現(xiàn)更好的微調(diào)效果。

策略引導(dǎo)的數(shù)據(jù)合成

基于上述核心發(fā)現(xiàn),本文將其轉(zhuǎn)化為一套行之有效的策略引導(dǎo)的數(shù)據(jù)合成(Strategy-Guided Data Synthesis)方法,并驗證了其效果。



第一步:答案生成 (Prompt-Based Answer Generation)

首先,通過生成式方法為每個問題創(chuàng)造一個包含多種可能解法的初始候選池。

第二步:目標(biāo)實例選擇 (Targeted Instance Selection)

接著,本文將研究的核心發(fā)現(xiàn)作為篩選準(zhǔn)則,進(jìn)行目標(biāo)實例選擇。這一步通過多維度的過濾,只保留那些具有中等交互長度和中高任務(wù)難度的正確軌跡,從而將訓(xùn)練資源精確地聚焦于最高效的學(xué)習(xí)區(qū)間。

第三步:推理驅(qū)動的數(shù)據(jù)富化 (Reasoning-Driven Data Enrichment)

最后,通過推理驅(qū)動的數(shù)據(jù)富化,本文將冗長的思考過程提煉為精煉的推理摘要,旨在讓模型直接學(xué)習(xí)解決問題的核心策略與抽象邏輯。通過這套從6.4k個初始正確軌跡中進(jìn)行層層篩選的嚴(yán)格流程,本文最終精煉出一個僅包含2.8k個高質(zhì)量實例的最終數(shù)據(jù)集。微調(diào)后的7B模型在各項基準(zhǔn)上性能大幅超越其基線版本。而14B模型的表現(xiàn)也達(dá)到了與GPT-4o相當(dāng)甚至更好的水平。

二、總結(jié)

本文通過對大語言模型在數(shù)據(jù)分析任務(wù)中的能力進(jìn)行系統(tǒng)性解構(gòu)和實證分析,由表及里地揭示了其性能瓶頸和優(yōu)化路徑。本研究的核心結(jié)論是:策略規(guī)劃能力是限制模型表現(xiàn)的核心短板,而高質(zhì)量、結(jié)構(gòu)化的訓(xùn)練數(shù)據(jù)是解鎖其分析潛能的關(guān)鍵。

本研究表明,深入剖析大語言模型在特定任務(wù)上的能力構(gòu)成,是實現(xiàn)從粗放式訓(xùn)練到精準(zhǔn)能力塑造轉(zhuǎn)變的關(guān)鍵。這項工作所揭示的規(guī)律和提出的方法,為構(gòu)建更可靠、更高效的開源數(shù)據(jù)分析智能體提供了參考方向。本工作的延續(xù)之作“Scaling Generalist Data-Analytic Agents”進(jìn)一步擴大合成數(shù)據(jù)規(guī)模并采用強化學(xué)習(xí)來提升了性能。

作者:朱雨琦 來源:公眾號【知識引擎實驗室-ZJU】

llustration From IconScout By IconScout Store

-The End-

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
血殺:七百年的宗室滅絕史

血殺:七百年的宗室滅絕史

無心鏡
2026-03-12 08:08:42
3-4爆大冷!陳熠輸球原因曝光,王勵勤看錯人了,國乒女單恐丟冠

3-4爆大冷!陳熠輸球原因曝光,王勵勤看錯人了,國乒女單恐丟冠

體育就你秀
2026-03-14 20:11:04
被揍醒了!以軍炸掉伊朗遙控衛(wèi)星指揮所:切斷俄羅斯坐標(biāo)輸入通道

被揍醒了!以軍炸掉伊朗遙控衛(wèi)星指揮所:切斷俄羅斯坐標(biāo)輸入通道

暗香暗香
2026-03-12 05:09:02
金價暴跌!今日金價(2026年3月14日)今日黃金價格多少錢一克最新查詢

金價暴跌!今日金價(2026年3月14日)今日黃金價格多少錢一克最新查詢

次元君情感
2026-03-14 10:40:19
撕破臉了!特朗普大罵以總統(tǒng)“可恥”,以色列強硬回?fù)簦航^不妥協(xié)

撕破臉了!特朗普大罵以總統(tǒng)“可恥”,以色列強硬回?fù)簦航^不妥協(xié)

諦聽骨語本尊
2026-03-14 20:05:41
臺退將提出要求:臺灣可以和平回歸,但大陸必須要答應(yīng)2個條件!

臺退將提出要求:臺灣可以和平回歸,但大陸必須要答應(yīng)2個條件!

百態(tài)中的情感起伏
2026-02-16 01:27:29
上海12345泄密事件:官方調(diào)查確認(rèn)源頭,公眾追問真相

上海12345泄密事件:官方調(diào)查確認(rèn)源頭,公眾追問真相

燕梳樓頻道
2026-03-13 21:38:24
日軍海裝陸用的九六式炮,是當(dāng)年無力反制的戰(zhàn)場夢魘

日軍海裝陸用的九六式炮,是當(dāng)年無力反制的戰(zhàn)場夢魘

小嵩
2026-03-02 19:09:42
伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

南權(quán)先生
2026-01-29 15:57:27
狂輸39分!被高估的聯(lián)盟第一人,只會抱怨,你們不配拿總冠軍

狂輸39分!被高估的聯(lián)盟第一人,只會抱怨,你們不配拿總冠軍

籃球掃地僧
2026-03-09 17:48:48
兩學(xué)者親赴現(xiàn)場調(diào)閱諾獎檔案,揭秘吳健雄不曾獲獎的遺憾

兩學(xué)者親赴現(xiàn)場調(diào)閱諾獎檔案,揭秘吳健雄不曾獲獎的遺憾

果殼
2026-03-13 21:02:11
邁阿密開賽在即:中國5人入圍正賽,鄭欽文能否捍衛(wèi)8強分?jǐn)?shù)?

邁阿密開賽在即:中國5人入圍正賽,鄭欽文能否捍衛(wèi)8強分?jǐn)?shù)?

全網(wǎng)球APP
2026-03-14 18:09:49
國民黨副主席公開支持“臺獨分子”

國民黨副主席公開支持“臺獨分子”

南權(quán)先生
2026-03-14 15:20:44
去了上海才發(fā)現(xiàn):沒人穿北面、耐克!滿大街都是“新中產(chǎn)3件套”

去了上海才發(fā)現(xiàn):沒人穿北面、耐克!滿大街都是“新中產(chǎn)3件套”

每一次點擊
2026-03-14 10:42:05
沖上熱搜!凍干草莓被曝一類致癌物嚴(yán)重超標(biāo),測出20多種農(nóng)藥,云南成立調(diào)查組

沖上熱搜!凍干草莓被曝一類致癌物嚴(yán)重超標(biāo),測出20多種農(nóng)藥,云南成立調(diào)查組

21世紀(jì)經(jīng)濟報道
2026-03-14 10:22:41
玄學(xué)提醒:如果一個人還在穿著10年前的衣服,只說明3個問題

玄學(xué)提醒:如果一個人還在穿著10年前的衣服,只說明3個問題

洞讀君
2026-03-04 14:30:12
四川宜賓一佳人,好漂亮,仙姿玉色,貌美如花,絕世佳人不過如此

四川宜賓一佳人,好漂亮,仙姿玉色,貌美如花,絕世佳人不過如此

小椰的奶奶
2026-03-10 21:01:12
突發(fā)!美國,大舉增兵中東!原油大漲,歐美股市全線跳水

突發(fā)!美國,大舉增兵中東!原油大漲,歐美股市全線跳水

證券時報
2026-03-14 07:52:31
美國夢塌房?大批華裔二代反水,痛罵父母移民美國錯過中國崛起紅利

美國夢塌房?大批華裔二代反水,痛罵父母移民美國錯過中國崛起紅利

鯨探所長
2026-03-13 12:28:30
伊朗外長:若伊朗能源設(shè)施遭襲將打擊地區(qū)內(nèi)美企

伊朗外長:若伊朗能源設(shè)施遭襲將打擊地區(qū)內(nèi)美企

財聯(lián)社
2026-03-15 00:25:04
2026-03-15 00:43:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

數(shù)碼
手機
藝術(shù)
家居
房產(chǎn)

數(shù)碼要聞

AWE洗衣機觀察:卷烘干、卷AI,「無感」洗衣才是未來?

手機要聞

折痕沒了!OPPO Find N6登陸線下門店 網(wǎng)友:這才叫無印良品

藝術(shù)要聞

迪拜的房地產(chǎn)市場面臨嚴(yán)峻考驗

家居要聞

藝術(shù)之家 法式優(yōu)雅

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

無障礙瀏覽 進(jìn)入關(guān)懷版