国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

范式顛覆!LIMI憑78樣本完勝GPT-5,重塑AI能動(dòng)性

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長(zhǎng)。

從ChatGPT到Claude,從Codex到Claude Code,全球科技公司正在"能動(dòng)性"領(lǐng)域展開激烈競(jìng)爭(zhēng)。這一趨勢(shì)反映了產(chǎn)業(yè)界的關(guān)鍵認(rèn)知:能動(dòng)性能力正成為AI系統(tǒng)的核心競(jìng)爭(zhēng)力,決定著AI能否從簡(jiǎn)單的對(duì)話工具演進(jìn)為真正的工作伙伴。具備能動(dòng)性的AI系統(tǒng)將重新定義人機(jī)協(xié)作模式,成為推動(dòng)各行各業(yè)智能化轉(zhuǎn)型的關(guān)鍵技術(shù)。

什么是"能動(dòng)性"?它是AI系統(tǒng)主動(dòng)發(fā)現(xiàn)問題、制定假設(shè),并通過與環(huán)境和工具的自主交互執(zhí)行解決方案的能力。這種能力的重要性在于,它使AI從被動(dòng)響應(yīng)工具轉(zhuǎn)變?yōu)橹鲃?dòng)執(zhí)行的智能助手,能夠獨(dú)立完成復(fù)雜的知識(shí)工作任務(wù)。例如,讓模型從零開始開發(fā)一個(gè)完整的五子棋游戲需要模型具備需求理解、架構(gòu)設(shè)計(jì)、代碼實(shí)現(xiàn)、調(diào)試優(yōu)化等完整的自主執(zhí)行能力。這種協(xié)作編程場(chǎng)景代表了現(xiàn)代知識(shí)工作的典型需求,而具備這種能力的AI系統(tǒng)將能夠承擔(dān)大量現(xiàn)實(shí)世界的復(fù)雜任務(wù)

同樣,在科研工作流程中,模型需要完成從文獻(xiàn)調(diào)研到實(shí)驗(yàn)設(shè)計(jì),從數(shù)據(jù)分析到洞察生成的完整鏈路。能動(dòng)性使AI能夠獨(dú)立推進(jìn)科學(xué)研究進(jìn)程,這對(duì)于加速科學(xué)發(fā)現(xiàn)具有重大意義。

能動(dòng)性能力的培養(yǎng)難度遠(yuǎn)超傳統(tǒng)AI能力,因?yàn)樗竽P途邆溟L(zhǎng)期規(guī)劃、多步推理、工具協(xié)調(diào)和自主糾錯(cuò)等高階認(rèn)知能力。當(dāng)前主流方法普遍認(rèn)為復(fù)雜的能動(dòng)性能力需要大量訓(xùn)練數(shù)據(jù)支撐,遵循傳統(tǒng)的規(guī)模化定律。這導(dǎo)致了資源密集型的訓(xùn)練流程:收集數(shù)萬甚至數(shù)十萬個(gè)訓(xùn)練樣本,消耗大量計(jì)算資源,但效果往往不盡如人意。

LIMI的研究結(jié)果表明,僅使用78個(gè)復(fù)雜多輪交互軌跡樣本,模型就能在能動(dòng)性基準(zhǔn)測(cè)試AgencyBench上達(dá)到開源模型的最佳表現(xiàn),還超越了GPT-5的性能。相比使用10,000個(gè)樣本訓(xùn)練的模型,LIMI實(shí)現(xiàn)了53.7%的性能提升,數(shù)據(jù)使用量卻僅為其1/128。LIMI已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗(yàn)。


模型地址

https://wisemodel.cn/models/GAIR/LIMI-106B

https://wisemodel.cn/models/GAIR/LIMI-355B

https://arxiv.org/abs/2509.17567

https://github.com/GAIR-NLP/LIMI

如圖展示了一個(gè)模型從頭開發(fā)的完整可運(yùn)行的五子棋游戲,這種端到端的自主執(zhí)行能力正是未來AI系統(tǒng)的核心價(jià)值所在,證明了其在實(shí)際工作場(chǎng)景中的巨大應(yīng)用潛力。

LIMI的發(fā)現(xiàn)挑戰(zhàn)了"數(shù)據(jù)規(guī)模決定能力上限"的傳統(tǒng)認(rèn)知,提出了能動(dòng)性效率原則:模型能動(dòng)性的發(fā)展更依賴于對(duì)能動(dòng)性本質(zhì)的理解和高質(zhì)量數(shù)據(jù)的精準(zhǔn)構(gòu)造,而非簡(jiǎn)單的數(shù)據(jù)堆疊。這一發(fā)現(xiàn)為大規(guī)模部署具備真正工作能力的AI系統(tǒng)開辟了可行路徑,表明理解能動(dòng)性的核心機(jī)制比簡(jiǎn)單擴(kuò)大數(shù)據(jù)規(guī)模更為重要。

01.

從被動(dòng)響應(yīng)到主動(dòng)工作

能動(dòng)性大語言模型(Agentic LLMs)的出現(xiàn),那些能夠推理、行動(dòng)并自主交互的系統(tǒng),代表著從被動(dòng)AI助手向具備主動(dòng)能力模型的范式轉(zhuǎn)變。研究團(tuán)隊(duì)將能動(dòng)性定義為AI系統(tǒng)作為自主代理運(yùn)作的新興能力:主動(dòng)發(fā)現(xiàn)問題、制定假設(shè),并通過與環(huán)境和工具的自主交互執(zhí)行解決方案。

這一根本能力標(biāo)志著"AI 能動(dòng)性時(shí)代"的到來,其驅(qū)動(dòng)力來自一個(gè)關(guān)鍵的行業(yè)轉(zhuǎn)變:迫切需要不僅會(huì)思考,更會(huì)工作的AI模型。雖然當(dāng)前AI在推理和生成響應(yīng)方面表現(xiàn)出色,但產(chǎn)業(yè)界需要能夠執(zhí)行任務(wù)、操作工具并推動(dòng)現(xiàn)實(shí)世界成果的能動(dòng)性模型。

然而,能動(dòng)性模型的訓(xùn)練面臨著關(guān)鍵挑戰(zhàn)。當(dāng)前方法普遍假設(shè)更多數(shù)據(jù)能讓模型產(chǎn)生更強(qiáng)的能動(dòng)性能力,遵循語言建模的傳統(tǒng)擴(kuò)展定律(scaling laws)。這種范式導(dǎo)致了日益復(fù)雜的訓(xùn)練流程和大量資源需求,但一個(gè)根本假設(shè)仍未得到檢驗(yàn):模型的能動(dòng)性能力是否一定需要大量訓(xùn)練數(shù)據(jù),還是可以通過精心構(gòu)造高質(zhì)量樣本更高效地涌現(xiàn)?

相鄰領(lǐng)域的新興證據(jù)暗示了一個(gè)令人信服的替代范式。LIMA僅用1,000個(gè)精心策劃的樣本就實(shí)現(xiàn)了有效的模型對(duì)齊,而LIMO證明復(fù)雜數(shù)學(xué)推理能力能夠從僅817個(gè)戰(zhàn)略性選擇的訓(xùn)練樣本中涌現(xiàn)。這些發(fā)現(xiàn)表明,精心構(gòu)造高質(zhì)量數(shù)據(jù)可能在培養(yǎng)復(fù)雜AI能力方面比數(shù)據(jù)集規(guī)模根本上更強(qiáng)大。

研究團(tuán)隊(duì)的LIMI給出了答案:模型的能動(dòng)性能力可以通過與傳統(tǒng)擴(kuò)展方法不同的發(fā)展原則進(jìn)行提升。通過戰(zhàn)略性聚焦協(xié)作軟件開發(fā)和科學(xué)研究工作流程,這些領(lǐng)域涵蓋了大多數(shù)知識(shí)工作場(chǎng)景,研究表明復(fù)雜的能動(dòng)性能力可以從少量但精心構(gòu)造的高質(zhì)量數(shù)據(jù)中涌現(xiàn)。

如圖2所示,LIMI僅用78個(gè)訓(xùn)練樣本就讓模型在AgencyBench 上達(dá)到73.5%的性能,不僅超越了所有基線模型,而且相比使用10,000個(gè)樣本訓(xùn)練的模型實(shí)現(xiàn)了53.7%的性能提升,用128倍更少的數(shù)據(jù)讓模型獲得了卓越的能動(dòng)性能力,徹底顛覆了"更多數(shù)據(jù)=更強(qiáng)能動(dòng)性"的傳統(tǒng)認(rèn)知。


圖 2:LIMI 在 AgencyBench 超越 GPT-5 和眾多開源模型

02.

協(xié)作編程與科學(xué)研究工作流

為了驗(yàn)證LIMI提出的戰(zhàn)略性數(shù)據(jù)構(gòu)造方法,該研究聚焦于兩個(gè)需要完整能動(dòng)性能力譜系并涵蓋大多數(shù)知識(shí)工作場(chǎng)景的基本領(lǐng)域。

協(xié)作編程代表LLMs與人類開發(fā)者在上下文豐富環(huán)境中協(xié)作的軟件開發(fā)模式。這個(gè)領(lǐng)域需要:跨現(xiàn)有代碼庫的代碼理解和生成,通過復(fù)雜工具生態(tài)系統(tǒng)的開發(fā)環(huán)境導(dǎo)航,通過調(diào)試和優(yōu)化循環(huán)的迭代問題解決,以及技術(shù)協(xié)調(diào)的協(xié)作溝通。復(fù)雜性在于對(duì)開發(fā)上下文的整體理解和在不斷變化需求下的原則性決策制定。

科學(xué)研究工作流程涵蓋復(fù)雜科學(xué)研究過程,包括文獻(xiàn)搜索、數(shù)據(jù)分析、實(shí)驗(yàn)設(shè)計(jì)和洞察生成。這些工作流程需要:對(duì)多樣化信息來源進(jìn)行綜合,采用適當(dāng)方法論的實(shí)驗(yàn)設(shè)計(jì),復(fù)雜結(jié)果的數(shù)據(jù)分析和解釋,以及跨不同利益相關(guān)者格式的知識(shí)溝通。

這些任務(wù)展現(xiàn)出顯著的時(shí)間復(fù)雜性,表現(xiàn)為需要連貫狀態(tài)跟蹤和累積推理的多輪交互。它們需要戰(zhàn)略規(guī)劃能力,將復(fù)雜目標(biāo)分解為可管理的子目標(biāo),同時(shí)基于環(huán)境反饋適應(yīng)性調(diào)整策略。工具編排能力變得至關(guān)重要,因?yàn)楝F(xiàn)實(shí)世界的能動(dòng)性任務(wù)需要模型協(xié)調(diào)調(diào)用多個(gè)不同工具來完成復(fù)雜任務(wù)。

如圖3所示的用戶查詢示例展現(xiàn)了單個(gè)查詢的巨大復(fù)雜性——從基礎(chǔ)到專家級(jí)遞進(jìn)的五子棋開發(fā)任務(wù)涵蓋Web前端開發(fā)、數(shù)據(jù)過濾、狀態(tài)管理、規(guī)則啟發(fā)式AI和高級(jí)搜索算法等多個(gè)相互關(guān)聯(lián)的子任務(wù)。這種復(fù)雜性覆蓋了規(guī)劃、執(zhí)行和協(xié)作等維度,展現(xiàn)了高質(zhì)量演示中學(xué)習(xí)信號(hào)的密集性。


圖3:用戶查詢示例,展示了單個(gè)查詢?nèi)绾卧谝?guī)劃、執(zhí)行和協(xié)作維度上包含多個(gè)相互關(guān)聯(lián)的子任務(wù),證明了高質(zhì)量數(shù)據(jù)中學(xué)習(xí)信號(hào)的密集性。

03.

精準(zhǔn)數(shù)據(jù)構(gòu)建的系統(tǒng)化方法

LIMI方法的有效性根本依賴于戰(zhàn)略性數(shù)據(jù)構(gòu)造,通過真實(shí)世界協(xié)作任務(wù)捕捉本質(zhì)的能動(dòng)性行為。該研究團(tuán)隊(duì)圍繞能動(dòng)性交互的基本要素形式化數(shù)據(jù)構(gòu)建過程,將每個(gè)完整交互定義為元組<用戶查詢,能動(dòng)性軌跡>,其中用戶查詢啟動(dòng)協(xié)作工作流程,軌跡捕獲完整交互序列。

如圖4所示,LIMI的訓(xùn)練數(shù)據(jù)展現(xiàn)了顯著的高質(zhì)量特征:軌跡長(zhǎng)度分布廣泛,平均達(dá)到42.4k tokens,最長(zhǎng)可達(dá)152k tokens,遠(yuǎn)超傳統(tǒng)訓(xùn)練樣本的長(zhǎng)度。右側(cè)的領(lǐng)域覆蓋圖顯示了數(shù)據(jù)在協(xié)作編程和科學(xué)研究工作流程兩個(gè)核心領(lǐng)域的廣泛分布,涵蓋了從前端開發(fā)、調(diào)試、工具調(diào)用到論文搜索、深度學(xué)習(xí)、實(shí)驗(yàn)工作流程等多個(gè)細(xì)分方向。


圖4:LIMI訓(xùn)練數(shù)據(jù)的特征。左圖:軌跡長(zhǎng)度分布顯示交互復(fù)雜性(平均42.4k tokens)。右圖:涵蓋vibe編程和研究工作流的全面覆蓋。


1、用戶查詢池構(gòu)建:真實(shí)性與系統(tǒng)性的結(jié)合

查詢收集策略系統(tǒng)性地結(jié)合真實(shí)世界場(chǎng)景與戰(zhàn)略性覆蓋擴(kuò)展,確保生態(tài)有效性和充足的訓(xùn)練多樣性。

真實(shí)世界用戶查詢收集LIMI從專業(yè)開發(fā)者和研究者在協(xié)作環(huán)境中遇到的實(shí)際場(chǎng)景收集60個(gè)查詢。這些查詢代表跨兩個(gè)核心領(lǐng)域的真實(shí)挑戰(zhàn),具有自然復(fù)雜性和上下文豐富性。值得注意的是,大量研究查詢來自真實(shí)學(xué)術(shù)論文,確保收集的用戶查詢具有可信的代表性。

基于GitHub PR的查詢合成為了在保持真實(shí)性的同時(shí)系統(tǒng)性擴(kuò)展查詢池,團(tuán)隊(duì)開發(fā)了使用GPT-5從GitHub Pull Requests合成額外查詢的流水線。這種方法利用真實(shí)代碼更改的豐富上下文,采用GPT-5的先進(jìn)推理能力生成反映真實(shí)開發(fā)需求的協(xié)作場(chǎng)景。

系統(tǒng)性策劃過程涉及多個(gè)質(zhì)量保證階段:(1)選擇具有超過10,000 GitHub stars的高質(zhì)量代碼倉(cāng)庫,(2)確保軟件開發(fā)領(lǐng)域的綜合覆蓋,(3)基于復(fù)雜性和實(shí)質(zhì)性進(jìn)行過濾,(4)采用四名計(jì)算機(jī)科學(xué)博士生作為專家標(biāo)注員評(píng)估合成查詢的質(zhì)量,確保語義對(duì)齊和上下文準(zhǔn)確性。

通過這種系統(tǒng)化方法,團(tuán)隊(duì)最終構(gòu)建了包含78個(gè)高質(zhì)量用戶查詢的綜合池,每個(gè)查詢都代表來自協(xié)作編程或科學(xué)研究工作流程的真實(shí)協(xié)作場(chǎng)景。


2、軌跡收集:捕獲最優(yōu)能動(dòng)性行為

為了生成展示最優(yōu)能動(dòng)性行為的訓(xùn)練軌跡,研究需要能夠支持真實(shí)人機(jī)協(xié)作的復(fù)雜執(zhí)行環(huán)境。這個(gè)環(huán)境必須支持復(fù)雜工具交互、維護(hù)詳細(xì)交互日志,并提供現(xiàn)實(shí)能動(dòng)性智能評(píng)估所需的操作上下文。

團(tuán)隊(duì)選擇SII CLI作為執(zhí)行環(huán)境,基于其幾個(gè)關(guān)鍵優(yōu)勢(shì):(1)支持協(xié)作編程和研究工作流程的全面工具集成,(2)對(duì)高質(zhì)量訓(xùn)練數(shù)據(jù)收集至關(guān)重要的詳細(xì)軌跡日志能力,(3)啟用自然交互模式的靈活人機(jī)協(xié)作界面,(4)對(duì)需要協(xié)調(diào)工具使用的復(fù)雜多步任務(wù)的強(qiáng)大支持。

在SII CLI環(huán)境內(nèi),四名博士生標(biāo)注員作為人類協(xié)作者,與GPT-5作為能動(dòng)性模型協(xié)作,在真實(shí)協(xié)作場(chǎng)景中完成78個(gè)用戶查詢的軌跡收集。

對(duì)于每個(gè)查詢,采用迭代收集方法,持續(xù)收集軌跡直到任務(wù)成功完成。這種持續(xù)性方法確保收集的軌跡捕獲真實(shí)人機(jī)交互模式,包括自然的來回溝通、迭代細(xì)化過程和表征有效能動(dòng)性行為的協(xié)作問題解決策略。

正如圖3左側(cè)軌跡長(zhǎng)度分布所示,這種方法產(chǎn)生了內(nèi)容極其豐富、交互高度復(fù)雜的高質(zhì)量訓(xùn)練軌跡數(shù)據(jù),平均長(zhǎng)度達(dá)到42.4k tokens,遠(yuǎn)超常規(guī)訓(xùn)練數(shù)據(jù)的復(fù)雜度,為模型提供了密集的能動(dòng)性學(xué)習(xí)信號(hào)。

04.

突破性實(shí)驗(yàn)結(jié)果


1、實(shí)驗(yàn)設(shè)置與評(píng)估框架

為了驗(yàn)證LIMI假設(shè)并證明戰(zhàn)略性數(shù)據(jù)構(gòu)造方法的有效性,團(tuán)隊(duì)采用了全面的實(shí)驗(yàn)框架,跨多個(gè)評(píng)估維度將方法與強(qiáng)基線模型進(jìn)行比較。

基線模型評(píng)估團(tuán)隊(duì)評(píng)估了多樣化的最先進(jìn)基礎(chǔ)模型,確保全面比較:GLM-4.5、GLM-4.5-Air、Qwen3-235B-A22B-Instruct、DeepSeek-V3.1、Kimi-K2-Instruct。這個(gè)選擇涵蓋了具有不同架構(gòu)設(shè)計(jì)和訓(xùn)練方法的開源模型,支持對(duì)能動(dòng)性能力的嚴(yán)格評(píng)估。

模型訓(xùn)練與對(duì)比實(shí)驗(yàn)為了系統(tǒng)評(píng)估策劃訓(xùn)練數(shù)據(jù)的影響,團(tuán)隊(duì)使用收集的數(shù)據(jù)對(duì)GLM-4.5和GLM-4.5-Air進(jìn)行微調(diào)。所有微調(diào)實(shí)驗(yàn)使用slime框架進(jìn)行,確保一致的訓(xùn)練條件、超參數(shù)優(yōu)化和公平比較。

此外,為了評(píng)估數(shù)據(jù)策劃策略的質(zhì)量和有效性,團(tuán)隊(duì)通過在三個(gè)替代數(shù)據(jù)集上微調(diào)GLM-4.5進(jìn)行比較實(shí)驗(yàn):CC-Bench-trajectories、AFM-WebAgent-SFT-Dataset和AFM-CodeAgent-SFT-Dataset。這種實(shí)驗(yàn)設(shè)計(jì)支持戰(zhàn)略性策劃數(shù)據(jù)與現(xiàn)有大規(guī)模能動(dòng)性訓(xùn)練數(shù)據(jù)集的直接比較。

評(píng)估框架評(píng)估包含兩個(gè)互補(bǔ)策略,全面驗(yàn)證LIMI方法的有效性:(1)在AgencyBench上的主要評(píng)估,專門設(shè)計(jì)用于評(píng)估協(xié)作場(chǎng)景中的能動(dòng)性能力;(2)在涵蓋工具使用、編程和科學(xué)計(jì)算的多個(gè)基準(zhǔn)上的泛化能力評(píng)估,確保發(fā)現(xiàn)能夠泛化到核心領(lǐng)域之外。


2、AgencyBench上的卓越表現(xiàn)

如表 1 所示,在AgencyBench基準(zhǔn)測(cè)試中,LIMI取得了令人震撼的成績(jī):


表1: LIMI 系列模型在AgencyBench上的綜合比較。模型按評(píng)估目的分組:基線比較、泛化能力評(píng)估和數(shù)據(jù)效率驗(yàn)證。

LIMI達(dá)到了73.5%的平均得分,顯著超越了所有基線模型:GLM-4.5(45.1%)、Kimi-K2-Instruct(24.1%)、DeepSeek-V3.1(11.9%)和Qwen3-235B-A22B-Instruct(27.5%)。

性能差距在首輪功能完整性(FTFC)方面特別明顯,LIMI達(dá)到71.7%,相比GLM-4.5的最佳基線性能37.8%實(shí)現(xiàn)了顯著的33.9個(gè)百分點(diǎn)改進(jìn)。類似地,LIMI以74.6%的成功率展示了卓越的任務(wù)完成可靠性,大幅超越了最強(qiáng)基線模型GLM-4.5的47.4%。


3、數(shù)據(jù)效率的極致體現(xiàn)

最震撼的發(fā)現(xiàn)是數(shù)據(jù)效率對(duì)比結(jié)果,為核心LIMI假設(shè)提供了令人信服的實(shí)證證據(jù):戰(zhàn)略性數(shù)據(jù)策劃在開發(fā)能動(dòng)性智能方面根本上比簡(jiǎn)單擴(kuò)展訓(xùn)練數(shù)據(jù)量更有效。

LIMI使用僅78個(gè)精心策劃的訓(xùn)練樣本就達(dá)到了卓越性能,大幅超越了在數(shù)量級(jí)更大數(shù)據(jù)集上訓(xùn)練的模型。最引人注目的是與在AFM-CodeAgent-SFT-Dataset上訓(xùn)練的GLM-4.5-Code的比較:LIMI的73.5%平均AgencyBench性能戲劇性地超越了大規(guī)模方法實(shí)現(xiàn)的47.8%,盡管使用的數(shù)據(jù)集小128倍(78 vs. 10,000樣本)。

關(guān)鍵數(shù)據(jù)效率對(duì)比:

  • LIMI (78樣本) vs GLM-4.5-Code (10,000樣本):25.7個(gè)百分點(diǎn)優(yōu)勢(shì),數(shù)據(jù)量?jī)H1/128

  • LIMI vs GLM-4.5-Web (7,610樣本):23.5個(gè)百分點(diǎn)優(yōu)勢(shì),數(shù)據(jù)量?jī)H1/97

  • LIMI vs GLM-4.5-CC (260樣本):18.0個(gè)百分點(diǎn)優(yōu)勢(shì),數(shù)據(jù)量?jī)H30%

這些一致的改進(jìn)證明了戰(zhàn)略性數(shù)據(jù)策劃能夠比大規(guī)模數(shù)據(jù)收集實(shí)現(xiàn)更有效的能力遷移,確立了能動(dòng)性智能開發(fā)中"少即是多"范式的廣泛適用性。


4、跨領(lǐng)域泛化驗(yàn)證

如表2所示,LIMI的優(yōu)勢(shì)擴(kuò)展到涵蓋工具使用、編程和科學(xué)計(jì)算的多樣化基準(zhǔn)測(cè)試中,證明方法的廣泛適用性。LIMI達(dá)到57.2%的平均性能,超越所有基線模型,包括GLM-4.5(43.0%)、Kimi-K2-Instruct(37.3%)、DeepSeek-V3.1(29.7%)和Qwen3-235B-A22B-Instruct(36.7%)。

值得注意的是,LIMI在關(guān)鍵編程基準(zhǔn)上達(dá)到了最高性能(EvalPlus-HumanEval:92.1%,EvalPlus-MBPP:82.3%),并在工具使用任務(wù)上展示了競(jìng)爭(zhēng)性結(jié)果(TAU2-bench-airline:34.0%,TAU2-bench-retail:45.6%)。


表2:泛化基準(zhǔn)測(cè)試的綜合性能比較。HE代表EvalPlus-HumanEval,MP和SP分別代表SciCode的主要問題和子問題指標(biāo)。平均值包含了 AgencyBench 的表現(xiàn)。

不僅如此,LIMI方法出色的泛化能力還體現(xiàn)在跨規(guī)模泛化和跨架構(gòu)泛化兩個(gè)關(guān)鍵維度。在跨規(guī)模方面,Qwen3系列展現(xiàn)了顯著的改進(jìn)效果,從小型模型Qwen3-4B性能翻倍(從4.6%提升到8.6%,增幅達(dá)87%)、Qwen3-8B提升45.2%,到Qwen3-32B實(shí)現(xiàn)144%的大幅提升,GLM-4.5也達(dá)到63%的改進(jìn),證明該方法在整個(gè)模型規(guī)模譜系上都持續(xù)有效;在跨架構(gòu)方面,無論是密集型transformer架構(gòu)(Qwen3系列)還是專家混合架構(gòu)(GLM系列)都表現(xiàn)出顯著改進(jìn),證明該方法捕捉到的是與具體模型實(shí)現(xiàn)、參數(shù)分布或計(jì)算架構(gòu)無關(guān)的基本智能體行為模式,從而驗(yàn)證了戰(zhàn)略性數(shù)據(jù)策展在智能體開發(fā)中具有廣泛的適用性和有效性。


圖5:不同模型在LIMI微調(diào)前后的性能對(duì)比。經(jīng)LIMI訓(xùn)練的模型在AgencyBench(左圖)和其他基準(zhǔn)測(cè)試(右圖)上均展現(xiàn)出一致的性能提升

05.

能動(dòng)性效率原則

基于實(shí)驗(yàn)結(jié)果,研究建立了能動(dòng)性效率原則:模型能動(dòng)性的涌現(xiàn)并非來自簡(jiǎn)單數(shù)據(jù)的堆砌,而是來自高質(zhì)量能動(dòng)性數(shù)據(jù)的精心構(gòu)造。

這一發(fā)現(xiàn)根本重塑了開發(fā)能動(dòng)性大模型以及AI Agent的方式,表明掌握能動(dòng)性需要理解其本質(zhì),而不是簡(jiǎn)單的擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模。

LIMI促成了能動(dòng)性訓(xùn)練范式的根本性轉(zhuǎn)換:從"更多簡(jiǎn)單數(shù)據(jù)→更強(qiáng)能動(dòng)性"的舊范式,轉(zhuǎn)向"更高質(zhì)量的能動(dòng)性數(shù)據(jù)→更強(qiáng)能動(dòng)性"的新范式。LIMI認(rèn)為:能動(dòng)性本質(zhì)上是"潛伏"于預(yù)訓(xùn)練模型中的,關(guān)鍵挑戰(zhàn)不是訓(xùn)練新能力,而是找到激活路徑。

06.

產(chǎn)業(yè)影響與未來展望


1、對(duì)AI產(chǎn)業(yè)生態(tài)的重塑

LIMI的發(fā)現(xiàn)對(duì)整個(gè)AI產(chǎn)業(yè)生態(tài)具有深遠(yuǎn)影響:

研發(fā)效率革命:小團(tuán)隊(duì)?wèi){借精準(zhǔn)方法可以與大公司競(jìng)爭(zhēng),降低了能動(dòng)性技術(shù)的門檻,促進(jìn)更多創(chuàng)新性方法的涌現(xiàn)。

資源配置優(yōu)化:將投入重點(diǎn)從數(shù)據(jù)收集轉(zhuǎn)向高質(zhì)量樣本設(shè)計(jì)和生成,從"資源競(jìng)賽"轉(zhuǎn)向"數(shù)據(jù)構(gòu)造方法競(jìng)賽"。

應(yīng)用落地加速:為實(shí)際能動(dòng)性系統(tǒng)的開發(fā)提供了高效可行的路徑,在實(shí)際應(yīng)用中提供了具體的指導(dǎo)原則:專注核心場(chǎng)景、完整流程軌跡、質(zhì)量?jī)?yōu)先策略。


2、商業(yè)化前景與技術(shù)普惠

LIMI方法的商業(yè)化前景廣闊:降低開發(fā)成本,減少對(duì)大規(guī)模數(shù)據(jù)和計(jì)算資源的依賴;縮短開發(fā)周期,通過精準(zhǔn)方法快速獲得能動(dòng)性突破;提高應(yīng)用效果,在特定領(lǐng)域達(dá)到更好的性能表現(xiàn);普惠化應(yīng)用,讓更多中小企業(yè)能夠負(fù)擔(dān)得起能動(dòng)性技術(shù)。


3、未來發(fā)展方向

雖然LIMI目前主要驗(yàn)證了協(xié)作軟件開發(fā)和科學(xué)研究?jī)蓚€(gè)領(lǐng)域,但其原理有望擴(kuò)展到醫(yī)療診斷能動(dòng)性、教育輔導(dǎo)能動(dòng)性、商業(yè)分析能動(dòng)性等更廣闊的認(rèn)知領(lǐng)域。

未來的能動(dòng)性系統(tǒng)將發(fā)展為多模態(tài)能動(dòng)性,融合視覺、語言、行動(dòng)等多種模態(tài);自主學(xué)習(xí)能動(dòng)性,從被動(dòng)激活發(fā)展到主動(dòng)進(jìn)化;以及更完善的理論體系,建立能動(dòng)性激活的數(shù)學(xué)模型和評(píng)估框架。


4、開啟能動(dòng)性新時(shí)代

LIMI不僅是一項(xiàng)技術(shù)突破,更是AI發(fā)展理念的根本性轉(zhuǎn)變。它證明了在能動(dòng)性開發(fā)中,理解本質(zhì)比擴(kuò)大規(guī)模更重要,質(zhì)量比數(shù)量更關(guān)鍵。

78個(gè)精心設(shè)計(jì)的樣本擊敗萬級(jí)數(shù)據(jù)的事實(shí),確立了能動(dòng)性發(fā)展的全新原則:模型能動(dòng)性來自精心構(gòu)造,而非數(shù)據(jù)堆砌。當(dāng)模型從思考型AI轉(zhuǎn)向工作型AI時(shí),LIMI為真正能動(dòng)性的可持續(xù)培養(yǎng)提供了新范式,開啟了能動(dòng)性發(fā)展的新紀(jì)元,未來充滿無限可能。

編輯丨趙雅鑫

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
洞庭湖邊采藜蒿女子失聯(lián)4天后續(xù)!知情人曝細(xì)節(jié),丈夫痛哭發(fā)聲

洞庭湖邊采藜蒿女子失聯(lián)4天后續(xù)!知情人曝細(xì)節(jié),丈夫痛哭發(fā)聲

奇思妙想草葉君
2026-03-26 21:53:34
森林狼逆火箭:申京努力了,然而杜蘭特啊

森林狼逆火箭:申京努力了,然而杜蘭特啊

張佳瑋寫字的地方
2026-03-26 13:03:18
女同主播出軌大哥 被"正宮"直播對(duì)質(zhì)!真實(shí)長(zhǎng)相曝光

女同主播出軌大哥 被"正宮"直播對(duì)質(zhì)!真實(shí)長(zhǎng)相曝光

游民星空
2026-03-25 20:08:13
三分命中率64.1%,斷層全聯(lián)盟第一!郭士強(qiáng)該給他一個(gè)國(guó)家隊(duì)名額

三分命中率64.1%,斷層全聯(lián)盟第一!郭士強(qiáng)該給他一個(gè)國(guó)家隊(duì)名額

弄月公子
2026-03-26 11:03:13
美媒:特朗普?qǐng)F(tuán)隊(duì)已密謀與伊朗“和談” 細(xì)節(jié)曝光

美媒:特朗普?qǐng)F(tuán)隊(duì)已密謀與伊朗“和談” 細(xì)節(jié)曝光

新華社
2026-03-22 17:19:02
是否有中國(guó)船只順利通過霍爾木茲海峽?外交部回應(yīng)

是否有中國(guó)船只順利通過霍爾木茲海峽?外交部回應(yīng)

財(cái)聯(lián)社
2026-03-25 15:46:15
特朗普破防!伊朗和胡塞聯(lián)手“關(guān)門打狗”,美軍航母被逼入死局!

特朗普破防!伊朗和胡塞聯(lián)手“關(guān)門打狗”,美軍航母被逼入死局!

觸摸史跡
2026-03-27 00:48:15
曝張雪峰在蘇州舉辦葬禮,生前最后一次直播,趴桌子上身體已不適

曝張雪峰在蘇州舉辦葬禮,生前最后一次直播,趴桌子上身體已不適

180視角
2026-03-25 16:58:57
日本不再歡迎中國(guó)人?3月起日本簽證“一刀切”,華人進(jìn)退兩難!

日本不再歡迎中國(guó)人?3月起日本簽證“一刀切”,華人進(jìn)退兩難!

有范又有料
2026-03-25 14:08:39
曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習(xí)慣糟糕,一口氣吃8根雪糕

曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習(xí)慣糟糕,一口氣吃8根雪糕

古希臘掌管松餅的神
2026-03-25 11:08:46
“專利被宣告全部無效!宇樹科技IPO路上最大‘?dāng)r路虎’被徹底鏟除”

“專利被宣告全部無效!宇樹科技IPO路上最大‘?dāng)r路虎’被徹底鏟除”

新浪財(cái)經(jīng)
2026-03-26 22:53:31
這才叫殺瘋了!爛番茄100%動(dòng)作神片,這不直接碾壓《鏢人》?

這才叫殺瘋了!爛番茄100%動(dòng)作神片,這不直接碾壓《鏢人》?

動(dòng)物奇奇怪怪
2026-03-26 17:48:01
悲催!鶴壁58歲知名律師心臟驟停去世,網(wǎng)友:死亡真的會(huì)隨時(shí)降臨

悲催!鶴壁58歲知名律師心臟驟停去世,網(wǎng)友:死亡真的會(huì)隨時(shí)降臨

火山詩話
2026-03-26 16:09:00
12年沒踢世界杯了 意大利晉級(jí)2026世界杯需連贏2場(chǎng) 概率僅63%

12年沒踢世界杯了 意大利晉級(jí)2026世界杯需連贏2場(chǎng) 概率僅63%

智道足球
2026-03-26 18:08:45
俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

懂球帝
2026-03-26 16:30:07
現(xiàn)在不是美國(guó)敢不敢打中國(guó)的問題,是中國(guó)讓不讓美國(guó)打的問題了

現(xiàn)在不是美國(guó)敢不敢打中國(guó)的問題,是中國(guó)讓不讓美國(guó)打的問題了

科普100克克
2026-03-27 01:31:10
首秀庫拉索,國(guó)足主帥邵佳一:國(guó)家隊(duì)的比賽沒有友誼賽

首秀庫拉索,國(guó)足主帥邵佳一:國(guó)家隊(duì)的比賽沒有友誼賽

澎湃新聞
2026-03-26 15:58:27
香港千億豪門要改姓?第一個(gè)跌落神壇的“四大家族”,出現(xiàn)了!

香港千億豪門要改姓?第一個(gè)跌落神壇的“四大家族”,出現(xiàn)了!

BenSir本色說
2026-03-26 22:08:00
人民日?qǐng)?bào)、環(huán)球時(shí)報(bào)接連發(fā)出警示:日本的軍國(guó)主義獠牙已露出來了

人民日?qǐng)?bào)、環(huán)球時(shí)報(bào)接連發(fā)出警示:日本的軍國(guó)主義獠牙已露出來了

賤議你讀史
2026-03-24 00:30:08
梅西球星卡在上海以1520萬成交,創(chuàng)足球卡全球最高成交價(jià)紀(jì)錄

梅西球星卡在上海以1520萬成交,創(chuàng)足球卡全球最高成交價(jià)紀(jì)錄

懂球帝
2026-03-26 14:54:51
2026-03-27 03:35:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
時(shí)尚
家居
游戲
公開課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

家居要聞

傍海而居 靜觀蝴蝶海

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版