国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

斯坦福大學(xué)研發(fā)AI"診斷師"

0
分享至


這項(xiàng)由斯坦福大學(xué)主導(dǎo)的研究以預(yù)印本形式于2026年4月發(fā)表,論文編號(hào)為arXiv:2604.05336v1,有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整論文。研究提出了一個(gè)名為TRACE的系統(tǒng),全稱是"Turning Recurrent Agent failures into Capability-targeted training Environments",中文可以理解為"把反復(fù)出現(xiàn)的失敗轉(zhuǎn)化為針對(duì)性訓(xùn)練環(huán)境"。

當(dāng)你把一個(gè)事情交給AI助手去辦,它頻頻出錯(cuò),你會(huì)怎么做?大多數(shù)時(shí)候,我們要么換一個(gè)更聰明的AI,要么反復(fù)給它講解規(guī)則,希望它能領(lǐng)悟。但斯坦福大學(xué)的研究團(tuán)隊(duì)采用了一種截然不同的思路——先像醫(yī)生一樣給AI"做檢查",找出它到底哪里出了問(wèn)題,然后專門針對(duì)這些薄弱環(huán)節(jié)設(shè)計(jì)練習(xí)題,讓AI反復(fù)練習(xí)直到真正掌握這項(xiàng)技能。

這個(gè)思路聽起來(lái)簡(jiǎn)單,但實(shí)現(xiàn)起來(lái)遠(yuǎn)比表面復(fù)雜。這項(xiàng)研究的價(jià)值在于,它提供了一套完全自動(dòng)化的系統(tǒng),不需要人類專家坐在旁邊一條一條地分析AI的失敗原因,而是讓AI自己完成這個(gè)"自我診斷"和"自我補(bǔ)課"的過(guò)程。實(shí)驗(yàn)結(jié)果相當(dāng)顯著:在模擬客服場(chǎng)景的測(cè)試中,經(jīng)過(guò)TRACE訓(xùn)練的AI助手,整體通過(guò)率從32.9%躍升至47.0%,提升了14.1個(gè)百分點(diǎn);在工具使用測(cè)試中,完美完成任務(wù)的次數(shù)也增加了7個(gè)。這些數(shù)字背后,代表的是AI在真實(shí)工作場(chǎng)景中更可靠、更有用。

一、AI助手也會(huì)"選擇性失憶":?jiǎn)栴}的根源在哪里

考慮這樣一個(gè)場(chǎng)景:你雇了一位新員工來(lái)處理客戶投訴,他受過(guò)系統(tǒng)培訓(xùn),規(guī)章制度也背得滾瓜爛熟,但實(shí)際上手操作時(shí)卻頻頻出錯(cuò)。老板盯著他的工作記錄,看到的只有"這個(gè)訂單沒(méi)處理好"、"那個(gè)客戶投訴了",卻很難從這些結(jié)果中直接判斷出,究竟是因?yàn)樗粫?huì)查客戶資料,還是因?yàn)樗麤](méi)有核對(duì)退款政策,抑或是他接了第一個(gè)任務(wù)就忘了后面還有其他任務(wù)。

當(dāng)下大多數(shù)AI訓(xùn)練方法面對(duì)的正是這個(gè)困境。研究人員通常有兩種選擇:要么給AI看大量來(lái)自各種場(chǎng)景的訓(xùn)練數(shù)據(jù),希望它能從中"悟"出各種技能;要么直接在目標(biāo)場(chǎng)景里訓(xùn)練AI,讓它從最終的成功或失敗中學(xué)習(xí)。第一種方法好比給新員工發(fā)了一本厚厚的百科全書,希望他能從中找到所需知識(shí);第二種方法好比直接把他推上戰(zhàn)場(chǎng),靠成敗來(lái)積累經(jīng)驗(yàn)。兩種方式都有一個(gè)共同的缺陷:AI從訓(xùn)練信號(hào)中得到的反饋,是"這個(gè)任務(wù)整體成功了"或"失敗了",而不是"你在第三步查詢數(shù)據(jù)時(shí)出了問(wèn)題"。

這個(gè)關(guān)鍵缺陷導(dǎo)致訓(xùn)練變得低效。AI必須自己去猜測(cè)究竟是哪一個(gè)行為導(dǎo)致了最終的失敗,而當(dāng)一個(gè)任務(wù)需要完成十幾個(gè)步驟時(shí),這種猜測(cè)幾乎無(wú)從下手。斯坦福團(tuán)隊(duì)把這類在完成任務(wù)過(guò)程中不可缺少的具體行為稱為"能力"。在客服場(chǎng)景里,"找到正確的客戶記錄"是一種能力,"檢查退款政策是否允許某項(xiàng)操作"是另一種能力,"在用戶提出多個(gè)請(qǐng)求時(shí)全部逐一處理完畢"又是第三種能力。每一種能力都是獨(dú)立的,都可能單獨(dú)成為AI的薄弱環(huán)節(jié),而傳統(tǒng)的訓(xùn)練方式對(duì)這種細(xì)粒度的區(qū)分完全無(wú)能為力。

TRACE系統(tǒng)的核心出發(fā)點(diǎn),正是要打破這種籠統(tǒng)訓(xùn)練的局限,轉(zhuǎn)而采用精準(zhǔn)的診斷與針對(duì)性的補(bǔ)強(qiáng)。

二、四步走的"診斷-補(bǔ)課"流程:TRACE是怎么工作的

TRACE系統(tǒng)的運(yùn)作方式可以用一位經(jīng)驗(yàn)豐富的輔導(dǎo)老師來(lái)類比理解。這位老師不會(huì)隨意給學(xué)生布置題目,而是先仔細(xì)審閱學(xué)生的歷次考卷,找出錯(cuò)誤背后的規(guī)律,然后專門針對(duì)薄弱知識(shí)點(diǎn)設(shè)計(jì)練習(xí),最后在正式考試時(shí),根據(jù)題目類型自動(dòng)調(diào)用學(xué)生最擅長(zhǎng)的解題策略。TRACE就是這樣一位自動(dòng)化的"AI輔導(dǎo)老師",整個(gè)過(guò)程分為四個(gè)步驟。

第一步是"出錯(cuò)模式分析"。AI助手先在目標(biāo)場(chǎng)景中實(shí)際工作一輪,積累一批成功和失敗的任務(wù)記錄。隨后,一個(gè)負(fù)責(zé)分析的AI(可以理解為輔導(dǎo)老師)仔細(xì)閱讀這些記錄,對(duì)比成功案例和失敗案例,尋找規(guī)律性的差異。分析過(guò)程分為兩個(gè)階段:先是"發(fā)現(xiàn)階段",分析AI通過(guò)檢查所有記錄中的工具調(diào)用、工具返回結(jié)果和最終回復(fù),歸納出一份候選能力清單,并為每種能力起一個(gè)固定名稱和描述;然后是"標(biāo)注階段",分析AI拿著這份清單,逐一檢查每條任務(wù)記錄,判斷每種能力在這條記錄中是"不需要"、"已正確執(zhí)行"還是"本應(yīng)執(zhí)行卻沒(méi)有執(zhí)行"。

有了這些標(biāo)注之后,系統(tǒng)會(huì)計(jì)算兩個(gè)關(guān)鍵數(shù)字。一個(gè)是"對(duì)比差距":某種能力在失敗案例中缺失的比例,減去它在成功案例中缺失的比例。這個(gè)差距越大,說(shuō)明這種能力越能區(qū)分成功和失敗,也就越值得重點(diǎn)訓(xùn)練。另一個(gè)是"覆蓋率":某種能力的缺失,在所有失敗案例中占多大比例。只有兩個(gè)指標(biāo)都超過(guò)閾值的能力,才會(huì)被選入訓(xùn)練計(jì)劃。研究團(tuán)隊(duì)還會(huì)重復(fù)這個(gè)分析過(guò)程多次,只保留每次都穩(wěn)定出現(xiàn)的能力,確保結(jié)論的可靠性。

第二步是"定制練習(xí)環(huán)境"。對(duì)于每一種被識(shí)別出來(lái)的薄弱能力,系統(tǒng)會(huì)自動(dòng)搭建一個(gè)專門用于訓(xùn)練這種能力的練習(xí)場(chǎng)景。這個(gè)練習(xí)場(chǎng)景就像一個(gè)精心設(shè)計(jì)的模擬考場(chǎng),有幾個(gè)關(guān)鍵特點(diǎn):首先,它保留了真實(shí)場(chǎng)景的工具接口和交互規(guī)則,確保練習(xí)和實(shí)戰(zhàn)之間沒(méi)有脫節(jié);其次,每道練習(xí)題都由程序根據(jù)隨機(jī)種子自動(dòng)生成,可以產(chǎn)生無(wú)窮無(wú)盡的不同題目,防止AI死記硬背;再者,練習(xí)題的答案可以自動(dòng)驗(yàn)證,不需要人工批改。

更巧妙的是,練習(xí)題的難度被刻意調(diào)整到一個(gè)"甜蜜區(qū)"——基礎(chǔ)模型大約有30%到60%的概率能答對(duì)。如果題目太簡(jiǎn)單,AI每次都能答對(duì),就沒(méi)有學(xué)習(xí)空間;如果題目太難,AI次次都失敗,也無(wú)法獲得正向反饋。這個(gè)難度設(shè)定是為了配合后續(xù)的強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)制。

第三步是"針對(duì)性強(qiáng)化訓(xùn)練"。對(duì)于每一種能力,系統(tǒng)會(huì)訓(xùn)練一個(gè)獨(dú)立的小型適配器(專業(yè)名稱叫LoRA適配器,可以理解為給AI安裝的一個(gè)專用"技能插件")。訓(xùn)練方式是一種叫做GRPO的強(qiáng)化學(xué)習(xí)算法:AI在練習(xí)場(chǎng)景中一次生成多個(gè)不同的答案,系統(tǒng)根據(jù)每個(gè)答案的好壞給出分?jǐn)?shù),然后通過(guò)對(duì)比組內(nèi)分?jǐn)?shù)的高低來(lái)計(jì)算每個(gè)答案應(yīng)該被強(qiáng)化還是削弱。這種方式不需要事先標(biāo)注"正確答案長(zhǎng)什么樣",只需要能判斷"答案是好是壞",因此非常適合復(fù)雜的多步驟任務(wù)場(chǎng)景。

每個(gè)"技能插件"只更新整個(gè)模型約5.3%的參數(shù),非常輕量,訓(xùn)練效率高。更重要的是,由于每個(gè)插件只專注于一種能力,訓(xùn)練信號(hào)非常集中,AI能夠快速、有效地掌握這項(xiàng)技能,而不會(huì)因?yàn)橥瑫r(shí)學(xué)習(xí)太多東西而產(chǎn)生混亂。

第四步是"智能調(diào)度"。訓(xùn)練結(jié)束后,每種能力都對(duì)應(yīng)一個(gè)獨(dú)立的技能插件。實(shí)際使用時(shí),系統(tǒng)需要根據(jù)用戶的具體請(qǐng)求,判斷當(dāng)前任務(wù)最需要哪種能力,然后啟用對(duì)應(yīng)的插件。這個(gè)判斷過(guò)程完全由基礎(chǔ)模型完成:系統(tǒng)給基礎(chǔ)模型展示用戶請(qǐng)求,以及每種能力的描述和一個(gè)典型案例,讓模型預(yù)測(cè)哪個(gè)選項(xiàng)最匹配。由于每種能力只對(duì)應(yīng)一個(gè)單詞(比如A、B、C),模型只需要在這些候選詞之間選擇,判斷過(guò)程極為高效,每次任務(wù)只增加幾秒鐘的額外時(shí)間。

三、在客服和工具使用兩個(gè)戰(zhàn)場(chǎng)上,TRACE的表現(xiàn)究竟如何

研究團(tuán)隊(duì)在兩個(gè)不同的測(cè)試場(chǎng)景中驗(yàn)證了TRACE的效果,相當(dāng)于把這套"診斷-補(bǔ)課"系統(tǒng)放到了兩個(gè)完全不同的考場(chǎng)里。

第一個(gè)測(cè)試場(chǎng)景叫τ?-Bench,模擬的是真實(shí)的客戶服務(wù)工作流程,分為航空公司客服和零售客服兩個(gè)子領(lǐng)域,合計(jì)164個(gè)任務(wù)。評(píng)分標(biāo)準(zhǔn)非常嚴(yán)格:只有當(dāng)AI既正確完成了操作,又向用戶傳達(dá)了正確信息,才算通過(guò),任何一點(diǎn)偏差都會(huì)導(dǎo)致失敗。

在這個(gè)測(cè)試中,基礎(chǔ)模型的通過(guò)率是32.9%,航空領(lǐng)域24%,零售領(lǐng)域36.8%。在幾個(gè)對(duì)比方法中,直接在目標(biāo)環(huán)境里用強(qiáng)化學(xué)習(xí)訓(xùn)練的模型(GRPO on Target)能達(dá)到37.8%,一種使用通用合成環(huán)境訓(xùn)練的方法(AWM)能達(dá)到38.4%,而一種通過(guò)優(yōu)化系統(tǒng)提示詞來(lái)植入能力描述的方法(GEPA)能達(dá)到39.6%。TRACE則以47.0%的整體通過(guò)率、44%的航空領(lǐng)域通過(guò)率和48.2%的零售領(lǐng)域通過(guò)率,顯著領(lǐng)先所有對(duì)比方法,比第二名的GEPA高出7.4個(gè)百分點(diǎn)。

尤其值得關(guān)注的是一個(gè)有趣的對(duì)比:僅僅針對(duì)單一能力訓(xùn)練一個(gè)插件,就能達(dá)到40.3%的通過(guò)率,已經(jīng)超過(guò)了AWM和ADP等使用大量通用訓(xùn)練數(shù)據(jù)的方法。這說(shuō)明"找準(zhǔn)薄弱點(diǎn)精準(zhǔn)訓(xùn)練"的效率,遠(yuǎn)高于"撒網(wǎng)式地大量訓(xùn)練"。

通過(guò)反復(fù)分析,系統(tǒng)在τ?-Bench上識(shí)別出了四種核心能力薄弱點(diǎn)。第一種叫"結(jié)構(gòu)化數(shù)據(jù)推理":AI無(wú)法正確解讀工具返回的復(fù)雜嵌套數(shù)據(jù)。比如用戶想訂一張下午兩點(diǎn)以后的經(jīng)濟(jì)艙機(jī)票,查詢工具返回了各艙位的票價(jià)數(shù)組,AI卻讀錯(cuò)了哪個(gè)數(shù)字對(duì)應(yīng)經(jīng)濟(jì)艙,導(dǎo)致反復(fù)支付失敗。第二種叫"工具調(diào)用精確性":AI知道該用哪個(gè)工具,但傳入了錯(cuò)誤的參數(shù)。比如用戶要求退款到原來(lái)的信用卡,AI明明查到了正確的信用卡號(hào)碼,卻在調(diào)用退款工具時(shí)填入了禮品卡號(hào)碼。第三種叫"多步驟任務(wù)完成":AI完成了復(fù)合請(qǐng)求的第一部分就停了下來(lái)。比如用戶要求取消兩個(gè)預(yù)訂并修改第三個(gè),AI完成第一項(xiàng)取消后發(fā)出了"如有需要請(qǐng)隨時(shí)告知"的禮貌性結(jié)語(yǔ),然后陷入與用戶的無(wú)效對(duì)話循環(huán),直到超時(shí)也沒(méi)有處理剩余兩個(gè)請(qǐng)求。第四種叫"前提條件驗(yàn)證":AI沒(méi)有檢查策略規(guī)則就直接執(zhí)行了操作。比如用戶要取消一張?jiān)?4天前購(gòu)買、沒(méi)有任何保險(xiǎn)保障的經(jīng)濟(jì)艙機(jī)票,根據(jù)規(guī)定這種情況不允許取消,但AI直接調(diào)用了取消接口,因?yàn)橄到y(tǒng)API本身不會(huì)強(qiáng)制執(zhí)行策略,需要AI主動(dòng)核查。

第二個(gè)測(cè)試場(chǎng)景叫ToolSandBox,測(cè)試的是更廣泛的工具使用能力,包含129個(gè)不同場(chǎng)景。評(píng)分方式更寬容,采用部分分制,最高1分,完全完成給1分,部分完成給中間分?jǐn)?shù)。

在這個(gè)測(cè)試中,TRACE以0.552的平均相似度和26個(gè)完美分(滿分1.0)的成績(jī)領(lǐng)先,而基礎(chǔ)模型的成績(jī)是0.411和19個(gè)完美分,最強(qiáng)對(duì)比方法是0.520和22個(gè)完美分。

在ToolSandBox上,系統(tǒng)識(shí)別出了兩種關(guān)鍵能力薄弱點(diǎn)。第一種叫"權(quán)限錯(cuò)誤恢復(fù)":當(dāng)某個(gè)工具調(diào)用返回權(quán)限錯(cuò)誤時(shí),AI直接向用戶報(bào)告錯(cuò)誤就停止了,而沒(méi)有去診斷并解決根本原因。比如用戶說(shuō)"幫我打開Wi-Fi",AI調(diào)用開啟Wi-Fi的工具,結(jié)果返回了"低電量模式下無(wú)法開啟Wi-Fi"的錯(cuò)誤,AI便直接告訴用戶"對(duì)不起,無(wú)法完成"。正確的做法是:先查詢低電量模式是否開啟(結(jié)果是開啟的),再關(guān)閉低電量模式,然后重新嘗試開啟Wi-Fi,最后告知用戶已成功完成。第二種叫"日期時(shí)間推理":AI直接嘗試心算Unix時(shí)間戳(一種表示時(shí)間的數(shù)字格式)來(lái)推算當(dāng)前日期,而不是調(diào)用專門的時(shí)間轉(zhuǎn)換工具,結(jié)果頻繁算錯(cuò)。比如用戶說(shuō)"提醒我明天下午五點(diǎn)買巧克力牛奶",AI拿到時(shí)間戳1774511873后自己估算是2026年3月25日,其實(shí)當(dāng)天是3月26日,于是把提醒設(shè)置成了已經(jīng)過(guò)去的日期。正確做法是先調(diào)用時(shí)間戳轉(zhuǎn)換工具得到準(zhǔn)確日期,再計(jì)算"明天"是哪天。

四、"合并技能"為什么反而不如"按需切換":一個(gè)反直覺(jué)的發(fā)現(xiàn)

在設(shè)計(jì)TRACE系統(tǒng)時(shí),研究團(tuán)隊(duì)面對(duì)了一個(gè)直覺(jué)上很自然的問(wèn)題:既然要訓(xùn)練多種能力,為什么不把它們都整合進(jìn)同一個(gè)模型,而要保留多個(gè)獨(dú)立的插件并在使用時(shí)動(dòng)態(tài)切換?

這個(gè)問(wèn)題的答案可以用一個(gè)廚師的比喻來(lái)理解。假設(shè)有四位專業(yè)廚師,分別精通川菜、粵菜、日料和西餐?,F(xiàn)在有兩種方案:一是讓這四位廚師互相切磋,最終產(chǎn)生一位"融合大廚",他一個(gè)人負(fù)責(zé)所有類型的料理;二是保留四位專業(yè)廚師,每次根據(jù)客人點(diǎn)的菜系,派對(duì)應(yīng)的廚師出馬。表面上看,一位萬(wàn)能大廚似乎更方便,但實(shí)踐證明,術(shù)業(yè)有專攻的分工往往能做出更好的效果。

研究團(tuán)隊(duì)實(shí)驗(yàn)驗(yàn)證了這一點(diǎn),并嘗試了四種將多種能力合并進(jìn)單一模型的方法。第一種方法叫CORE-TSV融合,把分別訓(xùn)練好的各能力插件通過(guò)數(shù)學(xué)方式直接疊加到一起,得到47.0%的基準(zhǔn),但結(jié)果只有39.6%,不如任何單一專項(xiàng)訓(xùn)練插件。第二種方法叫多能力GRPO,在所有能力的練習(xí)場(chǎng)景里同時(shí)訓(xùn)練一個(gè)統(tǒng)一插件,達(dá)到40.9%,略高于單一插件但遠(yuǎn)低于TRACE的47.0%。第三種方法叫合成數(shù)據(jù)SFT,收集每個(gè)能力練習(xí)場(chǎng)景的成功軌跡,然后做監(jiān)督微調(diào),結(jié)果只有37.8%。第四種方法叫在線蒸餾,為每種能力訓(xùn)練一個(gè)"老師模型",再訓(xùn)練一個(gè)統(tǒng)一的"學(xué)生模型"去模仿老師,結(jié)果也只有37.8%。

對(duì)比之下,TRACE的路由策略只需要在使用時(shí)動(dòng)態(tài)選擇對(duì)應(yīng)插件,完全不需要任何額外的合并訓(xùn)練,卻達(dá)到了最高的47.0%。這個(gè)發(fā)現(xiàn)背后有一個(gè)深層原因:當(dāng)多種能力同時(shí)塞進(jìn)一個(gè)模型時(shí),這些能力之間會(huì)產(chǎn)生干擾,就像同時(shí)學(xué)習(xí)多門語(yǔ)言有時(shí)會(huì)讓各自都變得不流利。保持獨(dú)立的插件,每個(gè)插件專注于一種能力,反而能讓每種能力都達(dá)到最佳狀態(tài)。

五、訓(xùn)練越多真的越好嗎:TRACE的擴(kuò)展規(guī)律

研究團(tuán)隊(duì)還專門研究了一個(gè)很實(shí)際的問(wèn)題:增加訓(xùn)練資源(更多的模擬對(duì)話輪次,或者訓(xùn)練更多的能力),帶來(lái)的收益是否能持續(xù)增長(zhǎng)?

從能力數(shù)量的角度看,TRACE在覆蓋1種、2種、4種能力時(shí),通過(guò)率分別約為40.3%、43%、47%,呈現(xiàn)出穩(wěn)定的遞進(jìn)式提升。與之相比,GEPA(一種通過(guò)優(yōu)化提示詞來(lái)植入能力描述的方法)在超過(guò)4種能力之后就陷入了停滯,無(wú)論再描述多少種能力,效果不再提升。這個(gè)差異說(shuō)明,單靠文字描述能力、希望AI在提示詞層面"領(lǐng)悟",存在根本性的上限;而通過(guò)真實(shí)的強(qiáng)化學(xué)習(xí)訓(xùn)練讓AI內(nèi)化技能,才是真正可以持續(xù)疊加收益的路徑。

從訓(xùn)練輪次的角度看,以τ?-Bench為例,TRACE在不斷增加訓(xùn)練輪次時(shí)通過(guò)率持續(xù)穩(wěn)定上升,從0輪次的32.9%一路攀升到5120輪次時(shí)的47.0%,曲線幾乎是一條平滑向上的折線。相比之下,直接在目標(biāo)場(chǎng)景里進(jìn)行GRPO訓(xùn)練的曲線顯得波動(dòng)起伏,甚至在3840輪次時(shí)出現(xiàn)了下滑(從37.8%跌到35.4%),最終停留在37.8%。GEPA則在較早的階段就趨于平緩,最終停留在39.6%。ToolSandBox上也呈現(xiàn)了相同的規(guī)律:TRACE的曲線穩(wěn)健上升,最終達(dá)到0.552,而GRPO和GEPA則分別停留在0.519和0.520。

這組數(shù)據(jù)背后的邏輯是:當(dāng)訓(xùn)練場(chǎng)景與目標(biāo)場(chǎng)景完全一致(即直接在目標(biāo)場(chǎng)景上做GRPO)時(shí),模型很容易陷入過(guò)擬合或訓(xùn)練不穩(wěn)定的狀態(tài)——它學(xué)到的可能是特定題目的答案,而非通用的能力;而TRACE的練習(xí)場(chǎng)景經(jīng)過(guò)專門設(shè)計(jì),每道題都由隨機(jī)種子程序生成,變化無(wú)窮,AI練的是"能力本身"而非"特定題目",因此能夠隨著訓(xùn)練輪次的增加持續(xù)穩(wěn)步提升。

六、這套系統(tǒng)背后的數(shù)學(xué)邏輯:為什么"對(duì)比分析"比"失敗分析"更可靠

研究團(tuán)隊(duì)在設(shè)計(jì)能力識(shí)別算法時(shí)做了一個(gè)很關(guān)鍵的設(shè)計(jì)選擇:不是只看"哪些能力在失敗案例中缺失",而是計(jì)算"某種能力在失敗案例中缺失的頻率,與它在成功案例中缺失的頻率之差"。這個(gè)差值越大,說(shuō)明這種能力越能區(qū)分成功和失敗。

這個(gè)設(shè)計(jì)的妙處可以用醫(yī)學(xué)診斷來(lái)理解。假設(shè)一種癥狀在發(fā)燒的患者和健康人中出現(xiàn)概率都是50%,那么這種癥狀對(duì)于診斷發(fā)燒幾乎沒(méi)有價(jià)值。但如果另一種癥狀在發(fā)燒患者中出現(xiàn)率是90%,在健康人中只有10%,那這種癥狀就是很強(qiáng)的診斷指標(biāo)。TRACE的對(duì)比分析邏輯與此完全一致:一種能力如果在成功案例中也經(jīng)常缺失,可能只是因?yàn)槿蝿?wù)本身并不需要它,或者該能力的定義本身就不夠清晰;只有那些在失敗案例中明顯更多缺失的能力,才是真正的薄弱環(huán)節(jié)。

在實(shí)際測(cè)試中,研究團(tuán)隊(duì)獨(dú)立運(yùn)行了10次能力分析,"結(jié)構(gòu)化數(shù)據(jù)推理"、"多步驟任務(wù)完成"和"前提條件驗(yàn)證"三種能力每次都被穩(wěn)定識(shí)別,"工具調(diào)用精確性"在10次中被識(shí)別到8次。與此同時(shí),"條件推理"、"數(shù)值計(jì)算"、"早期終止"等其他候選能力只出現(xiàn)了少數(shù)幾次,無(wú)法通過(guò)篩選閾值,說(shuō)明它們雖然偶爾出現(xiàn)在失敗案例中,但并不是區(qū)分成敗的關(guān)鍵因素。這種高度穩(wěn)定的識(shí)別結(jié)果,驗(yàn)證了對(duì)比分析方法的可靠性。

失敗覆蓋率的分布也非常集中:"結(jié)構(gòu)化數(shù)據(jù)推理"覆蓋了約41個(gè)失敗案例,"多步驟任務(wù)完成"覆蓋約25個(gè),"前提條件驗(yàn)證"約34個(gè),"工具調(diào)用精確性"約20個(gè),而其他被淘汰的候選能力大多只覆蓋10到15個(gè)案例。這種高度集中的分布說(shuō)明,目標(biāo)場(chǎng)景的失敗模式并不是均勻分散的,而是高度聚焦在少數(shù)幾種能力缺失上。這也從實(shí)驗(yàn)數(shù)據(jù)層面為TRACE的核心邏輯提供了支撐:少數(shù)幾種能力的缺失,足以解釋絕大多數(shù)失敗案例。

說(shuō)到底,TRACE做的事情并不神秘。它用系統(tǒng)化的方式解決了一個(gè)長(zhǎng)期困擾AI訓(xùn)練領(lǐng)域的難題:怎么讓一個(gè)已經(jīng)"基本合格"的AI,在特定場(chǎng)景中變得真正可靠。過(guò)去的思路是給AI灌輸更多數(shù)據(jù),或者讓它在目標(biāo)場(chǎng)景里反復(fù)試錯(cuò);TRACE的思路是先診斷后治療,找到具體的薄弱點(diǎn),再定制化地修補(bǔ)。

這種思路對(duì)普通用戶意味著什么?以客服機(jī)器人為例,如果一家公司發(fā)現(xiàn)自己部署的AI助手在處理退換貨時(shí)經(jīng)常出錯(cuò),不需要重新訓(xùn)練整個(gè)模型,也不需要從頭設(shè)計(jì)訓(xùn)練方案——只需要收集一批失敗記錄,跑一遍TRACE系統(tǒng),幾個(gè)小時(shí)內(nèi)就能生成針對(duì)這家公司業(yè)務(wù)特點(diǎn)的專項(xiàng)訓(xùn)練,修補(bǔ)AI在該場(chǎng)景下的具體短板。

這項(xiàng)研究也引出了一些值得繼續(xù)思考的問(wèn)題。當(dāng)AI部署在全新場(chǎng)景時(shí),事先沒(méi)有任何失敗記錄可供分析,TRACE的冷啟動(dòng)問(wèn)題如何解決?隨著部署場(chǎng)景的增加,插件數(shù)量也會(huì)隨之增長(zhǎng),如何管理越來(lái)越龐大的插件庫(kù)?當(dāng)某個(gè)任務(wù)同時(shí)需要多種能力時(shí),單一插件的路由策略是否足夠?這些都是下一階段研究可以深入的方向。有興趣追蹤后續(xù)進(jìn)展的讀者,可以通過(guò)arXiv編號(hào)2604.05336關(guān)注這個(gè)研究方向的最新動(dòng)態(tài),也可以訪問(wèn)研究團(tuán)隊(duì)公開的代碼倉(cāng)庫(kù)進(jìn)行實(shí)際測(cè)試。

Q&A

Q1:TRACE系統(tǒng)是如何識(shí)別AI助手的薄弱能力的?

A:TRACE通過(guò)對(duì)比AI助手的成功記錄和失敗記錄來(lái)識(shí)別薄弱能力。系統(tǒng)計(jì)算某種能力在失敗案例中缺失的頻率與在成功案例中缺失的頻率之差,差值越大說(shuō)明這種能力越關(guān)鍵。只有同時(shí)滿足"對(duì)比差距超過(guò)20%"和"覆蓋10%以上失敗案例"兩個(gè)條件的能力,才會(huì)被選入訓(xùn)練計(jì)劃。整個(gè)分析過(guò)程會(huì)獨(dú)立重復(fù)多次,只保留每次都穩(wěn)定出現(xiàn)的結(jié)論。

Q2:TRACE訓(xùn)練出來(lái)的LoRA適配器為什么不直接合并成一個(gè)模型?

A:實(shí)驗(yàn)證明,把多個(gè)能力適配器合并進(jìn)單一模型會(huì)導(dǎo)致能力之間相互干擾,性能反而下降。研究團(tuán)隊(duì)測(cè)試了四種合并方案,通過(guò)率均低于TRACE的按需路由策略。保持獨(dú)立適配器,在使用時(shí)根據(jù)任務(wù)類型動(dòng)態(tài)選擇對(duì)應(yīng)的適配器,能讓每種能力都維持最佳狀態(tài),整體通過(guò)率比最強(qiáng)合并方案高出6.1個(gè)百分點(diǎn)。

Q3:TRACE和直接在目標(biāo)場(chǎng)景里做強(qiáng)化學(xué)習(xí)訓(xùn)練有什么區(qū)別?

A:直接在目標(biāo)場(chǎng)景做強(qiáng)化學(xué)習(xí)(GRPO on Target)訓(xùn)練時(shí),模型從任務(wù)整體成功或失敗中學(xué)習(xí),無(wú)法精確歸因到某種具體能力,容易陷入不穩(wěn)定或過(guò)擬合。TRACE則先識(shí)別具體薄弱能力,再為每種能力設(shè)計(jì)獨(dú)立的練習(xí)場(chǎng)景,每道練習(xí)題由程序從隨機(jī)種子生成,題目無(wú)窮無(wú)盡。因此TRACE的性能隨訓(xùn)練輪次持續(xù)穩(wěn)定上升,而直接訓(xùn)練的曲線波動(dòng)明顯,最終停留在37.8%,而TRACE達(dá)到47.0%。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

壹家言
2026-04-28 11:11:27
王洪文被捕前,對(duì)秘書說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

王洪文被捕前,對(duì)秘書說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩(shī)話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

阿七說(shuō)史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個(gè)大白胸脯,在這兒干什么呢?

妹子,你露個(gè)大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

TMT流程審計(jì)
2026-04-28 10:35:38
誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會(huì)議,傳遞三重利好

政治局會(huì)議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰(shuí)拍下了那張后臺(tái)照片?

誰(shuí)拍下了那張后臺(tái)照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國(guó)企開始慌了

倒查13年,央國(guó)企開始慌了

職場(chǎng)資深秘書
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
藝術(shù)
旅游
家居

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國(guó)人口增量第4省!

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國(guó)第一民企落子民營(yíng)大省!

旅游要聞

莫讓內(nèi)卷式競(jìng)爭(zhēng)削弱旅游消費(fèi)信心

家居要聞

江景風(fēng)格 流動(dòng)的秩序

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版