国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

給AI智能體的"技能包"造一臺(tái)專屬編譯器,執(zhí)行效率最高提升50倍

0
分享至


這項(xiàng)由上海交通大學(xué)計(jì)算機(jī)科學(xué)團(tuán)隊(duì)主導(dǎo)的研究,以預(yù)印本形式發(fā)布于2026年4月,編號(hào)為arXiv:2604.03088v3,有興趣深入了解的讀者可通過(guò)該編號(hào)查閱完整論文。

假設(shè)你雇了一位助理,給他一本厚厚的工作手冊(cè),告訴他"按照手冊(cè)里的步驟幫我完成任務(wù)"。如果這位助理是一名資深專家,他會(huì)一眼看懂手冊(cè)里的每個(gè)細(xì)節(jié),流暢完成任務(wù)。但如果換成一位剛?cè)肼毜男氯?,同樣的手?cè)他可能看不懂某些專業(yè)指令,搞出一堆錯(cuò)誤。更麻煩的是,手冊(cè)里某些步驟需要用到特定工具,但辦公室里根本沒(méi)有這些工具,新人就只能在那里干著急,浪費(fèi)大量時(shí)間瞎折騰。

這就是當(dāng)前AI智能體使用"技能包"時(shí)每天都在發(fā)生的真實(shí)困境。上海交通大學(xué)的研究團(tuán)隊(duì)在分析了超過(guò)11.8萬(wàn)個(gè)技能包之后,發(fā)現(xiàn)這個(gè)問(wèn)題嚴(yán)重到令人咋舌——他們因此設(shè)計(jì)了一套叫做SkVM的系統(tǒng),專門充當(dāng)技能包和AI模型之間的"翻譯+調(diào)度員",讓任何能力水平的AI模型都能正確、高效地執(zhí)行技能包中的指令。

**一、"技能包"是什么,為什么AI現(xiàn)在離不開(kāi)它**

要理解這項(xiàng)研究,得先搞清楚"技能包"是什么東西?,F(xiàn)代AI智能體的工作方式很像一個(gè)不斷思考、不斷行動(dòng)的工人:收到任務(wù)之后,它會(huì)反復(fù)推理、調(diào)用工具、觀察結(jié)果,再繼續(xù)推理,直到任務(wù)完成。這個(gè)循環(huán)被稱為"ReAct循環(huán)",類似于人類在解決問(wèn)題時(shí)"想一想、做一做、看結(jié)果、再想想"的過(guò)程。

技能包的出現(xiàn),就是為了給這個(gè)工人額外塞一本"領(lǐng)域?qū)俨僮魇謨?cè)"。一個(gè)技能包通常由三部分組成:第一部分是"名片",記錄這個(gè)技能包叫什么名字、適用于什么場(chǎng)景;第二部分是"正文",用自然語(yǔ)言描述具體的操作步驟、工具用法和注意事項(xiàng);第三部分是"附件",包含腳本、模板和代碼片段。

舉個(gè)具體例子:有一個(gè)專門處理PDF文件的技能包,它會(huì)教AI如何使用pdfplumber這個(gè)庫(kù)來(lái)提取表格,同時(shí)還會(huì)提醒AI合并PDF文件時(shí)要用pypdf而不是已經(jīng)過(guò)時(shí)的PyPDF2。這類技能包相當(dāng)于把領(lǐng)域?qū)<业慕?jīng)驗(yàn)直接打包塞進(jìn)AI的"腦袋",讓它不需要自己摸索就能用正確的方式完成任務(wù)。

目前,兩個(gè)主要的技能包分發(fā)平臺(tái)——clawhub.ai和skills.sh——合計(jì)上架了超過(guò)11.8萬(wàn)個(gè)技能包,覆蓋數(shù)據(jù)分析、金融、辦公自動(dòng)化、編程開(kāi)發(fā)等幾乎所有常見(jiàn)工作場(chǎng)景。然而,這些技能包絕大多數(shù)都只是一份Markdown格式的純文本文件,直接丟給AI去讀。這種"把手冊(cè)往桌上一扔"的做法,帶來(lái)了嚴(yán)重的問(wèn)題。

**二、同一本手冊(cè),不同的人讀出了完全不同的結(jié)果**

研究團(tuán)隊(duì)對(duì)八個(gè)不同能力水平的AI模型做了測(cè)試,結(jié)果觸目驚心。啟用技能包之后,有15%的任務(wù)得分反而下降了——也就是說(shuō),給AI看了手冊(cè),它做得反而更差。另有17%的任務(wù)得分毫無(wú)變化(排除那些本來(lái)就能100%完成的任務(wù))。更令人沮喪的是,在87%的任務(wù)上,至少有一個(gè)AI模型在使用技能包后沒(méi)有任何改善。

這背后有三種典型的失敗模式,研究團(tuán)隊(duì)把它們分別稱為"模型失配"、"執(zhí)行環(huán)境失配"和"運(yùn)行環(huán)境失配"。

模型失配是最直觀的問(wèn)題。不同AI模型的能力差異極大,技能包的寫法往往默認(rèn)讀者是"高水平"模型。研究團(tuán)隊(duì)記錄了一個(gè)生動(dòng)的案例:有一個(gè)用于生成PowerPoint演示文稿的技能包,推薦使用一個(gè)叫PptxGenJS的JavaScript庫(kù)。Claude Opus 4.6和Gemini 3 Flash這兩個(gè)頂級(jí)模型都能正確理解這是一個(gè)編程庫(kù),拿到滿分100分。但Devstral Small這個(gè)較弱的模型卻把PptxGenJS誤認(rèn)為是命令行工具,反復(fù)執(zhí)行錯(cuò)誤的命令,最終失敗。如果不加載這個(gè)技能包,Devstral Small反而會(huì)自己選擇熟悉的python-pptx庫(kù),得到95分。

執(zhí)行環(huán)境失配則更加隱蔽。同一個(gè)AI模型、同一個(gè)技能包、同一個(gè)任務(wù),但換了一個(gè)不同的"執(zhí)行框架"(也就是給AI提供工具和運(yùn)行環(huán)境的軟件),結(jié)果可能天差地別。Gemini 3 Flash在BareAgent這個(gè)簡(jiǎn)單框架里用原始技能包完成工作日排班任務(wù)得了滿分,但換到OpenCode框架里得了0分。失敗原因是OpenCode框架會(huì)在對(duì)話開(kāi)頭塞入大量工具說(shuō)明文檔,讓整個(gè)上下文變得很長(zhǎng),最終導(dǎo)致AI輸出了格式錯(cuò)誤的JSON,無(wú)法被解析。

運(yùn)行環(huán)境失配是最實(shí)際的痛點(diǎn)。技能包里寫著"需要用到某某庫(kù)",但用戶的機(jī)器上根本沒(méi)裝。研究團(tuán)隊(duì)測(cè)試發(fā)現(xiàn),當(dāng)必要的庫(kù)缺失時(shí),兩個(gè)Qwen模型的成功率直接跌到33%至67%,同時(shí)還會(huì)產(chǎn)生2到4倍多余的輸出——因?yàn)槟P驮诓煌L試各種變通方案。就連最強(qiáng)的Claude Opus 4.6,雖然最終能自己診斷并安裝缺失的庫(kù),但也因此多消耗了56%到69%的輸出內(nèi)容。每一個(gè)缺失的依賴,都是一筆重復(fù)繳納的"智力稅"。

**三、編譯器的思路:把自然語(yǔ)言技能包當(dāng)成代碼來(lái)對(duì)待**

面對(duì)這三種失配問(wèn)題,研究團(tuán)隊(duì)的靈感來(lái)自計(jì)算機(jī)發(fā)展史上的一個(gè)經(jīng)典解決方案:編譯器。

回顧計(jì)算機(jī)的演進(jìn)歷程,早期程序員要直接用機(jī)器能懂的匯編語(yǔ)言寫代碼,費(fèi)時(shí)費(fèi)力還容易出錯(cuò)。后來(lái)出現(xiàn)了C語(yǔ)言這樣的高級(jí)編程語(yǔ)言,程序員用更接近人類思維的方式寫代碼,再由編譯器自動(dòng)翻譯成機(jī)器能執(zhí)行的指令。Java虛擬機(jī)(JVM)則更進(jìn)一步,讓同一份Java代碼能在任何操作系統(tǒng)上運(yùn)行,實(shí)現(xiàn)了"一次編寫,到處運(yùn)行"。

研究團(tuán)隊(duì)注意到,在AI智能體時(shí)代,技能包就是"代碼",而AI模型就是"處理器"。不同的AI模型就像不同的CPU架構(gòu),同樣的指令在不同的處理器上執(zhí)行效果完全不同?,F(xiàn)有系統(tǒng)對(duì)技能包的處理方式,相當(dāng)于直接把匯編代碼扔給處理器,完全沒(méi)有編譯和優(yōu)化這個(gè)環(huán)節(jié)。

于是,研究團(tuán)隊(duì)設(shè)計(jì)了SkVM——一個(gè)專門為技能包服務(wù)的編譯和運(yùn)行時(shí)系統(tǒng)。這個(gè)系統(tǒng)借鑒了傳統(tǒng)編譯技術(shù)中的兩個(gè)核心概念:提前編譯(AOT,即在使用之前就完成編譯和優(yōu)化)和即時(shí)編譯(JIT,即在運(yùn)行過(guò)程中動(dòng)態(tài)優(yōu)化)。

**四、提前編譯:裝好技能包就把活兒做到位**

SkVM的提前編譯器在用戶安裝技能包時(shí)自動(dòng)運(yùn)行,它會(huì)針對(duì)當(dāng)前的AI模型和執(zhí)行框架,對(duì)技能包進(jìn)行三輪優(yōu)化處理。

第一輪處理叫"基于能力的編譯",專門解決模型失配問(wèn)題。這一步的核心在于一套精心設(shè)計(jì)的"原始能力"體系。研究團(tuán)隊(duì)從1.5萬(wàn)多個(gè)技能包中提煉出26種"原始能力",分屬四大類別。每種原始能力還細(xì)分為不同的熟練程度等級(jí),等級(jí)越高代表要求越復(fù)雜。

舉個(gè)例子,"執(zhí)行命令行工具"這個(gè)能力被分為三個(gè)等級(jí):第一級(jí)是能執(zhí)行基礎(chǔ)命令(比如ls、cat這類簡(jiǎn)單指令);第二級(jí)是能處理帶參數(shù)和相對(duì)路徑的命令;第三級(jí)是能寫出用管道、重定向、循環(huán)連接起來(lái)的復(fù)雜命令鏈。編譯器會(huì)用一系列小測(cè)試(類似于駕照考試的科目考核)來(lái)測(cè)量每個(gè)AI模型在每種能力上的等級(jí),結(jié)果保存下來(lái)供所有技能包復(fù)用,不需要重復(fù)測(cè)量。

有了模型的能力檔案,編譯器就能找到技能包要求和模型實(shí)際水平之間的差距,然后選擇相應(yīng)的優(yōu)化策略。差距較小時(shí),編譯器采用"補(bǔ)償"策略:在技能包里添加更明確的說(shuō)明、示例或約束,把任務(wù)難度降下來(lái),填平這個(gè)差距,同時(shí)保留技能包的原始意圖。差距太大、補(bǔ)償無(wú)法解決時(shí),編譯器采用"替換"策略:換一條能達(dá)到相同目標(biāo)但用不同能力實(shí)現(xiàn)的路徑。比如技能包要求用Python的pandas庫(kù)做數(shù)據(jù)分析,但模型Python能力不夠,編譯器可以改成用SQL來(lái)實(shí)現(xiàn)同樣的數(shù)據(jù)分析,前提是模型的SQL能力足夠。

以前面提到的PowerPoint生成技能包為例,編譯器發(fā)現(xiàn)這個(gè)技能包需要"處理相對(duì)文件路徑"這個(gè)能力,但目標(biāo)模型只掌握了第一級(jí),還不能處理相對(duì)路徑。編譯器考慮過(guò)把PptxGenJS替換成其他方案,但差距只有一級(jí),補(bǔ)償策略就夠了。編譯器直接在技能包里加入一條指令:把所有相對(duì)路徑替換為技能包所在目錄的絕對(duì)路徑。問(wèn)題解決,成本極低。

第二輪處理叫"環(huán)境綁定",專門解決運(yùn)行環(huán)境失配問(wèn)題。編譯器從技能包里提取出所有依賴項(xiàng)的清單——包括需要哪些第三方庫(kù)、命令行工具和系統(tǒng)服務(wù)——然后檢查當(dāng)前機(jī)器上是否都已安裝。對(duì)于缺失的依賴,編譯器會(huì)生成一個(gè)"環(huán)境綁定腳本",在每次執(zhí)行技能包之前自動(dòng)運(yùn)行,確保所有工具都就位。這就把"邊執(zhí)行邊裝工具"變成了"先把工具準(zhǔn)備好再開(kāi)干",AI模型不再需要花時(shí)間處理這些和核心任務(wù)無(wú)關(guān)的雜事。

第三輪處理叫"并發(fā)提取",目標(biāo)是挖掘技能包里隱藏的并行執(zhí)行機(jī)會(huì)。研究發(fā)現(xiàn),76%的技能包包含明確的步驟式流程,但這些步驟是按順序?qū)懴聛?lái)的,并不代表每個(gè)步驟都必須等前一個(gè)完成才能開(kāi)始。就像做飯時(shí),等水燒開(kāi)的同時(shí)可以切菜,不必傻等著。

編譯器會(huì)把技能包里的步驟分解成一張"依賴關(guān)系圖":哪個(gè)步驟需要哪個(gè)步驟的輸出結(jié)果,哪些步驟互相獨(dú)立。然后根據(jù)依賴關(guān)系圖,提取出三種層級(jí)的并行機(jī)會(huì)。數(shù)據(jù)級(jí)并行是指同一個(gè)操作要對(duì)大量獨(dú)立數(shù)據(jù)重復(fù)執(zhí)行,比如對(duì)15個(gè)CSV文件分別做同樣的分析,編譯器會(huì)改寫這個(gè)步驟,讓它們同時(shí)進(jìn)行。指令級(jí)并行是指多個(gè)獨(dú)立的步驟可以同時(shí)發(fā)出工具調(diào)用請(qǐng)求,比如同時(shí)運(yùn)行八個(gè)互不依賴的代碼分析腳本,編譯器會(huì)把這些請(qǐng)求打包成一次批量調(diào)用。線程級(jí)并行是指任務(wù)能分解成幾個(gè)完全獨(dú)立的子任務(wù),每個(gè)子任務(wù)都需要多輪思考和操作,比如同時(shí)調(diào)試三個(gè)互相獨(dú)立的系統(tǒng)服務(wù),編譯器會(huì)把每個(gè)子任務(wù)都標(biāo)注成獨(dú)立的"子智能體任務(wù)",讓執(zhí)行框架并行啟動(dòng)多個(gè)智能體來(lái)處理。

**五、即時(shí)編譯:在實(shí)戰(zhàn)中越用越聰明**

提前編譯只能解決安裝時(shí)就能發(fā)現(xiàn)的問(wèn)題,但有些問(wèn)題只有在真正執(zhí)行時(shí)才會(huì)暴露出來(lái)。SkVM的即時(shí)編譯器負(fù)責(zé)處理這些運(yùn)行時(shí)才出現(xiàn)的情況。

第一個(gè)機(jī)制叫"自適應(yīng)重編譯"。系統(tǒng)會(huì)追蹤每一次任務(wù)執(zhí)行的結(jié)果。當(dāng)某個(gè)技能包在多次執(zhí)行中反復(fù)出現(xiàn)失敗或需要重試的情況時(shí),系統(tǒng)會(huì)分析這些失敗是偶然的任務(wù)特定問(wèn)題,還是技能包本身存在系統(tǒng)性的能力缺口。只有確認(rèn)是后者,才會(huì)觸發(fā)重編譯:把這些失敗日志和模型自己嘗試糾錯(cuò)的記錄一起喂給編譯器,讓編譯器找出根本原因并打上補(bǔ)丁。如果重編譯后效果反而變差,系統(tǒng)會(huì)回滾到之前的版本,保證技能包的穩(wěn)定性。每次重編譯都從迄今為止表現(xiàn)最好的版本出發(fā),確保優(yōu)化方向是向前走的。

第二個(gè)機(jī)制叫"代碼固化",這是一個(gè)非常有意思的優(yōu)化。研究團(tuán)隊(duì)發(fā)現(xiàn),75%的技能包里都包含"結(jié)構(gòu)固定、只有輸入?yún)?shù)變化"的代碼片段。比如PDF合并的代碼,每次都是同樣的框架,只有要合并哪幾個(gè)文件這個(gè)參數(shù)會(huì)變。正常情況下,每次執(zhí)行這段邏輯,AI模型都要重新"想一遍"——推理、決策、生成代碼——這既耗時(shí)又浪費(fèi)資源。

代碼固化分三個(gè)階段完成。提前編譯階段,編譯器分析技能包里的代碼片段,識(shí)別出哪些有固化潛力,為每個(gè)候選片段生成四樣?xùn)|西:關(guān)鍵詞(用來(lái)判斷當(dāng)前任務(wù)是否和這段代碼相關(guān))、代碼特征簽名(描述這段代碼應(yīng)該長(zhǎng)什么樣)、帶參數(shù)槽的代碼模板,以及參數(shù)提取規(guī)則。運(yùn)行階段,系統(tǒng)監(jiān)控AI模型實(shí)際生成的代碼,檢查是否和預(yù)測(cè)的特征簽名匹配。只有在連續(xù)多次調(diào)用中都成功匹配之后,才會(huì)觸發(fā)固化,確保這個(gè)代碼結(jié)構(gòu)確實(shí)是穩(wěn)定可靠的。固化完成之后,后續(xù)調(diào)用完全繞開(kāi)AI推理,系統(tǒng)直接從任務(wù)上下文中提取參數(shù),套入模板,生成代碼并執(zhí)行,速度大幅提升。

有一個(gè)細(xì)節(jié)很重要:如果在監(jiān)控階段發(fā)現(xiàn)AI模型每次生成的代碼結(jié)構(gòu)不穩(wěn)定、和預(yù)測(cè)的特征簽名對(duì)不上,系統(tǒng)就永遠(yuǎn)不會(huì)觸發(fā)固化,老老實(shí)實(shí)繼續(xù)走AI推理的路子。這是一個(gè)安全閥,防止錯(cuò)誤的固化損害任務(wù)結(jié)果。研究團(tuán)隊(duì)用一個(gè)天氣查詢技能包的案例驗(yàn)證了這個(gè)安全閥的有效性:處理當(dāng)前天氣的代碼結(jié)構(gòu)穩(wěn)定,成功固化;處理天氣預(yù)報(bào)的代碼因?yàn)楦袷奖容^靈活,結(jié)構(gòu)不穩(wěn)定,系統(tǒng)正確地識(shí)別出來(lái)并放棄固化,所有八次調(diào)用都繼續(xù)走AI推理路徑。

此外,SkVM還有一個(gè)"資源感知調(diào)度器",負(fù)責(zé)把編譯時(shí)提取出的并行計(jì)劃與運(yùn)行時(shí)的實(shí)際資源狀況結(jié)合起來(lái)。并行執(zhí)行多個(gè)子任務(wù)聽(tīng)起來(lái)很美,但現(xiàn)實(shí)中API調(diào)用有速率限制,機(jī)器內(nèi)存有上限,多個(gè)子任務(wù)同時(shí)跑可能反而互相阻塞。調(diào)度器會(huì)實(shí)時(shí)監(jiān)控API響應(yīng)延遲、HTTP 429錯(cuò)誤(速率限制信號(hào))、CPU和內(nèi)存使用率。當(dāng)壓力超過(guò)閾值時(shí),調(diào)度器會(huì)暫停啟動(dòng)新的子任務(wù),或者選擇性地把一部分正在運(yùn)行的子任務(wù)掛起,減少競(jìng)爭(zhēng)。每次執(zhí)行結(jié)束后,調(diào)度器還會(huì)記錄這次實(shí)際有效的并發(fā)度,作為下次執(zhí)行的參考基準(zhǔn)。

**六、實(shí)驗(yàn)結(jié)果:數(shù)字說(shuō)話**

研究團(tuán)隊(duì)在八個(gè)不同能力等級(jí)的AI模型(橫跨頂級(jí)、中級(jí)、小型三檔)和三種不同的執(zhí)行框架上做了全面測(cè)試,覆蓋118個(gè)任務(wù),每個(gè)任務(wù)產(chǎn)生5個(gè)不同輸入實(shí)例。

在任務(wù)完成率上,SkVM優(yōu)化后的技能包在所有模型和執(zhí)行框架組合上都達(dá)到了最高得分。與原始技能包相比,SkVM平均提升任務(wù)完成率15.3%。能力較弱的模型受益最大,因?yàn)樗鼈兊哪芰图寄馨笾g的差距最大,優(yōu)化空間也最大。SkVM優(yōu)化后出現(xiàn)得分下降的任務(wù)比例只有4.5%,而原始技能包導(dǎo)致得分下降的比例是15%,減少了三分之二以上。

在不同執(zhí)行框架之間的一致性上,使用原始技能包時(shí),兩個(gè)不同框架之間的得分差距最高達(dá)13分;SkVM優(yōu)化后,這個(gè)差距縮小到最多5分,跨框架的表現(xiàn)更加穩(wěn)定。

在與專業(yè)競(jìng)品的對(duì)比上,Anthropic公司有一個(gè)叫Skill-Creator的技能優(yōu)化工具,同樣使用頂級(jí)的Claude Opus 4.6模型來(lái)優(yōu)化技能包。與這個(gè)工具相比,SkVM在較弱模型上的優(yōu)勢(shì)尤為明顯:在BareAgent框架上,SkVM比Skill-Creator在Qwen3-30B模型上高出25分,在Devstral Small模型上高出10分。

在逐階段的細(xì)分分析中,研究團(tuán)隊(duì)選取了14類技能、Qwen3-30B模型和BareAgent框架,記錄了從"不用技能包"到"用原始技能包"到"AOT編譯后"再到"三輪JIT優(yōu)化后"的得分變化。結(jié)論是:14類任務(wù)中有11類,原始技能包的表現(xiàn)還不如不用技能包;AOT編譯后,平均得分提升了88%;經(jīng)過(guò)三輪JIT優(yōu)化,14類中有10類達(dá)到滿分。這個(gè)數(shù)字直觀地展示了編譯優(yōu)化對(duì)任務(wù)完成率的巨大影響。

在執(zhí)行效率上,代碼固化的效果最為驚艷。對(duì)于PDF文本提取任務(wù),原始執(zhí)行時(shí)間是10,469到15,116毫秒;固化后降到206到568毫秒,實(shí)現(xiàn)了19到50倍的速度提升。并行化提取最高實(shí)現(xiàn)了3.2倍的端到端加速。在Token消耗上,對(duì)于最強(qiáng)模型加最弱框架的組合(DeepSeek V3.2加BareAgent),SkVM減少了接近40%的Token消耗。

在環(huán)境綁定的效果上,對(duì)比了"完整環(huán)境"、"缺失依賴"和"使用環(huán)境綁定"三種情況。缺失依賴時(shí),Qwen模型的成功率跌到33%到67%,Token消耗翻2到4倍;使用環(huán)境綁定后,三個(gè)測(cè)試模型的表現(xiàn)全部恢復(fù)到完整環(huán)境水平。

在能力檔案建立的成本上,對(duì)devstral-small模型做完整的26項(xiàng)原始能力測(cè)評(píng)需要7.3分鐘,費(fèi)用約0.033美元;對(duì)qwen3-30b需要31.1分鐘,費(fèi)用約0.079美元。這個(gè)一次性成本在后續(xù)大量技能包復(fù)用中會(huì)被快速攤薄。

**七、這套系統(tǒng)的邊界與未來(lái)**

研究團(tuán)隊(duì)也坦誠(chéng)地討論了SkVM的局限性和開(kāi)放性問(wèn)題。

自然語(yǔ)言天然帶有不確定性,技能包不是結(jié)構(gòu)嚴(yán)格的源代碼,編譯過(guò)程會(huì)引入一定的非確定性。不過(guò)研究團(tuán)隊(duì)認(rèn)為,AI模型本身對(duì)輸入變化有一定的容忍度,加上SkVM的回滾機(jī)制,這種非確定性在實(shí)踐中是可控的。

當(dāng)前的26種原始能力覆蓋了所分析的1.5萬(wàn)個(gè)技能包中95%的需求,但隨著技能包生態(tài)繼續(xù)擴(kuò)張,可能會(huì)出現(xiàn)當(dāng)前能力體系無(wú)法描述的新類型需求。研究團(tuán)隊(duì)已經(jīng)設(shè)計(jì)好了擴(kuò)展流程:當(dāng)某種需求在語(yǔ)料庫(kù)中出現(xiàn)頻率超過(guò)1%時(shí),才考慮新增一種原始能力,避免能力體系過(guò)度膨脹。

AOT編譯需要調(diào)用AI模型來(lái)分析和改寫技能包,會(huì)產(chǎn)生一定的Token費(fèi)用。不過(guò)因?yàn)槊總€(gè)技能包只需要編譯一次,編譯結(jié)果可以在所有用戶之間共享,平均到每次使用的邊際成本極低。

Q&A

Q1:SkVM的"原始能力"體系是如何建立起來(lái)的?

A:研究團(tuán)隊(duì)從1.5萬(wàn)多個(gè)技能包中先手工挑選50個(gè)有代表性的樣本,用AI輔助分析提煉出19種初始原始能力,再由研究人員逐一驗(yàn)證這些能力是否滿足"可組合性、通用性、語(yǔ)義獨(dú)立性"三條原則。然后用這19種能力去覆蓋全部1.5萬(wàn)個(gè)技能包,凡是覆蓋不了的情況,如果出現(xiàn)頻率超過(guò)1%就補(bǔ)充新能力。這個(gè)過(guò)程最終收斂到26種原始能力,能覆蓋95%技能包的需求。能力還被細(xì)分為不同熟練等級(jí),并通過(guò)微基準(zhǔn)測(cè)試在實(shí)際模型上驗(yàn)證等級(jí)劃分是否合理。

Q2:代碼固化失敗了怎么辦?

A:SkVM設(shè)計(jì)了兩層保護(hù)機(jī)制。第一層是"促進(jìn)門":在連續(xù)多次調(diào)用中,如果AI模型生成的代碼結(jié)構(gòu)和預(yù)測(cè)的特征簽名匹配不穩(wěn)定,系統(tǒng)就永遠(yuǎn)不觸發(fā)固化,繼續(xù)走AI推理路徑,天氣預(yù)報(bào)任務(wù)就是這種情況的真實(shí)案例。第二層是運(yùn)行時(shí)回退:即使固化已經(jīng)觸發(fā),如果固化后的代碼在某次執(zhí)行中導(dǎo)致任務(wù)失敗或拋出異常,SkVM會(huì)立刻重新啟用AI推理來(lái)完成這次任務(wù),保證正確性不受損失。

Q3:SkVM對(duì)頂級(jí)AI模型有用嗎,還是只對(duì)弱模型有價(jià)值?

A:對(duì)強(qiáng)弱模型都有價(jià)值,但收益?zhèn)戎夭煌?。?duì)能力較弱的模型,SkVM主要帶來(lái)任務(wù)完成率的顯著提升,因?yàn)槿跄P秃图寄馨笾g的差距更大,優(yōu)化空間更多。對(duì)頂級(jí)模型,任務(wù)完成率本來(lái)已經(jīng)很高,SkVM主要貢獻(xiàn)在于減少Token消耗和提升執(zhí)行速度——最強(qiáng)的DeepSeek V3.2模型在最簡(jiǎn)單的框架上,Token節(jié)省接近40%,這對(duì)于大規(guī)模使用來(lái)說(shuō)是相當(dāng)可觀的成本節(jié)約。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長(zhǎng)期吃降脂藥犯了5個(gè)錯(cuò)誤

50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長(zhǎng)期吃降脂藥犯了5個(gè)錯(cuò)誤

垚垚分享健康
2026-04-28 11:15:14
隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對(duì)陣出爐

隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對(duì)陣出爐

側(cè)身凌空斬
2026-04-28 05:28:25
中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

海洋知圈
2026-04-27 21:39:53
警惕經(jīng)濟(jì)的“無(wú)就業(yè)增長(zhǎng)”

警惕經(jīng)濟(jì)的“無(wú)就業(yè)增長(zhǎng)”

沈素明
2026-04-28 07:23:38
《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭(zhēng)議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭(zhēng)議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

魯中晨報(bào)
2026-04-28 09:53:07
伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

桂系007
2026-04-27 23:59:53
名記:杜蘭特或已打完火箭生涯最后一場(chǎng)球,下家是紐約和熱火

名記:杜蘭特或已打完火箭生涯最后一場(chǎng)球,下家是紐約和熱火

懂球帝
2026-04-28 09:32:05
戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

東方不敗然多多
2026-04-23 10:37:33
互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆??!

互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆啊!

BenSir本色說(shuō)
2026-04-15 22:38:07
放棄克洛普!皇馬換帥突生變數(shù),伯納烏或?qū)⒂瓉?lái)“自家人

放棄克洛普!皇馬換帥突生變數(shù),伯納烏或?qū)⒂瓉?lái)“自家人

奶蓋熊本熊
2026-04-29 00:05:53
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

動(dòng)物奇奇怪怪
2026-04-12 12:44:36
三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

佳佳說(shuō)奇事故事
2026-04-29 03:43:45
林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

臺(tái)州交通廣播
2026-04-28 13:46:36
鋰電池板塊業(yè)績(jī)炸裂,多家公司凈利漲超1000%,最高漲超2297%

鋰電池板塊業(yè)績(jī)炸裂,多家公司凈利漲超1000%,最高漲超2297%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-28 22:55:26
動(dòng)真格了,國(guó)安部出手,揪出鼓吹躺平的境外勢(shì)力,評(píng)論區(qū)意味深長(zhǎng)

動(dòng)真格了,國(guó)安部出手,揪出鼓吹躺平的境外勢(shì)力,評(píng)論區(qū)意味深長(zhǎng)

譚談社會(huì)
2026-04-28 15:10:51
7天第3艘,美軍開(kāi)始在印度洋獵殺伊朗油輪,目的地是中國(guó)舟山

7天第3艘,美軍開(kāi)始在印度洋獵殺伊朗油輪,目的地是中國(guó)舟山

矚望云霄
2026-04-28 13:04:41
廣東男籃主場(chǎng)17分負(fù)廣州,杜鋒難受,正義必勝!

廣東男籃主場(chǎng)17分負(fù)廣州,杜鋒難受,正義必勝!

二爺臺(tái)球解說(shuō)
2026-04-29 03:36:39
跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

馬拉松跑步健身
2026-04-26 21:41:40
2026-04-29 04:44:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

本地
時(shí)尚
教育
數(shù)碼
公開(kāi)課

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

教育要聞

教育部通知,今年9月份開(kāi)始,上學(xué)的規(guī)則全變了

數(shù)碼要聞

機(jī)械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開(kāi)啟預(yù)約

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版