網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

給AI智能體的"技能包"造一臺(tái)專屬編譯器，執(zhí)行效率最高提升50倍

2026-04-26 19:14:19　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由上海交通大學(xué)計(jì)算機(jī)科學(xué)團(tuán)隊(duì)主導(dǎo)的研究，以預(yù)印本形式發(fā)布于2026年4月，編號(hào)為arXiv:2604.03088v3，有興趣深入了解的讀者可通過(guò)該編號(hào)查閱完整論文。

假設(shè)你雇了一位助理，給他一本厚厚的工作手冊(cè)，告訴他"按照手冊(cè)里的步驟幫我完成任務(wù)"。如果這位助理是一名資深專家，他會(huì)一眼看懂手冊(cè)里的每個(gè)細(xì)節(jié)，流暢完成任務(wù)。但如果換成一位剛?cè)肼毜男氯?，同樣的手?cè)他可能看不懂某些專業(yè)指令，搞出一堆錯(cuò)誤。更麻煩的是，手冊(cè)里某些步驟需要用到特定工具，但辦公室里根本沒(méi)有這些工具，新人就只能在那里干著急，浪費(fèi)大量時(shí)間瞎折騰。

這就是當(dāng)前AI智能體使用"技能包"時(shí)每天都在發(fā)生的真實(shí)困境。上海交通大學(xué)的研究團(tuán)隊(duì)在分析了超過(guò)11.8萬(wàn)個(gè)技能包之后，發(fā)現(xiàn)這個(gè)問(wèn)題嚴(yán)重到令人咋舌——他們因此設(shè)計(jì)了一套叫做SkVM的系統(tǒng)，專門充當(dāng)技能包和AI模型之間的"翻譯+調(diào)度員"，讓任何能力水平的AI模型都能正確、高效地執(zhí)行技能包中的指令。

**一、"技能包"是什么，為什么AI現(xiàn)在離不開(kāi)它**

要理解這項(xiàng)研究，得先搞清楚"技能包"是什么東西?，F(xiàn)代AI智能體的工作方式很像一個(gè)不斷思考、不斷行動(dòng)的工人：收到任務(wù)之后，它會(huì)反復(fù)推理、調(diào)用工具、觀察結(jié)果，再繼續(xù)推理，直到任務(wù)完成。這個(gè)循環(huán)被稱為"ReAct循環(huán)"，類似于人類在解決問(wèn)題時(shí)"想一想、做一做、看結(jié)果、再想想"的過(guò)程。

技能包的出現(xiàn)，就是為了給這個(gè)工人額外塞一本"領(lǐng)域?qū)俨僮魇謨?cè)"。一個(gè)技能包通常由三部分組成：第一部分是"名片"，記錄這個(gè)技能包叫什么名字、適用于什么場(chǎng)景；第二部分是"正文"，用自然語(yǔ)言描述具體的操作步驟、工具用法和注意事項(xiàng)；第三部分是"附件"，包含腳本、模板和代碼片段。

舉個(gè)具體例子：有一個(gè)專門處理PDF文件的技能包，它會(huì)教AI如何使用pdfplumber這個(gè)庫(kù)來(lái)提取表格，同時(shí)還會(huì)提醒AI合并PDF文件時(shí)要用pypdf而不是已經(jīng)過(guò)時(shí)的PyPDF2。這類技能包相當(dāng)于把領(lǐng)域?qū)＜业慕?jīng)驗(yàn)直接打包塞進(jìn)AI的"腦袋"，讓它不需要自己摸索就能用正確的方式完成任務(wù)。

目前，兩個(gè)主要的技能包分發(fā)平臺(tái)——clawhub.ai和skills.sh——合計(jì)上架了超過(guò)11.8萬(wàn)個(gè)技能包，覆蓋數(shù)據(jù)分析、金融、辦公自動(dòng)化、編程開(kāi)發(fā)等幾乎所有常見(jiàn)工作場(chǎng)景。然而，這些技能包絕大多數(shù)都只是一份Markdown格式的純文本文件，直接丟給AI去讀。這種"把手冊(cè)往桌上一扔"的做法，帶來(lái)了嚴(yán)重的問(wèn)題。

**二、同一本手冊(cè)，不同的人讀出了完全不同的結(jié)果**

研究團(tuán)隊(duì)對(duì)八個(gè)不同能力水平的AI模型做了測(cè)試，結(jié)果觸目驚心。啟用技能包之后，有15%的任務(wù)得分反而下降了——也就是說(shuō)，給AI看了手冊(cè)，它做得反而更差。另有17%的任務(wù)得分毫無(wú)變化（排除那些本來(lái)就能100%完成的任務(wù)）。更令人沮喪的是，在87%的任務(wù)上，至少有一個(gè)AI模型在使用技能包后沒(méi)有任何改善。

這背后有三種典型的失敗模式，研究團(tuán)隊(duì)把它們分別稱為"模型失配"、"執(zhí)行環(huán)境失配"和"運(yùn)行環(huán)境失配"。

模型失配是最直觀的問(wèn)題。不同AI模型的能力差異極大，技能包的寫法往往默認(rèn)讀者是"高水平"模型。研究團(tuán)隊(duì)記錄了一個(gè)生動(dòng)的案例：有一個(gè)用于生成PowerPoint演示文稿的技能包，推薦使用一個(gè)叫PptxGenJS的JavaScript庫(kù)。Claude Opus 4.6和Gemini 3 Flash這兩個(gè)頂級(jí)模型都能正確理解這是一個(gè)編程庫(kù)，拿到滿分100分。但Devstral Small這個(gè)較弱的模型卻把PptxGenJS誤認(rèn)為是命令行工具，反復(fù)執(zhí)行錯(cuò)誤的命令，最終失敗。如果不加載這個(gè)技能包，Devstral Small反而會(huì)自己選擇熟悉的python-pptx庫(kù)，得到95分。

執(zhí)行環(huán)境失配則更加隱蔽。同一個(gè)AI模型、同一個(gè)技能包、同一個(gè)任務(wù)，但換了一個(gè)不同的"執(zhí)行框架"（也就是給AI提供工具和運(yùn)行環(huán)境的軟件），結(jié)果可能天差地別。Gemini 3 Flash在BareAgent這個(gè)簡(jiǎn)單框架里用原始技能包完成工作日排班任務(wù)得了滿分，但換到OpenCode框架里得了0分。失敗原因是OpenCode框架會(huì)在對(duì)話開(kāi)頭塞入大量工具說(shuō)明文檔，讓整個(gè)上下文變得很長(zhǎng)，最終導(dǎo)致AI輸出了格式錯(cuò)誤的JSON，無(wú)法被解析。

運(yùn)行環(huán)境失配是最實(shí)際的痛點(diǎn)。技能包里寫著"需要用到某某庫(kù)"，但用戶的機(jī)器上根本沒(méi)裝。研究團(tuán)隊(duì)測(cè)試發(fā)現(xiàn)，當(dāng)必要的庫(kù)缺失時(shí)，兩個(gè)Qwen模型的成功率直接跌到33%至67%，同時(shí)還會(huì)產(chǎn)生2到4倍多余的輸出——因?yàn)槟Ｐ驮诓煌L試各種變通方案。就連最強(qiáng)的Claude Opus 4.6，雖然最終能自己診斷并安裝缺失的庫(kù)，但也因此多消耗了56%到69%的輸出內(nèi)容。每一個(gè)缺失的依賴，都是一筆重復(fù)繳納的"智力稅"。

**三、編譯器的思路：把自然語(yǔ)言技能包當(dāng)成代碼來(lái)對(duì)待**

面對(duì)這三種失配問(wèn)題，研究團(tuán)隊(duì)的靈感來(lái)自計(jì)算機(jī)發(fā)展史上的一個(gè)經(jīng)典解決方案：編譯器。

回顧計(jì)算機(jī)的演進(jìn)歷程，早期程序員要直接用機(jī)器能懂的匯編語(yǔ)言寫代碼，費(fèi)時(shí)費(fèi)力還容易出錯(cuò)。后來(lái)出現(xiàn)了C語(yǔ)言這樣的高級(jí)編程語(yǔ)言，程序員用更接近人類思維的方式寫代碼，再由編譯器自動(dòng)翻譯成機(jī)器能執(zhí)行的指令。Java虛擬機(jī)（JVM）則更進(jìn)一步，讓同一份Java代碼能在任何操作系統(tǒng)上運(yùn)行，實(shí)現(xiàn)了"一次編寫，到處運(yùn)行"。

研究團(tuán)隊(duì)注意到，在AI智能體時(shí)代，技能包就是"代碼"，而AI模型就是"處理器"。不同的AI模型就像不同的CPU架構(gòu)，同樣的指令在不同的處理器上執(zhí)行效果完全不同?，F(xiàn)有系統(tǒng)對(duì)技能包的處理方式，相當(dāng)于直接把匯編代碼扔給處理器，完全沒(méi)有編譯和優(yōu)化這個(gè)環(huán)節(jié)。

于是，研究團(tuán)隊(duì)設(shè)計(jì)了SkVM——一個(gè)專門為技能包服務(wù)的編譯和運(yùn)行時(shí)系統(tǒng)。這個(gè)系統(tǒng)借鑒了傳統(tǒng)編譯技術(shù)中的兩個(gè)核心概念：提前編譯（AOT，即在使用之前就完成編譯和優(yōu)化）和即時(shí)編譯（JIT，即在運(yùn)行過(guò)程中動(dòng)態(tài)優(yōu)化）。

**四、提前編譯：裝好技能包就把活兒做到位**

SkVM的提前編譯器在用戶安裝技能包時(shí)自動(dòng)運(yùn)行，它會(huì)針對(duì)當(dāng)前的AI模型和執(zhí)行框架，對(duì)技能包進(jìn)行三輪優(yōu)化處理。

第一輪處理叫"基于能力的編譯"，專門解決模型失配問(wèn)題。這一步的核心在于一套精心設(shè)計(jì)的"原始能力"體系。研究團(tuán)隊(duì)從1.5萬(wàn)多個(gè)技能包中提煉出26種"原始能力"，分屬四大類別。每種原始能力還細(xì)分為不同的熟練程度等級(jí)，等級(jí)越高代表要求越復(fù)雜。

舉個(gè)例子，"執(zhí)行命令行工具"這個(gè)能力被分為三個(gè)等級(jí)：第一級(jí)是能執(zhí)行基礎(chǔ)命令（比如ls、cat這類簡(jiǎn)單指令）；第二級(jí)是能處理帶參數(shù)和相對(duì)路徑的命令；第三級(jí)是能寫出用管道、重定向、循環(huán)連接起來(lái)的復(fù)雜命令鏈。編譯器會(huì)用一系列小測(cè)試（類似于駕照考試的科目考核）來(lái)測(cè)量每個(gè)AI模型在每種能力上的等級(jí)，結(jié)果保存下來(lái)供所有技能包復(fù)用，不需要重復(fù)測(cè)量。

有了模型的能力檔案，編譯器就能找到技能包要求和模型實(shí)際水平之間的差距，然后選擇相應(yīng)的優(yōu)化策略。差距較小時(shí)，編譯器采用"補(bǔ)償"策略：在技能包里添加更明確的說(shuō)明、示例或約束，把任務(wù)難度降下來(lái)，填平這個(gè)差距，同時(shí)保留技能包的原始意圖。差距太大、補(bǔ)償無(wú)法解決時(shí)，編譯器采用"替換"策略：換一條能達(dá)到相同目標(biāo)但用不同能力實(shí)現(xiàn)的路徑。比如技能包要求用Python的pandas庫(kù)做數(shù)據(jù)分析，但模型Python能力不夠，編譯器可以改成用SQL來(lái)實(shí)現(xiàn)同樣的數(shù)據(jù)分析，前提是模型的SQL能力足夠。

以前面提到的PowerPoint生成技能包為例，編譯器發(fā)現(xiàn)這個(gè)技能包需要"處理相對(duì)文件路徑"這個(gè)能力，但目標(biāo)模型只掌握了第一級(jí)，還不能處理相對(duì)路徑。編譯器考慮過(guò)把PptxGenJS替換成其他方案，但差距只有一級(jí)，補(bǔ)償策略就夠了。編譯器直接在技能包里加入一條指令：把所有相對(duì)路徑替換為技能包所在目錄的絕對(duì)路徑。問(wèn)題解決，成本極低。

第二輪處理叫"環(huán)境綁定"，專門解決運(yùn)行環(huán)境失配問(wèn)題。編譯器從技能包里提取出所有依賴項(xiàng)的清單——包括需要哪些第三方庫(kù)、命令行工具和系統(tǒng)服務(wù)——然后檢查當(dāng)前機(jī)器上是否都已安裝。對(duì)于缺失的依賴，編譯器會(huì)生成一個(gè)"環(huán)境綁定腳本"，在每次執(zhí)行技能包之前自動(dòng)運(yùn)行，確保所有工具都就位。這就把"邊執(zhí)行邊裝工具"變成了"先把工具準(zhǔn)備好再開(kāi)干"，AI模型不再需要花時(shí)間處理這些和核心任務(wù)無(wú)關(guān)的雜事。

第三輪處理叫"并發(fā)提取"，目標(biāo)是挖掘技能包里隱藏的并行執(zhí)行機(jī)會(huì)。研究發(fā)現(xiàn)，76%的技能包包含明確的步驟式流程，但這些步驟是按順序?qū)懴聛?lái)的，并不代表每個(gè)步驟都必須等前一個(gè)完成才能開(kāi)始。就像做飯時(shí)，等水燒開(kāi)的同時(shí)可以切菜，不必傻等著。

編譯器會(huì)把技能包里的步驟分解成一張"依賴關(guān)系圖"：哪個(gè)步驟需要哪個(gè)步驟的輸出結(jié)果，哪些步驟互相獨(dú)立。然后根據(jù)依賴關(guān)系圖，提取出三種層級(jí)的并行機(jī)會(huì)。數(shù)據(jù)級(jí)并行是指同一個(gè)操作要對(duì)大量獨(dú)立數(shù)據(jù)重復(fù)執(zhí)行，比如對(duì)15個(gè)CSV文件分別做同樣的分析，編譯器會(huì)改寫這個(gè)步驟，讓它們同時(shí)進(jìn)行。指令級(jí)并行是指多個(gè)獨(dú)立的步驟可以同時(shí)發(fā)出工具調(diào)用請(qǐng)求，比如同時(shí)運(yùn)行八個(gè)互不依賴的代碼分析腳本，編譯器會(huì)把這些請(qǐng)求打包成一次批量調(diào)用。線程級(jí)并行是指任務(wù)能分解成幾個(gè)完全獨(dú)立的子任務(wù)，每個(gè)子任務(wù)都需要多輪思考和操作，比如同時(shí)調(diào)試三個(gè)互相獨(dú)立的系統(tǒng)服務(wù)，編譯器會(huì)把每個(gè)子任務(wù)都標(biāo)注成獨(dú)立的"子智能體任務(wù)"，讓執(zhí)行框架并行啟動(dòng)多個(gè)智能體來(lái)處理。

**五、即時(shí)編譯：在實(shí)戰(zhàn)中越用越聰明**

提前編譯只能解決安裝時(shí)就能發(fā)現(xiàn)的問(wèn)題，但有些問(wèn)題只有在真正執(zhí)行時(shí)才會(huì)暴露出來(lái)。SkVM的即時(shí)編譯器負(fù)責(zé)處理這些運(yùn)行時(shí)才出現(xiàn)的情況。

第一個(gè)機(jī)制叫"自適應(yīng)重編譯"。系統(tǒng)會(huì)追蹤每一次任務(wù)執(zhí)行的結(jié)果。當(dāng)某個(gè)技能包在多次執(zhí)行中反復(fù)出現(xiàn)失敗或需要重試的情況時(shí)，系統(tǒng)會(huì)分析這些失敗是偶然的任務(wù)特定問(wèn)題，還是技能包本身存在系統(tǒng)性的能力缺口。只有確認(rèn)是后者，才會(huì)觸發(fā)重編譯：把這些失敗日志和模型自己嘗試糾錯(cuò)的記錄一起喂給編譯器，讓編譯器找出根本原因并打上補(bǔ)丁。如果重編譯后效果反而變差，系統(tǒng)會(huì)回滾到之前的版本，保證技能包的穩(wěn)定性。每次重編譯都從迄今為止表現(xiàn)最好的版本出發(fā)，確保優(yōu)化方向是向前走的。

第二個(gè)機(jī)制叫"代碼固化"，這是一個(gè)非常有意思的優(yōu)化。研究團(tuán)隊(duì)發(fā)現(xiàn)，75%的技能包里都包含"結(jié)構(gòu)固定、只有輸入?yún)?shù)變化"的代碼片段。比如PDF合并的代碼，每次都是同樣的框架，只有要合并哪幾個(gè)文件這個(gè)參數(shù)會(huì)變。正常情況下，每次執(zhí)行這段邏輯，AI模型都要重新"想一遍"——推理、決策、生成代碼——這既耗時(shí)又浪費(fèi)資源。

代碼固化分三個(gè)階段完成。提前編譯階段，編譯器分析技能包里的代碼片段，識(shí)別出哪些有固化潛力，為每個(gè)候選片段生成四樣?xùn)|西：關(guān)鍵詞（用來(lái)判斷當(dāng)前任務(wù)是否和這段代碼相關(guān)）、代碼特征簽名（描述這段代碼應(yīng)該長(zhǎng)什么樣）、帶參數(shù)槽的代碼模板，以及參數(shù)提取規(guī)則。運(yùn)行階段，系統(tǒng)監(jiān)控AI模型實(shí)際生成的代碼，檢查是否和預(yù)測(cè)的特征簽名匹配。只有在連續(xù)多次調(diào)用中都成功匹配之后，才會(huì)觸發(fā)固化，確保這個(gè)代碼結(jié)構(gòu)確實(shí)是穩(wěn)定可靠的。固化完成之后，后續(xù)調(diào)用完全繞開(kāi)AI推理，系統(tǒng)直接從任務(wù)上下文中提取參數(shù)，套入模板，生成代碼并執(zhí)行，速度大幅提升。

有一個(gè)細(xì)節(jié)很重要：如果在監(jiān)控階段發(fā)現(xiàn)AI模型每次生成的代碼結(jié)構(gòu)不穩(wěn)定、和預(yù)測(cè)的特征簽名對(duì)不上，系統(tǒng)就永遠(yuǎn)不會(huì)觸發(fā)固化，老老實(shí)實(shí)繼續(xù)走AI推理的路子。這是一個(gè)安全閥，防止錯(cuò)誤的固化損害任務(wù)結(jié)果。研究團(tuán)隊(duì)用一個(gè)天氣查詢技能包的案例驗(yàn)證了這個(gè)安全閥的有效性：處理當(dāng)前天氣的代碼結(jié)構(gòu)穩(wěn)定，成功固化；處理天氣預(yù)報(bào)的代碼因?yàn)楦袷奖容^靈活，結(jié)構(gòu)不穩(wěn)定，系統(tǒng)正確地識(shí)別出來(lái)并放棄固化，所有八次調(diào)用都繼續(xù)走AI推理路徑。

此外，SkVM還有一個(gè)"資源感知調(diào)度器"，負(fù)責(zé)把編譯時(shí)提取出的并行計(jì)劃與運(yùn)行時(shí)的實(shí)際資源狀況結(jié)合起來(lái)。并行執(zhí)行多個(gè)子任務(wù)聽(tīng)起來(lái)很美，但現(xiàn)實(shí)中API調(diào)用有速率限制，機(jī)器內(nèi)存有上限，多個(gè)子任務(wù)同時(shí)跑可能反而互相阻塞。調(diào)度器會(huì)實(shí)時(shí)監(jiān)控API響應(yīng)延遲、HTTP 429錯(cuò)誤（速率限制信號(hào)）、CPU和內(nèi)存使用率。當(dāng)壓力超過(guò)閾值時(shí)，調(diào)度器會(huì)暫停啟動(dòng)新的子任務(wù)，或者選擇性地把一部分正在運(yùn)行的子任務(wù)掛起，減少競(jìng)爭(zhēng)。每次執(zhí)行結(jié)束后，調(diào)度器還會(huì)記錄這次實(shí)際有效的并發(fā)度，作為下次執(zhí)行的參考基準(zhǔn)。

**六、實(shí)驗(yàn)結(jié)果：數(shù)字說(shuō)話**

研究團(tuán)隊(duì)在八個(gè)不同能力等級(jí)的AI模型（橫跨頂級(jí)、中級(jí)、小型三檔）和三種不同的執(zhí)行框架上做了全面測(cè)試，覆蓋118個(gè)任務(wù)，每個(gè)任務(wù)產(chǎn)生5個(gè)不同輸入實(shí)例。

在任務(wù)完成率上，SkVM優(yōu)化后的技能包在所有模型和執(zhí)行框架組合上都達(dá)到了最高得分。與原始技能包相比，SkVM平均提升任務(wù)完成率15.3%。能力較弱的模型受益最大，因?yàn)樗鼈兊哪芰图寄馨笾g的差距最大，優(yōu)化空間也最大。SkVM優(yōu)化后出現(xiàn)得分下降的任務(wù)比例只有4.5%，而原始技能包導(dǎo)致得分下降的比例是15%，減少了三分之二以上。

在不同執(zhí)行框架之間的一致性上，使用原始技能包時(shí)，兩個(gè)不同框架之間的得分差距最高達(dá)13分；SkVM優(yōu)化后，這個(gè)差距縮小到最多5分，跨框架的表現(xiàn)更加穩(wěn)定。

在與專業(yè)競(jìng)品的對(duì)比上，Anthropic公司有一個(gè)叫Skill-Creator的技能優(yōu)化工具，同樣使用頂級(jí)的Claude Opus 4.6模型來(lái)優(yōu)化技能包。與這個(gè)工具相比，SkVM在較弱模型上的優(yōu)勢(shì)尤為明顯：在BareAgent框架上，SkVM比Skill-Creator在Qwen3-30B模型上高出25分，在Devstral Small模型上高出10分。

在逐階段的細(xì)分分析中，研究團(tuán)隊(duì)選取了14類技能、Qwen3-30B模型和BareAgent框架，記錄了從"不用技能包"到"用原始技能包"到"AOT編譯后"再到"三輪JIT優(yōu)化后"的得分變化。結(jié)論是：14類任務(wù)中有11類，原始技能包的表現(xiàn)還不如不用技能包；AOT編譯后，平均得分提升了88%；經(jīng)過(guò)三輪JIT優(yōu)化，14類中有10類達(dá)到滿分。這個(gè)數(shù)字直觀地展示了編譯優(yōu)化對(duì)任務(wù)完成率的巨大影響。

在執(zhí)行效率上，代碼固化的效果最為驚艷。對(duì)于PDF文本提取任務(wù)，原始執(zhí)行時(shí)間是10,469到15,116毫秒；固化后降到206到568毫秒，實(shí)現(xiàn)了19到50倍的速度提升。并行化提取最高實(shí)現(xiàn)了3.2倍的端到端加速。在Token消耗上，對(duì)于最強(qiáng)模型加最弱框架的組合（DeepSeek V3.2加BareAgent），SkVM減少了接近40%的Token消耗。

在環(huán)境綁定的效果上，對(duì)比了"完整環(huán)境"、"缺失依賴"和"使用環(huán)境綁定"三種情況。缺失依賴時(shí)，Qwen模型的成功率跌到33%到67%，Token消耗翻2到4倍；使用環(huán)境綁定后，三個(gè)測(cè)試模型的表現(xiàn)全部恢復(fù)到完整環(huán)境水平。

在能力檔案建立的成本上，對(duì)devstral-small模型做完整的26項(xiàng)原始能力測(cè)評(píng)需要7.3分鐘，費(fèi)用約0.033美元；對(duì)qwen3-30b需要31.1分鐘，費(fèi)用約0.079美元。這個(gè)一次性成本在后續(xù)大量技能包復(fù)用中會(huì)被快速攤薄。

**七、這套系統(tǒng)的邊界與未來(lái)**

研究團(tuán)隊(duì)也坦誠(chéng)地討論了SkVM的局限性和開(kāi)放性問(wèn)題。

自然語(yǔ)言天然帶有不確定性，技能包不是結(jié)構(gòu)嚴(yán)格的源代碼，編譯過(guò)程會(huì)引入一定的非確定性。不過(guò)研究團(tuán)隊(duì)認(rèn)為，AI模型本身對(duì)輸入變化有一定的容忍度，加上SkVM的回滾機(jī)制，這種非確定性在實(shí)踐中是可控的。

當(dāng)前的26種原始能力覆蓋了所分析的1.5萬(wàn)個(gè)技能包中95%的需求，但隨著技能包生態(tài)繼續(xù)擴(kuò)張，可能會(huì)出現(xiàn)當(dāng)前能力體系無(wú)法描述的新類型需求。研究團(tuán)隊(duì)已經(jīng)設(shè)計(jì)好了擴(kuò)展流程：當(dāng)某種需求在語(yǔ)料庫(kù)中出現(xiàn)頻率超過(guò)1%時(shí)，才考慮新增一種原始能力，避免能力體系過(guò)度膨脹。

AOT編譯需要調(diào)用AI模型來(lái)分析和改寫技能包，會(huì)產(chǎn)生一定的Token費(fèi)用。不過(guò)因?yàn)槊總€(gè)技能包只需要編譯一次，編譯結(jié)果可以在所有用戶之間共享，平均到每次使用的邊際成本極低。

Q&A

Q1：SkVM的"原始能力"體系是如何建立起來(lái)的？

A：研究團(tuán)隊(duì)從1.5萬(wàn)多個(gè)技能包中先手工挑選50個(gè)有代表性的樣本，用AI輔助分析提煉出19種初始原始能力，再由研究人員逐一驗(yàn)證這些能力是否滿足"可組合性、通用性、語(yǔ)義獨(dú)立性"三條原則。然后用這19種能力去覆蓋全部1.5萬(wàn)個(gè)技能包，凡是覆蓋不了的情況，如果出現(xiàn)頻率超過(guò)1%就補(bǔ)充新能力。這個(gè)過(guò)程最終收斂到26種原始能力，能覆蓋95%技能包的需求。能力還被細(xì)分為不同熟練等級(jí)，并通過(guò)微基準(zhǔn)測(cè)試在實(shí)際模型上驗(yàn)證等級(jí)劃分是否合理。

Q2：代碼固化失敗了怎么辦？

A：SkVM設(shè)計(jì)了兩層保護(hù)機(jī)制。第一層是"促進(jìn)門"：在連續(xù)多次調(diào)用中，如果AI模型生成的代碼結(jié)構(gòu)和預(yù)測(cè)的特征簽名匹配不穩(wěn)定，系統(tǒng)就永遠(yuǎn)不觸發(fā)固化，繼續(xù)走AI推理路徑，天氣預(yù)報(bào)任務(wù)就是這種情況的真實(shí)案例。第二層是運(yùn)行時(shí)回退：即使固化已經(jīng)觸發(fā)，如果固化后的代碼在某次執(zhí)行中導(dǎo)致任務(wù)失敗或拋出異常，SkVM會(huì)立刻重新啟用AI推理來(lái)完成這次任務(wù)，保證正確性不受損失。

Q3：SkVM對(duì)頂級(jí)AI模型有用嗎，還是只對(duì)弱模型有價(jià)值？

A：對(duì)強(qiáng)弱模型都有價(jià)值，但收益?zhèn)戎夭煌?。?duì)能力較弱的模型，SkVM主要帶來(lái)任務(wù)完成率的顯著提升，因?yàn)槿跄Ｐ秃图寄馨笾g的差距更大，優(yōu)化空間更多。對(duì)頂級(jí)模型，任務(wù)完成率本來(lái)已經(jīng)很高，SkVM主要貢獻(xiàn)在于減少Token消耗和提升執(zhí)行速度——最強(qiáng)的DeepSeek V3.2模型在最簡(jiǎn)單的框架上，Token節(jié)省接近40%，這對(duì)于大規(guī)模使用來(lái)說(shuō)是相當(dāng)可觀的成本節(jié)約。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.