国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

研究發(fā)現(xiàn):AI 智能體無法自學(xué)新技能,只有人類才能教會(huì)它們技能

0
分享至

據(jù)《The Register》報(bào)道,授人以魚不如授人以漁,對 AI 智能體而言也是同理:教會(huì)它如何搜集信息,它就能自己持續(xù)獲取數(shù)據(jù);但如果讓它完全自主摸索,結(jié)果往往只會(huì)更糟。

AI 智能體是一類機(jī)器學(xué)習(xí)模型(例如 Claude Opus 4.6),它們可通過 CLI 控制層(例如 Claude Code)調(diào)用其他軟件,并以迭代循環(huán)的方式運(yùn)行。這類智能體可被指派處理各類任務(wù),其中一些可能并不在其訓(xùn)練數(shù)據(jù)覆蓋范圍內(nèi)。

當(dāng)缺乏相應(yīng)訓(xùn)練時(shí),我們可以為智能體賦予新的“技能”——這些技能本質(zhì)上是補(bǔ)充的參考資料,用于讓智能體具備特定領(lǐng)域的能力。此處所說的“技能”,包括指令、元數(shù)據(jù),以及智能體加載用于獲取程序性知識的腳本、模板等其他資源。



例如,我們可以通過一項(xiàng)技能指導(dǎo) AI 智能體如何處理 PDF 文件,這項(xiàng)技能包含 Markdown 文本、代碼、依賴庫以及相關(guān) API 參考資料。盡管智能體從訓(xùn)練數(shù)據(jù)中可能已掌握一定處理方法,但只有在更具體的指導(dǎo)下,它的表現(xiàn)才會(huì)更出色。

但近期一項(xiàng)名為《SkillsBench:基準(zhǔn)測試智能體技能在多任務(wù)中的表現(xiàn)效果》的研究表明:要求智能體自主生成這類技能,結(jié)果往往令人失望。人工智能中的“智能”成分,在一定程度上被夸大了(The "intelligence" part of artificial intelligence is somewhat overstated)。

至少對于大語言模型(LLM)在推理階段而言確實(shí)如此——也就是訓(xùn)練完成后的實(shí)際使用階段,而非訓(xùn)練過程本身。



全新標(biāo)桿

某些機(jī)器學(xué)習(xí)形式(如深度學(xué)習(xí))的應(yīng)用方式,可使神經(jīng)網(wǎng)絡(luò)模型在電子游戲等特定領(lǐng)域任務(wù)中不斷提升性能。

AI 智能體呈現(xiàn)爆發(fā)式增長——例如 Anthropic 的 Claude Code、谷歌的 Gemini CLI、OpenAI 的 Codex CLI,這推動(dòng)了用于增強(qiáng)智能體能力的各類技能快速發(fā)展,技能庫如雨后春筍般不斷涌現(xiàn)。

而鑒于 OpenClaw 智能體已在 Moltbook 自動(dòng)化社區(qū)網(wǎng)絡(luò)中實(shí)現(xiàn)相互學(xué)習(xí),如今早已到了該評估它們學(xué)習(xí)效果究竟如何的時(shí)候(And given how OpenClaw agents have been teaching each other in the Moltbook automated community network, it seems well past time to figure out how good a job they do at it)。



迄今為止,尚無統(tǒng)一方法來檢驗(yàn)這些技能是否能兌現(xiàn)其承諾。為此,一支由40名計(jì)算機(jī)科學(xué)家組成的團(tuán)隊(duì)著手開發(fā)了一套基準(zhǔn)測試,用以評估智能體技能在推理過程中如何提升性能。

該團(tuán)隊(duì)成員來自亞馬遜、BenchFlow、字節(jié)跳動(dòng)、富士康、Zennity等企業(yè),以及卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校、牛津大學(xué)等多所高校。

這項(xiàng)研究由智能體評測初創(chuàng)公司BenchFlow的創(chuàng)始人李祥一(音譯)牽頭,研究團(tuán)隊(duì)開發(fā)了名為SkillsBench的測試,并在上述預(yù)印本論文中闡述了相關(guān)研究成果。



研究人員針對7種智能體模型配置、84項(xiàng)任務(wù)、共7308條執(zhí)行軌跡展開了分析——每條軌跡代表一個(gè)智能體在特定技能條件下嘗試解決單個(gè)任務(wù)的過程。

團(tuán)隊(duì)測試了三種條件:無技能、人工精選技能和自主生成技能(Three conditions were tested: no skills, curated skills, and self-generated skills)。

使用人工設(shè)計(jì)的精選技能的智能體,其任務(wù)完成率平均比無技能智能體高出16.2%,不過數(shù)據(jù)波動(dòng)較大(The agents using curated skills – designed by people – completed tasks 16.2 percent more frequently than no-skill agents on average, though with high variance)。



研究中列舉了一個(gè)洪水風(fēng)險(xiǎn)分析任務(wù)的例子:不具備技能的智能體未采用合適的統(tǒng)計(jì)方法,通過率僅為2.9%;

而在配備精選技能后——即指導(dǎo)智能體使用皮爾遜Ⅲ型概率分布、遵循美國地質(zhì)調(diào)查局標(biāo)準(zhǔn)方法,并明確調(diào)用SciPy函數(shù)與參數(shù)解讀等細(xì)節(jié)——其任務(wù)通過率提升至80%。

從具體知識領(lǐng)域來看,醫(yī)療健康領(lǐng)域(提升51.9個(gè)百分點(diǎn))和制造業(yè)領(lǐng)域(提升41.9個(gè)百分點(diǎn))的人工定制技能對AI智能體幫助最大,而數(shù)學(xué)(提升6.0個(gè)百分點(diǎn))和軟件工程(提升4.5個(gè)百分點(diǎn))相關(guān)技能帶來的提升較小。



研究作者解釋道,這是因?yàn)樾枰獙I(yè)知識的領(lǐng)域在訓(xùn)練數(shù)據(jù)中占比通常偏低,因此由人類為這些領(lǐng)域的智能體補(bǔ)充技能是合理有效的。

并且在補(bǔ)充技能時(shí),少即是多:只包含少量(2–3個(gè))模塊的技能,效果遠(yuǎn)優(yōu)于大量數(shù)據(jù)堆砌(And when doing so, less is more – skills with only a few (2-3) modules performed better than massive data dumps)。

這一點(diǎn)同樣適用于模型規(guī)模——經(jīng)過人工整理的技能能讓小模型在任務(wù)完成率上越級表現(xiàn)(That applies to model scale too – curated skills help smaller models punch above their weight class in terms of task completion)。



配備技能的 Anthropic Claude Haiku 4.5 模型(27.7%)表現(xiàn)優(yōu)于無技能的 Haiku 4.5(11%),也優(yōu)于無技能的 Claude Opus 4.5(22%)。

當(dāng)研究人員讓智能體自學(xué)技能時(shí),要求它們:

- 分析任務(wù)需求、領(lǐng)域知識和所需API;

- 編寫 1–5 個(gè)模塊化技能文檔來解決任務(wù);

- 將每個(gè)技能保存為 Markdown 文件;

- 再利用生成的參考資料完成任務(wù)。



結(jié)果是:嘗試自學(xué)的智能體,表現(xiàn)反而比完全不嘗試自學(xué)的更差(Agents that tried this did worse than if they hadn't tried at all)。

至少就目前而言,人工智能革命無法完全自動(dòng)化——機(jī)器仍需要人類導(dǎo)師為其指引正確方向。

聲明:取材網(wǎng)絡(luò),謹(jǐn)慎辨別

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國地圖軟件在外網(wǎng)火了!紅綠燈倒計(jì)時(shí)、林蔭路段顯示驚到老外

中國地圖軟件在外網(wǎng)火了!紅綠燈倒計(jì)時(shí)、林蔭路段顯示驚到老外

快科技
2026-02-27 21:58:15
大量外國人涌入中國!在中國待幾天后破防:原來中國人這么幸福

大量外國人涌入中國!在中國待幾天后破防:原來中國人這么幸福

鯨探所長
2026-02-27 17:39:51
美軍上尉回憶:志愿軍沖入陣地后,拿刺刀捅死看到的每一個(gè)美國兵

美軍上尉回憶:志愿軍沖入陣地后,拿刺刀捅死看到的每一個(gè)美國兵

阿器談史
2026-02-26 17:42:09
毛澤東時(shí)代經(jīng)濟(jì)是崩潰的?從對越反擊戰(zhàn)的軍費(fèi)支出,便可揭曉一切

毛澤東時(shí)代經(jīng)濟(jì)是崩潰的?從對越反擊戰(zhàn)的軍費(fèi)支出,便可揭曉一切

文史季季紅
2026-02-25 08:15:03
德國總理默茨,吃上了西湖醋魚

德國總理默茨,吃上了西湖醋魚

小影的娛樂
2026-02-27 17:28:23
歐冠16強(qiáng)抽簽前致命打擊!巴薩絕對主力報(bào)銷,歐冠淘汰賽懸了

歐冠16強(qiáng)抽簽前致命打擊!巴薩絕對主力報(bào)銷,歐冠淘汰賽懸了

夜白侃球
2026-02-27 14:18:01
一家子全是美籍,卻還在國內(nèi)“撈金”,年賺4億,賬上還存有130億

一家子全是美籍,卻還在國內(nèi)“撈金”,年賺4億,賬上還存有130億

云景侃記
2026-02-26 23:05:22
“高鐵小少爺”事件,讓普通家長看清真相,學(xué)歷和認(rèn)知都有壁的

“高鐵小少爺”事件,讓普通家長看清真相,學(xué)歷和認(rèn)知都有壁的

澤澤先生
2026-02-24 21:02:57
A股電力三大牛股集體漲停,鎢價(jià)大漲引爆概念股,章源鎢業(yè)7天5板,港股智譜深V反彈

A股電力三大牛股集體漲停,鎢價(jià)大漲引爆概念股,章源鎢業(yè)7天5板,港股智譜深V反彈

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-02-27 12:16:14
A股:今天漲到4162,做好準(zhǔn)備,下周一股市行情分析!

A股:今天漲到4162,做好準(zhǔn)備,下周一股市行情分析!

明心
2026-02-27 15:20:42
終于談妥,莫迪離開耶路撒冷,登機(jī)前通告全球,伊朗新的強(qiáng)敵出現(xiàn)

終于談妥,莫迪離開耶路撒冷,登機(jī)前通告全球,伊朗新的強(qiáng)敵出現(xiàn)

肖茲探秘說
2026-02-27 14:14:28
Nature重磅發(fā)現(xiàn):超級老人的大腦在大量新生神經(jīng)元,這讓他們80歲以上時(shí)仍記憶超群、遠(yuǎn)離癡呆

Nature重磅發(fā)現(xiàn):超級老人的大腦在大量新生神經(jīng)元,這讓他們80歲以上時(shí)仍記憶超群、遠(yuǎn)離癡呆

生物世界
2026-02-27 12:07:57
國際籃聯(lián)重罰!中國男籃遇到2次誤判細(xì)節(jié)披露,中國籃協(xié)應(yīng)上訴

國際籃聯(lián)重罰!中國男籃遇到2次誤判細(xì)節(jié)披露,中國籃協(xié)應(yīng)上訴

現(xiàn)代小青青慕慕
2026-02-27 06:53:55
官方支持,東莞計(jì)劃籌建一所新的公辦本科大學(xué)

官方支持,東莞計(jì)劃籌建一所新的公辦本科大學(xué)

高等教育數(shù)字局
2026-02-27 10:15:00
突發(fā),央企國家能源集團(tuán)已有多名管理人員被查!

突發(fā),央企國家能源集團(tuán)已有多名管理人員被查!

通信爆料
2026-02-27 09:23:26
項(xiàng)立剛再次鼓吹戰(zhàn)爭之思:最可怕的是,邪惡靈魂裹上愛國外衣

項(xiàng)立剛再次鼓吹戰(zhàn)爭之思:最可怕的是,邪惡靈魂裹上愛國外衣

讀鬼筆記
2026-01-06 19:42:20
巴拿馬強(qiáng)收港口僅3天,李嘉誠再度“出手”,原來他早留退路

巴拿馬強(qiáng)收港口僅3天,李嘉誠再度“出手”,原來他早留退路

王二哥老搞笑
2026-02-27 10:33:06
終于有人把話說透了:當(dāng)普通人存款到20–50萬,危險(xiǎn)的不是沒錢

終于有人把話說透了:當(dāng)普通人存款到20–50萬,危險(xiǎn)的不是沒錢

生活新鮮市
2026-02-22 06:40:40
提前漲停!002980,重要并購

提前漲停!002980,重要并購

中國基金報(bào)
2026-02-27 21:52:01
一夜暴裁4000人,股價(jià)飆漲25%!聯(lián)創(chuàng)發(fā)文:AI時(shí)代不需要那么多人了

一夜暴裁4000人,股價(jià)飆漲25%!聯(lián)創(chuàng)發(fā)文:AI時(shí)代不需要那么多人了

新智元
2026-02-27 12:02:35
2026-02-27 22:40:49
談點(diǎn)世
談點(diǎn)世
說說國內(nèi)國外,聊聊世間百態(tài)。
2962文章數(shù) 4383關(guān)注度
往期回顧 全部

科技要聞

單張不到五毛!谷歌深夜發(fā)布Nano Banana 2

頭條要聞

23歲博士研究生確診胃癌晚期 坦言經(jīng)常錯(cuò)過食堂飯點(diǎn)

頭條要聞

23歲博士研究生確診胃癌晚期 坦言經(jīng)常錯(cuò)過食堂飯點(diǎn)

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

游戲
本地
藝術(shù)
房產(chǎn)
公開課

傳《毀滅戰(zhàn)士:黑暗時(shí)代》將推大型DLC 堪比續(xù)作

本地新聞

津南好·四時(shí)總相宜

藝術(shù)要聞

紫氣東來,好運(yùn)一整年!

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版