国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

智能體卷王誕生!干活自動配結(jié)項報告,1.5張截圖就把事說清了

0
分享至

Youtu-Agent團(tuán)隊 投稿
量子位 | 公眾號 QbitAI

在學(xué)校里做實驗的時候,老師如何確定我們做了實驗并且達(dá)到了預(yù)期效果呢?——最常見的做法是讓學(xué)生寫一份實驗報告交上來。

現(xiàn)在,AI智能體拿到一個任務(wù)以后如何檢驗執(zhí)行的效果有沒有達(dá)到預(yù)期呢?我們也可以讓AI在執(zhí)行任務(wù)的同時主動提交一份證據(jù)鏈報告,邊做邊收集任務(wù)完成的證據(jù),自我檢查是否符合預(yù)期,不符合就繼續(xù)做。



在LLM/VLM驅(qū)動的智能體(Agent)的強(qiáng)化學(xué)習(xí)(RL)研究中,一直面臨一個巨大的挑戰(zhàn):

你交給智能體一個任務(wù),它干完了,但你不知道完成度如何。



為了確認(rèn)它是否真的準(zhǔn)確完成了任務(wù),我們不得不建立龐大的“監(jiān)督系統(tǒng)”來復(fù)核它的每一步操作。這種“被動驗證”往往需要:

  1. 手工設(shè)計的復(fù)雜校驗機(jī)制(比如:完全匹配的輸出內(nèi)容);
  2. 強(qiáng)大的軌跡級驗證方法(比如:LLM/VLM-as-a-Judge眾投決策)。

這兩種常見的先完成任務(wù)(task completion)再校驗軌跡(outcome verification)的機(jī)制有以下缺點(diǎn):

  1. 效率較低,人工設(shè)計的準(zhǔn)則依賴預(yù)先編寫好的評估腳本,難以簡單泛化到新的任務(wù)(比如新的APP);
  2. 軌跡帶噪且上下文冗長,將整條軌跡送給LLM/VLM來評判很容易被無關(guān)的環(huán)境信息干擾,降低評分的可靠性;
  3. 依賴持續(xù)可觀測環(huán)境的反饋信息,部分操作往往因為環(huán)境變化
  4. (如頁面刷新、操作過期)而導(dǎo)致驗證失敗。

針對以上問題,我們提出了一種簡單的RL訓(xùn)練方法,讓智能體自己成為“質(zhì)檢員”,在盡可能減少校驗器(Verifier)審核壓力的同時,讓智能體學(xué)會主動分解子目標(biāo)并且留痕存證。

什么是SmartSnap?

SmartSnap的核心思想是將GUI智能體從“被動的執(zhí)行者”轉(zhuǎn)變?yōu)椤爸鲃拥淖宰C者”。

簡單來說,智能體在完成任務(wù)的同時,還會主動收集、篩選并提交一份“證據(jù)快照集”。

這份證據(jù)就像是任務(wù)的“結(jié)項報告”,讓驗證者只需看一眼快照,就能確認(rèn)任務(wù)是否成功。



三大核心突破:從“執(zhí)行”到“自證”

1. 角色升級:雙重使命的“自證代理”

傳統(tǒng)的智能體只負(fù)責(zé)“做(Execute)”,而SmartSnap提出了“自證智能體”(Self-Verifying Agent),賦予了它“自我驗證(Verify)”的第二使命。

它在操作過程中會像人類一樣思考:“為了證明我已經(jīng)改好了設(shè)置,我需要把對開關(guān)狀態(tài)截圖并作為證據(jù)提交?!?/strong>

2. “3C原則”:高效率的證據(jù)美學(xué)

為了避免給驗證者造成信息過載,SmartSnap提出了證據(jù)策展的3C原則

  • 完整性(Completeness)
  • 證據(jù)必須足以證明任務(wù)已閉環(huán)。
  • 簡潔性(Conciseness)
  • 不要冗長的視頻,只要最關(guān)鍵的幾張“定格”瞬間。
  • 創(chuàng)造性(Creativity)
  • 為了拿到證據(jù),智能體甚至?xí)鲃訄?zhí)行“額外操作”。例如,訂完票后主動跳回訂單頁截圖。

3. 強(qiáng)化學(xué)習(xí)驅(qū)動:GRPO+內(nèi)在獎勵反饋

我們利用GRPO算法對智能體進(jìn)行了訓(xùn)練。通過精心設(shè)計的獎勵機(jī)制(Intrinsic Reward Shaping),引導(dǎo)智能體在保證任務(wù)成功率的同時,不斷提升證據(jù)的質(zhì)量,盡可能減少獎勵黑客行為(reward hacking)。

戰(zhàn)績顯赫:小模型也不錯

SmartSnap的表現(xiàn)令人驚艷,它在AndroidLab等復(fù)雜的任務(wù)上提升顯著:



  • 性能飛躍
  • 在不同規(guī)模的模型上,均實現(xiàn)了顯著的性能提升(最高提升達(dá)26.08%)。
  • 以小博大
  • 經(jīng)過SmartSnap訓(xùn)練的中等參數(shù)模型(如Qwen3-32B),在自證能力的加持下,其表現(xiàn)甚至持平DeepSeek-V3/Qwen3-235B等開源大模型

通過感性分析,我們還觀察到以下特點(diǎn):

  • 舉證效率
  • 平均每個任務(wù)只需提交1.5張快照證據(jù),極大地降低了后端的驗證成本。
  • 高效交互
  • 智能體在訓(xùn)練過程中由于擬合少量的訓(xùn)練集而變得游刃有余,交互輪數(shù)不斷減少。
  • 知識欠缺
  • 在部分APP上,我們觀察到智能體存在反復(fù)、沒有顯著增益的表現(xiàn),其領(lǐng)域知識的欠缺導(dǎo)致無法收斂到有效的解決方案(比如地圖APP的各項復(fù)雜路徑規(guī)劃任務(wù))。這表明模型需要依賴更多知識注入來指導(dǎo)探索。

為什么這簡化了智能體RL訓(xùn)練的準(zhǔn)備工作?

在手機(jī)端、OS端這類環(huán)境的操作中,由于其時效性特點(diǎn),傳統(tǒng)的外部驗證器很難精準(zhǔn)捕捉瞬時的成功信號。

SmartSnap就像是給智能體配上了一臺取證相機(jī)。它不再需要事先對環(huán)境所有狀態(tài)有一個預(yù)期的變化感知來撰寫校驗?zāi)_本,或者讓裁判員模型盯著全程軌跡來仔細(xì)推敲,而是讓智能體自己邊做邊收集必要的證據(jù)。

這允許我們基于合成的任務(wù)輕松拓展其訓(xùn)練場景,并針對有限的證據(jù)鏈來判斷成功與否,讓RL訓(xùn)練更加便捷。

面向未來

SmartSnap的出現(xiàn),標(biāo)志著GUI智能體正從“蠻力執(zhí)行”走向“認(rèn)知協(xié)同”。這種主動尋找證據(jù)的能力,不僅提升了AI的可靠性,更為未來大規(guī)模、低成本的AI部署鋪平了道路。

未來的AI,不僅要“能干”,更要“可信”。

論文標(biāo)題:

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
論文地址:

https://arxiv.org/abs/2512.22322
代碼地址:

https://github.com/TencentYoutuResearch/SmartSnap

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
正部級唐仁健今晚將在中紀(jì)委專題片出鏡懺悔

正部級唐仁健今晚將在中紀(jì)委專題片出鏡懺悔

澎湃新聞
2026-01-11 09:42:26
大長腿,街拍

大長腿,街拍

石辰搞笑日常
2026-01-11 10:09:47
杜蘭特暴怒!火箭必須得到莫蘭特,控衛(wèi)升級頂替謝潑德

杜蘭特暴怒!火箭必須得到莫蘭特,控衛(wèi)升級頂替謝潑德

湖人侃球師
2026-01-11 06:36:18
澤連斯基引發(fā)的鏈?zhǔn)椒磻?yīng):敘利亞、哈馬斯、黎巴嫩真主黨、委內(nèi)瑞拉、伊朗

澤連斯基引發(fā)的鏈?zhǔn)椒磻?yīng):敘利亞、哈馬斯、黎巴嫩真主黨、委內(nèi)瑞拉、伊朗

高博新視野
2026-01-08 20:22:29
斯普利特服了!給楊瀚森特殊優(yōu)待,單獨(dú)擁抱小楊,這簡直就是五贏

斯普利特服了!給楊瀚森特殊優(yōu)待,單獨(dú)擁抱小楊,這簡直就是五贏

嘴炮體壇
2026-01-10 23:32:17
我國癌癥高發(fā),電飯煲是“幫兇”?提醒:4種省錢行為確實要不得

我國癌癥高發(fā),電飯煲是“幫兇”?提醒:4種省錢行為確實要不得

DrX說
2026-01-09 14:21:49
窮追猛打!清華花心博士后婚內(nèi)出軌,丟了工作奔赴新事業(yè)再被舉報

窮追猛打!清華花心博士后婚內(nèi)出軌,丟了工作奔赴新事業(yè)再被舉報

火山詩話
2026-01-10 15:48:11
震驚!網(wǎng)傳重慶某酒店提及年輕人的性張力,吃完火鍋還有勁折騰…

震驚!網(wǎng)傳重慶某酒店提及年輕人的性張力,吃完火鍋還有勁折騰…

火山詩話
2026-01-11 08:30:39
紀(jì)實:湖南漂亮18歲女大學(xué)生和父親西藏自駕游,回來后母親崩潰了

紀(jì)實:湖南漂亮18歲女大學(xué)生和父親西藏自駕游,回來后母親崩潰了

紅豆講堂
2024-10-09 11:15:47
反制開始!美國星鏈兩次威脅天宮后,中國一次性申請20萬顆衛(wèi)星

反制開始!美國星鏈兩次威脅天宮后,中國一次性申請20萬顆衛(wèi)星

安安說
2026-01-11 10:50:30
強(qiáng)渡大渡河共有18人,55年全軍授銜,級別最高的一位是什么軍銜?

強(qiáng)渡大渡河共有18人,55年全軍授銜,級別最高的一位是什么軍銜?

史韻流轉(zhuǎn)
2026-01-09 10:00:01
總統(tǒng)公開分裂,川普以色列利劍加頸,哈梅內(nèi)伊已走入絕境

總統(tǒng)公開分裂,川普以色列利劍加頸,哈梅內(nèi)伊已走入絕境

移光幻影
2026-01-10 18:26:34
閆學(xué)晶事件再升級!官媒下場發(fā)文銳評,言辭犀利,句句直戳她心窩

閆學(xué)晶事件再升級!官媒下場發(fā)文銳評,言辭犀利,句句直戳她心窩

社會日日鮮
2026-01-08 10:43:19
兩岸喜訊!大陸沒想到,沒等正式收臺,臺當(dāng)局先送來2份“大禮”

兩岸喜訊!大陸沒想到,沒等正式收臺,臺當(dāng)局先送來2份“大禮”

趣生活
2026-01-10 22:29:06
“死了么”App沖上熱搜,團(tuán)隊回應(yīng):已有投資方接觸,將上線短信通知功能

“死了么”App沖上熱搜,團(tuán)隊回應(yīng):已有投資方接觸,將上線短信通知功能

現(xiàn)代快報
2026-01-10 23:18:08
“深圳成全國首個電動車停車收費(fèi)城市”系不實信息

“深圳成全國首個電動車停車收費(fèi)城市”系不實信息

上觀新聞
2026-01-10 19:14:14
法媒:法國外長尖銳批評美國

法媒:法國外長尖銳批評美國

參考消息
2026-01-09 21:34:06
王騰回應(yīng)新公司為何不招應(yīng)屆生:草臺班子剛起步,待業(yè)務(wù)發(fā)展起來后歡迎加入

王騰回應(yīng)新公司為何不招應(yīng)屆生:草臺班子剛起步,待業(yè)務(wù)發(fā)展起來后歡迎加入

新浪財經(jīng)
2026-01-09 12:52:51
隨著韓國4-2,烏茲0-0伊朗,U23亞洲杯最新形勢:首支出局隊誕生

隨著韓國4-2,烏茲0-0伊朗,U23亞洲杯最新形勢:首支出局隊誕生

侃球熊弟
2026-01-11 00:01:06
張雨綺穿吊帶看著骨架有點(diǎn)大哦!這大體格誰看了不喜歡?

張雨綺穿吊帶看著骨架有點(diǎn)大哦!這大體格誰看了不喜歡?

草莓解說體育
2025-12-21 00:52:27
2026-01-11 11:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11999文章數(shù) 176357關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

牛彈琴:特朗普沒想到 抓馬杜羅后全球情緒總體很穩(wěn)定

頭條要聞

牛彈琴:特朗普沒想到 抓馬杜羅后全球情緒總體很穩(wěn)定

體育要聞

詹皇曬照不滿打手沒哨 裁判報告最后兩分鐘無誤判

娛樂要聞

網(wǎng)友偶遇賈玲張小斐崇禮滑雪

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

旅游
家居
教育
健康
公開課

旅游要聞

官方帶你冬游喀什,詳細(xì)路線產(chǎn)品來啦!

家居要聞

木色留白 演繹現(xiàn)代自由

教育要聞

拋物線旋轉(zhuǎn)問題,一個視頻學(xué)會!

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版