国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

智能體卷王誕生!干活自動(dòng)配結(jié)項(xiàng)報(bào)告,1.5張截圖就把事說清了

0
分享至

Youtu-Agent團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

在學(xué)校里做實(shí)驗(yàn)的時(shí)候,老師如何確定我們做了實(shí)驗(yàn)并且達(dá)到了預(yù)期效果呢?——最常見的做法是讓學(xué)生寫一份實(shí)驗(yàn)報(bào)告交上來。

現(xiàn)在,AI智能體拿到一個(gè)任務(wù)以后如何檢驗(yàn)執(zhí)行的效果有沒有達(dá)到預(yù)期呢?我們也可以讓AI在執(zhí)行任務(wù)的同時(shí)主動(dòng)提交一份證據(jù)鏈報(bào)告,邊做邊收集任務(wù)完成的證據(jù),自我檢查是否符合預(yù)期,不符合就繼續(xù)做。



在LLM/VLM驅(qū)動(dòng)的智能體(Agent)的強(qiáng)化學(xué)習(xí)(RL)研究中,一直面臨一個(gè)巨大的挑戰(zhàn):

你交給智能體一個(gè)任務(wù),它干完了,但你不知道完成度如何。



為了確認(rèn)它是否真的準(zhǔn)確完成了任務(wù),我們不得不建立龐大的“監(jiān)督系統(tǒng)”來復(fù)核它的每一步操作。這種“被動(dòng)驗(yàn)證”往往需要:

  1. 手工設(shè)計(jì)的復(fù)雜校驗(yàn)機(jī)制(比如:完全匹配的輸出內(nèi)容);
  2. 強(qiáng)大的軌跡級(jí)驗(yàn)證方法(比如:LLM/VLM-as-a-Judge眾投決策)。

這兩種常見的先完成任務(wù)(task completion)再校驗(yàn)軌跡(outcome verification)的機(jī)制有以下缺點(diǎn):

  1. 效率較低,人工設(shè)計(jì)的準(zhǔn)則依賴預(yù)先編寫好的評(píng)估腳本,難以簡單泛化到新的任務(wù)(比如新的APP);
  2. 軌跡帶噪且上下文冗長,將整條軌跡送給LLM/VLM來評(píng)判很容易被無關(guān)的環(huán)境信息干擾,降低評(píng)分的可靠性;
  3. 依賴持續(xù)可觀測環(huán)境的反饋信息,部分操作往往因?yàn)榄h(huán)境變化
  4. (如頁面刷新、操作過期)而導(dǎo)致驗(yàn)證失敗。

針對(duì)以上問題,我們提出了一種簡單的RL訓(xùn)練方法,讓智能體自己成為“質(zhì)檢員”,在盡可能減少校驗(yàn)器(Verifier)審核壓力的同時(shí),讓智能體學(xué)會(huì)主動(dòng)分解子目標(biāo)并且留痕存證。

什么是SmartSnap?

SmartSnap的核心思想是將GUI智能體從“被動(dòng)的執(zhí)行者”轉(zhuǎn)變?yōu)椤爸鲃?dòng)的自證者”。

簡單來說,智能體在完成任務(wù)的同時(shí),還會(huì)主動(dòng)收集、篩選并提交一份“證據(jù)快照集”。

這份證據(jù)就像是任務(wù)的“結(jié)項(xiàng)報(bào)告”,讓驗(yàn)證者只需看一眼快照,就能確認(rèn)任務(wù)是否成功。



三大核心突破:從“執(zhí)行”到“自證”

1. 角色升級(jí):雙重使命的“自證代理”

傳統(tǒng)的智能體只負(fù)責(zé)“做(Execute)”,而SmartSnap提出了“自證智能體”(Self-Verifying Agent),賦予了它“自我驗(yàn)證(Verify)”的第二使命。

它在操作過程中會(huì)像人類一樣思考:“為了證明我已經(jīng)改好了設(shè)置,我需要把對(duì)開關(guān)狀態(tài)截圖并作為證據(jù)提交?!?/strong>

2. “3C原則”:高效率的證據(jù)美學(xué)

為了避免給驗(yàn)證者造成信息過載,SmartSnap提出了證據(jù)策展的3C原則

  • 完整性(Completeness)
  • 證據(jù)必須足以證明任務(wù)已閉環(huán)。
  • 簡潔性(Conciseness)
  • 不要冗長的視頻,只要最關(guān)鍵的幾張“定格”瞬間。
  • 創(chuàng)造性(Creativity)
  • 為了拿到證據(jù),智能體甚至?xí)鲃?dòng)執(zhí)行“額外操作”。例如,訂完票后主動(dòng)跳回訂單頁截圖。

3. 強(qiáng)化學(xué)習(xí)驅(qū)動(dòng):GRPO+內(nèi)在獎(jiǎng)勵(lì)反饋

我們利用GRPO算法對(duì)智能體進(jìn)行了訓(xùn)練。通過精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制(Intrinsic Reward Shaping),引導(dǎo)智能體在保證任務(wù)成功率的同時(shí),不斷提升證據(jù)的質(zhì)量,盡可能減少獎(jiǎng)勵(lì)黑客行為(reward hacking)。

戰(zhàn)績顯赫:小模型也不錯(cuò)

SmartSnap的表現(xiàn)令人驚艷,它在AndroidLab等復(fù)雜的任務(wù)上提升顯著:



  • 性能飛躍
  • 在不同規(guī)模的模型上,均實(shí)現(xiàn)了顯著的性能提升(最高提升達(dá)26.08%)。
  • 以小博大
  • 經(jīng)過SmartSnap訓(xùn)練的中等參數(shù)模型(如Qwen3-32B),在自證能力的加持下,其表現(xiàn)甚至持平DeepSeek-V3/Qwen3-235B等開源大模型

通過感性分析,我們還觀察到以下特點(diǎn):

  • 舉證效率
  • 平均每個(gè)任務(wù)只需提交1.5張快照證據(jù),極大地降低了后端的驗(yàn)證成本。
  • 高效交互
  • 智能體在訓(xùn)練過程中由于擬合少量的訓(xùn)練集而變得游刃有余,交互輪數(shù)不斷減少。
  • 知識(shí)欠缺
  • 在部分APP上,我們觀察到智能體存在反復(fù)、沒有顯著增益的表現(xiàn),其領(lǐng)域知識(shí)的欠缺導(dǎo)致無法收斂到有效的解決方案(比如地圖APP的各項(xiàng)復(fù)雜路徑規(guī)劃任務(wù))。這表明模型需要依賴更多知識(shí)注入來指導(dǎo)探索。

為什么這簡化了智能體RL訓(xùn)練的準(zhǔn)備工作?

在手機(jī)端、OS端這類環(huán)境的操作中,由于其時(shí)效性特點(diǎn),傳統(tǒng)的外部驗(yàn)證器很難精準(zhǔn)捕捉瞬時(shí)的成功信號(hào)。

SmartSnap就像是給智能體配上了一臺(tái)取證相機(jī)。它不再需要事先對(duì)環(huán)境所有狀態(tài)有一個(gè)預(yù)期的變化感知來撰寫校驗(yàn)?zāi)_本,或者讓裁判員模型盯著全程軌跡來仔細(xì)推敲,而是讓智能體自己邊做邊收集必要的證據(jù)。

這允許我們基于合成的任務(wù)輕松拓展其訓(xùn)練場景,并針對(duì)有限的證據(jù)鏈來判斷成功與否,讓RL訓(xùn)練更加便捷。

面向未來

SmartSnap的出現(xiàn),標(biāo)志著GUI智能體正從“蠻力執(zhí)行”走向“認(rèn)知協(xié)同”。這種主動(dòng)尋找證據(jù)的能力,不僅提升了AI的可靠性,更為未來大規(guī)模、低成本的AI部署鋪平了道路。

未來的AI,不僅要“能干”,更要“可信”。

論文標(biāo)題:

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
論文地址:

https://arxiv.org/abs/2512.22322
代碼地址:

https://github.com/TencentYoutuResearch/SmartSnap

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
重磅突破!以色列科學(xué)家:吸100%純氧3個(gè)月,生理倒拔20歲

重磅突破!以色列科學(xué)家:吸100%純氧3個(gè)月,生理倒拔20歲

劉曠
2026-04-19 15:27:33
四艘中資超級(jí)油輪順利通過美軍封鎖區(qū)引發(fā)強(qiáng)烈沖擊

四艘中資超級(jí)油輪順利通過美軍封鎖區(qū)引發(fā)強(qiáng)烈沖擊

阿爾法34號(hào)
2026-04-19 07:04:28
世錦賽戰(zhàn)報(bào):中國2勝2負(fù),16強(qiáng)決出5席了!世界第5連丟五局恐爆冷

世錦賽戰(zhàn)報(bào):中國2勝2負(fù),16強(qiáng)決出5席了!世界第5連丟五局恐爆冷

求球不落諦
2026-04-20 05:37:47
4月19日俄烏最新:劃時(shí)代的會(huì)議

4月19日俄烏最新:劃時(shí)代的會(huì)議

西樓飲月
2026-04-19 21:04:35
醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
英超天王山戰(zhàn):曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

英超天王山戰(zhàn):曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

足球報(bào)
2026-04-20 01:33:26
珠海家長:自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

珠海家長:自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

南方都市報(bào)
2026-04-17 15:48:13
曼城看到奪冠希望!剩5輪少3分,手握一大優(yōu)勢,阿森納失去主動(dòng)

曼城看到奪冠希望!剩5輪少3分,手握一大優(yōu)勢,阿森納失去主動(dòng)

奧拜爾
2026-04-20 01:34:45
悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

火山詩話
2026-04-19 07:13:36
李雨桐泄露薛之謙手機(jī)號(hào)、身份證號(hào),被北京朝陽警方行政拘留

李雨桐泄露薛之謙手機(jī)號(hào)、身份證號(hào),被北京朝陽警方行政拘留

封面新聞
2026-04-19 18:38:11
李雨桐被拘!官方下場,曾自曝背后靠山大,拘留10天,逾期還罰款

李雨桐被拘!官方下場,曾自曝背后靠山大,拘留10天,逾期還罰款

離離言幾許
2026-04-19 17:49:44
河南周口鄲城,又出現(xiàn)“資金盤暴雷”,全國涉案金額幾百億。

河南周口鄲城,又出現(xiàn)“資金盤暴雷”,全國涉案金額幾百億。

火山雜談
2026-04-18 22:59:15
賽力斯車載馬桶引爭議!每臺(tái)車向華為交13.6萬背后,市值7個(gè)月腰斬

賽力斯車載馬桶引爭議!每臺(tái)車向華為交13.6萬背后,市值7個(gè)月腰斬

深藍(lán)財(cái)經(jīng)
2026-04-19 14:13:01
5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

另子維愛讀史
2026-04-19 19:37:43
藍(lán)眼北京人控訴陳麗華20余年,比女首富更該銘記

藍(lán)眼北京人控訴陳麗華20余年,比女首富更該銘記

老蝣說體育
2026-04-19 17:40:22
五大聯(lián)賽首冠誕生!拜仁提前4輪奪冠,孔帕尼兩連冠,連刷10紀(jì)錄

五大聯(lián)賽首冠誕生!拜仁提前4輪奪冠,孔帕尼兩連冠,連刷10紀(jì)錄

奧拜爾
2026-04-20 01:27:03
女子稱酒店回訪暴露她開房隱私:丈夫查她開房記錄,和她離婚了

女子稱酒店回訪暴露她開房隱私:丈夫查她開房記錄,和她離婚了

江山揮筆
2026-04-19 10:57:54
這張照片絕對(duì)是李宇春最想刪掉的照片!

這張照片絕對(duì)是李宇春最想刪掉的照片!

可樂談情感
2026-04-20 03:34:03
阿森納崩盤!國內(nèi)賽事四連敗,失去爭冠主動(dòng)權(quán),3年首次連負(fù)曼城

阿森納崩盤!國內(nèi)賽事四連敗,失去爭冠主動(dòng)權(quán),3年首次連負(fù)曼城

奧拜爾
2026-04-20 01:39:09
中國智慧!張雪機(jī)車一腳壓線把名次壓賺了 車手:犯規(guī)但拿到13分

中國智慧!張雪機(jī)車一腳壓線把名次壓賺了 車手:犯規(guī)但拿到13分

念洲
2026-04-19 07:39:14
2026-04-20 07:40:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12497文章數(shù) 176455關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

特朗普:美伊20日將舉行談判 再不接受協(xié)議就轟炸伊朗

頭條要聞

特朗普:美伊20日將舉行談判 再不接受協(xié)議就轟炸伊朗

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

本地
時(shí)尚
藝術(shù)
教育
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

裝修“精神角落”,就是這么上癮

藝術(shù)要聞

蒲華寫水仙,清健嫵媚

教育要聞

孩子走到學(xué)校門口死活不進(jìn)去,媽媽硬把他推進(jìn)去

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版