国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

智能體卷王誕生!干活自動配結項報告,1.5張截圖就把事說清了

0
分享至

Youtu-Agent團隊 投稿
量子位 | 公眾號 QbitAI

在學校里做實驗的時候,老師如何確定我們做了實驗并且達到了預期效果呢?——最常見的做法是讓學生寫一份實驗報告交上來。

現(xiàn)在,AI智能體拿到一個任務以后如何檢驗執(zhí)行的效果有沒有達到預期呢?我們也可以讓AI在執(zhí)行任務的同時主動提交一份證據鏈報告,邊做邊收集任務完成的證據,自我檢查是否符合預期,不符合就繼續(xù)做。



在LLM/VLM驅動的智能體(Agent)的強化學習(RL)研究中,一直面臨一個巨大的挑戰(zhàn):

你交給智能體一個任務,它干完了,但你不知道完成度如何。



為了確認它是否真的準確完成了任務,我們不得不建立龐大的“監(jiān)督系統(tǒng)”來復核它的每一步操作。這種“被動驗證”往往需要:

  1. 手工設計的復雜校驗機制(比如:完全匹配的輸出內容);
  2. 強大的軌跡級驗證方法(比如:LLM/VLM-as-a-Judge眾投決策)。

這兩種常見的先完成任務(task completion)再校驗軌跡(outcome verification)的機制有以下缺點:

  1. 效率較低,人工設計的準則依賴預先編寫好的評估腳本,難以簡單泛化到新的任務(比如新的APP);
  2. 軌跡帶噪且上下文冗長,將整條軌跡送給LLM/VLM來評判很容易被無關的環(huán)境信息干擾,降低評分的可靠性;
  3. 依賴持續(xù)可觀測環(huán)境的反饋信息,部分操作往往因為環(huán)境變化
  4. (如頁面刷新、操作過期)而導致驗證失敗。

針對以上問題,我們提出了一種簡單的RL訓練方法,讓智能體自己成為“質檢員”,在盡可能減少校驗器(Verifier)審核壓力的同時,讓智能體學會主動分解子目標并且留痕存證。

什么是SmartSnap?

SmartSnap的核心思想是將GUI智能體從“被動的執(zhí)行者”轉變?yōu)椤爸鲃拥淖宰C者”。

簡單來說,智能體在完成任務的同時,還會主動收集、篩選并提交一份“證據快照集”。

這份證據就像是任務的“結項報告”,讓驗證者只需看一眼快照,就能確認任務是否成功。



三大核心突破:從“執(zhí)行”到“自證”

1. 角色升級:雙重使命的“自證代理”

傳統(tǒng)的智能體只負責“做(Execute)”,而SmartSnap提出了“自證智能體”(Self-Verifying Agent),賦予了它“自我驗證(Verify)”的第二使命。

它在操作過程中會像人類一樣思考:“為了證明我已經改好了設置,我需要把對開關狀態(tài)截圖并作為證據提交?!?/strong>

2. “3C原則”:高效率的證據美學

為了避免給驗證者造成信息過載,SmartSnap提出了證據策展的3C原則

  • 完整性(Completeness)
  • 證據必須足以證明任務已閉環(huán)。
  • 簡潔性(Conciseness)
  • 不要冗長的視頻,只要最關鍵的幾張“定格”瞬間。
  • 創(chuàng)造性(Creativity)
  • 為了拿到證據,智能體甚至會主動執(zhí)行“額外操作”。例如,訂完票后主動跳回訂單頁截圖。

3. 強化學習驅動:GRPO+內在獎勵反饋

我們利用GRPO算法對智能體進行了訓練。通過精心設計的獎勵機制(Intrinsic Reward Shaping),引導智能體在保證任務成功率的同時,不斷提升證據的質量,盡可能減少獎勵黑客行為(reward hacking)。

戰(zhàn)績顯赫:小模型也不錯

SmartSnap的表現(xiàn)令人驚艷,它在AndroidLab等復雜的任務上提升顯著:



  • 性能飛躍
  • 在不同規(guī)模的模型上,均實現(xiàn)了顯著的性能提升(最高提升達26.08%)。
  • 以小博大
  • 經過SmartSnap訓練的中等參數模型(如Qwen3-32B),在自證能力的加持下,其表現(xiàn)甚至持平DeepSeek-V3/Qwen3-235B等開源大模型

通過感性分析,我們還觀察到以下特點:

  • 舉證效率
  • 平均每個任務只需提交1.5張快照證據,極大地降低了后端的驗證成本。
  • 高效交互
  • 智能體在訓練過程中由于擬合少量的訓練集而變得游刃有余,交互輪數不斷減少。
  • 知識欠缺
  • 在部分APP上,我們觀察到智能體存在反復、沒有顯著增益的表現(xiàn),其領域知識的欠缺導致無法收斂到有效的解決方案(比如地圖APP的各項復雜路徑規(guī)劃任務)。這表明模型需要依賴更多知識注入來指導探索。

為什么這簡化了智能體RL訓練的準備工作?

在手機端、OS端這類環(huán)境的操作中,由于其時效性特點,傳統(tǒng)的外部驗證器很難精準捕捉瞬時的成功信號。

SmartSnap就像是給智能體配上了一臺取證相機。它不再需要事先對環(huán)境所有狀態(tài)有一個預期的變化感知來撰寫校驗腳本,或者讓裁判員模型盯著全程軌跡來仔細推敲,而是讓智能體自己邊做邊收集必要的證據。

這允許我們基于合成的任務輕松拓展其訓練場景,并針對有限的證據鏈來判斷成功與否,讓RL訓練更加便捷。

面向未來

SmartSnap的出現(xiàn),標志著GUI智能體正從“蠻力執(zhí)行”走向“認知協(xié)同”。這種主動尋找證據的能力,不僅提升了AI的可靠性,更為未來大規(guī)模、低成本的AI部署鋪平了道路。

未來的AI,不僅要“能干”,更要“可信”。

論文標題:

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
論文地址:

https://arxiv.org/abs/2512.22322
代碼地址:

https://github.com/TencentYoutuResearch/SmartSnap

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

懂球帝
2026-04-20 08:00:07
世錦賽戰(zhàn)報:16強決出5席!中國2勝2負1領先,世界亞軍4-10一輪游

世錦賽戰(zhàn)報:16強決出5席!中國2勝2負1領先,世界亞軍4-10一輪游

球場沒跑道
2026-04-20 05:38:54
39歲前國腳現(xiàn)狀:定居美國踢野球,早已財富自由,有2個可愛女兒

39歲前國腳現(xiàn)狀:定居美國踢野球,早已財富自由,有2個可愛女兒

攬星河的筆記
2026-04-14 15:18:30
天安門前的華表柱,是用來干什么的?看完不禁感嘆古人的智慧

天安門前的華表柱,是用來干什么的?看完不禁感嘆古人的智慧

抽象派大師
2026-04-19 15:45:34
貝森特通告全球,將對中國二級制裁,話音剛落,中國被曝美債余額

貝森特通告全球,將對中國二級制裁,話音剛落,中國被曝美債余額

浮光驚掠影
2026-04-19 10:01:06
若沒有此人,中國歷史或將改寫!晚年離休后享受什么待遇?

若沒有此人,中國歷史或將改寫!晚年離休后享受什么待遇?

史之銘
2026-04-19 15:49:20
瑞典:國王拒絕與澤連斯基握手的說法,是“錯誤且丑陋的”。俄媒在這個問題上斷章取義!

瑞典:國王拒絕與澤連斯基握手的說法,是“錯誤且丑陋的”。俄媒在這個問題上斷章取義!

李未熟擒話2
2026-04-19 17:08:59
4月19日最新油價,國際油價大降21.8%,國內汽柴油“顯著”下跌中

4月19日最新油價,國際油價大降21.8%,國內汽柴油“顯著”下跌中

豬友巴巴
2026-04-19 17:30:03
斯諾克世錦賽:丁俊暉首??!土豆哥單桿70分追平,張安達優(yōu)勢縮水

斯諾克世錦賽:丁俊暉首??!土豆哥單桿70分追平,張安達優(yōu)勢縮水

劉姚堯的文字城堡
2026-04-19 18:05:31
樹倒猢猻散!武亮直播哭紅眼眶,20余天的人事動蕩,讓他心力憔悴

樹倒猢猻散!武亮直播哭紅眼眶,20余天的人事動蕩,讓他心力憔悴

火山詩話
2026-04-20 06:31:57
55歲上海炒股冠軍罕見發(fā)聲:如果本金有20W,建議死磕這五條鐵律

55歲上海炒股冠軍罕見發(fā)聲:如果本金有20W,建議死磕這五條鐵律

股經縱橫談
2026-04-19 19:03:09
“鳥巢”要拆?花34億建成的奧運地標,如今是賺了還是賠了?

“鳥巢”要拆?花34億建成的奧運地標,如今是賺了還是賠了?

拳擊時空
2026-04-20 06:18:44
都說孔子周游列國,可地圖一攤開,這老爺子基本就沒出過河南省

都說孔子周游列國,可地圖一攤開,這老爺子基本就沒出過河南省

長風文史
2026-04-18 16:39:15
“絕對good!”河南男子在美國擺攤賣磨刀器:義烏進價1塊賣5美金,月入1萬美金

“絕對good!”河南男子在美國擺攤賣磨刀器:義烏進價1塊賣5美金,月入1萬美金

瀟湘晨報
2026-04-19 11:48:20
黎筍長子曾坦言:越南當年敢打中國有3個原因,結果發(fā)現(xiàn)全是錯覺

黎筍長子曾坦言:越南當年敢打中國有3個原因,結果發(fā)現(xiàn)全是錯覺

顧史
2026-04-18 09:17:19
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
1910年,孫中山原配和三個孩子合影,容貌憔悴,命運坎坷!

1910年,孫中山原配和三個孩子合影,容貌憔悴,命運坎坷!

史之銘
2026-04-19 17:44:23
天文學家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結的

天文學家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結的

心中的麥田
2026-03-06 19:27:32
25歲女孩下樓梯時低頭玩手機,踩空摔倒致腰椎爆裂性骨折,術前下肢癱瘓大小便失禁:我不會這輩子就完了吧?醫(yī)生:小事引發(fā)災難性后果

25歲女孩下樓梯時低頭玩手機,踩空摔倒致腰椎爆裂性骨折,術前下肢癱瘓大小便失禁:我不會這輩子就完了吧?醫(yī)生:小事引發(fā)災難性后果

大風新聞
2026-04-19 10:14:13
隨著41歲C羅破門+利雅得勝利4-0,亞冠二級4強已誕生3席

隨著41歲C羅破門+利雅得勝利4-0,亞冠二級4強已誕生3席

側身凌空斬
2026-04-20 00:01:29
2026-04-20 09:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12497文章數 176455關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

牛彈琴:美國向伊朗貨輪開火并將其控制 該伊朗發(fā)飆了

頭條要聞

牛彈琴:美國向伊朗貨輪開火并將其控制 該伊朗發(fā)飆了

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

月之暗面IPO迷局

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

旅游
游戲
教育
藝術
數碼

旅游要聞

渝見好“村”光|大足和平村:城市后花園 鄉(xiāng)村新浪潮

寶可夢真的能吃!寶可夢30周年 御三家變美食

教育要聞

辛集千余名少年逐夢田徑賽場盡展青春力量

藝術要聞

鄭麗文手稿返臺,書圣時代是否重現(xiàn)?驚人細節(jié)曝光!

數碼要聞

內存供應短缺迫使蘋果推遲新Mac Studio與觸控屏MacBook Pro發(fā)布

無障礙瀏覽 進入關懷版