国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AdaResoner實(shí)現(xiàn)Agentic Vision的主動「視覺工具思考」

0
分享至



你見過 7B 模型在拼圖推理上干翻 GPT-5 嗎?

不是靠堆參數(shù),不是靠更大的數(shù)據(jù),而是靠一件事:學(xué)會「什么時(shí)候該用工具」。

大多數(shù)「工具增強(qiáng)」模型是這樣的:遇到任務(wù) X → 調(diào)用固定工具 Y → 祈禱結(jié)果正確。一旦場景稍微變化,模型就開始抽風(fēng)——不知道什么工具該用、什么工具不該用。

AdaReasoner 解決的是更本質(zhì)的問題:把 what / when / how(用什么、何時(shí)用、怎么用)當(dāng)成推理能力來學(xué)。



  • 論文標(biāo)題:AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
  • 論文(arXiv):https://arxiv.org/abs/2601.18631
  • 項(xiàng)目主頁:https://adareasoner.github.io
  • 代碼:https://github.com/ssmisya/AdaReasoner
  • 模型與數(shù)據(jù):https://huggingface.co/collections/hitsmy/adareasoner
  • 視頻(YouTube):https://www.youtube.com/watch?v=_SOyD-lomOM

先看 10 秒效果:


https://mp.weixin.qq.com/s/WH8kXeIsh97T7WjO0m2xRA?search_cli

AdaReasoner 工作流程示意

Google 近期宣布,為其輕量級模型 Gemini 3 Flash 引入一項(xiàng)名為「Agentic Vision」(代理視覺)的新能力。

這項(xiàng)更新標(biāo)志著多模態(tài) AI 處理圖像的方式發(fā)生了根本性轉(zhuǎn)變:從傳統(tǒng)的靜態(tài)識別,升級為具備「思考、行動、觀察」循環(huán)的主動調(diào)查模式。

在此之前,包括 GPT 在內(nèi)的大多數(shù)前沿多模態(tài)模型處理圖像的方式類似于人類的「匆匆一瞥」:模型接收圖像,進(jìn)行一次性處理并輸出結(jié)果。這種方式在面對需要細(xì)致觀察的任務(wù)時(shí),往往會因?yàn)榧?xì)節(jié)丟失而產(chǎn)生幻覺或猜測。

Agentic Vision 的工作機(jī)制:Gemini 3 Flash 現(xiàn)在能夠像人類調(diào)查員一樣通過以下循環(huán)進(jìn)行推理:

  • 思考(Think)——分析用戶指令和圖像初步內(nèi)容,制定調(diào)查計(jì)劃。
  • 行動(Act)——自動生成并執(zhí)行 Python 代碼來操作圖像。例如,對圖像進(jìn)行縮放、裁剪特定區(qū)域、旋轉(zhuǎn)視角或繪制輔助線。
  • 觀察(Observe)——檢查代碼執(zhí)行后的新視圖或數(shù)據(jù),獲取更精確的視覺證據(jù)。

上述過程可以多次迭代,直到模型收集到足夠的確鑿證據(jù)來回答問題。

有意思的是:AdaReasoner 與 Agentic Vision 殊途同歸。AdaReasoner 同樣實(shí)現(xiàn)并驗(yàn)證了幾乎相同的范式:



工業(yè)界與學(xué)術(shù)界同時(shí)押注「主動工具使用」,說明這個方向正在成為多模態(tài)推理的主流范式。

AdaReasoner 的獨(dú)特價(jià)值在于:我們不只是驗(yàn)證了這套范式有效,更提出了一套讓開源小模型也能習(xí)得這種能力的訓(xùn)練方法——這正是接下來要詳細(xì)介紹的內(nèi)容。

01 痛點(diǎn):多模態(tài)推理為什么

總是「看起來很會,細(xì)節(jié)就開始猜」?

在多模態(tài)推理里,「看清細(xì)節(jié)」和「多步推理」經(jīng)?;ハ嗫ú弊樱?/p>

感知不夠精確 → 證據(jù)不足 → 推理再漂亮也容易變成「guided guessing」;

反過來,如果能把關(guān)鍵證據(jù)用工具查出來、畫出來、驗(yàn)證出來,模型就能把算力用在判斷與規(guī)劃上。

換句話說:工具不是外掛,而是把推理從「猜」拉回「查」的關(guān)鍵路徑。

02 一句話介紹 AdaReasoner:

把工具使用當(dāng)成「通用推理技能」

AdaReasoner 是一個訓(xùn)練范式:讓模型不僅會「調(diào)用工具」,更會做三類決策:

  • 選擇:該用哪個工具?要不要組合多個工具?
  • 時(shí)機(jī):什么時(shí)候該用?什么時(shí)候不該用?
  • 魯棒性:工具失敗/無用怎么辦?是否回退、是否換策略?



AdaReasoner 把「工具使用」當(dāng)成推理技能來學(xué)習(xí):會采納有用工具、丟棄無關(guān)工具,并按任務(wù)調(diào)節(jié)調(diào)用頻率。

03 三個關(guān)鍵設(shè)計(jì):

讓「會用工具」從口號變成能力

3.1 Tool Cold Start (TC):把「犯錯-修正」寫進(jìn)數(shù)據(jù)里

我們不是只給模型看「完美路徑」,而是刻意加入兩類真實(shí)世界會發(fā)生的場景:

  • 反思與回溯:試一下 → 檢查 → 不對就撤回/換方案。
  • 工具失敗處理:工具返回錯誤/無效 → 及時(shí)止損 → 回退到模型自身能力。



定性案例:多輪工具規(guī)劃 + 反思糾錯 + 組合工具完成復(fù)雜視覺推理

3.2 Tool-GRPO (TG):優(yōu)化「多輪工具編排」,而不是單次調(diào)用

多模態(tài)工具推理往往不是「一次調(diào)用結(jié)束」,而是多回合:

觀察 → 調(diào)用 → 再觀察 → 再調(diào)用 → 最終回答。

Tool-GRPO 針對 multi-turn 場景做了專門的強(qiáng)化學(xué)習(xí)優(yōu)化,并用自適應(yīng)獎勵把工具使用變成「不確定時(shí)的可靠后備」,而不是強(qiáng)制流程。

3.3 Adaptive Learning (ADL):逼模型學(xué)「語義」,別背「名字」

為了避免模型死記硬背某個工具名(比如看到 "Point" 就條件反射),我們做了兩件事:

  • 工具名/參數(shù)名隨機(jī)化(去掉字面提示)。
  • 工具描述改寫(同一語義、多種表達(dá))。



隨機(jī)化訓(xùn)練的直觀示意



AdaReasoner 框架總覽:Tool Cold Start → Tool-GRPO → Adaptive Learning

04 最硬的證據(jù):

小模型為什么能「跨級打怪」?

先給結(jié)論:AdaReasoner-7B 相對 base 模型在多個基準(zhǔn)上實(shí)現(xiàn)顯著提升(在選取的 8 個 benchmark 上平均 +24.9%),并在結(jié)構(gòu)化推理任務(wù)上接近滿分。



主實(shí)驗(yàn)結(jié)果:在 VSP、Jigsaw、GUIQA 等任務(wù)上顯著提升。

更重要的是:不是「工具越多越好」,而是訓(xùn)練配方?jīng)Q定工具是否真的幫得上忙。

例如在單任務(wù)設(shè)置下:

  • VSP: Base 28.09 → TC 64.91 → TG 73.18 → TC+TG 97.64
  • Jigsaw: Base 45.70 → TC 84.20 → TC+TG 96.60(超過 GPT-5 的 80.10)



瓶頸遷移示意:當(dāng)工具規(guī)劃足夠好,性能瓶頸從「模型規(guī)?!共糠诌w移到「工具效用與工具規(guī)劃能力」

05 最有意思的部分:模型真的

學(xué)出了「三種自適應(yīng)工具行為」

這部分是 AdaReasoner 最像「智能體」的地方:我們沒有寫規(guī)則讓它這么做,但它在 RL 過程中學(xué)會了。

行為 1:會「采納」有用的新工具(Adopt)

把 A* 規(guī)劃工具放進(jìn)強(qiáng)化學(xué)習(xí)階段(Cold Start 沒見過),模型會逐步提高調(diào)用頻率并穩(wěn)定掌握:

VSP Navigation 從 44.83 → 96.33



Navigation 任務(wù)示意



A* 工具調(diào)用頻率隨 RL 訓(xùn)練演化

行為 2:會「丟棄」無關(guān)工具(Discard)

更關(guān)鍵的是:A* 對 Verify 任務(wù)沒用,甚至是干擾項(xiàng)。

在「只在推理時(shí)提供 A*」的設(shè)置里,Verify 會出現(xiàn) 94.20 → 80.00 的下降。

而在 RL 訓(xùn)練后,模型會逐步壓制無關(guān)調(diào)用,讓 Verify 維持在接近滿分(99.20)。

一句話:它不僅會用工具,還會學(xué)會「別亂用」。

行為 3:會「調(diào)節(jié)」調(diào)用頻率(Modulate)

工具也不是開/關(guān)二選一。模型會根據(jù)子任務(wù)「調(diào)頻」:

Point 工具在導(dǎo)航更關(guān)鍵(~3.2 calls/sample),在驗(yàn)證更克制(~1.0 call/sample)



Point 工具調(diào)用頻率「調(diào)頻」:Navigation 中更關(guān)鍵,Verification 中更克制

06 換工具說明書

也能用:泛化與穩(wěn)健性

現(xiàn)實(shí)里最常見的崩潰方式是:工具定義、參數(shù)名、描述文案一變,模型就「不會用了」。

AdaReasoner 用 ADL(隨機(jī)化 + 改寫)把「工具規(guī)劃」從文本表面形式里解耦出來。

一個很直觀的證據(jù)來自工具使用統(tǒng)計(jì):

  • 在 Jigsaw 上達(dá)到 3.54 CPS 且工具執(zhí)行成功率 98.50%,最終準(zhǔn)確率 88.60。
  • 在 VStar 這種更開放的 VQA 上仍能主動調(diào)用工具(1.47 CPS)并取得 70.68。



工具使用統(tǒng)計(jì)(CPS、成功率)與性能

此外,使用 ADL,模型能夠更容易在新的任務(wù)上取得更好的表現(xiàn)。我們僅使用 Jigsaw 這一個任務(wù)的 SFT 數(shù)據(jù),在三個任務(wù)上 RL,可以看到,使用 ADL 的版本能夠在另外兩個任務(wù)上給模型帶來效果上的提升。



ADL 能將單個任務(wù)上學(xué)來的 agent planning 能力遷移到 SFT 沒見過的任務(wù)上。

07 我們想強(qiáng)調(diào)的

學(xué)術(shù)結(jié)論(Takeaways)

多模態(tài)推理不只是 「think harder」。更關(guān)鍵的是:

actively seeing, verifying, and planning with tools.

當(dāng)工具編排學(xué)得足夠好,瓶頸會發(fā)生遷移:

model scale → tool utility + tool planning

這對小模型尤其重要:參數(shù)有限時(shí),「會用工具」就是最直接的能力放大器。

從 Agentic Vision 看趨勢:Google 用 Agentic Vision 把 Think-Act-Observe 內(nèi)置到 Gemini,學(xué)術(shù)界用 AdaReasoner 驗(yàn)證這套范式在開源模型上的可行性——兩條路線同時(shí)驗(yàn)證了「主動工具使用」的價(jià)值。對于希望在自己數(shù)據(jù)/場景上復(fù)現(xiàn)這種能力的研究者和開發(fā)者,AdaReasoner 提供了一套完整的開源方案。

Adaptive Learning 對提升模型的泛化性也有很大幫助,可以幫助將 agent planning 能力遷移到以前沒見過的 agent 和新的任務(wù)上去。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
澤連斯基勇敢出手!匈牙利威脅無效,俄油管被徹底封堵!

澤連斯基勇敢出手!匈牙利威脅無效,俄油管被徹底封堵!

高博新視野
2026-02-25 17:11:31
鬧大了!上海00后美女騎手被顧客勸誘200元陪他1次,警方立馬行動

鬧大了!上海00后美女騎手被顧客勸誘200元陪他1次,警方立馬行動

火山詩話
2026-02-26 14:09:03
威少KD發(fā)生爭執(zhí)!申京砍26+13+11,謝潑德28分,火箭31分大勝國王

威少KD發(fā)生爭執(zhí)!申京砍26+13+11,謝潑德28分,火箭31分大勝國王

你的籃球頻道
2026-02-26 11:19:17
“被虧待的人就這面相”,大二女生視頻火了,不被愛的痕跡太明顯

“被虧待的人就這面相”,大二女生視頻火了,不被愛的痕跡太明顯

妍妍教育日記
2026-02-06 20:18:00
洪欣張丹峰一家出發(fā)了,一雙兒女顏值好高,張丹峰笑得一臉滿足

洪欣張丹峰一家出發(fā)了,一雙兒女顏值好高,張丹峰笑得一臉滿足

鄉(xiāng)野小珥
2026-02-26 11:08:11
拾石村媽祖被替后續(xù): 女孩賬號曝光,當(dāng)了八年被選定,今年滿18歲

拾石村媽祖被替后續(xù): 女孩賬號曝光,當(dāng)了八年被選定,今年滿18歲

離離言幾許
2026-02-20 14:02:55
“開光改命”的瓜?

“開光改命”的瓜?

文刀萬
2026-02-25 18:50:04
黃金跌了價(jià),金條降價(jià),2月26日金店黃金、金條最新價(jià)格

黃金跌了價(jià),金條降價(jià),2月26日金店黃金、金條最新價(jià)格

小蜜情感說
2026-02-26 13:40:43
68歲趙本山蹲炕頭吃酸菜燉鵝,那雙掉漆筷子比好多人朋友圈還真實(shí)

68歲趙本山蹲炕頭吃酸菜燉鵝,那雙掉漆筷子比好多人朋友圈還真實(shí)

喜歡歷史的阿繁
2026-02-17 23:12:52
基因真的太真實(shí)了,熊黛林的兩個雙胞胎女兒被說齙牙

基因真的太真實(shí)了,熊黛林的兩個雙胞胎女兒被說齙牙

陳意小可愛
2026-02-25 21:22:34
紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問責(zé)處理!

紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問責(zé)處理!

深度報(bào)
2026-02-25 20:51:21
宋慶齡去世,請宋美齡回國吊唁,她答復(fù):血脈雖親,大義更重

宋慶齡去世,請宋美齡回國吊唁,她答復(fù):血脈雖親,大義更重

文史明鑒
2026-02-14 11:11:11
即將漲價(jià)!店門口排隊(duì)排瘋了!有人稱“早買早賺錢”,不少人抓緊最后時(shí)間來搶購……

即將漲價(jià)!店門口排隊(duì)排瘋了!有人稱“早買早賺錢”,不少人抓緊最后時(shí)間來搶購……

上海黃浦
2026-02-25 20:35:57
上海公交車司機(jī)鄔煒,你被“曝光”了!網(wǎng)友:工作不是誰做都一樣,真的好暖

上海公交車司機(jī)鄔煒,你被“曝光”了!網(wǎng)友:工作不是誰做都一樣,真的好暖

新民晚報(bào)
2026-02-25 19:00:42
伊朗總參謀長:伊方將讓侵略者付出慘重代價(jià)

伊朗總參謀長:伊方將讓侵略者付出慘重代價(jià)

新華社
2026-02-25 19:51:11
云南天價(jià)拖車費(fèi)越鬧越大!車主被威脅,拖車公司被扒,果然不簡單

云南天價(jià)拖車費(fèi)越鬧越大!車主被威脅,拖車公司被扒,果然不簡單

王曉愛體彩
2026-02-26 07:38:31
演都不演了!馬筱梅產(chǎn)子不足24小時(shí),惡心事接連發(fā)生,還不止一件

演都不演了!馬筱梅產(chǎn)子不足24小時(shí),惡心事接連發(fā)生,還不止一件

離離言幾許
2026-02-25 10:38:59
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

就一點(diǎn)
2025-10-09 12:19:42
太火爆!番禺一餐廳排隊(duì)超1100桌,部分餐廳單日營業(yè)額達(dá)20萬元

太火爆!番禺一餐廳排隊(duì)超1100桌,部分餐廳單日營業(yè)額達(dá)20萬元

番禺臺
2026-02-26 08:09:05
肖戰(zhàn)再出手!世界第一組合調(diào)整,重用21歲小將,王勵勤早有想法

肖戰(zhàn)再出手!世界第一組合調(diào)整,重用21歲小將,王勵勤早有想法

體壇亦說
2026-02-26 14:15:23
2026-02-26 14:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12367文章數(shù) 142569關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

縣委書記抖音賬號成民情留言板 當(dāng)?shù)兀核救嘶貜?fù)網(wǎng)友

頭條要聞

縣委書記抖音賬號成民情留言板 當(dāng)?shù)兀核救嘶貜?fù)網(wǎng)友

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

人民幣升破6.85,創(chuàng)3年新高

汽車要聞

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態(tài)度原創(chuàng)

藝術(shù)
健康
教育
旅游
軍事航空

藝術(shù)要聞

2025年百家金陵畫展 | 油畫作品選刊

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

湖北2026考研查分時(shí)間確定!

旅游要聞

從兩個湖到“一座城”,河南文旅蹚出“長紅”路徑

軍事要聞

美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

無障礙瀏覽 進(jìn)入關(guān)懷版