国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

強(qiáng)化學(xué)習(xí)賦能小模型視覺推理,Groundlight AI提出調(diào)用外部工具策略框架

0
分享至

隨著多模態(tài)大模型和視覺語言強(qiáng)化學(xué)習(xí)的快速發(fā)展,視覺-語言模型在圖像理解與跨模態(tài)推理方面已取得顯著進(jìn)展。然而,在處理高分辨率圖像所要求的細(xì)粒度視覺推理(fine-grained visual reasoning)時,這類模型仍表現(xiàn)出明顯不足,尤其是在計(jì)算資源受限的環(huán)境下。本文介紹一篇來自Groundlight AI的最新工作,本文提出了一種務(wù)實(shí)且工程導(dǎo)向的解決思路:通過引入強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)范式,使小規(guī)模 VLMs 能夠自主學(xué)習(xí)如何調(diào)用一系列外部工具(Tools)以聚焦關(guān)鍵區(qū)域并提取高分辨率細(xì)節(jié),幫助模型獲取多粒度的視覺信息和外部先驗(yàn),從而提升模型的綜合性能。本文方法在有限顯存的場景中有效緩解了細(xì)粒度推理的性能瓶頸,為輕量級模型在復(fù)雜視覺任務(wù)中的應(yīng)用提供了新的可能性。


論文題目: Reinforcing VLMs to Use Tools for Detailed Visual Reasoning Under Resource Constraints 文章鏈接: https://arxiv.org/abs/2506.14821
一、引言

近來,強(qiáng)化學(xué)習(xí)范式在語言生成和推理模型領(lǐng)域得到了廣泛的應(yīng)用,其中具有代表性的是DeepSeek提出的GRPO (Group Relative Policy Optimization) [1]算法。GRPO是一種基于群體對比的強(qiáng)化學(xué)習(xí)算法,專為訓(xùn)練大型生成模型(如大語言模型和視覺-語言模型)而設(shè)計(jì)。它通過讓模型生成的多個響應(yīng)相互競爭比較,從而學(xué)習(xí)更優(yōu)的策略。


其核心思想是:一個響應(yīng)的優(yōu)劣,不應(yīng)由絕對獎勵值單獨(dú)決定,而應(yīng)通過與同批次其他響應(yīng)的相對比較來判斷。GRPO 是對PPO(Proximal Policy Optimization)[2] 的擴(kuò)展,GRPO的損失函數(shù)建立在標(biāo)準(zhǔn) PPO的基礎(chǔ)上,但引入了群體比較的概念。具體而言,給定輸入 ,策略模型采樣 條軌跡 ,并計(jì)算獎勵 。每條軌跡的相對優(yōu)勢定義為:


最終的優(yōu)化目標(biāo)類似于 PPO,但以組內(nèi)相對優(yōu)勢為更新信號:


與 PPO 相比,GRPO 不依賴單一軌跡的值函數(shù)估計(jì),而是利用組內(nèi)對比增強(qiáng)了訓(xùn)練信號,因而特別適合解決多模態(tài)推理中工具調(diào)用等探索性強(qiáng)的任務(wù)。

二、本文方法

本文提出了一種利用強(qiáng)化學(xué)習(xí)整合外部工具的VLM框架,框架的整體流程圖如下所示。與僅依賴提示(圖中左側(cè))難以捕捉高分辨率圖像細(xì)節(jié)的基線模型不同,本方法通過強(qiáng)化學(xué)習(xí)驅(qū)動 VLM 主動調(diào)用 zoom-in 工具,從特定感興趣區(qū)域(ROI)提取補(bǔ)充信息,以提升對視覺導(dǎo)向問題的回答準(zhǔn)確性。同時,對輸入圖像進(jìn)行適度縮放既提高了訓(xùn)練效率,又保留了模型可感知的關(guān)鍵視覺細(xì)節(jié)。


2.1 工具設(shè)計(jì)與調(diào)用流程

本文方法的完整工作流程具體包括以下三個階段:

(1)輸入:模型首先接收下采樣后的整幅圖像以及任務(wù)問題(如 “From the information on that advertising board, what is the type of this shop?”)。此時,模型需要判斷是直接基于低分辨率圖像回答,還是調(diào)用外部工具以獲取額外細(xì)節(jié)。當(dāng)問題涉及細(xì)粒度視覺信息(例如需讀取廣告牌上的文字以推斷商店類型)時,模型會生成帶有 “Let's use the zoom tool to zoom in on the advertising board” 的推理軌跡,并通過符合 YAML 格式 的〈tool〉標(biāo)簽輸出工具調(diào)用請求,指定預(yù)測的關(guān)鍵點(diǎn)坐標(biāo)(如 [1015, 710])

(2)工具調(diào)用:外部 zoom 工具接收到坐標(biāo)后,在原始高分辨率圖像上執(zhí)行操作。以預(yù)測的關(guān)鍵點(diǎn)坐標(biāo)為中心裁剪出一個 400×400 像素區(qū)域,并將其上采樣至與下采樣全圖相同的輸入尺度(如1024 像素)。隨后,該高分辨率裁剪塊被作為新的視覺 token 注入到對話上下文中,使模型同時具備兩類視覺輸入:提供全局場景信息的原采樣圖像和新注入的、能夠提供細(xì)節(jié)信息的高分辨率局部特寫圖像。

(3)推理與回答生成:在雙重視覺上下文的支持下,模型能夠聯(lián)合利用全局語義與局部細(xì)節(jié)完成推理,從而識別出此前在低分辨率下難以分辨的信息。最終,模型通過〈answer〉標(biāo)簽生成并輸出正確答案

2.2 訓(xùn)練策略:獎勵設(shè)計(jì)

在訓(xùn)練過程中,模型的工具調(diào)用行為與最終回答質(zhì)量通過結(jié)構(gòu)化獎勵函數(shù)加以聯(lián)合優(yōu)化。作者設(shè)計(jì)了一個復(fù)合獎勵機(jī)制,將整體獎勵分解為若干子項(xiàng),從而為模型提供更加細(xì)致且密集的學(xué)習(xí)信號。其總獎勵可形式化表示為:


獎勵由三個部分組成, , , 分別是答案正確性獎勵、格式正確性獎勵和工具使用獎勵。 , , 是用于平衡各項(xiàng)權(quán)重的超參數(shù)。

(1)答案正確性獎勵 : 本身也是一個復(fù)合獎勵,結(jié)合了“硬”獎勵和“軟”獎勵,以更平滑地處理答案的對錯邊界情況,形式化為:


本文使用標(biāo)準(zhǔn)的VQA得分計(jì)算硬獎勵 ,計(jì)算方式為: 。對于軟獎勵 ,本文計(jì)算模型的答案與所有標(biāo)準(zhǔn)答案中最接近的三個答案的平均編輯距離,并進(jìn)行歸一化。

(2)格式正確性獎勵 :是一個二進(jìn)制獎勵。當(dāng)模型生成的響應(yīng)完全符合指定的格式要求時,則獲得獎勵;否則沒有獎勵。

(3)工具使用獎勵 :是一個二進(jìn)制獎勵。只要模型成功發(fā)起了有效的工具調(diào)用(無論其調(diào)用的區(qū)域是否與問題相關(guān)),就能獲得一個小額的固定獎勵。

2.3 GRPO的優(yōu)化目標(biāo)

通過上述流程,可以分析得到,GRPO的優(yōu)化本質(zhì)上是讓模型學(xué)會一種條件策略。當(dāng)問題需要依賴局部細(xì)節(jié)信息才能作答時(復(fù)雜問題場景),模型獲得高獎勵的最優(yōu)策略是正確調(diào)用工具(格式規(guī)范)并最終給出正確答案。相反,若未調(diào)用工具或調(diào)用后仍答錯,則對應(yīng)的獎勵為負(fù),從而在訓(xùn)練中被抑制。當(dāng)問題可以僅依賴全局上下文直接解答時(簡單問題場景),模型獲得高獎勵的最優(yōu)策略是不調(diào)用工具并正確回答。此時,工具調(diào)用被視為不必要的額外操作,會設(shè)置低獎勵值,抑制其操作。

三、實(shí)驗(yàn)效果

本文從域內(nèi)與域外兩個維度對方法進(jìn)行評估。域內(nèi)在 TextVQA 數(shù)據(jù)集上檢驗(yàn)推理能力,采用 VQA 分?jǐn)?shù)作為評價指標(biāo)。域外則使用 Bench 和 HR-bench 兩個基準(zhǔn)。 Bench 數(shù)據(jù)集的圖像平均分辨率為 2246×1582,包含屬性識別(Attr.)與空間關(guān)系(Spatial)子任務(wù),用于考察模型對細(xì)粒度視覺細(xì)節(jié)的泛化能力。HR-bench 提供 4K 與 8K 變體,包含單實(shí)例(FSP)與跨實(shí)例(FCP)感知子任務(wù),用于檢驗(yàn)?zāi)P驮诔叻直媛蕡鼍跋碌臉O限性能與可擴(kuò)展性。為了提高模型效率,本文在 TextVQA 數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)子集上使用 GRPO 訓(xùn)練了一個小型 Qwen2.5-VL-3B-Instruct 模型。

3.1 定量分析

作者首先與SOTA方法進(jìn)行對比,結(jié)果如下表所示,本文方法在不同基準(zhǔn)上展現(xiàn)出差異化的性能表現(xiàn)。與 Qwen2.5-VL-3B 基線相比,模型在 Bench 上整體準(zhǔn)確率提升了 5.7%,其中在空間關(guān)系推理子任務(wù)上的增幅尤為顯著,達(dá)到 13.1%。


然而,在 Bench 上的優(yōu)勢并未延伸至更高分辨率的任務(wù)(HR-Bench 4K 與 8K),模型在這些場景中未能取得明顯提升。作者推測其原因在于訓(xùn)練與推理階段的分辨率差距,導(dǎo)致強(qiáng)化學(xué)習(xí)策略在跨分辨率遷移時的泛化能力受限。因此,未來工作有必要在訓(xùn)練過程中引入更高分辨率圖像,以有效彌合這一差距。

3.2 定性分析

隨后作者也對強(qiáng)化學(xué)習(xí)訓(xùn)練過程的軌跡進(jìn)行了定性分析。下圖展示了結(jié)構(gòu)化獎勵在引導(dǎo)模型學(xué)習(xí)有效工具使用策略中的作用。結(jié)果顯示,成功調(diào)用工具并正確回答問題的軌跡(橙色)持續(xù)獲得正向優(yōu)勢,表明該行為被模型穩(wěn)定捕捉并不斷強(qiáng)化。


相較之下,失敗的工具調(diào)用和未調(diào)用工具的響應(yīng)均呈現(xiàn)負(fù)優(yōu)勢,且后者更為顯著。這一結(jié)果表明,所設(shè)計(jì)的獎勵結(jié)構(gòu)能夠提供清晰而有效的優(yōu)化信號,從而促使模型在高分辨率細(xì)節(jié)理解任務(wù)中逐步形成更優(yōu)策略。


上圖展示了不同推理分辨率對模型性能的影響。結(jié)果表明,經(jīng)強(qiáng)化學(xué)習(xí)優(yōu)化的 VLMs 即使在推理階段僅接收下采樣的低分辨率圖像,性能仍能顯著提升,從而驗(yàn)證了方法的有效性與魯棒性。更為關(guān)鍵的是,在計(jì)算資源受限、輸入分辨率受限的情況下,本文方法依然能夠通過調(diào)用始終基于原始高分辨率圖像的 zoom 工具主動獲取關(guān)鍵信息,從而維持較優(yōu)的推理表現(xiàn)。

四、總結(jié)

本文提出了一種基于強(qiáng)化學(xué)習(xí)的小規(guī)模 VLM 工具使用框架,用于指導(dǎo)小規(guī)模VLMs學(xué)習(xí)使用工具。具體來說,本文首次成功地將GRPO引入視覺-語言模型的工具學(xué)習(xí)場景,使模型能夠在沒有人工軌跡標(biāo)注的情況下,通過與環(huán)境的交互自主學(xué)習(xí)何時以及如何使用工具。此外,本文也提出了一套面向資源受限條件的工程化訓(xùn)練pipeline,包括簡潔的工具接口、裁剪與上采樣策略、結(jié)構(gòu)化獎勵函數(shù)設(shè)計(jì)及穩(wěn)定性優(yōu)化措施,使得 3B 級別模型也能高效學(xué)習(xí)工具使用。在 Bench 等高分辨率細(xì)粒度數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也表明,本文方法可以顯著提升小規(guī)模模型性能。這也為資源比較受限的一些開發(fā)者帶來了一些新的嘗試方向,可以引入基于強(qiáng)化學(xué)習(xí)策略的工具調(diào)用來彌補(bǔ)小規(guī)模模型的性能劣勢。

參考

[1] Shao Z, Wang P, Zhu Q, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models[J]. arXiv preprint arXiv:2402.03300, 2024.

[2] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女籃86-76南蘇丹3喜1憂!楊舒予王思雨統(tǒng)治后場,李月汝連崩兩場

女籃86-76南蘇丹3喜1憂!楊舒予王思雨統(tǒng)治后場,李月汝連崩兩場

籃球資訊達(dá)人
2026-03-14 21:51:50
廣東省高齡津貼新標(biāo)準(zhǔn),3月1日起執(zhí)行!標(biāo)準(zhǔn)是多少,如何申領(lǐng)?

廣東省高齡津貼新標(biāo)準(zhǔn),3月1日起執(zhí)行!標(biāo)準(zhǔn)是多少,如何申領(lǐng)?

云鵬敘事
2026-03-14 16:48:43
未來的3萬分先生,24歲愛德華茲已經(jīng)拿到10788分歷史第四人!

未來的3萬分先生,24歲愛德華茲已經(jīng)拿到10788分歷史第四人!

田先生籃球
2026-03-14 13:52:06
迪拜用40年建設(shè),11天就崩了

迪拜用40年建設(shè),11天就崩了

販財局
2026-03-14 09:05:51
暴跌!復(fù)出5場比賽全拉胯,真沒懸念了,再見,弗拉格

暴跌!復(fù)出5場比賽全拉胯,真沒懸念了,再見,弗拉格

球童無忌
2026-03-14 21:26:09
伊朗破獲超級間諜,比川島芳子狠十倍,睡高官套情報

伊朗破獲超級間諜,比川島芳子狠十倍,睡高官套情報

點(diǎn)燃好奇心
2026-03-12 15:16:00
西安不倒翁小姐姐離職:沒嫁入豪門,七年沒拿到編制,壓力太大!

西安不倒翁小姐姐離職:沒嫁入豪門,七年沒拿到編制,壓力太大!

眼光很亮
2026-03-12 19:25:00
記者臥底全國連鎖輕食外賣后廚 拍下的畫面讓人后背發(fā)涼

記者臥底全國連鎖輕食外賣后廚 拍下的畫面讓人后背發(fā)涼

閃電新聞
2026-03-13 18:16:54
狂勝50分!上海送四川25連敗 7人上雙豪取6連勝鞏固第一

狂勝50分!上海送四川25連敗 7人上雙豪取6連勝鞏固第一

醉臥浮生
2026-03-14 21:23:58
日本剛部署導(dǎo)彈,不到24小時,中方反制來了,取消所有中日航班

日本剛部署導(dǎo)彈,不到24小時,中方反制來了,取消所有中日航班

現(xiàn)代小青青慕慕
2026-03-14 13:21:01
一言難盡!女籃僅贏南蘇丹10分,李月汝全場夢游,王思雨成遮羞布

一言難盡!女籃僅贏南蘇丹10分,李月汝全場夢游,王思雨成遮羞布

后仰大風(fēng)車
2026-03-14 21:29:15
春晚爆紅后,她洗完澡從23樓一躍而下,臨終時最后喊了聲“媽媽”

春晚爆紅后,她洗完澡從23樓一躍而下,臨終時最后喊了聲“媽媽”

攬星河的筆記
2026-03-14 17:07:25
酒席上遇到這4種情況,放下筷子走人不是迷信,看完叮囑家人

酒席上遇到這4種情況,放下筷子走人不是迷信,看完叮囑家人

美食格物
2026-03-14 02:51:12
120歲虛云老和尚晚年告誡:戒色戒的不是女色,而是這東西

120歲虛云老和尚晚年告誡:戒色戒的不是女色,而是這東西

千秋文化
2026-03-13 20:45:01
邱清泉之子邱國渭大陸堅(jiān)守三十年,1978年分批將家人送往美國

邱清泉之子邱國渭大陸堅(jiān)守三十年,1978年分批將家人送往美國

嘮叨說歷史
2026-03-13 11:49:57
不想訪華了?特朗普對華連開兩槍,盟友都坐不住了,中方早有準(zhǔn)備

不想訪華了?特朗普對華連開兩槍,盟友都坐不住了,中方早有準(zhǔn)備

悲傷逆流成河水
2026-03-13 10:43:43
阿爾瓦羅通過考驗(yàn)!泰山打分:二雷9.2分封神!一人評分低得可憐

阿爾瓦羅通過考驗(yàn)!泰山打分:二雷9.2分封神!一人評分低得可憐

刀鋒體育
2026-03-14 20:08:25
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評
2025-12-24 00:26:04
于東來再談胖東來40億元資產(chǎn)分配:本人占比5%,因建造夢之城門店,所以資產(chǎn)轉(zhuǎn)化為股本

于東來再談胖東來40億元資產(chǎn)分配:本人占比5%,因建造夢之城門店,所以資產(chǎn)轉(zhuǎn)化為股本

極目新聞
2026-03-14 11:11:50
蘇寧,清零!2387億債務(wù)落定,張近東凈身出戶,一個零售時代落幕

蘇寧,清零!2387億債務(wù)落定,張近東凈身出戶,一個零售時代落幕

叮當(dāng)當(dāng)科技
2026-03-14 01:50:37
2026-03-14 23:03:01
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

房產(chǎn)
時尚
手機(jī)
數(shù)碼
公開課

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

女人到了三四十歲穿衣要顯貴,這些穿搭值得借鑒,大方又好看

手機(jī)要聞

緊跟華為步伐!安卓首款闊折疊屏來了 三星打造

數(shù)碼要聞

設(shè)計(jì)還在20年前的冰箱如何升級?容聲:中國人需要自己的中國冰箱

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版