国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AAAI 2026 Oral|LENS:基于統(tǒng)一強化推理的分割大模型

0
分享至



文本提示圖像分割(Text-prompted image segmentation)是實現(xiàn)精細(xì)化視覺理解的關(guān)鍵技術(shù),在人機交互、具身智能及機器人等前沿領(lǐng)域具有重大的戰(zhàn)略意義。這項技術(shù)使機器能夠根據(jù)自然語言指令,在復(fù)雜的視覺場景中定位并分割出任意目標(biāo)。

然而,當(dāng)前主流的技術(shù)路徑,如基于監(jiān)督式微調(diào)(Supervised Fine-Tuning, SFT)的方法,正面臨著根本性的瓶頸。這些方法本質(zhì)上是靜態(tài)的模式匹配,雖然在特定數(shù)據(jù)集上表現(xiàn)優(yōu)異,但其泛化能力往往受限,形成了一個難以逾越的 “能力天花板”。尤其是在處理需要多步、復(fù)雜推理的未知指令時,性能會顯著下降,其根源在于 SFT 方法在訓(xùn)練中忽略了動態(tài)的、顯式的推理過程。

為了 shatter 這一能力天花板,我們引入了 LENS(Learning to Segment Anything with Unified Reinforced Reasoning)框架。LENS 摒棄了靜態(tài)的 SFT,轉(zhuǎn)而采用端到端的強化學(xué)習(xí)(Reinforcement Learning, RL)機制,將高層次的 “思考” 過程(即思維鏈推理)與像素級的 “執(zhí)行” 過程(即圖像分割)進(jìn)行動態(tài)的聯(lián)合優(yōu)化。通過這種設(shè)計,LENS 旨在賦予分割模型真正的、上下文感知的推理能力,從而在根本上提升其在復(fù)雜任務(wù)中的魯棒性和泛化性。

本文將深入介紹一下我們 AAAI 榮獲 Oral 的工作,“會思考的分割大模型 LENS”。有幸在這次 AAAI 2026 得到了審稿人們一致正面的評價,并被 AC 和 PC 一致同意推薦為 Oral 論文。



  • 論文標(biāo)題:LENS: Learning to Segment Anything with Unified Reinforced Reasoning
  • 論文鏈接:https://arxiv.org/abs/2508.14153
  • 代碼鏈接:https://github.com/hustvl/LENS

LENS 框架概覽:推理與分割的協(xié)同進(jìn)化

在這個工作中,我們研究了分割大模型領(lǐng)域的一大一小兩個關(guān)鍵問題,大問題就是老生常談的 “泛化能力”,傳統(tǒng)分割大模型對未見過的提示和領(lǐng)域的泛化能力往往有限;小問題則是隱藏的 “信息瓶頸”,此前的分割大模型從 “大腦思考”(MLLM)到 “分割解碼”(SAM)之間往往只通過單一的分割 Token 傳遞信息,存在隱形的 “信息輸送瓶頸”。



LENS 框架的核心設(shè)計在于通過端到端的聯(lián)合優(yōu)化,徹底打破傳統(tǒng)模型中 “思考”(推理)與 “執(zhí)行”(分割)之間的信息壁壘。

以往的方法,例如同期的優(yōu)秀工作 Seg-Zero,采用的是非端到端的設(shè)計,即先由推理模型生成邊界框和點提示,再交由現(xiàn)成的(off-the-shelf)SAM 進(jìn)行分割。這種分離式流程的主要缺陷在于誤差的單向傳播。這意味著像 Seg-Zero 這樣的非端到端模型是根本上脆弱的;它們的性能上限被其初始猜測的準(zhǔn)確性所鎖定。一旦推理階段的定位出現(xiàn)偏差,下游的分割模型將無法糾正,最終必然導(dǎo)致分割失敗。相比之下,LENS 通過其端到端的反饋閉環(huán),具備了即便從不完美的初步定位中也能自我糾正的能力。



LENS 的整體架構(gòu)由三大核心組件構(gòu)成,它們協(xié)同工作,實現(xiàn)了從高級語義理解到精確像素輸出的無縫銜接:

  • 多模態(tài)大語言模型 (MLLM) - 推理核心:作為系統(tǒng)的 “大腦”,LENS 采用先進(jìn)的 MLLM(如 Qwen2.5-VL-3B-Instruct)來處理輸入的圖像和文本指令。它負(fù)責(zé)生成詳盡的思維鏈(Chain-of-Thought, CoT)推理過程,并給出一個初步的目標(biāo)邊界框。這一過程不僅是定位,更是對指令的深度理解。





  • 上下文模塊 (Context Module) - 信息橋梁:這是 LENS 的關(guān)鍵創(chuàng)新,它充當(dāng)了 MLLM 和分割模型之間的信息高速公路。該模塊由一組可學(xué)習(xí)的上下文查詢(Context Queries)和一個連接器(Connector)組成,其任務(wù)是將 MLLM 生成的豐富推理軌跡和定位信息,轉(zhuǎn)化為分割模型能夠高效利用的、信息密集的分割提示





  • 分割模型 (SAM-2) - 像素解碼器:作為系統(tǒng)的 “雙手”,LENS 采用高性能的分割模型(SAM2-Large)。它接收來自上下文模塊的復(fù)雜指令,并結(jié)合原始圖像信息,執(zhí)行精準(zhǔn)的像素級掩碼生成任務(wù),將推理結(jié)果精確地體現(xiàn)在圖像上。

通過這種 “推理 - 橋接 - 分割” 三位一體的緊密耦合架構(gòu),LENS 實現(xiàn)了推理質(zhì)量和分割精度的同步提升。這種設(shè)計使得最終的分割性能可以直接反作用于推理過程的優(yōu)化,形成一個完整的閉環(huán),為實現(xiàn)更高水平的通用分割能力奠定了基礎(chǔ)。

LENS 框架同時在 “思考推理” 端也做出了改進(jìn),我們基于 Group Relative Policy Optimization(GRPO)方法構(gòu)建了統(tǒng)一強化學(xué)習(xí)獎勵機制(Unified Rewards Scheme)。該獎勵機制是多維度的,同時監(jiān)督以下三個層級的線索:

  1. 格式獎勵(Format Reward):確保 MLLM 的輸出(包括推理過程和定位結(jié)果)遵循預(yù)期的結(jié)構(gòu)和格式一致性。
  2. 邊界框 IoU 獎勵(Box IoU Reward):衡量預(yù)測邊界框與真實邊界框之間的定位準(zhǔn)確性。
  3. 分割掩碼 IoU 獎勵(Segment IoU Reward):評估像素級分割掩碼的質(zhì)量。



通過我們提出的聯(lián)合優(yōu)化(將統(tǒng)一的 GRPO 目標(biāo)與監(jiān)督分割損失相結(jié)合),LENS 能夠從獎勵驅(qū)動的推理改進(jìn)和直接的分割監(jiān)督中同時受益。值得一提的是,LENS 的端到端特性解決了定位錯誤(Grounding Error)向下游傳播的問題,如上圖右一右二所示,哪怕有些情況定位框是錯的,強大的上下文查詢(Context Query)也能帶領(lǐng)分割模型走向正確。

性能評估與分析



核心結(jié)果方面,LENS 取得了文本提示分割任務(wù)的最先進(jìn)性能(SoTA):LENS 在 RefCOCO 系列的基準(zhǔn)測試中取得了 81.2% 的平均 cIoU,達(dá)到了世界最高水平。在 GroundingSuite-Eval 這類更具挑戰(zhàn)性的零樣本基準(zhǔn)測試中,LENS 展現(xiàn)出卓越的域外泛化能力,cIoU 達(dá)到 78.3%,超越第二優(yōu)方法接近 10%。



這些成果表明,LENS 這一類基于統(tǒng)一強化學(xué)習(xí)獎勵驅(qū)動的 CoT 推理方法,能夠顯著提升文本提示下的分割能力。我們相信,LENS 為強化學(xué)習(xí)與視覺分割的無縫集成提供了新的思路,并有望推動更通用、更穩(wěn)健的視覺 - 語言系統(tǒng)的研究。代碼和預(yù)訓(xùn)練權(quán)重已開源(https://github.com/hustvl/LENS),感興趣的朋友們歡迎研究和使用。我們也期待在 AAAI 2026 與學(xué)術(shù)界同行進(jìn)行深入交流。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
許晴一看就老了,竟然還沒張凱麗顯年輕!

許晴一看就老了,竟然還沒張凱麗顯年輕!

草莓解說體育
2026-01-07 09:12:50
年薪50萬帶公司牛奶回家后續(xù):教孩子更窒息,妻子曬婚照宣示主權(quán)

年薪50萬帶公司牛奶回家后續(xù):教孩子更窒息,妻子曬婚照宣示主權(quán)

鋭娛之樂
2026-01-07 08:44:23
科學(xué)家讓一對情侶在核磁共振里實戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

科學(xué)家讓一對情侶在核磁共振里實戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

徐德文科學(xué)頻道
2026-01-06 19:51:55
難怪美軍長驅(qū)直入,中俄雷達(dá)全都停止搜索,委內(nèi)瑞拉把好牌打爛

難怪美軍長驅(qū)直入,中俄雷達(dá)全都停止搜索,委內(nèi)瑞拉把好牌打爛

詩意世界
2026-01-05 19:54:53
魯比奧:美國計劃從丹麥?zhǔn)种小百徺I”格陵蘭島

魯比奧:美國計劃從丹麥?zhǔn)种小百徺I”格陵蘭島

界面新聞
2026-01-07 13:26:50
增長8%!越南GDP突破5000億美元,這說明了什么?

增長8%!越南GDP突破5000億美元,這說明了什么?

簡易科技
2026-01-06 23:29:46
1949年,解放軍抽干中南海,挖出16萬噸淤泥,水底究竟有什么

1949年,解放軍抽干中南海,挖出16萬噸淤泥,水底究竟有什么

清風(fēng)鑒史
2026-01-05 21:13:13
邊打麻將邊吸氧?長三角富豪周末新玩法,業(yè)內(nèi):有錢中年男最愛

邊打麻將邊吸氧?長三角富豪周末新玩法,業(yè)內(nèi):有錢中年男最愛

金錯刀
2026-01-06 16:50:04
男子聽信“偏方”將5厘米的水蛭塞進(jìn)尿道,水蛭順著尿道向內(nèi)爬行“安家”膀胱,開始瘋狂吸血釋放抗凝血物質(zhì)

男子聽信“偏方”將5厘米的水蛭塞進(jìn)尿道,水蛭順著尿道向內(nèi)爬行“安家”膀胱,開始瘋狂吸血釋放抗凝血物質(zhì)

觀威海
2026-01-07 09:22:09
白宮直說了:拿下格陵蘭島,不惜動武

白宮直說了:拿下格陵蘭島,不惜動武

觀察者網(wǎng)
2026-01-07 08:15:10
你見過最窩囊的人是啥樣?網(wǎng)友:原來大家都這么窩囊,我心病好了

你見過最窩囊的人是啥樣?網(wǎng)友:原來大家都這么窩囊,我心病好了

帶你感受人間冷暖
2026-01-06 00:05:11
CES 2026 | 從「有龍則靈」到「萬物有靈」,高通正在讓 AI 成為體驗背后的通用能力

CES 2026 | 從「有龍則靈」到「萬物有靈」,高通正在讓 AI 成為體驗背后的通用能力

愛范兒
2026-01-06 18:15:10
妻子拿著28克金手鐲去金店,回來后丈夫覺得不對勁……他:妻子當(dāng)時喝了酒

妻子拿著28克金手鐲去金店,回來后丈夫覺得不對勁……他:妻子當(dāng)時喝了酒

北青網(wǎng)-北京青年報
2026-01-06 13:50:08
瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

古書記史
2026-01-06 16:31:56
周一,委內(nèi)瑞拉股市暴漲

周一,委內(nèi)瑞拉股市暴漲

跟著老李看世界
2026-01-06 15:56:58
馬來西亞今年將全面查封電子煙,衛(wèi)生部長:吸電子煙會造成爆米花肺

馬來西亞今年將全面查封電子煙,衛(wèi)生部長:吸電子煙會造成爆米花肺

爆角追蹤
2026-01-06 22:18:53
小鰲太線失聯(lián)人員全部找到,本來有3次活命機會,卻被白白浪費了

小鰲太線失聯(lián)人員全部找到,本來有3次活命機會,卻被白白浪費了

奇思妙想草葉君
2026-01-06 18:58:03
阿森納女足新援因外表出眾引來低俗評論,俱樂部關(guān)閉評論區(qū)

阿森納女足新援因外表出眾引來低俗評論,俱樂部關(guān)閉評論區(qū)

懂球帝
2026-01-07 12:56:05
?2026年春節(jié)檔,沈騰周星馳第二次交手,喜劇之王對決有勝負(fù)了?

?2026年春節(jié)檔,沈騰周星馳第二次交手,喜劇之王對決有勝負(fù)了?

靠譜電影君
2026-01-05 18:51:02
“睡遍頂流”的司曉迪身份被扒,曾就讀淄博中學(xué)!畢業(yè)照很清純!

“睡遍頂流”的司曉迪身份被扒,曾就讀淄博中學(xué)!畢業(yè)照很清純!

娛樂團(tuán)長
2026-01-05 16:23:19
2026-01-07 15:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12070文章數(shù) 142530關(guān)注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護(hù)城河

頭條要聞

古巴公布32名陣亡軍人姓名和照片 年齡介于26歲至67歲

頭條要聞

古巴公布32名陣亡軍人姓名和照片 年齡介于26歲至67歲

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財經(jīng)要聞

農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

蔚來2025百萬臺收官 一場遲到的自我修復(fù)

態(tài)度原創(chuàng)

數(shù)碼
游戲
旅游
健康
軍事航空

數(shù)碼要聞

先于標(biāo)準(zhǔn)獲批,華碩計劃2026年內(nèi)發(fā)布首批Wi-Fi 8家用路由器

《DQ7RE》試玩版上線:可繼承存檔 送限定外觀

旅游要聞

屬馬、姓馬、名字帶馬的朋友朋友有福了 多地景區(qū)花式免門票

這些新療法,讓化療不再那么痛苦

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項

無障礙瀏覽 進(jìn)入關(guān)懷版