国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI看圖一本正經(jīng)胡說八道?「一拉一推」讓模型看得全又準

0
分享至

  • BiPS團隊 投稿
    量子位 | 公眾號 QbitAI

隨著視覺-語言模型(VLM)推理能力不斷增強,一個隱蔽的問題逐漸浮現(xiàn):

很多錯誤不是推理沒做好,而是“看錯了”。

在復雜視覺任務中,模型往往能正確識別對象、理解問題,甚至給出完整的推理鏈,卻因捕捉了錯誤的視覺證據(jù),得出自信卻錯誤的答案。

現(xiàn)有方法通常在推理階段“指路”——例如生成視覺提示或調(diào)用外部工具,以臨時對齊證據(jù)。這類策略雖有效,卻面臨明顯局限:視覺線索形式受限、高度依賴具體任務,且推理開銷大。更重要的是,它引出一個根本性問題:

如果模型始終需要外部提醒才知道“看哪兒”,它是否真的理解了視覺世界?

為此,微軟亞洲研究院與清華大學提出BiPS(Bi-directional Perceptual Shaping),從源頭重塑模型的“看圖方式”。

BiPS不在推理時臨時提示關注區(qū)域,而是在訓練階段就教會模型:面對特定問題,哪些視覺細節(jié)必須關注,哪些可以忽略。通過系統(tǒng)性地對齊問題與視覺證據(jù),BiPS促使模型內(nèi)化一種核心能力——帶著問題去看圖。因此,在推理時無需任何額外提示,模型也能自動聚焦于真正決定答案的關鍵區(qū)域與細節(jié)。

實驗表明,這種“看哪兒”的能力具有跨任務遷移性,為構建更可靠、通用的視覺理解系統(tǒng)開辟了新路徑。

視線錯位:VLM的“看”與“想”為何脫節(jié)?

我們常被視覺-語言模型(VLM)行云流水的回答迷惑,以為它真的“看懂”了圖片。但事實可能是:它識別出了圖中物體,卻抓錯了關鍵信息。

人類的視覺是目標驅動的:問趨勢就追曲線,問數(shù)值就盯刻度,問關系就比位置。但當前VLM的“看”仍停留在打標簽階段,缺乏對關鍵證據(jù)的精準定位能力。它知道圖里有什么,卻不知道該看哪里

為解決這一“視線錯位”,學界常采用視覺證據(jù)引導——通過框選、掩碼或線索提示,為模型的“視線”裝上“準星”。然而,這種引導式感知存在三重局限:

其一,世界不是矩形的。圖表中的折線拐點、幾何題中的交疊多邊形、醫(yī)學影像中的彌散病灶……這些關鍵線索往往是不規(guī)則且彌散的,難以被標準框或掩碼完整覆蓋。裁大引入噪聲,裁小丟失細節(jié),模型“看”到了區(qū)域,卻依然看錯了證據(jù)。

其二,聚焦能力無法遷移。當前提示方法多為特定任務定制,依賴特定數(shù)據(jù)分布或標注規(guī)則。模型的感知能力被綁死在任務專屬的視覺表示上,難以泛化。換一個任務,就得重教它“怎么看”。

其三,感知被推遲到推理之后。多數(shù)方案將視覺聚焦視為推理鏈中的中間補救步驟,不僅拖慢效率,更讓錯誤在后續(xù)推理中滾雪球式放大。

核心挑戰(zhàn)由此浮現(xiàn):如何讓模型學會“帶著問題去看圖”?

從“推理時補救”到“訓練時內(nèi)化”:BiPS的核心轉向



如果問題根源不在“推理不夠聰明”,而在“從第一眼就看錯了圖”,是否該換個思路?

能否不再依賴推理階段的視覺外掛,而是在訓練階段,就讓模型真正學會識別什么是“正確的視覺證據(jù)”?

這正是BiPS(Bi-directional Perceptual Shaping)的核心革命。

它不做邊界框、不打掩碼、不調(diào)工具,而是:

把推理階段依賴的視覺提示,提前轉化為指導模型“該往哪兒看”的訓練信號。讓模型學會本能聚焦關鍵證據(jù)。

一拉一推:讓模型既“看全”,又“看準”

BiPS的核心在于一套方向相反、粒度互補的雙重感知塑形機制:

先把模型的視線“拉”回到所有相關證據(jù),再“推”它看向真正關鍵的細節(jié)。



“拉”:看少,但看全

真實問答常依賴分散卻環(huán)環(huán)相扣的視覺證據(jù)鏈——如折線走勢、圖例顏色、坐標刻度與子圖標題的組合。

為此,BiPS構建Evidence-Preserving View(證據(jù)保留視圖):系統(tǒng)性剔除干擾,僅保留回答必需的視覺元素,寧可粒度粗,也不遺漏關鍵。

模型需基于這種“信息更少但結構完整”的視圖,輸出與原始圖像一致的答案。

這一過程將模型從噪聲與偏見中拉回,使其回答錨定于完整的證據(jù)鏈。

“推”:看對關鍵細節(jié)

“看全”只是起點。若模型僅模糊定位相關區(qū)域,仍可能依賴語言先驗或統(tǒng)計偏見作答。

BiPS引入Evidence-Ablated View(證據(jù)消融視圖):精準移除決定答案的關鍵細節(jié)(如某條折線)。這類改動視覺上微小,卻足以顛覆答案。

此時訓練目標反轉:一旦關鍵證據(jù)消失,模型必須拒絕原答案。

這是一種反事實約束——任何繞過關鍵視覺證據(jù)的“替代推理”都應失效。

協(xié)同塑形感知

“拉”與“推”構成遞進流程:

  • “拉”確?;卮鸹谕暾?、必要的視覺證據(jù);
  • “推”迫使模型識別不可替代的細粒度線索。

二者協(xié)同,推動模型從表面關聯(lián)走向因果一致的證據(jù)依賴,學會像人類一樣“帶著問題看世界”。

圖表是最好的老師:用精確證據(jù),教會模型“看哪里”

當BiPS把“看準”作為訓練目標后,一個現(xiàn)實問題隨之而來:

那些精細又緊扣問題的視覺證據(jù),到底從哪兒來?

圖表是極佳的訓練起點:它們以多子圖、細折線、小標記與精確刻度等,構成了高密度、高信息量的視覺場景。這些微小元素往往是解題的關鍵線索,提供了豐富且細粒度的感知材料

更重要的是,圖表中的視覺證據(jù)是可控的。每個元素都可被程序化地添加、移除或遮蔽,并能直接驗證其對答案的影響,從而能夠以程序化的方式,準確構建“證據(jù)保留”與“證據(jù)消融”的對照視圖。

因此,在BiPS的訓練體系中,圖表是一個高復雜度、高度可控的實驗場:既足夠復雜以提供真實的細粒度證據(jù),又足夠可控以精準操縱這些證據(jù)。模型在此學習的,并非解讀圖表,而是在復雜視覺場景中,學會將注意力聚焦于與問題真正相關的局部線索

13K訓練樣本,8個基準:一次“小數(shù)據(jù)”的能力遷移

BiPS展示出了一種高效而穩(wěn)定的訓練范式。僅用13K條圖表樣本對基礎模型進行微調(diào),無需人工標注,也未針對不同任務定制專門工具或模板。訓練目標單一明確:學會“問題指哪,就看哪”的視覺邏輯



效果顯著:在8個不同的評測基準上,模型均實現(xiàn)了一致且顯著的性能提升,涵蓋:

  • 真實圖表理解(如CharXiv)
  • 圖像驅動的數(shù)理邏輯推理(如MathVision)
  • 通用視覺問答(如MMStar)

以Qwen2.5-VL-7B為基礎模型,BiPS帶來了平均準確率+7.3%的提升,這一提升并非集中在某一特定領域,而是跨越數(shù)據(jù)分布、跨越任務類型的全面進步。

即便在推理能力已高度強化的Qwen3-VL-8B-Thinking上,這一效果依然成立:

CharXiv:53.0→58.1;MathVision:62.7→63.9;MMStar:75.3→76.3

這些結果表明,BiPS學到的不是“圖表特有的解題技巧”,而是一種可遷移的“看對地方”的能力

學會“看對地方”:邁向通用智能的關鍵一步

真正的視覺智能不僅是“看到”,更是在復雜信息中,聚焦于與問題相關的關鍵證據(jù)

BiPS實現(xiàn)的并非簡單的技巧優(yōu)化,而是一種根本性的能力轉變:使模型的視覺注意力從被動、均勻的掃視,轉變?yōu)橹鲃印栴}驅動的精準聚焦

這無疑是通向通用視覺智能的關鍵一步,其核心在于:讓模型的眼睛,真正看向問題的關鍵。

論文鏈接:

https://arxiv.org/abs/2512.22120

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
WTT大滿貫!女單8強賽對陣,世界亞軍1-3出局,王曼昱肩負重任

WTT大滿貫!女單8強賽對陣,世界亞軍1-3出局,王曼昱肩負重任

以茶帶書
2026-02-25 19:20:55
中國游客親歷莫斯科機場關閉:滯留時很焦慮,后續(xù)行程全打亂

中國游客親歷莫斯科機場關閉:滯留時很焦慮,后續(xù)行程全打亂

南方都市報
2026-02-25 16:52:10
為什么奉勸老人不要去跳交誼舞?63歲阿姨說道:交誼舞害人不淺

為什么奉勸老人不要去跳交誼舞?63歲阿姨說道:交誼舞害人不淺

烙任情感
2026-02-25 10:47:33
外交部:中方一貫反對沒有國際法依據(jù)、未經(jīng)聯(lián)合國安理會授權的單邊制裁

外交部:中方一貫反對沒有國際法依據(jù)、未經(jīng)聯(lián)合國安理會授權的單邊制裁

環(huán)球網(wǎng)資訊
2026-02-25 15:30:23
“霍金與比基尼女性同游照”現(xiàn)愛潑斯坦檔案 ,曾被“辟謠”稱系偽造

“霍金與比基尼女性同游照”現(xiàn)愛潑斯坦檔案 ,曾被“辟謠”稱系偽造

揚子晚報
2026-02-26 10:09:32
見義勇為的平頂山抱孩子大姐找見了,平頂山的口碑,大姐一個人扛起

見義勇為的平頂山抱孩子大姐找見了,平頂山的口碑,大姐一個人扛起

觀察鑒娛
2026-02-25 10:29:44
我外公是位風水先生,他常說,人最好的風水一定要記?。?>
    </a>
        <h3>
      <a href=楓紅染山徑
2026-02-26 09:05:17
朝鮮“新星女將軍”金主愛:下一代領導者?她頻頻露面原因為何?

朝鮮“新星女將軍”金主愛:下一代領導者?她頻頻露面原因為何?

洞鑒歷史
2024-04-24 15:10:54
春節(jié)后,這4種蔬菜不要隨便買!菜販子:我從來不吃,顧客搶著買

春節(jié)后,這4種蔬菜不要隨便買!菜販子:我從來不吃,顧客搶著買

阿龍美食記
2026-02-26 10:37:19
正在熱播的3部爛劇,沒有最爛只有更爛,一部沒看算你慧眼識珠!

正在熱播的3部爛劇,沒有最爛只有更爛,一部沒看算你慧眼識珠!

觀察鑒娛
2026-02-26 09:21:30
碧桂園7000億項目爛尾

碧桂園7000億項目爛尾

地產(chǎn)微資訊
2026-02-23 21:46:01
孩子走丟到小賣鋪求助,老板好心給其父母打電話,卻被5人按倒

孩子走丟到小賣鋪求助,老板好心給其父母打電話,卻被5人按倒

另子維愛讀史
2026-02-25 23:35:20
男籃VS日本隊!郭士強想要贏球,需要少用2人,重用3人

男籃VS日本隊!郭士強想要贏球,需要少用2人,重用3人

體育哲人
2026-02-26 08:01:51
34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價上億

34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價上億

云舟史策
2025-09-13 07:37:04
宇樹機器人去年只賣了5500多臺,普通家庭基本沒有買的

宇樹機器人去年只賣了5500多臺,普通家庭基本沒有買的

爆角追蹤
2026-02-25 10:08:50
上海一日料店,倆女子誤認為是自助餐,專門撿貴的點,結賬時4302

上海一日料店,倆女子誤認為是自助餐,專門撿貴的點,結賬時4302

苗苗情感說
2026-02-26 04:31:53
安史之亂八年里,叛軍為何死戰(zhàn)不降?不是安祿山想反,他也很無奈

安史之亂八年里,叛軍為何死戰(zhàn)不降?不是安祿山想反,他也很無奈

今日養(yǎng)生之道
2026-02-22 16:18:50
挪威前首相被曝自殺未遂,目前生命情況危急,此前被指控犯有與愛潑斯坦相關的“嚴重腐敗”罪名

挪威前首相被曝自殺未遂,目前生命情況危急,此前被指控犯有與愛潑斯坦相關的“嚴重腐敗”罪名

每日經(jīng)濟新聞
2026-02-26 10:13:33
俞飛鴻竇文濤二十年相伴不結婚,抵押房產(chǎn)賠光四千萬他仍守在身邊

俞飛鴻竇文濤二十年相伴不結婚,抵押房產(chǎn)賠光四千萬他仍守在身邊

動物奇奇怪怪
2026-02-25 19:00:15
放棄爭奪260億遺產(chǎn),帶著女兒遠赴美國,如今才知她是人間清醒

放棄爭奪260億遺產(chǎn),帶著女兒遠赴美國,如今才知她是人間清醒

林輕吟
2026-01-31 11:44:55
2026-02-26 11:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12203文章數(shù) 176394關注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達再次炸裂

頭條要聞

"花壇白骨案"2名兇手因4萬元殺人埋尸 受害人兒子發(fā)聲

頭條要聞

"花壇白骨案"2名兇手因4萬元殺人埋尸 受害人兒子發(fā)聲

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經(jīng)要聞

短劇市場風云突變!有人投百萬賠得精光

汽車要聞

雷克薩斯ES雙色特別版上市 售30.79萬元起

態(tài)度原創(chuàng)

手機
游戲
本地
健康
公開課

手機要聞

想買抓緊!2026年中國手機市場迎全面普漲:3月后新機至少漲千元 老款機也提價

劇情設定已有爆料!《德軍總部》新作真要來了?

本地新聞

津南好·四時總相宜

轉頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版