国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ApdativeNN:建模類人自適應(yīng)感知機(jī)制,突破機(jī)器視覺不可能三角

0
分享至



視覺是人類理解復(fù)雜物理世界的重要方式。讓計(jì)算機(jī)具備視覺感知與認(rèn)知的能力,是人工智能的主要研究問題之一,對多模態(tài)基礎(chǔ)模型、具身智能、醫(yī)療 AI 等重要領(lǐng)域具有關(guān)鍵支撐作用。過去幾十年間,計(jì)算機(jī)視覺取得了顯著突破,已在圖像識別、目標(biāo)檢測、多模態(tài)理解等多個(gè)任務(wù)上接近甚至超越人類專家水平。然而,當(dāng)前的高精度模型在實(shí)際落地中常面臨較大挑戰(zhàn):它們的推理過程往往需要激活上億參數(shù)來處理高分辨率圖像或視頻、以解決復(fù)雜和挑戰(zhàn)性的視覺問題,導(dǎo)致功耗、存儲需求和響應(yīng)時(shí)延急劇上升。這一瓶頸使得它們難以部署在算力、能耗、存儲等資源高度受限的實(shí)際系統(tǒng)中(如機(jī)器人、自動(dòng)駕駛、移動(dòng)設(shè)備或邊緣終端等),甚至在醫(yī)療、交通等場景下由于延遲決策危害生命安全。另一方面,大型模型龐大的推理能耗在也帶來了大規(guī)模部署的環(huán)境可持續(xù)性問題。

上述挑戰(zhàn)的一個(gè)重要原因在于現(xiàn)有視覺模型普遍采用了全局表征學(xué)習(xí)范式:一次性并行處理整幅圖像或視頻的所有像素、提取全部對應(yīng)特征,再應(yīng)用于具體任務(wù)。這種 “全局并行計(jì)算” 范式使得模型計(jì)算復(fù)雜度隨輸入尺寸呈至少平方或立方增長,逐漸形成了一個(gè)日益嚴(yán)峻的能效瓶頸:信息豐富的高分辨率時(shí)空輸入、性能領(lǐng)先的大型模型、高效快速推理,三者難以同時(shí)滿足。這一挑戰(zhàn)正在成為制約視覺智能走向大規(guī)模、可部署落地、低碳環(huán)保的公認(rèn)難題。



圖1 當(dāng)前計(jì)算機(jī)視覺范式所面臨的能效瓶頸

人類視覺系統(tǒng)為突破上述瓶頸提供了重要啟示:在觀察復(fù)雜環(huán)境時(shí),人眼不會一次性處理全部視覺信息,而是通過一系列 “注視” 動(dòng)作主動(dòng)、選擇性地采樣關(guān)鍵區(qū)域,以小范圍高分辨率的感知逐步拼接出對物理世界中有用信息的認(rèn)知。這種先進(jìn)的機(jī)制能在龐雜的信息流中快速篩取要點(diǎn),大幅降低計(jì)算開銷,使得人類高度復(fù)雜的視覺系統(tǒng)即便在資源受限的前提下依然能夠高效、快速運(yùn)行。無論外界場景多么復(fù)雜,人類視覺的能耗主要取決于注視帶寬與注視次數(shù),而非全局像素量。早在 2015 年,LeCun, Bengio, Hinton 便在《Nature》綜述論文 “Deep Learning” 中指出,未來的 AI 視覺系統(tǒng)應(yīng)具備類人的、任務(wù)驅(qū)動(dòng)的主動(dòng)觀察能力。然而近十年來,這一方向仍缺乏系統(tǒng)性研究。



圖2 人類視覺系統(tǒng)的主動(dòng)自適應(yīng)感知策略

2025 年 11 月,清華大學(xué)自動(dòng)化系宋士吉、黃高團(tuán)隊(duì)在《自然?機(jī)器智能》(Nature Machine Intelligence)上發(fā)表了論文《Emulating human-like adaptive vision for efficient and flexible machine visual perception》(模擬人類自適應(yīng)視覺,實(shí)現(xiàn)高效靈活的機(jī)器視覺感知)。該研究提出了AdaptiveNN 架構(gòu),通過借鑒人類 “主動(dòng)自適應(yīng)視覺” 的機(jī)制,將視覺感知建模為由粗到精的最優(yōu)序貫決策問題:逐步定位關(guān)鍵區(qū)域、累積多次注視信息,并在信息足夠完成任務(wù)時(shí)主動(dòng)終止觀察。在理論上,該研究通過結(jié)合表征學(xué)習(xí)與自獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),給出了 AdaptiveNN 所面臨的離散 - 連續(xù)混合優(yōu)化問題的無需額外監(jiān)督的端到端求解方法。在涵蓋 9 類任務(wù)的廣泛實(shí)驗(yàn)中,AdaptiveNN 在保持精度的同時(shí)實(shí)現(xiàn)了最高 28 倍的推理成本降低,可在線動(dòng)態(tài)調(diào)整其行為以適配不同任務(wù)需求與算力約束,同時(shí),其基于注視路徑的推理機(jī)制顯著提升了可解釋性。AdaptiveNN 展現(xiàn)出構(gòu)建高效、靈活且可解釋的計(jì)算機(jī)視覺新范式的潛力。另一方面,AdaptiveNN 的感知行為在多項(xiàng)測試中與人類接近,也為未來探索人類視覺認(rèn)知機(jī)制的關(guān)鍵問題提供了新的見解和研究工具。



  • 論文標(biāo)題:Emulating human-like adaptive vision for efficient and flexible machine visual perception
  • 論文鏈接:https://www.nature.com/articles/s42256-025-01130-7

AdaptiveNN:類人主動(dòng)感知架構(gòu)



借助這一機(jī)制,AdaptiveNN 能夠在保證高精度的同時(shí)顯著降低計(jì)算量,實(shí)現(xiàn)“看得清,也看得省”。它使神經(jīng)網(wǎng)絡(luò)具備了類人式的主動(dòng)感知,從而突破了傳統(tǒng)視覺模型在效率與效果之間的權(quán)衡瓶頸。

值得注意的是,AdaptiveNN 在設(shè)計(jì)上具有較強(qiáng)的兼容性和靈活性,適用于多種不同的深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)架構(gòu)(如卷積網(wǎng)絡(luò)、Transformer等)和多種類型的任務(wù)(如純視覺感知、視覺-語言多模態(tài)聯(lián)合建模等)。



圖3 AdaptiveNN的網(wǎng)絡(luò)架構(gòu)和推理過程

理論創(chuàng)新:自激勵(lì)強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的主動(dòng)感知行為學(xué)習(xí)

AdaptiveNN 的訓(xùn)練過程同時(shí)涉及連續(xù)變量(如從注視區(qū)域中提取特征)與離散變量(如決定下一次注視位置)的優(yōu)化,傳統(tǒng)反向傳播算法難以直接處理這一混合問題。為此,研究團(tuán)隊(duì)在理論上提出了面向離散 - 連續(xù)混合優(yōu)化問題的端到端求解方法,使 AdaptiveNN 能夠在統(tǒng)一框架下簡單易行地完成整體訓(xùn)練。具體而言,從期望優(yōu)化目標(biāo)出發(fā),對整體損失函數(shù) L(θ) 進(jìn)行分解,AdaptiveNN 的端到端優(yōu)化過程可自然地分解為兩部分



其中第一項(xiàng)為表征學(xué)習(xí)目標(biāo)(representation learning),對應(yīng)于從注視區(qū)域中提取任務(wù)相關(guān)的特征;第二項(xiàng)為自激勵(lì)強(qiáng)化學(xué)習(xí)目標(biāo)(self-rewarding reinforcement learning),對應(yīng)于優(yōu)化注視位置的分布,驅(qū)使模型的主動(dòng)注視行為實(shí)現(xiàn)最大化的任務(wù)收益。這一理論結(jié)果揭示了 AdaptiveNN 的內(nèi)在學(xué)習(xí)規(guī)律:主動(dòng)感知的優(yōu)化本質(zhì)上是表征學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的統(tǒng)一



圖4 強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的端到端主動(dòng)視覺的理論框架

實(shí)驗(yàn)驗(yàn)證:高效視覺感知,類人視覺行為

  • 性能提升顯著:在使用相同主干網(wǎng)絡(luò)(如 DeiT-S、ResNet-50)的情況下,AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分別以2.86 GFLOPs 與 3.37 GFLOPs的平均計(jì)算量,取得與傳統(tǒng)靜態(tài)模型相當(dāng)甚至更優(yōu)的準(zhǔn)確率(81.6% / 79.1%),實(shí)現(xiàn)了 5.4× 與 3.6× 的計(jì)算節(jié)省。
  • 可解釋性增強(qiáng):AdaptiveNN 的注視軌跡自動(dòng)聚焦于類別判別性區(qū)域,例如動(dòng)物的頭部、樂器的關(guān)鍵結(jié)構(gòu)、咖啡機(jī)的旋鈕與噴嘴等。當(dāng)目標(biāo)較小或遠(yuǎn)離攝像機(jī)時(shí),模型會自適應(yīng)地延長觀察序列,主動(dòng)調(diào)整注視步數(shù)以獲得更精確的判斷。這種 “由粗到細(xì)、按需注視” 的策略,與人類視覺的逐步注視過程高度一致。



圖5 ImageNet視覺感知實(shí)驗(yàn)結(jié)果

為了進(jìn)一步驗(yàn)證 AdaptiveNN 的泛化與精細(xì)感知能力,研究團(tuán)隊(duì)在六個(gè)細(xì)粒度視覺識別任務(wù)(CUB-200、NABirds、Oxford-IIIT Pet、Stanford Dogs、Stanford Cars、FGVC-Aircraft)上進(jìn)行了系統(tǒng)評估。

  • AdaptiveNN 在保持精度基本不變甚至略有提升的情況下,實(shí)現(xiàn)了5.8×–8.2× 的計(jì)算量節(jié)省,顯著超越傳統(tǒng)靜態(tài)視覺模型的性能–能效上限。
  • 通過可視化(Fig. A1b–A1e),可以看到模型自發(fā)聚焦于任務(wù)判別性區(qū)域 —— 如鳥類的喙部、犬類的面部、汽車的燈組與航空器的螺旋槳 —— 而無需任何顯式的定位監(jiān)督。



圖6 細(xì)粒度視覺識別任務(wù)實(shí)驗(yàn)結(jié)果

AdaptiveNN 在空間注視位置任務(wù)難度判斷兩個(gè)層面,都展現(xiàn)出與人類視覺高度一致的自適應(yīng)行為。定量結(jié)果表明,無論是 “看哪里”、還是 “覺得什么難”,模型的感知策略都與人類極為相似。在 “視覺圖靈測試” 中,人類受試者幾乎無法區(qū)分模型與真實(shí)人類的凝視軌跡。

更值得關(guān)注的是,這一成果對認(rèn)知科學(xué)的研究具有啟發(fā)意義。AdaptiveNN 的結(jié)果不僅為理解人類視覺行為的關(guān)鍵認(rèn)知科學(xué)問題(例如 “視覺能力的形成究竟源于先天機(jī)制還是后天學(xué)習(xí)”)提供了新的啟發(fā),也展示了其作為一種通用計(jì)算模型的潛力。未來,AdaptiveNN 有望用于模擬和檢驗(yàn)人類的注意分配、感知學(xué)習(xí)、以及復(fù)雜任務(wù)中的視覺決策機(jī)制,為將來認(rèn)知科學(xué)方面的研究提供了潛在的定量工具。



圖7 AdaptiveNN與人類視覺感知行為的一致性測試

從視覺感知到邁向高效具身推理

在實(shí)驗(yàn)驗(yàn)證中,研究團(tuán)隊(duì)進(jìn)一步將 AdaptiveNN 應(yīng)用于具身智能的基礎(chǔ)模型(視覺 - 語言 - 行為模型,VLA)上結(jié)果表明,該框架在復(fù)雜操作場景中顯著提升了具身基礎(chǔ)模型的推理與感知效率,在保持任務(wù)成功率的同時(shí)將計(jì)算開銷大幅降低 4.4-5.9 倍。這一成果為解決具身智能系統(tǒng)長期面臨的效率瓶頸提供了新的思路與技術(shù)路徑。



圖8 ApdativeNN應(yīng)用于VLA具身任務(wù)的實(shí)驗(yàn)結(jié)果

清華大學(xué)自動(dòng)化系博士生王語霖、樂洋、樂陽為論文共同第一作者,宋士吉教授與黃高副教授為共同通訊作者。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
武漢市武昌區(qū)政府副區(qū)長,區(qū)公安分局局長徐舫擬提名為市州副市州長人選

武漢市武昌區(qū)政府副區(qū)長,區(qū)公安分局局長徐舫擬提名為市州副市州長人選

觀星賞月
2026-04-20 18:26:12
3年前就戳穿西貝預(yù)制菜沒人信,如今被實(shí)錘!這個(gè)探店博主藏得太深了

3年前就戳穿西貝預(yù)制菜沒人信,如今被實(shí)錘!這個(gè)探店博主藏得太深了

馬蹄燙嘴說美食
2026-04-15 18:29:48
臺軍到底能不能打?7萬字告訴你答案

臺軍到底能不能打?7萬字告訴你答案

述策
2026-04-20 11:08:57
首都北京市未來10年城市規(guī)劃...

首都北京市未來10年城市規(guī)劃...

我不叫阿哏
2026-04-20 18:42:03
貶低全紅嬋、移居國外、兒子入英國籍?白巖松到底動(dòng)了誰的蛋糕

貶低全紅嬋、移居國外、兒子入英國籍?白巖松到底動(dòng)了誰的蛋糕

許三歲
2026-04-18 09:36:18
老鷹107-106險(xiǎn)勝尼克斯,一戰(zhàn)揭露了三個(gè)不爭的事實(shí)!

老鷹107-106險(xiǎn)勝尼克斯,一戰(zhàn)揭露了三個(gè)不爭的事實(shí)!

君子一劍似水流年
2026-04-21 11:40:47
卡拉格:我不認(rèn)為丟掉英超冠軍阿爾特塔就會下課,完全不至于

卡拉格:我不認(rèn)為丟掉英超冠軍阿爾特塔就會下課,完全不至于

懂球帝
2026-04-21 11:35:13
山東乳山銀灘“195平米復(fù)式房”1萬元起拍,已有多人競價(jià),拍賣公司:產(chǎn)證面積97.94平米,另有贈送面積,非法拍可隨時(shí)過戶

山東乳山銀灘“195平米復(fù)式房”1萬元起拍,已有多人競價(jià),拍賣公司:產(chǎn)證面積97.94平米,另有贈送面積,非法拍可隨時(shí)過戶

極目新聞
2026-04-19 14:06:31
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
14億人都不會忘卻!揭開核酸大王張核子的真面具:權(quán)力變現(xiàn)大公

14億人都不會忘卻!揭開核酸大王張核子的真面具:權(quán)力變現(xiàn)大公

大魚簡科
2026-02-07 09:52:29
中國德比再度上演!斯諾克世錦賽丁俊暉vs趙心童,二人最新回應(yīng)來了

中國德比再度上演!斯諾克世錦賽丁俊暉vs趙心童,二人最新回應(yīng)來了

現(xiàn)代快報(bào)
2026-04-21 11:24:14
拆遷款分配完,弟弟一家轉(zhuǎn)走980萬,我被打發(fā)6萬,半個(gè)月后反轉(zhuǎn)

拆遷款分配完,弟弟一家轉(zhuǎn)走980萬,我被打發(fā)6萬,半個(gè)月后反轉(zhuǎn)

楓紅染山徑
2026-04-21 08:01:15
價(jià)格狂飆6倍!日本連夜求購遭中方出口管制,高端制造全線崩盤?

價(jià)格狂飆6倍!日本連夜求購遭中方出口管制,高端制造全線崩盤?

墨蘭史書
2026-04-20 13:25:03
張本兄妹改名風(fēng)波再升級,韓媒強(qiáng)烈批評,這就是狠毒的創(chuàng)姓改稱

張本兄妹改名風(fēng)波再升級,韓媒強(qiáng)烈批評,這就是狠毒的創(chuàng)姓改稱

明天后天大后天
2026-04-21 08:18:54
李湘母女現(xiàn)身長沙小區(qū),沉默走路不拍照,低調(diào)得讓人意外

李湘母女現(xiàn)身長沙小區(qū),沉默走路不拍照,低調(diào)得讓人意外

楓塵余往逝
2026-04-20 20:58:54
這才是宋美齡和繼子蔣經(jīng)國的一張真實(shí)合影,都是真人的容貌

這才是宋美齡和繼子蔣經(jīng)國的一張真實(shí)合影,都是真人的容貌

喜歡歷史的阿繁
2026-04-16 11:17:28
花旗:如果霍爾木茲海峽中斷再持續(xù)一個(gè)月 油價(jià)將達(dá)到110美元

花旗:如果霍爾木茲海峽中斷再持續(xù)一個(gè)月 油價(jià)將達(dá)到110美元

財(cái)聯(lián)社
2026-04-21 03:34:04
對不起,我棄劇了!《八千里路云和月》越看越離譜,導(dǎo)演真有你的

對不起,我棄劇了!《八千里路云和月》越看越離譜,導(dǎo)演真有你的

青橘罐頭
2026-04-20 22:16:47
女孩在行李箱上寫字,全網(wǎng)狂贊:這才是中國人刻在骨子里的浪漫!

女孩在行李箱上寫字,全網(wǎng)狂贊:這才是中國人刻在骨子里的浪漫!

中國藝術(shù)家
2026-04-14 05:23:31
藍(lán)眼北京人控訴陳麗華20余年,比女首富更該銘記

藍(lán)眼北京人控訴陳麗華20余年,比女首富更該銘記

老蝣說體育
2026-04-19 17:40:22
2026-04-21 12:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12816文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

7歲男孩高燒40℃渾身"黑化"面臨截肢 只因父母1個(gè)疏忽

頭條要聞

7歲男孩高燒40℃渾身"黑化"面臨截肢 只因父母1個(gè)疏忽

體育要聞

“被優(yōu)化”8年后,國乒方博決定換一條路重新上場

娛樂要聞

周潤發(fā)時(shí)隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財(cái)經(jīng)要聞

減速機(jī)訂單已排到明年!

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

藝術(shù)
家居
手機(jī)
親子
公開課

藝術(shù)要聞

任伯年寫竹,真帶勁

家居要聞

詩意光影 窺見自然之境

手機(jī)要聞

今晚7點(diǎn)發(fā)布!Redmi K90 Max配置提前盡覽,哪個(gè)配置讓你心動(dòng)不已?

親子要聞

科普|孩子運(yùn)動(dòng)扭傷了?兒童骨科醫(yī)生教你三步搞定

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版