国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini 3「開眼」像素級操控!谷歌回應(yīng)DeepSeek-OCR2

0
分享至


新智元報道

編輯:定慧

【新智元導(dǎo)讀】谷歌Google DeepMind剛剛推出新能力,用代碼賦予Gemini 3 Flash「法眼」。

沒想到吧,Google DeepMind剛剛為Gemini 3 Flash推出了一個重量級新能力:Agentic Vision(智能體視覺)。(難道是被DeepSeek-OCR2給刺激到了?)

可以看到,這項技術(shù)徹底改變了大語言模型理解世界的方式:

從過去的「猜」變成了如今的「深度調(diào)查」。


該能力由Google DeepMind團隊推出,核心產(chǎn)品經(jīng)理Rohan Doshi表示,傳統(tǒng)的AI模型在處理圖片時,往往只是靜態(tài)地看一眼。

如果圖片里的細節(jié)太小,比如微處理芯片上的序列號或者遠處模糊的路牌,模型往往只能靠「猜」。

而Agentic Vision引入了一個「思考-行動-觀察」(Think-Act-Observe)的閉環(huán):

模型不再是被動接收像素,而是會根據(jù)用戶的需求,主動編寫Python代碼來操縱圖像。


這一能力直接讓Gemini 3 Flash在各類視覺基準(zhǔn)測試中實現(xiàn)了5%到10%的性能跨越。


Agentic Vision:智能體視覺新前沿

DeepMind探索的方法概括起來就是:利用代碼執(zhí)行作為視覺推理的工具,將被動的視覺理解轉(zhuǎn)化為主動的智能體過程。

什么意思呢?我們知道,目前的SOTA模型通常是一次性處理圖像。

但Agentic Vision引入了一個循環(huán):

1.思考(Think):模型分析用戶查詢和初始圖像,制定多步計劃。

2.行動(Act):模型生成并執(zhí)行Python代碼來主動操縱圖像(如裁剪、旋轉(zhuǎn)、標(biāo)注)或分析圖像(如運行計算、計數(shù)邊界框等)。

3.觀察(Observe):變換后的圖像被追加到模型的上下文窗口中。這允許模型在生成最終響應(yīng)之前,以更好的上下文檢查新數(shù)據(jù)。


Agentic Vision實戰(zhàn)

通過在API中啟用代碼執(zhí)行,開發(fā)者可以解鎖許多新行為。

Google AI Studio中的演示應(yīng)用已經(jīng)展示了這一點。

1. 縮放與檢查(Zooming and inspecting)

Gemini 3 Flash被訓(xùn)練為在檢測到細粒度細節(jié)時進行隱式縮放。

PlanCheckSolver.com是一個AI驅(qū)動的建筑計劃驗證平臺,通過啟用Gemini 3 Flash的代碼執(zhí)行功能來迭代檢查高分辨率輸入,將準(zhǔn)確率提高了5%。

后臺日志視頻展示了這個智能體過程:Gemini 3 Flash生成Python代碼來裁剪和分析特定的補。ɡ缥蓓斶吘壔蚪ㄖ糠郑┳鳛樾聢D像。

通過將這些裁剪圖追加回其上下文窗口,模型在視覺上確立其推理,以確認(rèn)是否符合復(fù)雜的建筑規(guī)范。


2. 圖像標(biāo)注(Image annotation)

Agentic Vision允許模型通過標(biāo)注圖像與環(huán)境交互。

Gemini 3 Flash不僅僅是描述它看到的內(nèi)容,還可以執(zhí)行代碼直接在畫布上繪制以確立其推理。

在下面的例子中,模型被要求數(shù)Gemini應(yīng)用中一只手上的數(shù)字。

為了避免計數(shù)錯誤,它使用Python在它識別的每個手指上繪制邊界框和數(shù)字標(biāo)簽。

這種「視覺草稿紙」確保其最終答案是基于像素級的完美理解。


3. 視覺數(shù)學(xué)與繪圖(Visual math and plotting)

Agentic Vision可以解析高密度表格并執(zhí)行Python代碼來可視化發(fā)現(xiàn)。

標(biāo)準(zhǔn)LLM在多步視覺算術(shù)中經(jīng)常產(chǎn)生幻覺。

Gemini 3 Flash通過將計算放到到確定性的Python環(huán)境中來繞過這個問題。

在Google AI Studio的演示應(yīng)用示例中,模型識別原始數(shù)據(jù),編寫代碼將之前的SOTA歸一化為1.0,并生成專業(yè)的Matplotlib條形圖。這用可驗證的執(zhí)行取代了概率性猜測。


如何上手

Agentic Vision今天已通過Google AI Studio和Vertex AI中的Gemini API提供。

它也開始在Gemini應(yīng)用中推出(通過從模型下拉菜單中選擇Thinking訪問)。


以下是一個簡單的Python代碼示例,展示了如何調(diào)用這一能力:

print(response.text)

未來展望

Google表示,Agentic Vision才剛剛開始。

目前,Gemini 3 Flash擅長隱式?jīng)Q定何時放大微小細節(jié)。雖然其他功能(如旋轉(zhuǎn)圖像或執(zhí)行視覺數(shù)學(xué))目前需要顯式的提示引導(dǎo)來觸發(fā),但Google正在努力在未來的更新中使這些行為完全隱式化。

此外,Google還在探索如何為Gemini模型通過更多工具(包括網(wǎng)絡(luò)和反向圖像搜索)來進一步確立其對世界的理解,并計劃將此功能擴展到Flash以外的其他模型尺寸。

彩蛋:難道是因為DeepSeek?

這就很有意思了。

DeepSeek前腳剛開源了堪稱「OCR 2.0」的DeepSeek-OCR,谷歌后腳就發(fā)布了Gemini 3的Agentic Vision。

這真的是巧合嗎?

我們不妨大膽猜測,谷歌這次的「深夜炸場」,極有可能是被DeepSeek逼出來的。

理由有三:

1.時間點的驚人巧合

1月27日,DeepSeek剛剛發(fā)布了DeepSeek-OCR2,搭載核心黑科技DeepEncoder V2。它拋棄了傳統(tǒng)的機械掃描,讓AI學(xué)會了像人類一樣「按邏輯順序閱讀」,僅用幾百個Token就實現(xiàn)了對復(fù)雜排版和圖表的完美理解。

谷歌同一天立馬拿出Agentic Vision,仿佛在這場「視覺軍備競賽」中隔空喊話:「你們讓AI看懂邏輯,我們直接讓AI上手操作」。

2.技術(shù)路線的巔峰對決

DeepSeek-OCR2走的是「內(nèi)功流」,通過DeepEncoder V2模擬人類的視覺注意力機制,動態(tài)重組圖像信息,把「看」這個動作做到了極致的輕量化和邏輯化。

而谷歌的Agentic Vision走的是「外設(shè)流」,也就是「不光要看清,還要能動手」。DeepSeek在教AI怎么「用心看」,谷歌在教AI怎么「用手算」。

3.爭奪視覺AI定義的終局

DeepSeek-OCR2證明了即便是3B的小模型,只要「視覺邏輯」對路,也能吊打大模型。谷歌則試圖用「代碼執(zhí)行」來降維打擊:你視覺再好也是「看」,我能寫代碼驗證才是「真懂」。

這場仗,本質(zhì)上是誰能重新定義「機器視覺」——是極致的感知,還是全能的交互?

不管是不是「應(yīng)激反應(yīng)」,這場神仙打架,最后爽的還是我們程序員。

參考資料:

https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
大齡剩女崩潰的瞬間是什么時候?網(wǎng)友:多年的舔狗突然結(jié)婚

大齡剩女崩潰的瞬間是什么時候?網(wǎng)友:多年的舔狗突然結(jié)婚

夜深愛雜談
2026-01-20 18:56:34
中央免去香港高官職務(wù),曾國衞離職原因真相大白,不實流言可休矣

中央免去香港高官職務(wù),曾國衞離職原因真相大白,不實流言可休矣

淡淡稻花香s
2026-01-28 10:07:50
沉默24小時后,卡尼終于發(fā)聲,否認(rèn)與中國簽協(xié)議,美財長得寸進尺

沉默24小時后,卡尼終于發(fā)聲,否認(rèn)與中國簽協(xié)議,美財長得寸進尺

通文知史
2026-01-27 13:45:03
上海炒股大賽冠軍的箴言:如果手里只有10萬,不妨死磕"七大口訣"

上海炒股大賽冠軍的箴言:如果手里只有10萬,不妨死磕"七大口訣"

一方聊市
2026-01-19 13:13:48
林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

抽象派大師
2026-01-03 02:13:54
綿陽市長被查!前一天剛就副市長被查主持會議

綿陽市長被查!前一天剛就副市長被查主持會議

看看新聞Knews
2026-01-28 17:37:15
掀桌了?高市公布戰(zhàn)爭方案,日要求漁民撤離,白宮與五角大樓沉默

掀桌了?高市公布戰(zhàn)爭方案,日要求漁民撤離,白宮與五角大樓沉默

時時有聊
2026-01-28 08:18:56
爆:原中國移動集團董事長奚國華!

爆:原中國移動集團董事長奚國華!

通信頭條
2026-01-26 22:07:15
一波未平一波又起!羅永浩還沒完,賈國龍對手郭律師又突然火了!

一波未平一波又起!羅永浩還沒完,賈國龍對手郭律師又突然火了!

達文西看世界
2026-01-28 19:23:53
后悔也晚了!大批F35逼到家門口,伊朗卻發(fā)現(xiàn)紅旗9和殲10還未到位

后悔也晚了!大批F35逼到家門口,伊朗卻發(fā)現(xiàn)紅旗9和殲10還未到位

來科點譜
2026-01-26 08:53:15
不忍了!王岳倫回應(yīng)王詩齡休學(xué),李湘參與緬北詐騙傳聞?wù)嫦啻蟀?>
    </a>
        <h3>
      <a href=叨嘮
2026-01-27 03:11:03
20萬股東踩雷,8只可能終止上市的股票今日一字跌停!

20萬股東踩雷,8只可能終止上市的股票今日一字跌停!

財經(jīng)智多星
2026-01-28 11:10:02
莫斯科電站突發(fā)大火!烏克蘭摧毀克里米亞防空系統(tǒng)

莫斯科電站突發(fā)大火!烏克蘭摧毀克里米亞防空系統(tǒng)

項鵬飛
2026-01-28 18:46:39
突然發(fā)現(xiàn)孩子真的很平庸,難以接受怎么辦?網(wǎng)友分享引起萬千共鳴

突然發(fā)現(xiàn)孩子真的很平庸,難以接受怎么辦?網(wǎng)友分享引起萬千共鳴

另子維愛讀史
2026-01-27 20:48:17
因病請假超過一年,陳菊請辭臺監(jiān)察機構(gòu)負責(zé)人!賴清德準(zhǔn)了

因病請假超過一年,陳菊請辭臺監(jiān)察機構(gòu)負責(zé)人!賴清德準(zhǔn)了

海峽導(dǎo)報社
2026-01-28 18:54:03
民眾黨新人事任命,黃國昌柯文哲都有要職,黃珊珊徹底被邊緣化?

民眾黨新人事任命,黃國昌柯文哲都有要職,黃珊珊徹底被邊緣化?

DS北風(fēng)
2026-01-28 19:14:21
斯大林中風(fēng)倒地后,為何醫(yī)生不敢治?長時間無人扶?

斯大林中風(fēng)倒地后,為何醫(yī)生不敢治?長時間無人扶?

真貓爺?shù)臐O場
2026-01-17 21:14:12
坊間傳聞:家產(chǎn)爭奪慘敗,何超賢被何超瓊掃地出門后找出母親遺物

坊間傳聞:家產(chǎn)爭奪慘敗,何超賢被何超瓊掃地出門后找出母親遺物

卡西莫多的故事
2026-01-23 09:52:57
泰國衛(wèi)生部:泰國果蝠體內(nèi)發(fā)現(xiàn)強毒性尼帕病毒,人傳人路徑是與感染者體液有直接接觸

泰國衛(wèi)生部:泰國果蝠體內(nèi)發(fā)現(xiàn)強毒性尼帕病毒,人傳人路徑是與感染者體液有直接接觸

紅星新聞
2026-01-27 18:12:18
維漢通婚博主遭遇死亡威脅:這已經(jīng)不是觀點沖突,而是犯罪!

維漢通婚博主遭遇死亡威脅:這已經(jīng)不是觀點沖突,而是犯罪!

西域都護
2026-01-26 15:00:19
2026-01-28 20:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14428文章數(shù) 66546關(guān)注度
往期回顧 全部

科技要聞

它是神也是毒!Clawdbot改名卷入千萬詐騙

頭條要聞

知名企業(yè)家熊海濤被留置 被指與成都主要領(lǐng)導(dǎo)違紀(jì)有關(guān)

頭條要聞

知名企業(yè)家熊海濤被留置 被指與成都主要領(lǐng)導(dǎo)違紀(jì)有關(guān)

體育要聞

沒天賦的CBA第一小前鋒,秘訣只有一個字

娛樂要聞

王祖賢入駐某音:一條7秒視頻吸粉55萬

財經(jīng)要聞

從萬科退休20天后,郁亮疑似失聯(lián)

汽車要聞

新手必看!冰雪路面不敢開?記住這4點 關(guān)鍵時刻真能保命

態(tài)度原創(chuàng)

健康
房產(chǎn)
數(shù)碼
家居
公開課

耳石癥分類型,癥狀大不同

房產(chǎn)要聞

實景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

數(shù)碼要聞

瘋了!DDR4暴漲1845%,DDR5漲465%,裝機黨徹底哭了

家居要聞

躍式別墅 包絡(luò)石木為生

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版