国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini 3「開眼」像素級操控!谷歌回應(yīng)DeepSeek-OCR2

0
分享至


新智元報道

編輯:定慧

【新智元導(dǎo)讀】谷歌Google DeepMind剛剛推出新能力,用代碼賦予Gemini 3 Flash「法眼」。

沒想到吧,Google DeepMind剛剛為Gemini 3 Flash推出了一個重量級新能力:Agentic Vision(智能體視覺)。(難道是被DeepSeek-OCR2給刺激到了?)

可以看到,這項技術(shù)徹底改變了大語言模型理解世界的方式:

從過去的「猜」變成了如今的「深度調(diào)查」。


該能力由Google DeepMind團隊推出,核心產(chǎn)品經(jīng)理Rohan Doshi表示,傳統(tǒng)的AI模型在處理圖片時,往往只是靜態(tài)地看一眼。

如果圖片里的細節(jié)太小,比如微處理芯片上的序列號或者遠處模糊的路牌,模型往往只能靠「猜」。

而Agentic Vision引入了一個「思考-行動-觀察」(Think-Act-Observe)的閉環(huán):

模型不再是被動接收像素,而是會根據(jù)用戶的需求,主動編寫Python代碼來操縱圖像。


這一能力直接讓Gemini 3 Flash在各類視覺基準(zhǔn)測試中實現(xiàn)了5%到10%的性能跨越。


Agentic Vision:智能體視覺新前沿

DeepMind探索的方法概括起來就是:利用代碼執(zhí)行作為視覺推理的工具,將被動的視覺理解轉(zhuǎn)化為主動的智能體過程。

什么意思呢?我們知道,目前的SOTA模型通常是一次性處理圖像。

但Agentic Vision引入了一個循環(huán):

1.思考(Think):模型分析用戶查詢和初始圖像,制定多步計劃。

2.行動(Act):模型生成并執(zhí)行Python代碼來主動操縱圖像(如裁剪、旋轉(zhuǎn)、標(biāo)注)或分析圖像(如運行計算、計數(shù)邊界框等)。

3.觀察(Observe):變換后的圖像被追加到模型的上下文窗口中。這允許模型在生成最終響應(yīng)之前,以更好的上下文檢查新數(shù)據(jù)。


Agentic Vision實戰(zhàn)

通過在API中啟用代碼執(zhí)行,開發(fā)者可以解鎖許多新行為。

Google AI Studio中的演示應(yīng)用已經(jīng)展示了這一點。

1. 縮放與檢查(Zooming and inspecting)

Gemini 3 Flash被訓(xùn)練為在檢測到細粒度細節(jié)時進行隱式縮放。

PlanCheckSolver.com是一個AI驅(qū)動的建筑計劃驗證平臺,通過啟用Gemini 3 Flash的代碼執(zhí)行功能來迭代檢查高分辨率輸入,將準(zhǔn)確率提高了5%。

后臺日志視頻展示了這個智能體過程:Gemini 3 Flash生成Python代碼來裁剪和分析特定的補丁(例如屋頂邊緣或建筑部分)作為新圖像。

通過將這些裁剪圖追加回其上下文窗口,模型在視覺上確立其推理,以確認(rèn)是否符合復(fù)雜的建筑規(guī)范。


2. 圖像標(biāo)注(Image annotation)

Agentic Vision允許模型通過標(biāo)注圖像與環(huán)境交互。

Gemini 3 Flash不僅僅是描述它看到的內(nèi)容,還可以執(zhí)行代碼直接在畫布上繪制以確立其推理。

在下面的例子中,模型被要求數(shù)Gemini應(yīng)用中一只手上的數(shù)字。

為了避免計數(shù)錯誤,它使用Python在它識別的每個手指上繪制邊界框和數(shù)字標(biāo)簽。

這種「視覺草稿紙」確保其最終答案是基于像素級的完美理解。


3. 視覺數(shù)學(xué)與繪圖(Visual math and plotting)

Agentic Vision可以解析高密度表格并執(zhí)行Python代碼來可視化發(fā)現(xiàn)。

標(biāo)準(zhǔn)LLM在多步視覺算術(shù)中經(jīng)常產(chǎn)生幻覺。

Gemini 3 Flash通過將計算放到到確定性的Python環(huán)境中來繞過這個問題。

在Google AI Studio的演示應(yīng)用示例中,模型識別原始數(shù)據(jù),編寫代碼將之前的SOTA歸一化為1.0,并生成專業(yè)的Matplotlib條形圖。這用可驗證的執(zhí)行取代了概率性猜測。


如何上手

Agentic Vision今天已通過Google AI Studio和Vertex AI中的Gemini API提供。

它也開始在Gemini應(yīng)用中推出(通過從模型下拉菜單中選擇Thinking訪問)。


以下是一個簡單的Python代碼示例,展示了如何調(diào)用這一能力:

print(response.text)

未來展望

Google表示,Agentic Vision才剛剛開始。

目前,Gemini 3 Flash擅長隱式?jīng)Q定何時放大微小細節(jié)。雖然其他功能(如旋轉(zhuǎn)圖像或執(zhí)行視覺數(shù)學(xué))目前需要顯式的提示引導(dǎo)來觸發(fā),但Google正在努力在未來的更新中使這些行為完全隱式化。

此外,Google還在探索如何為Gemini模型通過更多工具(包括網(wǎng)絡(luò)和反向圖像搜索)來進一步確立其對世界的理解,并計劃將此功能擴展到Flash以外的其他模型尺寸。

彩蛋:難道是因為DeepSeek?

這就很有意思了。

DeepSeek前腳剛開源了堪稱「OCR 2.0」的DeepSeek-OCR,谷歌后腳就發(fā)布了Gemini 3的Agentic Vision。

這真的是巧合嗎?

我們不妨大膽猜測,谷歌這次的「深夜炸場」,極有可能是被DeepSeek逼出來的。

理由有三:

1.時間點的驚人巧合

1月27日,DeepSeek剛剛發(fā)布了DeepSeek-OCR2,搭載核心黑科技DeepEncoder V2。它拋棄了傳統(tǒng)的機械掃描,讓AI學(xué)會了像人類一樣「按邏輯順序閱讀」,僅用幾百個Token就實現(xiàn)了對復(fù)雜排版和圖表的完美理解。

谷歌同一天立馬拿出Agentic Vision,仿佛在這場「視覺軍備競賽」中隔空喊話:「你們讓AI看懂邏輯,我們直接讓AI上手操作」。

2.技術(shù)路線的巔峰對決

DeepSeek-OCR2走的是「內(nèi)功流」,通過DeepEncoder V2模擬人類的視覺注意力機制,動態(tài)重組圖像信息,把「看」這個動作做到了極致的輕量化和邏輯化。

而谷歌的Agentic Vision走的是「外設(shè)流」,也就是「不光要看清,還要能動手」。DeepSeek在教AI怎么「用心看」,谷歌在教AI怎么「用手算」。

3.爭奪視覺AI定義的終局

DeepSeek-OCR2證明了即便是3B的小模型,只要「視覺邏輯」對路,也能吊打大模型。谷歌則試圖用「代碼執(zhí)行」來降維打擊:你視覺再好也是「看」,我能寫代碼驗證才是「真懂」。

這場仗,本質(zhì)上是誰能重新定義「機器視覺」——是極致的感知,還是全能的交互?

不管是不是「應(yīng)激反應(yīng)」,這場神仙打架,最后爽的還是我們程序員。

參考資料:

https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
論神棍的神邏輯:一邊斷網(wǎng),一邊號召上不了網(wǎng)的人民圣戰(zhàn)

論神棍的神邏輯:一邊斷網(wǎng),一邊號召上不了網(wǎng)的人民圣戰(zhàn)

常識群
2026-01-29 14:00:33
日本連續(xù)59個月近乎“完全就業(yè)”!在日留學(xué)生畢業(yè)即就業(yè)……

日本連續(xù)59個月近乎“完全就業(yè)”!在日留學(xué)生畢業(yè)即就業(yè)……

東京在線
2026-01-28 20:31:12
人不會無故大腦萎縮!醫(yī)生提醒:大腦萎縮的人,多半有這些習(xí)慣

人不會無故大腦萎縮!醫(yī)生提醒:大腦萎縮的人,多半有這些習(xí)慣

蜉蝣說
2026-01-29 15:15:16
國產(chǎn)固態(tài)電池量產(chǎn)加速!數(shù)千萬新能源車主,恐成最大“接盤俠”?

國產(chǎn)固態(tài)電池量產(chǎn)加速!數(shù)千萬新能源車主,恐成最大“接盤俠”?

胖福的小木屋
2026-01-28 10:43:40
吳君如很早就說過了,陳妍希私下就是這樣穿

吳君如很早就說過了,陳妍希私下就是這樣穿

八星人
2026-01-21 15:14:26
四川省委常委會召開會議 堅決擁護黨中央對包惠涉嫌嚴(yán)重違紀(jì)違法進行紀(jì)律審查和監(jiān)察調(diào)查的決定

四川省委常委會召開會議 堅決擁護黨中央對包惠涉嫌嚴(yán)重違紀(jì)違法進行紀(jì)律審查和監(jiān)察調(diào)查的決定

環(huán)球網(wǎng)資訊
2026-01-29 19:02:10
以招聘為名收取培訓(xùn)費,成都警方:對8人采取刑事拘留強制措施

以招聘為名收取培訓(xùn)費,成都警方:對8人采取刑事拘留強制措施

界面新聞
2026-01-29 21:59:42
網(wǎng)友在福建農(nóng)村偶遇15層自建房,驚嘆“一家人給自己蓋了個小區(qū)”,住戶:近10年前家族合建,四世同堂住了百余人

網(wǎng)友在福建農(nóng)村偶遇15層自建房,驚嘆“一家人給自己蓋了個小區(qū)”,住戶:近10年前家族合建,四世同堂住了百余人

極目新聞
2026-01-29 18:23:50
16枚導(dǎo)彈全部擊中,基輔電廠徹底癱瘓!烏克蘭或后悔先挑起能源戰(zhàn)

16枚導(dǎo)彈全部擊中,基輔電廠徹底癱瘓!烏克蘭或后悔先挑起能源戰(zhàn)

小小科普員
2026-01-27 23:31:04
突然官宣!中澳聯(lián)手追捕這中國留學(xué)生!引發(fā)全球暴怒的他,在大陸被找到了!逃不掉了

突然官宣!中澳聯(lián)手追捕這中國留學(xué)生!引發(fā)全球暴怒的他,在大陸被找到了!逃不掉了

澳洲紅領(lǐng)巾
2026-01-29 11:13:23
副院長對器官移植權(quán)威發(fā)聲:我國器官捐獻不容詆毀!

副院長對器官移植權(quán)威發(fā)聲:我國器官捐獻不容詆毀!

王的學(xué)習(xí)筆記
2026-01-29 14:39:49
一周13人傷亡!建議中國游客春節(jié)避免前往俄羅斯旅游

一周13人傷亡!建議中國游客春節(jié)避免前往俄羅斯旅游

基本常識
2026-01-28 22:17:24
突然,降息50個基點

突然,降息50個基點

中國基金報
2026-01-29 21:33:09
正部級“老虎”孫紹騁被查

正部級“老虎”孫紹騁被查

界面新聞
2026-01-29 20:43:58
歐盟將伊朗伊斯蘭革命衛(wèi)隊列為“恐怖組織”

歐盟將伊朗伊斯蘭革命衛(wèi)隊列為“恐怖組織”

新華社
2026-01-29 23:20:11
女子曬外國男友曾曾祖父遺物,疑八國聯(lián)軍侵華血腥證據(jù)!血色婚禮的殘片

女子曬外國男友曾曾祖父遺物,疑八國聯(lián)軍侵華血腥證據(jù)!血色婚禮的殘片

可達鴨面面觀
2026-01-29 20:28:01
獨家|多家房企:目前已不被監(jiān)管部門要求每月上報“三條紅線”指標(biāo)

獨家|多家房企:目前已不被監(jiān)管部門要求每月上報“三條紅線”指標(biāo)

財聯(lián)社
2026-01-28 14:42:31
明家電詐集團11人被執(zhí)行死刑細節(jié):有人渾身篩糠,明珍珍最慫

明家電詐集團11人被執(zhí)行死刑細節(jié):有人渾身篩糠,明珍珍最慫

胡侃社會百態(tài)
2026-01-29 17:20:07
河南伴郎一己之力毀掉一場婚禮!有一種朋友,比小三還可怕100倍……

河南伴郎一己之力毀掉一場婚禮!有一種朋友,比小三還可怕100倍……

脆皮先生
2026-01-29 20:02:26
多次挑釁中國!烏克蘭名將:我的國家冬天很艱難 沒有電沒有一切

多次挑釁中國!烏克蘭名將:我的國家冬天很艱難 沒有電沒有一切

念洲
2026-01-29 08:03:43
2026-01-29 23:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14438文章數(shù) 66547關(guān)注度
往期回顧 全部

科技要聞

周亞輝的AI新賭局:國內(nèi)太卷 出海另起爐灶

頭條要聞

福建一家人被指給自己蓋了個小區(qū):15層樓房住百余人

頭條要聞

福建一家人被指給自己蓋了個小區(qū):15層樓房住百余人

體育要聞

詹姆斯哭了!騎士視頻致敬41歲超巨

娛樂要聞

曝金晨涉嫌交通肇事逃逸 本人尚未回應(yīng)

財經(jīng)要聞

崔東樹:中國汽車未來年銷或達5000萬輛

汽車要聞

車長超5米還帶后輪轉(zhuǎn)向 比亞迪海豹08/海獅08將亮相

態(tài)度原創(chuàng)

藝術(shù)
本地
手機
旅游
數(shù)碼

藝術(shù)要聞

梵高全集(高清350張)震撼……

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

手機要聞

REDMI Turbo 5 Max發(fā)布即爆款 2小時刷新2K-3K價位段新機首銷記錄

旅游要聞

馬踏春歸·雅韻二七丨2026新春文旅精品線路來了!

數(shù)碼要聞

1999 REDMI Turbo5系列開箱測試,9000mAh大電池 一步MAX!

無障礙瀏覽 進入關(guān)懷版