国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓龍蝦看懂屏幕!谷歌多模態(tài)新成果,文本圖像視頻音頻進(jìn)同一空間

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

原生,啟動(dòng)!

剛剛,谷歌發(fā)布了首個(gè)原生多模態(tài)(Multimodal)嵌入模型——

Gemini Embedding 2

這次模型最大的變化在于:把文本、圖像、視頻、音頻和文檔,全部映射進(jìn)同一個(gè)統(tǒng)一的嵌入空間。



換句話說,不同媒介的數(shù)據(jù)第一次被放進(jìn)同一個(gè)語義坐標(biāo)系里。

在輸入能力上,Gemini Embedding 2支持多種數(shù)據(jù)類型:

  • 文本:支持最多8192個(gè)token
  • 圖像:每次請(qǐng)求最多處理6張圖像,支持PNG和JPEG
  • 視頻:支持最長120秒的視頻輸入,格式為MP4和MOV
  • 音頻:原生嵌入音頻數(shù)據(jù),無需中間文本轉(zhuǎn)錄
  • 文檔:可直接嵌入最多6頁的PDF

此外,模型不僅可以處理單一模態(tài),還支持多模態(tài)混合輸入(例如圖像 +文本)。

這意味著模型可以捕捉不同媒體之間的復(fù)雜語義關(guān)系,從而更準(zhǔn)確地理解現(xiàn)實(shí)世界中的信息。

在評(píng)測方面,Gemini Embedding 2不僅整體性能較上一代提升,同時(shí)也為多模態(tài)嵌入任務(wù)樹立了新的性能基準(zhǔn)。

一方面增強(qiáng)了語音處理能力,另一方面也在文本、圖像和視頻任務(wù)中均超越現(xiàn)有領(lǐng)先模型,實(shí)現(xiàn)SOTA。



乍看之下,這似乎只是一次底層的數(shù)據(jù)工程升級(jí)。

但實(shí)際上,它正為像龍蝦這樣的AI Agent真正“看懂”世界,提供了關(guān)鍵基礎(chǔ)。

目前,Gemini Embedding 2已經(jīng)通過Gemini API和Vertex AI展開公測。

原生多模態(tài)嵌入

嵌入模型(Embedding Model)本質(zhì)上是把數(shù)據(jù)轉(zhuǎn)化為稠密向量表示。

在這個(gè)向量空間中,語義相似的數(shù)據(jù)會(huì)彼此靠近,不相似的數(shù)據(jù)則距離更遠(yuǎn)。

傳統(tǒng)的嵌入模型主要針對(duì)文本。

例如,在谷歌此前的論文《Gemini Embedding: Generalizable Embeddings from Gemini》中——

Gemini Embedding通過在大語言模型參數(shù)中已有的海量知識(shí)基礎(chǔ)上構(gòu)建表征,并將得來的嵌入用于:語義檢索、文本聚類、分類,排序等下游任務(wù)。



但這只停留在文字階段。

最新的Gemini Embedding 2,則首次徹底打通了多模態(tài)數(shù)據(jù)。

文本、圖片、視頻、音頻和文檔,都被壓縮到同一個(gè)向量空間之中。

而這,就意味著模型實(shí)現(xiàn)了“跨模態(tài)語義對(duì)齊”,能夠讓貓這個(gè)「文字概念」與貓的照片這個(gè)「視覺概念」,在統(tǒng)一的嵌入空間中的數(shù)學(xué)向量的距離極度接近。

通俗來說,當(dāng)你搜索“貓”的時(shí)候,系統(tǒng)不僅能找到相關(guān)文字,還能直接找到貓的圖片、視頻甚至聲音。

也正因?yàn)槿绱?,很多原本?fù)雜的多模態(tài)流程可以被大幅簡化。

RAG檢索、語義搜索、情感分析,到數(shù)據(jù)聚類等應(yīng)用場景,都能直接受益。

更重要的是,這類能力對(duì)AI Agent意義巨大。

過去的Agent在操作電腦時(shí),往往只能依賴文字信息。

例如識(shí)別按鈕上的“設(shè)置”“確認(rèn)”等標(biāo)簽。但真實(shí)世界的UI界面,大量信息其實(shí)來自視覺結(jié)構(gòu):

圖標(biāo)、布局、顏色、控件位置,正是傳統(tǒng)文本嵌入模型難以處理的部分。

而有了多模態(tài)嵌入之后,情況就不同了。

對(duì)于像OpenClaw(龍蝦)這樣需要操作電腦,識(shí)別屏幕的Agent來說,它不再只是識(shí)別文字。



它可以直接理解:哪個(gè)像素區(qū)域是設(shè)置圖標(biāo)、哪個(gè)按鈕與當(dāng)前任務(wù)最相關(guān),屏幕截圖與文本指令之間的關(guān)系

換句話說,Gemini Embedding 2提供了一條統(tǒng)一的感官總線。視覺、聽覺與文本信息,都能在同一個(gè)語義空間中進(jìn)行關(guān)聯(lián)。

這也為未來Agent真正理解屏幕、理解環(huán)境并代替人類操作電腦,奠定了最重要的語義基礎(chǔ)。

在技術(shù)層面,Gemini Embedding 2繼續(xù)采用Matryoshka Representation Learning(MRL)



這種方法允許嵌入向量在保持語義信息的同時(shí)進(jìn)行動(dòng)態(tài)維度縮減。

(注:MRL強(qiáng)制模型把最核心、最關(guān)鍵的特征壓縮在向量的前幾十維里,次要的特征放在后面,這讓開發(fā)者可以根據(jù)預(yù)算和算力,自由決定信息密度的分布管理)

Gemini Embedding 2的默認(rèn)輸出維度為3072維,但開發(fā)者可以根據(jù)需求縮減,例如:3072維、1536維、768維,從而在性能與存儲(chǔ)成本之間取得平衡。

除了支持API調(diào)用外,Gemini Embedding 2也支持通過LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具調(diào)用。

通過為不同類型的數(shù)據(jù)賦予統(tǒng)一的語義表示,Gemini Embedding 2正在為下一代AI應(yīng)用:多模態(tài)Agent,乃至具身智能機(jī)器人提供關(guān)鍵基礎(chǔ)設(shè)施。

[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

[2]https://arxiv.org/pdf/2503.07891

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
趙一荻獨(dú)子回國掃墓,跪在張作霖墓前說:我代表您兒子來看您了

趙一荻獨(dú)子回國掃墓,跪在張作霖墓前說:我代表您兒子來看您了

北海史記
2026-03-12 19:34:04
伊朗大力抓“內(nèi)鬼”:與民眾緊密協(xié)作,打掉一個(gè)與美以勾連的武裝團(tuán)體!已逮捕30名間諜、10名革命衛(wèi)隊(duì)人員和81名在網(wǎng)上向境外提供情報(bào)者

伊朗大力抓“內(nèi)鬼”:與民眾緊密協(xié)作,打掉一個(gè)與美以勾連的武裝團(tuán)體!已逮捕30名間諜、10名革命衛(wèi)隊(duì)人員和81名在網(wǎng)上向境外提供情報(bào)者

每日經(jīng)濟(jì)新聞
2026-03-12 17:53:06
事態(tài)嚴(yán)重!知情人士透露王曼昱或暫停后續(xù)比賽,專心調(diào)整狀態(tài)

事態(tài)嚴(yán)重!知情人士透露王曼昱或暫停后續(xù)比賽,專心調(diào)整狀態(tài)

寒士之言本尊
2026-03-12 15:25:17
為什么有個(gè)漂亮老婆還是想要分 網(wǎng)友講出自身經(jīng)歷真是一言難盡

為什么有個(gè)漂亮老婆還是想要分 網(wǎng)友講出自身經(jīng)歷真是一言難盡

侃神評(píng)故事
2026-03-10 18:50:04
美軍想不通:引以為傲的石墨炸彈,被河北保定鐵箱子徹底廢了

美軍想不通:引以為傲的石墨炸彈,被河北保定鐵箱子徹底廢了

一杯濃茶
2026-03-11 22:35:07
追覓發(fā)布汽車固態(tài)電池:計(jì)劃年內(nèi)小批量交付,2027年大規(guī)模量產(chǎn)

追覓發(fā)布汽車固態(tài)電池:計(jì)劃年內(nèi)小批量交付,2027年大規(guī)模量產(chǎn)

IT之家
2026-03-12 12:46:07
2025年清純系A(chǔ)V女神戰(zhàn)力榜:新王登基,舊神依舊!

2025年清純系A(chǔ)V女神戰(zhàn)力榜:新王登基,舊神依舊!

碧波萬覽
2026-03-12 21:51:56
1300塊一架!中國竹子無人機(jī)殺瘋了:這種工業(yè)實(shí)力讓西方破防

1300塊一架!中國竹子無人機(jī)殺瘋了:這種工業(yè)實(shí)力讓西方破防

戰(zhàn)爭史
2026-03-11 14:33:23
破防了!活了30多年才知道這7樣?xùn)|西“正確用法”,之前都用錯(cuò)了

破防了!活了30多年才知道這7樣?xùn)|西“正確用法”,之前都用錯(cuò)了

家居美少女
2026-03-12 15:34:01
香港金融圈突發(fā),8人被抓!六男兩女,年齡35至60歲

香港金融圈突發(fā),8人被抓!六男兩女,年齡35至60歲

都市快報(bào)橙柿互動(dòng)
2026-03-12 16:54:32
手機(jī)頂部出現(xiàn)這 3 個(gè)圖標(biāo),請(qǐng)立刻警惕!你的隱私正在被偷偷泄露

手機(jī)頂部出現(xiàn)這 3 個(gè)圖標(biāo),請(qǐng)立刻警惕!你的隱私正在被偷偷泄露

小柱解說游戲
2026-03-11 08:34:44
一場戰(zhàn)爭逼出一個(gè)技術(shù)強(qiáng)國烏克蘭

一場戰(zhàn)爭逼出一個(gè)技術(shù)強(qiáng)國烏克蘭

難得君
2026-03-12 09:28:43
Coco口無遮攔曝張柏芝三娃生父,未給謝家留體面

Coco口無遮攔曝張柏芝三娃生父,未給謝家留體面

秋之潔
2026-03-11 01:57:31
巴拿馬媒體發(fā)出警告,中資撤離將重創(chuàng)經(jīng)濟(jì),金融界痛批政府魯莽

巴拿馬媒體發(fā)出警告,中資撤離將重創(chuàng)經(jīng)濟(jì),金融界痛批政府魯莽

大魚簡科
2026-03-12 19:26:11
15歲諾一近照曝光,沒爸爸劉燁那么“憂郁”,依然是個(gè)美男子;說法語時(shí)聲音渾厚,網(wǎng)友評(píng)“肯定比劉燁法語好”

15歲諾一近照曝光,沒爸爸劉燁那么“憂郁”,依然是個(gè)美男子;說法語時(shí)聲音渾厚,網(wǎng)友評(píng)“肯定比劉燁法語好”

極目新聞
2026-03-12 14:17:12
宋江是押司,武松是都頭,林沖是教頭,魯智深是提轄,誰官職最高

宋江是押司,武松是都頭,林沖是教頭,魯智深是提轄,誰官職最高

掠影后有感
2026-03-07 11:48:17
徹底凌亂了!韓國:我準(zhǔn)備讓你拉走薩德,但真沒準(zhǔn)備這么多!

徹底凌亂了!韓國:我準(zhǔn)備讓你拉走薩德,但真沒準(zhǔn)備這么多!

阿龍聊軍事
2026-03-11 17:29:25
OpenClaw創(chuàng)始人指責(zé)“抄襲”,騰訊回應(yīng):團(tuán)隊(duì)成員也是項(xiàng)目代碼和PR貢獻(xiàn)者,希望繼續(xù)支持生態(tài)

OpenClaw創(chuàng)始人指責(zé)“抄襲”,騰訊回應(yīng):團(tuán)隊(duì)成員也是項(xiàng)目代碼和PR貢獻(xiàn)者,希望繼續(xù)支持生態(tài)

每日經(jīng)濟(jì)新聞
2026-03-12 19:18:03
鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個(gè)女兒精心打扮出席

鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個(gè)女兒精心打扮出席

照見古今
2026-03-12 19:27:38
日本剛部署導(dǎo)彈,中國就取消所有中日航班!王毅:不許日本翻案

日本剛部署導(dǎo)彈,中國就取消所有中日航班!王毅:不許日本翻案

井普椿的獨(dú)白
2026-03-12 18:15:06
2026-03-13 01:15:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12274文章數(shù) 176413關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時(shí) 涉事醫(yī)生:交接失誤

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時(shí) 涉事醫(yī)生:交接失誤

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

貝克漢姆全家給27歲大布送生日祝福

財(cái)經(jīng)要聞

盧鋒:從特朗普?qǐng)F(tuán)隊(duì)群演看時(shí)代變局

汽車要聞

大眾2025財(cái)報(bào):轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
教育
藝術(shù)
數(shù)碼

房產(chǎn)要聞

唏噓!三亞又一房企巨頭破產(chǎn),狂欠43億甩賣資產(chǎn)!

就這樣從頭拿捏松弛感

教育要聞

2026年春假安排告家長書

藝術(shù)要聞

深圳能源大廈,“看得我強(qiáng)迫癥都要犯了”

數(shù)碼要聞

搭載A19 Pro及12GB+128GB存儲(chǔ),蘋果顯示器配置比MacBook Neo還高

無障礙瀏覽 進(jìn)入關(guān)懷版