国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌AGI底座降臨!首個原生全模態(tài)嵌入模型上線,已實現(xiàn)全模態(tài)SOTA

0
分享至


新智元報道

編輯:艾倫

【新智元導(dǎo)讀】谷歌發(fā)布首個原生全模態(tài) Embedding 模型 Gemini Embedding 2!它將文本、圖、音視頻及 PDF 無損融于統(tǒng)一向量空間,實現(xiàn)跨越五大模態(tài)的直接檢索。這極大降低了架構(gòu)成本,賦予了 AI 真正連貫的「記憶」,是重塑 AI 基建的里程碑。

如果說 ChatGPT 等生成式 AI 大模型是 AI 用來表達的「嘴」,那么 Embedding(嵌入)模型就是負責理解與檢索的「記憶神經(jīng)」。

長期以來,這條記憶神經(jīng)處于割裂狀態(tài)。

昨天,Gemini API 上線首個多模態(tài) Embedding 模型預(yù)覽版gemini-embedding-2-preview。

作為首個原生全模態(tài) Embedding 模型,它將文本、圖像、音視頻乃至 PDF 文檔,悉數(shù)融合進了一個統(tǒng)一的向量空間。


拆解「原生全模態(tài)」的顛覆性價值

要真正理解這項技術(shù)的戰(zhàn)略分量,我們需要看清過去 AI 檢索系統(tǒng)面臨的「數(shù)據(jù)巴別塔」困境。

以往,視覺模態(tài)、音頻模態(tài)和文本處理模態(tài)仿佛說著截然不同的語言,每次調(diào)度全局信息都需要極其繁瑣的翻譯對齊。

Gemini Embedding 2 的出現(xiàn),等同于在數(shù)據(jù)世界推行了一門通用語,其核心突破體現(xiàn)在以下幾個維度。

斬斷轉(zhuǎn)錄節(jié)點,消除信息損耗黑洞

「原生」二字的含金量在于拒絕任何形式的妥協(xié)與翻譯。

早期讓 AI 「聽懂」播客,必須外掛語音識別模型先轉(zhuǎn)成純文本,導(dǎo)致說話人略帶反諷的語調(diào)、背景里刺耳的警笛聲等「冗余信息」瞬間灰飛煙滅。

如今,模型直接「生吞」 MP3 音軌的波形與高分辨率圖片的原始像素,那些只可意會不可言傳的感官細節(jié),終于在數(shù)學空間里找到了精確的坐標。

打通統(tǒng)一坐標系,解鎖跨物種搜索

當五大數(shù)據(jù)類型被壓縮進同一個高維向量空間,數(shù)據(jù)的邊界被徹底消解。

開發(fā)者能夠輕易實現(xiàn)極其復(fù)雜的跨模態(tài)檢索:

拋入一段發(fā)動機異響的錄音,系統(tǒng)會瞬間從海量的 PDF 維修手冊中精準定位到故障部件的圖紙;

上傳一張極具后現(xiàn)代風格的建筑照片,系統(tǒng)能直接召回配樂風格極其相似的影視片段。

檢索完全進化成了純粹的「語義和意圖共振」。

架構(gòu)大簡化,工程復(fù)雜度斷崖式下跌

過去拼湊一個多模態(tài)檢索應(yīng)用,工程師簡直要經(jīng)歷一場噩夢。

維護多個獨立模型、花重金購買隔離的向量數(shù)據(jù)庫、再編寫極度復(fù)雜的重排算法試圖強行對齊各類得分,這種草臺班子式的架構(gòu)不僅延遲極高,且極易崩潰。

現(xiàn)在,這堆亂如麻的基建被濃縮成一次簡單的 API 調(diào)用,一套模型足以打穿整個業(yè)務(wù)流。

已經(jīng)提前嘗鮮的 Agent 創(chuàng)業(yè)者們,也毫不吝嗇自己對這個全模態(tài)新模型的贊美。


為 Agent 拼上完整的記憶拼圖

Agent 往往容易顯得遲鈍,根本原因就在于其「記憶」是割裂的。

Agent 看完帶有大量數(shù)據(jù)圖表的研報后,往往只記住了文字,圖表部分則被拋棄。

原生全模態(tài) Embedding 賦予了 AI 一種連貫的底層認知模式,讓機器終于能像人類一樣,將聽到的風聲、看到的畫面和讀過的段落,無縫融合成一段完整的記憶。

「五合一」引擎與降本魔法

新模型不僅包攬了五大數(shù)據(jù)類型,更擁有極寬的吞吐邊界!

  • 文本支持超 100 種語言,上下文高達 8192 個 token。

  • 圖像單次請求最多攝入 6 張圖片(支持 PNG 與 JPEG)。

  • 視頻長達 128 秒的動態(tài)影像。

  • 音頻長達 80 秒的錄音脫離了轉(zhuǎn)錄工具的依賴,直接聽懂音軌。

  • 文檔跳過常規(guī)的 OCR 提取,最高 6 頁的 PDF 可被原生讀取。

在秀肌肉的同時,谷歌也替企業(yè)算好了一筆經(jīng)濟賬。

Gemini Embedding 2 沿用了巧妙的「俄羅斯套娃」表示學習技術(shù)(MRL)。

這項技術(shù)允許開發(fā)者像拆解套娃一樣,根據(jù)自身的存儲預(yù)算靈活「折疊」向量的體積。

在默認的 3072 維滿血狀態(tài)下,模型自然能提供極致的檢索基準。


https://ai.google.dev/gemini-api/docs/embeddings?hl=zh-cn

但真正讓人驚艷的是它向下壓縮時的韌性:當維度被對半砍到 1536 維時,其 MTEB 多語言性能得分依然堅挺在 68.17 分,甚至出現(xiàn)了一個反直覺的現(xiàn)象——這個分數(shù)比 2048 維還要略高一絲。

即便你把預(yù)算壓縮到極致,將向量體積暴減 75% 降至 768 維,其跑分也僅僅微跌了 0.18 分(67.99 分)。

這意味著,開發(fā)團隊完全可以在幾乎不犧牲核心檢索質(zhì)量的前提下,大幅度削減存儲與計算開銷,用極高的性價比撬動頂級的多模態(tài)能力。

商業(yè)身位與避坑指南

環(huán)顧四周,這條賽道的火藥味從未如此濃烈。

OpenAI 的 text-embedding-3 依然死死守在純文本陣地,視覺方面全靠舊版模型支撐;

老牌玩家 Cohere 的 Embed v4 遺漏了音視頻兩塊關(guān)鍵拼圖;

開源陣營中最能打的 Jina v4 拿下了圖文與 PDF,同樣對聲音和動態(tài)影像無能為力。

Gemini Embedding 2 恰好填補了市場空白,成為當下唯一覆蓋五大模態(tài)的商用級全能選手,實現(xiàn)了全模態(tài) SOTA!


對于準備嘗鮮的工程團隊而言,有幾個現(xiàn)實的「坑」必須提前規(guī)避:

  • 兼容性斷層。新老模型的向量空間處于不同的維度規(guī)則下。從舊版 gemini-embedding-001 遷移的系統(tǒng),必須將海量歷史數(shù)據(jù)全部重新編碼并重建索引。

  • 格式與時長閾值。目前音頻僅支持 MP3 與 WAV,且有 80 秒硬性上限,較長的會議錄音必須自行切片。

  • 手動歸一化。在代碼調(diào)用層面,若選擇非默認的低維度輸出(如 768 維),開發(fā)者需要外掛腳本手動進行 L2 歸一化處理。

當孤立的數(shù)據(jù)孤島被徹底貫通,龐雜的現(xiàn)實世界才得以在代碼的深海中投下清晰的倒影。

最深遠的智能革命,往往藏在那些不動聲色的基礎(chǔ)設(shè)施里,悄然將萬物重塑為同一種語言。

現(xiàn)在,可以通過 Gemini API 或 Vertex AI 開始使用 Gemini Embedding 2 模型,參考調(diào)用方式如下:

print(result.embeddings)

參考資料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
人民銳評:要充分認知違禁境外劇的危害

人民銳評:要充分認知違禁境外劇的危害

人民資訊
2026-03-11 11:27:06
伊朗新領(lǐng)袖被曝受重傷正在搶救

伊朗新領(lǐng)袖被曝受重傷正在搶救

鳳眼論
2026-03-11 09:37:56
反轉(zhuǎn)!36歲女博士后北京3套房相親:她被牽手男嘉賓爆料是個騙子

反轉(zhuǎn)!36歲女博士后北京3套房相親:她被牽手男嘉賓爆料是個騙子

江山揮筆
2026-03-11 17:53:58
“臭哄大炕有啥可顯擺的”,東北嫡長女被嘲沒教養(yǎng),難登大雅之堂

“臭哄大炕有啥可顯擺的”,東北嫡長女被嘲沒教養(yǎng),難登大雅之堂

妍妍教育日記
2026-03-11 18:07:53
強勢!伊朗官方表態(tài):當前情況下絕無參加世界杯可能 美國犯4重罪

強勢!伊朗官方表態(tài):當前情況下絕無參加世界杯可能 美國犯4重罪

風過鄉(xiāng)
2026-03-11 20:28:06
人大代表畢利霞哽咽建議提高農(nóng)民養(yǎng)老金后,多部委已致電與其溝通

人大代表畢利霞哽咽建議提高農(nóng)民養(yǎng)老金后,多部委已致電與其溝通

界面新聞
2026-03-11 17:09:02
穆杰塔巴平安,“內(nèi)鬼們”心都碎了!

穆杰塔巴平安,“內(nèi)鬼們”心都碎了!

新動察
2026-03-11 16:21:30
收藏!國家衛(wèi)健委主任給出的5個“防癌處方”,尤其最后一條關(guān)乎全家

收藏!國家衛(wèi)健委主任給出的5個“防癌處方”,尤其最后一條關(guān)乎全家

人民日報健康客戶端
2026-03-10 21:42:01
致敬熱刺?切爾西23歲“二門”歐冠2送大禮!與恩佐內(nèi)訌+激烈爭吵

致敬熱刺?切爾西23歲“二門”歐冠2送大禮!與恩佐內(nèi)訌+激烈爭吵

我愛英超
2026-03-12 06:40:53
伊朗足協(xié)主席:留澳的女足球員不會受罰,她們是被攔住后接走的

伊朗足協(xié)主席:留澳的女足球員不會受罰,她們是被攔住后接走的

懂球帝
2026-03-11 19:49:04
一男子高速開啟智駕后呼呼大睡了一百多公里:致多車連環(huán)追尾

一男子高速開啟智駕后呼呼大睡了一百多公里:致多車連環(huán)追尾

快科技
2026-03-11 11:29:07
阿聯(lián)酋遭受打擊最沉重!伊朗反擊炮火下,海灣國家處境如何?

阿聯(lián)酋遭受打擊最沉重!伊朗反擊炮火下,海灣國家處境如何?

40度觀察
2026-03-11 18:03:16
丟人!爆冷輸新疆,廣東揪3戰(zhàn)犯:MVP0得分,三分王6中0葬送全局

丟人!爆冷輸新疆,廣東揪3戰(zhàn)犯:MVP0得分,三分王6中0葬送全局

后仰大風車
2026-03-11 22:11:19
長期不住的房子,物業(yè)費能少交嗎?民法典早說了,別再交冤枉錢!

長期不住的房子,物業(yè)費能少交嗎?民法典早說了,別再交冤枉錢!

老特有話說
2026-03-11 14:47:30
女子飛上海看病被拒載,登機口被攔急得直跺腳,地勤稱可賠400元

女子飛上??床”痪茌d,登機口被攔急得直跺腳,地勤稱可賠400元

離離言幾許
2026-03-11 16:04:48
女孩相親被約挖野菜后續(xù)!男方獨吞野菜還炫耀,母親受牽連

女孩相親被約挖野菜后續(xù)!男方獨吞野菜還炫耀,母親受牽連

天天熱點見聞
2026-03-11 08:00:16
天塌了,山姆的三文魚原來不能生吃!很多人被包裝誤導(dǎo)

天塌了,山姆的三文魚原來不能生吃!很多人被包裝誤導(dǎo)

新民周刊
2026-03-11 19:48:20
伊朗新任最高領(lǐng)袖穆杰塔巴·哈梅內(nèi)伊,到底怎么樣了?

伊朗新任最高領(lǐng)袖穆杰塔巴·哈梅內(nèi)伊,到底怎么樣了?

映象觀察
2026-03-11 17:44:38
半場3-0,皇馬暴擊曼城,巴爾韋德無敵帽子戲法,庫瓦銷魂長傳

半場3-0,皇馬暴擊曼城,巴爾韋德無敵帽子戲法,庫瓦銷魂長傳

側(cè)身凌空斬
2026-03-12 04:51:07
國際油價一度大跌近20%

國際油價一度大跌近20%

每日經(jīng)濟新聞
2026-03-11 07:56:05
2026-03-12 06:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14696文章數(shù) 66684關(guān)注度
往期回顧 全部

科技要聞

騰訊"養(yǎng)蝦"暴漲后,百度急得在門口"裝蝦"

頭條要聞

伊朗實施“真實承諾4”第40輪軍事行動 視頻公布

頭條要聞

伊朗實施“真實承諾4”第40輪軍事行動 視頻公布

體育要聞

郭艾倫重傷,CBA下半賽季還能期待些什么

娛樂要聞

蔡少芬曬全家福照,兩女兒成最大亮點

財經(jīng)要聞

喚醒10萬億存量資金 公積金改革大潮來了

汽車要聞

蓮花糾偏, 馮擎峰的“收”與“守”

態(tài)度原創(chuàng)

時尚
本地
親子
手機
數(shù)碼

衣服不用買太多!初春多穿短大衣和針織衫,簡單舒適又顯高

本地新聞

這檔韓國玄學綜藝,讓多少人看得頭皮發(fā)麻

親子要聞

生娃時胎兒脖子被臍帶勒住。結(jié)果護士自己嚇跑,留孕婦獨自凌亂??幸虧...

手機要聞

第一臺龍蝦手機來了:小米「養(yǎng)蝦」,意在何處?

數(shù)碼要聞

機械革命耀世15 Pro輕薄游戲本發(fā)售:356H + 5060,8999元

無障礙瀏覽 進入關(guān)懷版