国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

昨晚,谷歌悄悄發(fā)了“新模型”,為多模態(tài)智能應(yīng)用鋪平了道路

0
分享至

文 | 霞光AI實驗室,作者|渡川

就在昨晚,谷歌發(fā)了首個原生多模態(tài)嵌入模型Gemini Embedding 2。

跟以往的純文本基礎(chǔ)模型不同,Gemini Embedding 2的核心突破在于將文本、圖像、視頻、音頻和PDF文檔等五種模態(tài),全部映射到同一個向量空間里。

在這種情況下,模型可原生支持混合模態(tài)輸入,例如同時傳入圖片+文字、視頻+音頻等復(fù)雜組合,而且系統(tǒng)也能夠理解不同媒體之間的語義關(guān)聯(lián)。這意味著,你用一段文字去搜索相關(guān)的圖片,或者用一張圖片找到含義相似的音頻片段,都可以實現(xiàn)。

但這種嵌入模型并不是面向普通大眾使用的,而是面向AI應(yīng)用開發(fā)者、算法工程師以及擁有海量非結(jié)構(gòu)化數(shù)據(jù)的企業(yè),幫助他們大幅簡化了復(fù)雜的多模態(tài)數(shù)據(jù)處理流程,提升檢索增強生成(RAG)、語義搜索等多模態(tài)下游任務(wù)的表現(xiàn),這也將為多模態(tài)智能應(yīng)用鋪平了道路。


通常大家說的大模型(LLM / 基礎(chǔ)大模型),指的是能理解、推理、生成長文本的底座模型,表現(xiàn)出來是能夠與人對話、思考、創(chuàng)作、寫代碼;而Embedding模型屬于向量表征模型,它只做一件事——把文本 / 圖像 / 音頻轉(zhuǎn)成向量(一串讓機器讀懂的數(shù)字),而不生成內(nèi)容、不推理、不對話。

以前的機器在搜索/檢索時有個問題:文本有文本的 Embedding 模型,圖片有圖片的 Embedding 模型,音頻有音頻的 Embedding 模型,它們各自生成的向量是互相隔離的。

而谷歌發(fā)布的Gemini Embedding 2 是一款“多模態(tài)翻譯官”,它讓不同類型的數(shù)據(jù)(文字、圖片、聲音)能夠用同一種語言交流,為企業(yè)構(gòu)建下一代多模態(tài)搜索引擎和推薦系統(tǒng)提供了強大的基礎(chǔ)工具。


這款產(chǎn)品的核心在于統(tǒng)一和理解。主要特點包括:

總體來說,Gemini Embedding 2為機器創(chuàng)造了統(tǒng)一的“感官”,為下一個高級人工智能體驗時代提供了必要的多模態(tài)基礎(chǔ)。


Gemini Embedding 2最核心的受益群體,正是AI應(yīng)用開發(fā)者和算法工程師,它會極大簡化他們過去復(fù)雜的工作流程。

以前,如果AI應(yīng)用開發(fā)者要做一個能同時搜索圖片和文字的應(yīng)用,需要維護圖像模型和文本模型兩套嵌入系統(tǒng),還得寫大量代碼對齊結(jié)果,而現(xiàn)在一個模型、一個向量索引就能搞定;特別是對于需要處理音頻和視頻的開發(fā)者,以前需要先做語音轉(zhuǎn)文字、視頻抽幀等預(yù)處理,現(xiàn)在可以直接輸入原始音視頻,減少了信息丟失,也降低了開發(fā)維護成本。

此外,對于很多大型企業(yè)(如媒體、醫(yī)療、金融)來說,它們的數(shù)據(jù)資產(chǎn)中絕大部分都是非結(jié)構(gòu)化的圖片、掃描件、錄音和視頻。過去,這些數(shù)據(jù)只能在數(shù)據(jù)庫里沉睡,而Gemini Embedding 2 可以讓這些數(shù)據(jù)真正變得可搜索、可利用——比如媒體可以建立一個跨格式的資料庫,編輯直接用文字描述(如“夕陽下的海灘,帶有輕松的背景音樂”)就可以搜索出符合條件的視頻素材,無需依賴人工打標(biāo)簽。

此外,隨著大模型應(yīng)用加快,讓模型獲取最新的、多模態(tài)的知識變得至關(guān)重要。RAG 是目前的主流方案,而 Gemini Embedding 2 將 RAG 從“文本檢索”升級到了“多模態(tài)檢索”。有了 Gemini Embedding 2 的加持,當(dāng)用戶提問時,系統(tǒng)不僅能檢索相關(guān)文字,還能找出相關(guān)的圖表、視頻片段作為上下文提供給大模型,從而生成圖文并茂、信息量更大的回復(fù)。

Gemini Embedding 2的發(fā)布,其意義超越了模型本身。谷歌表示,該模型在多項文本、圖像和視頻任務(wù)的基準(zhǔn)測試中超越了當(dāng)前的主流競品,為多模態(tài)嵌入領(lǐng)域設(shè)立了新的性能標(biāo)準(zhǔn)。

此外,它還讓一系列過去難以實現(xiàn)的場景變得觸手可及。例如,在法律領(lǐng)域,它可以從數(shù)百萬條記錄中,快速檢索出包含特定圖片、音頻片段的證據(jù)文件;在推薦系統(tǒng)中,它可以基于用戶的瀏覽歷史,混合推薦相關(guān)的文章、視頻和播客,體驗更自然流暢。

總結(jié)來看,Gemini Embedding 2讓機器不僅能生成內(nèi)容,更能從底層去理解這個由多元信息構(gòu)成的世界,讓AI開啟“全感知”應(yīng)用時代。


2026年,被認(rèn)為是大模型的“多模態(tài)”之年。今年前兩個月,國內(nèi)的快手、字節(jié)跳動、阿里巴巴等科技巨頭密集發(fā)布新一代多模態(tài)模型,標(biāo)志著AI視頻生成正從“盲盒式娛樂”向“精準(zhǔn)工業(yè)化生產(chǎn)”跨越。尤其Seedance2.0的發(fā)布,在全球引發(fā)關(guān)注,其最大亮點在于通過“@素材名”的全新交互范式,讓用戶能夠指定每個圖片、視頻、音頻的用途,且畫面的物理規(guī)律更合理、動作表現(xiàn)更自然流暢。

如今,全球大模型已從單一文本能力的深耕,轉(zhuǎn)向多模態(tài)原生融合的深耕。不同于以往“文本+圖像”的簡單拼接,2026年的多模態(tài)大模型普遍采用統(tǒng)一表示空間架構(gòu),能夠原生協(xié)同處理文本、圖像、音頻、視頻,真正實現(xiàn)跨模態(tài)的理解、生成與交互。

Gemini Embedding 2 代表的底層基礎(chǔ)設(shè)施的革新,則它讓機器“讀懂”世界的方式變得統(tǒng)一和高效。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
震驚!一網(wǎng)友稱到40多歲玩膩了,出去花錢也沒爽點,內(nèi)心一潭死水

震驚!一網(wǎng)友稱到40多歲玩膩了,出去花錢也沒爽點,內(nèi)心一潭死水

火山詩話
2026-03-12 07:06:51
烤串烤得好,也能拿大學(xué)文憑!全國首家燒烤學(xué)院招生了

烤串烤得好,也能拿大學(xué)文憑!全國首家燒烤學(xué)院招生了

大風(fēng)新聞
2026-03-12 11:16:12
伊朗代表:今天是伊朗,明天可能是任何主權(quán)國家

伊朗代表:今天是伊朗,明天可能是任何主權(quán)國家

看看新聞Knews
2026-03-12 11:14:07
9個集裝箱滯留阿曼灣,浙江紡織老板:原本旺季現(xiàn)在訂單歸零,原材料和運費瘋漲,將暫時停產(chǎn)

9個集裝箱滯留阿曼灣,浙江紡織老板:原本旺季現(xiàn)在訂單歸零,原材料和運費瘋漲,將暫時停產(chǎn)

極目新聞
2026-03-12 10:33:45
官宣:嚴(yán)控新地開發(fā)!廣州樓市要變天了!

官宣:嚴(yán)控新地開發(fā)!廣州樓市要變天了!

廣州PLUS
2026-03-12 10:17:05
伊朗外交部發(fā)言人:最高領(lǐng)袖“受傷但情況良好”

伊朗外交部發(fā)言人:最高領(lǐng)袖“受傷但情況良好”

新華社
2026-03-12 18:17:51
伊朗外交部發(fā)言人:最高領(lǐng)袖“受傷但情況良好”

伊朗外交部發(fā)言人:最高領(lǐng)袖“受傷但情況良好”

界面新聞
2026-03-12 18:18:02
金融圈突發(fā)!剛剛,抓了8個人!

金融圈突發(fā)!剛剛,抓了8個人!

中國基金報
2026-03-12 16:13:29
醫(yī)術(shù)再高也沒用!55歲名醫(yī)歐陽衛(wèi)權(quán)離世,死因曝光,有患者哭半天

醫(yī)術(shù)再高也沒用!55歲名醫(yī)歐陽衛(wèi)權(quán)離世,死因曝光,有患者哭半天

米果說識
2026-03-11 10:18:54
31分8板!楊瀚森生涯之夜震驚美利堅,證明自己配得上NBA舞臺!

31分8板!楊瀚森生涯之夜震驚美利堅,證明自己配得上NBA舞臺!

田先生籃球
2026-03-12 15:20:48
暴跌73%!深圳價格大跳水!

暴跌73%!深圳價格大跳水!

王姐懶人家常菜
2026-03-11 13:48:06
一位鄉(xiāng)鎮(zhèn)公務(wù)員,從20多歲到50多歲的人生之路

一位鄉(xiāng)鎮(zhèn)公務(wù)員,從20多歲到50多歲的人生之路

微微熱評
2026-03-12 12:33:40
中國煉油廠已被要求暫停石油出口?外交部回應(yīng)

中國煉油廠已被要求暫停石油出口?外交部回應(yīng)

界面新聞
2026-03-12 17:10:25
“死了么”APP創(chuàng)始人自述:爆紅后,我被公司勸退

“死了么”APP創(chuàng)始人自述:爆紅后,我被公司勸退

硅星人
2026-03-12 10:41:27
哈佛女博士被打假!偽造學(xué)歷到處借錢,疑有精神病,私生活太離譜

哈佛女博士被打假!偽造學(xué)歷到處借錢,疑有精神病,私生活太離譜

阿纂看事
2026-03-11 16:04:22
可怕!兩天大賣1300套房!深圳樓市突然爆了……

可怕!兩天大賣1300套房!深圳樓市突然爆了……

樓市滅霸
2026-03-12 11:06:13
成都一對情侶吃完火鍋,掃碼付了280,到家發(fā)現(xiàn)沒扣,又回了店里

成都一對情侶吃完火鍋,掃碼付了280,到家發(fā)現(xiàn)沒扣,又回了店里

觀察鑒娛
2026-03-12 09:49:27
慘烈畫面:1噸級彈頭“滅國彈”突防特拉維夫,以軍已不設(shè)防

慘烈畫面:1噸級彈頭“滅國彈”突防特拉維夫,以軍已不設(shè)防

策略述
2026-03-12 16:21:28
最高50%!墨西哥對華關(guān)稅新政正式落地

最高50%!墨西哥對華關(guān)稅新政正式落地

新浪財經(jīng)
2026-03-12 07:39:37
1300塊一架!中國竹子無人機殺瘋了:這種工業(yè)實力讓西方破防

1300塊一架!中國竹子無人機殺瘋了:這種工業(yè)實力讓西方破防

戰(zhàn)爭史
2026-03-11 14:33:23
2026-03-12 18:43:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經(jīng)科技媒體
130655文章數(shù) 861925關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

伊朗外交部發(fā)言人:最高領(lǐng)袖“受傷但情況良好”

頭條要聞

伊朗外交部發(fā)言人:最高領(lǐng)袖“受傷但情況良好”

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

李湘瘦身驚艷亮相肖邦之夜 攜女兒出席

財經(jīng)要聞

盧鋒:從特朗普團隊群演看時代變局

汽車要聞

大眾2025財報:轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

親子
教育
時尚
健康
公開課

親子要聞

備孕DHEA 哪個牌子好品牌排行榜?組合營養(yǎng)方案

教育要聞

三個關(guān)鍵詞,看濟南市中教育如何落實“健康第一”

風(fēng)衣+大包,春季最氣質(zhì)搭配!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版