国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

為什么向量Embedding技術(shù)注定長期存在?

0
分享至

點擊下方“JavaEdge”,選擇“設(shè)為星標”

第一時間關(guān)注技術(shù)干貨!

本文已收錄在Github,關(guān)注我,緊跟本系列專欄文章,咱們下篇再續(xù)!

  • 魔都架構(gòu)師 | 全網(wǎng)30W技術(shù)追隨者

  • 大廠分布式系統(tǒng)/數(shù)據(jù)中臺實戰(zhàn)專家

  • 主導(dǎo)交易系統(tǒng)百萬級流量調(diào)優(yōu) & 車聯(lián)網(wǎng)平臺架構(gòu)

  • AIGC應(yīng)用開發(fā)先行者 | 區(qū)塊鏈落地實踐者

  • 以技術(shù)驅(qū)動創(chuàng)新,我們的征途是改變世界!

  • 實戰(zhàn)干貨:編程嚴選網(wǎng)

0 前言

每隔幾周,都會有一款全新的生成式人工智能(GenAI)模型問世——它更聰明、更快、更便宜,看起來似乎能超越其他所有模型。盡管名字換了一批又一批,但宣傳的說辭卻幾乎一模一樣。僅在過去幾周內(nèi),我們就見證了:

  • DeepSeek推出的新AI更聰明、更快、更便宜,是OpenAI模型的有力對手

  • Anthropic的最新Claude模型或?qū)⒊蔀橄乱粋€AI霸主

  • Google稱其最新Gemini模型具備“推理”能力,是迄今最強版本

如果你密切關(guān)注相關(guān)研究、新聞稿和融資消息,就會發(fā)現(xiàn)更新速度之快令人眼花繚亂,甚至難以跟上節(jié)奏。

正如前Mozilla.ai高級機器學(xué)習工程師Vicky Boykis在文章中所寫:“大語言模型領(lǐng)域每天都有令人興奮的新發(fā)展。但在這些前沿熱點中,很多關(guān)鍵的基礎(chǔ)概念卻被忽視了。”

創(chuàng)新就像攀巖。有些進展像是一個落腳點——雖然有用,但一旦踩過就不會回頭;而有些則像繩索——你越是深入,越能持續(xù)依賴它向上攀爬。很多時候,最經(jīng)久不衰的理念,才是推動技術(shù)不斷向前的核心力量。

如果忽視這些基礎(chǔ)概念,Boykis指出,“這些模型對我們來說將永遠是黑箱。我們將無法真正建立在它們的基礎(chǔ)上,或掌握它們的核心原理。”

如果你想在生成式AI的基礎(chǔ)上進行構(gòu)建,那么“嵌入(embeddings)”無疑是最好的入門點之一。盡管這一概念已誕生數(shù)十年,但它所代表的核心思想仍有巨大潛力未被充分挖掘。它能經(jīng)受住時間考驗,本身就是其價值的有力證明。

對于工程技術(shù)領(lǐng)導(dǎo)者來說,讓模型保持“黑箱”狀態(tài)是不可接受的。想在GenAI浪潮中領(lǐng)先,必須深入理解embeddings技術(shù)。但優(yōu)秀的技術(shù)領(lǐng)導(dǎo)者不會止步于此。他們會主動尋找利用RAG(檢索增強生成)等技術(shù)來擴展embeddings能力的機會,也會關(guān)注如何借助向量檢索等工具更好地支持embeddings的應(yīng)用。

1 embeddings技術(shù)簡史

embeddings技術(shù)可以把文本、圖像、音頻等數(shù)據(jù)轉(zhuǎn)化為向量,供機器學(xué)習(ML)模型解析和處理復(fù)雜信息。可以把embeddings理解為ML模型共用的一種“通用語言”。每種數(shù)據(jù)格式好比不同的“方言”,而embeddings就是讓它們都能“對話”的橋梁。

這種“通用語言”的思想——即通過數(shù)據(jù)之間的關(guān)聯(lián)來表示信息——最早可追溯到1950s。英國語言學(xué)家John Rupert Firth在1962年的一篇論文中寫道:“You shall know a word by the company it keeps!”(通過一個詞所處的語境來理解它的含義)。語言學(xué)家意識到,單詞本身的意義之外,其上下文同樣關(guān)鍵。

這個想法花了幾十年才發(fā)展出數(shù)學(xué)意義。embeddings背后的理論基礎(chǔ)是“分布式語義學(xué)”,其現(xiàn)代數(shù)學(xué)模型可追溯至1990年代的相關(guān)研究。不過當時的embeddings方法受限較大,表示方式過于稀疏。

2013年,Google研究人員推出Word2Vec,可從大規(guī)模數(shù)據(jù)集中學(xué)習詞語稠密向量表示的工具包。這一技術(shù)是embeddings技術(shù)的重大突破,也極大推動NLP發(fā)展,因為它證明embeddings可以學(xué)習和表達詞語之間的關(guān)系。

下面的圖像用顏色編碼展示了不同詞語之間的相似關(guān)系。如“man”和“woman”的相似度高于它們與“king”或“queen”之間的相似度。

2017年,《Attention Is All You Need》這篇論文提出了變換器(Transformer)架構(gòu),展示了模型如何關(guān)注句子中的每一個詞。

隨后在2018年,Google發(fā)布了開源框架BERT(Bidirectional Encoder Representations from Transformers),展示了這種新方法的強大:它能生成上下文相關(guān)的詞向量。與Word2Vec不同,BERT可以根據(jù)句子上下文對同一個詞賦予不同的向量表示。

Transformer架構(gòu)的引入堪稱一次技術(shù)分水嶺。即便到了今天,GPT等大模型的很多核心能力仍建立在這一基礎(chǔ)之上。

Boykis寫道,理解embeddings并不容易:“它們既不是數(shù)據(jù)的輸入,也不是模型的輸出結(jié)果,而是嵌在機器學(xué)習流程中的中間部分,用來優(yōu)化模型表現(xiàn)?!?/p>

要理解embeddings的本質(zhì),不妨回歸“意義是如何被表達”的核心:當我們說出“家”這個詞時,是用一個聲音承載了很多潛在含義。這個聲音能在人與人之間傳遞。同樣,embeddings也是對各種數(shù)據(jù)形式的一種壓縮表達,不過它服務(wù)的不是人與人之間的溝通,而是為機器模型的訓(xùn)練和運行提供支持。

2 embeddings在AI中的角色

有些概念屬于基礎(chǔ),有些則處在技術(shù)前沿,而embeddings技術(shù)兼具兩者。它早在GenAI出現(xiàn)之前就已經(jīng)存在,而當下AI的很多突破也正是通過對embeddings的創(chuàng)新應(yīng)用實現(xiàn)的。

2.1 理解語義的“細膩程度”

embeddings技術(shù)讓算法能夠感知概念之間的語義相似性,而無需明確編寫規(guī)則。例如,“happy”和“joyful”之間比“happy”和“cat”更相近。embeddings能幫助模型識別這些關(guān)系。

因此,在文本分類、機器翻譯等NLP任務(wù)中,embeddings成為核心組件。沒有embeddings的話,模型會把“cat”和“kitten”看成兩個毫無關(guān)聯(lián)的詞,僅因為拼寫不同。

2.2 可遷移性

embeddings可以先在某一任務(wù)或領(lǐng)域中訓(xùn)練,然后遷移到其他任務(wù)或領(lǐng)域。所學(xué)到的語義結(jié)構(gòu)具備通用性,這正是GenAI持續(xù)進化的基礎(chǔ)。

如果沒有這種可遷移性,GenAI應(yīng)用只能是各自孤立的工具;而借助embeddings,它們才能持續(xù)成長,變得更加智能和全面。

2.3 計算效率

高維數(shù)據(jù)往往雜亂無章、難以處理。embeddings通過降低維度,同時保留數(shù)據(jù)之間的關(guān)聯(lián),大大加快了模型訓(xùn)練速度,并降低了計算成本。

2.4 NLP與LLM

幾乎所有現(xiàn)代自然語言處理模型,包括GPT在內(nèi)的大語言模型,都依賴embeddings技術(shù)。這些模型將文本(包括詞語、句子、段落等)轉(zhuǎn)換為向量,從而在語義空間中理解內(nèi)容。這不僅是實現(xiàn)諸如語義搜索、問答系統(tǒng)和遷移學(xué)習等功能的關(guān)鍵,更是模型推理的起點。

2.5 推薦系統(tǒng)

大多數(shù)推薦和個性化系統(tǒng)也依賴embeddings技術(shù)。系統(tǒng)通常將用戶和物品表示為相同向量空間中的向量。例如,Netflix就構(gòu)建了一個用于個性化推薦的基礎(chǔ)模型,其中廣泛應(yīng)用了embeddings。

用embeddings向量表示與影視內(nèi)容相關(guān)的各種元數(shù)據(jù):

Google Play、Overstock、Airbnb等眾多公司也都在推薦系統(tǒng)中使用embeddings,以達到類似目的。

3 embeddings技術(shù)的光明前景

embeddings不僅已經(jīng)成為AI的核心組成部分,它的發(fā)展也帶動了諸多新場景的創(chuàng)新。隨著GenAI的演進,embeddings會無處不在;而隨著應(yīng)用范圍擴大,支持embeddings的技術(shù)——如向量存儲與搜索——也將越來越重要。

3.1 多模態(tài)embeddings將不斷解鎖新知識

多模態(tài)embeddings能讓模型將圖像、音頻等不同類型數(shù)據(jù)統(tǒng)一編碼到一個向量空間,從而實現(xiàn)跨模態(tài)推理。模型可以同時理解“cat”這個詞、一張貓的圖片和貓叫聲之間的關(guān)系,從而實現(xiàn)更強的搜索和理解能力。

例如,通過Google的Multimodal Embeddings API,你既可以用“cat”這個詞,也可以用一張貓的圖片來搜索相關(guān)內(nèi)容。

雖然多模態(tài)embeddings并不新鮮,但其發(fā)展前景極其廣闊。

每增加一項信息,LLM不僅多學(xué)一個知識點,而是為其整體知識網(wǎng)絡(luò)新增一個節(jié)點,從而激發(fā)更多聯(lián)想與推理能力。例如,訓(xùn)練模型看一本新書固然不錯,但如果能解析整部視頻資料,其價值更是指數(shù)級提升。

3.2 RAG技術(shù)持續(xù)發(fā)展,embeddings需求激增

RAG(檢索增強生成)是一種提升GenAI準確性的方法,它通過向量檢索技術(shù)從可信數(shù)據(jù)源中提取信息,在模型生成回答前將其作為上下文輸入。

embeddings不僅是RAG的關(guān)鍵支持技術(shù),還可以幫助高效檢索相關(guān)文檔、聚類文本、識別趨勢和重復(fù)內(nèi)容,使RAG更加實用。

2025年3月,Google就強調(diào)了文本embeddings技術(shù)的突破,并指出其在RAG等多種場景中的應(yīng)用潛力。

Menlo Ventures的研究顯示,2024年,embeddings技術(shù)已經(jīng)成為企業(yè)中最主流的AI設(shè)計模式。

在注重準確性和知識一致性的企業(yè)級應(yīng)用中,RAG將成為最具變革性的GenAI技術(shù)之一,而embeddings就是其中的基石。

3.3 向量數(shù)據(jù)庫和向量搜索將持續(xù)增長

隨著embeddings技術(shù)不斷發(fā)展和普及,圍繞它構(gòu)建的支撐技術(shù)也將越來越關(guān)鍵。其中最值得關(guān)注的,就是向量數(shù)據(jù)庫和向量搜索。

embeddings通過向量表示信息,因此對向量的高效存儲與檢索是GenAI應(yīng)用的核心。Redis在這方面表現(xiàn)尤為突出——它不僅速度快,更是實時性強,能滿足高吞吐、低延遲的AI應(yīng)用需求。

換句話說,企業(yè)不能再用“差不多”的方式來處理向量存儲;優(yōu)化向量管理策略,會直接提升你在GenAI領(lǐng)域的整體表現(xiàn)。

Redis提供的向量存儲與搜索能力支持多種AI與數(shù)據(jù)工具。我們的基準測試表明,在多個性能指標上,Redis都是當前最快的解決方案。

LangChain聯(lián)合創(chuàng)始人兼CEO Harrison Chase 表示:“我們在OpenGPTs中所有持久化存儲都用的是Redis Cloud,包括檢索使用的向量存儲、消息存儲、代理配置等。能在一個數(shù)據(jù)庫中完成所有這一切,Redis的吸引力非常大?!?/p>

在審視GenAI這場范式轉(zhuǎn)變時,不能只盯著最前沿的模型。就像潮水上漲會帶動所有船只一樣,GenAI的崛起也會帶動embeddings、向量搜索和向量存儲等基礎(chǔ)技術(shù)同步升級。作為工程領(lǐng)導(dǎo)者,你需要確保在這些領(lǐng)域都做到最好。

4 embeddings讓信息檢索更高效

信息是龐大而混亂的。從印刷術(shù)到ChatGPT,每一次對信息“壓縮與組織”的突破,都會帶來知識的爆炸式增長。

本質(zhì)上,embeddings就是讓我們更容易找到有用信息。因此,embeddings注定不會消失,反而會成為生成式AI新聞浪潮中為數(shù)不多的“錨點”。Redis正通過高性能向量數(shù)據(jù)庫為這一生態(tài)提供堅實支撐。

對于工程技術(shù)領(lǐng)導(dǎo)者來說,理解embeddings技術(shù),并應(yīng)用能夠支持它的工具,是今天構(gòu)建GenAI基礎(chǔ),也是面向未來布局的最佳方式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
U23國足生死戰(zhàn)首發(fā)出爐!安東尼奧換2人,楊希先發(fā)王鈺棟領(lǐng)銜

U23國足生死戰(zhàn)首發(fā)出爐!安東尼奧換2人,楊希先發(fā)王鈺棟領(lǐng)銜

奧拜爾
2026-01-11 18:15:34
明搶5000萬桶石油后,特朗普轉(zhuǎn)頭才發(fā)現(xiàn):中國連一桶都不肯買了

明搶5000萬桶石油后,特朗普轉(zhuǎn)頭才發(fā)現(xiàn):中國連一桶都不肯買了

南宮一二
2026-01-11 12:18:10
從0-4到4-0!橫掃小師妹蒯曼晉級決賽,陳幸同約戰(zhàn)前世界第一

從0-4到4-0!橫掃小師妹蒯曼晉級決賽,陳幸同約戰(zhàn)前世界第一

釘釘陌上花開
2026-01-11 18:48:50
平時熬的夜,周末竟能補回來!多項研究發(fā)現(xiàn),周末補覺,顯著降低心臟病、糖尿病、抑郁癥風險

平時熬的夜,周末竟能補回來!多項研究發(fā)現(xiàn),周末補覺,顯著降低心臟病、糖尿病、抑郁癥風險

醫(yī)諾維
2026-01-10 11:21:16
最令大齡剩女崩潰的一瞬間在什么時候?看網(wǎng)友的評論引起萬千共鳴

最令大齡剩女崩潰的一瞬間在什么時候?看網(wǎng)友的評論引起萬千共鳴

夜深愛雜談
2026-01-10 22:27:12
“成都地鐵實現(xiàn)1人1座”上熱搜,網(wǎng)友:建議全國推廣

“成都地鐵實現(xiàn)1人1座”上熱搜,網(wǎng)友:建議全國推廣

揚子晚報
2026-01-11 13:39:18
空中“貨拉拉”來了!“天馬-1000”無人運輸機成功首飛

空中“貨拉拉”來了!“天馬-1000”無人運輸機成功首飛

澎湃新聞
2026-01-11 09:55:03
朱雨玲4:2力克韓瑩,晉級多哈冠軍賽決賽!

朱雨玲4:2力克韓瑩,晉級多哈冠軍賽決賽!

菲兒看球
2026-01-11 19:22:08
2026煙草新規(guī)實施在即!百萬店主改規(guī)矩,3億煙民買煙變樣了

2026煙草新規(guī)實施在即!百萬店主改規(guī)矩,3億煙民買煙變樣了

復(fù)轉(zhuǎn)這些年
2026-01-10 23:17:57
大疆,造了個小猛獸

大疆,造了個小猛獸

放毒
2026-01-10 19:49:47
烏克蘭機器人首裝國產(chǎn)發(fā)動機,中國零部件將被徹底淘汰!

烏克蘭機器人首裝國產(chǎn)發(fā)動機,中國零部件將被徹底淘汰!

桂系007
2026-01-10 23:37:56
“成都地鐵實現(xiàn)1人1座”沖上熱搜 成都地鐵回應(yīng)

“成都地鐵實現(xiàn)1人1座”沖上熱搜 成都地鐵回應(yīng)

看看新聞Knews
2026-01-11 17:49:21
北京一律所主任失聯(lián)?探訪:大門關(guān)閉,律師稱未停業(yè)

北京一律所主任失聯(lián)?探訪:大門關(guān)閉,律師稱未停業(yè)

界面新聞
2026-01-10 19:37:33
28577分!哈登無限接近歷史前十,今夜或?qū)⒊健按篚忯~”奧尼爾

28577分!哈登無限接近歷史前十,今夜或?qū)⒊健按篚忯~”奧尼爾

大眼瞄世界
2026-01-11 10:43:34
紀實:楊佳襲警案,北京小伙對執(zhí)法不滿,手拿剔骨刀砍死6位民警

紀實:楊佳襲警案,北京小伙對執(zhí)法不滿,手拿剔骨刀砍死6位民警

談史論天地
2026-01-08 19:40:03
南天門計劃,攤牌了!

南天門計劃,攤牌了!

環(huán)球策論
2026-01-10 23:20:01
中國賺錢美國花?老戲骨祖孫三代在美奢華享樂過上“人上人”生活

中國賺錢美國花?老戲骨祖孫三代在美奢華享樂過上“人上人”生活

古事尋蹤記
2026-01-08 07:10:52
最新公告!多家A股公司2025年業(yè)績預(yù)虧

最新公告!多家A股公司2025年業(yè)績預(yù)虧

證券時報e公司
2026-01-11 18:40:22
越南銀行存錢利息7.3%,在當?shù)刈錾饩W(wǎng)友忍不住往里面存款

越南銀行存錢利息7.3%,在當?shù)刈錾饩W(wǎng)友忍不住往里面存款

映射生活的身影
2026-01-11 13:32:28
德國雜志“惡意抓拍”?樊振東封面照被批“認不出”,球迷怒懟:辜負他的治愈微笑

德國雜志“惡意抓拍”?樊振東封面照被批“認不出”,球迷怒懟:辜負他的治愈微笑

最愛乒乓球
2026-01-11 08:21:43
2026-01-11 20:03:00
JavaEdge incentive-icons
JavaEdge
Java 技術(shù)
466文章數(shù) 457關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

小學(xué)生留遺書在家中服藥自殺 母親起訴學(xué)校和英語老師

頭條要聞

小學(xué)生留遺書在家中服藥自殺 母親起訴學(xué)校和英語老師

體育要聞

詹皇曬照不滿打手沒哨 裁判報告最后兩分鐘無誤判

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

手機
藝術(shù)
游戲
數(shù)碼
家居

手機要聞

消息稱三星Galaxy S26系列手機將首次提供2400萬像素切換開關(guān)

藝術(shù)要聞

謝森 2025年風景油畫寫生

《GTA6》注定創(chuàng)造歷史 但難復(fù)刻十年前午夜首發(fā)情懷

數(shù)碼要聞

智能廚電成CES最卷品類:AI接管一切,人人都能當「甩手掌柜」

家居要聞

木色留白 演繹現(xiàn)代自由

無障礙瀏覽 進入關(guān)懷版