国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

向量量化如何影響存儲(chǔ)?與RaBitQ兩位作者,從與谷歌TurboQuant學(xué)術(shù)爭議聊起

0
分享至


圖片來源@unsplash

2026年3月25日,Google Research官方博客公布的一篇學(xué)術(shù)論文引起了軒然大波:TurboQuant作為一項(xiàng)向量壓縮算法宣稱可將大模型KV Cache內(nèi)存占用減少6倍,引發(fā)內(nèi)存股當(dāng)日集體大跌。但隨后,TurboQuant陷入學(xué)術(shù)不端風(fēng)波:涉嫌隱瞞核心技術(shù)借鑒、錯(cuò)誤貶低先行研究、在實(shí)驗(yàn)中進(jìn)行極度不公平的硬件對比,并且早在一年前arXiv上公布預(yù)印本時(shí),在明知存在大量事實(shí)性錯(cuò)誤的情況下,依然投稿到今年的ICLR學(xué)術(shù)頂會(huì)。

其作者團(tuán)隊(duì)曾在此期間做出公開澄清,但實(shí)際上并沒有正面回應(yīng)上述問題。隨著輿論的發(fā)酵,TurboQuant事件引發(fā)了更多研究者和業(yè)內(nèi)人士的評論和譴責(zé)。

而該起事件中的另一方RaBitQ作者團(tuán)隊(duì),在選擇發(fā)聲前的更早時(shí)間線里:2025年5月,就已經(jīng)在積極聯(lián)絡(luò)對方,希望其能夠修正論文事實(shí)性錯(cuò)誤;2025年11月,通過官方渠道聯(lián)系ICLR 2026 PC Chairs;2026年3月公開發(fā)聲前再次與PC Chairs發(fā)出請求,希望對其進(jìn)行正式的學(xué)術(shù)道德審查等訴求。

4月初,我們聯(lián)系到了RaBitQ論文兩位作者,并第一時(shí)間與之進(jìn)行了深入交流:

一位是新加坡南洋理工大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院副教授,也是VectorDB@NTU的負(fù)責(zé)人龍程。

一位是蘇黎世聯(lián)邦理工學(xué)院從事博士后研究的高健揚(yáng),他此前跟隨龍教授攻讀博士學(xué)位,是VectorDB@NTU最早從事向量量化與向量檢索研究的博士生,同樣也是RaBitQ的第一作者。

訪談中,高健揚(yáng)提到:在谷歌官方博客發(fā)布后,曾第一時(shí)間選擇給TurboQuant所有的作者團(tuán)隊(duì)再發(fā)郵件,要求其進(jìn)行更正。但當(dāng)時(shí)收到了第一作者Amir Zandieh比較強(qiáng)硬的回復(fù)!八麄儾粌H不愿意在谷歌博客更正這兩個(gè)方法的相似性,并且只同意在ICLR 2026會(huì)議結(jié)束后才會(huì)修正論文。錯(cuò)誤的事實(shí)已經(jīng)大規(guī)模傳播了,這種以冷處理的方式我們無法接受!

而后又等待了一天,在沒有得到其他作者回復(fù)尤其是最后一位作者(谷歌副總裁Vahab Mirrokni)的回復(fù)后,高健揚(yáng)選擇了公開發(fā)聲。

與此同時(shí),我們注意到自2017年Faiss庫和HNSWlib開源后,向量檢索一直以HNSW圖索引、IVF倒排索引兩大方向?yàn)橹饕葸M(jìn)路線,而向量壓縮算法RaBitQ在2024年被提出并開源后,則將向量檢索引入一個(gè)新的階段。

目前RaBitQ已經(jīng)得到多個(gè)版本演進(jìn),包括重構(gòu)代碼及開源RaBitQ Library,并且被20多家國內(nèi)外互聯(lián)網(wǎng)大廠和數(shù)據(jù)庫廠商引入其向量產(chǎn)品中。而在向量檢索之外的更多場景,例如現(xiàn)階段備受業(yè)內(nèi)關(guān)注的大模型KV Cache量化等工程解法,RaBitQ依然存在可拓展的空間。

在這場小團(tuán)隊(duì)與大公司的公開較量中,輸贏暫無定論,但我們看到了一個(gè)做基礎(chǔ)性且具有奠基價(jià)值的科研工作者的學(xué)術(shù)智慧、底氣與堅(jiān)守。

以下是本次獨(dú)家對話內(nèi)容,文字有精簡:從LSH到HNSW、IVF,再到PQ,RaBitQ已經(jīng)做到理論上的最優(yōu)誤差

Q:兩位老師可以先介紹下自己。以及講講您過去在向量數(shù)據(jù)庫的向量量化/壓縮技術(shù)改進(jìn)所做的相關(guān)研究。

龍程:我是龍程,現(xiàn)任新加坡南洋理工大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院副教授,也是VectorDB@NTU的負(fù)責(zé)人。過去幾年,我們在向量數(shù)據(jù)庫方向開展了一系列研究工作。

具體來講,我們在2023年發(fā)表了“ADSampling”的工作,旨在提升向量數(shù)據(jù)庫中兩個(gè)向量間距離計(jì)算算子的速度。隨后,我們設(shè)計(jì)出了RaBitQ向量壓縮算法,成果發(fā)表在數(shù)據(jù)庫頂會(huì)SIGMOD 2024和SIMGOD 2025。此后,我們圍繞RaBitQ這一基礎(chǔ)算法,將其與向量數(shù)據(jù)庫中流行的索引結(jié)構(gòu)(如圖索引或倒排表索引)相結(jié)合。2025年發(fā)表的新工作“SymphonyQG”,便是圖索引與RaBitQ結(jié)合的成果。

近期,我們與英偉達(dá)合作,致力于GPU加速場景下的向量檢索,這個(gè)成果正在英偉達(dá)cuVS向量檢索庫的預(yù)審階段。以上是我們在該領(lǐng)域工作的概覽。

高健揚(yáng):2021年至2025年期間,我在新加坡南洋理工大學(xué)跟隨龍老師攻讀計(jì)算機(jī)博士,之后前往蘇黎世聯(lián)邦理工學(xué)院從事博士后研究工作。我是VectorDB@NTU最早從事向量量化與向量檢索研究的博士生,RaBitQ系列也是我的一作成果。

關(guān)于工作內(nèi)容,龍老師已提及幾點(diǎn)。我在此稍作補(bǔ)充或通俗化解釋:RaBitQ的核心目標(biāo)是解決向量存儲(chǔ)空間占用大的問題。它利用了高維空間中的一些特殊性質(zhì),使得在大幅縮減向量存儲(chǔ)空間的同時(shí),仍能保證使用壓縮后的向量進(jìn)行精確計(jì)算。

Q:向量數(shù)據(jù)庫這個(gè)概念,我最開始了解到也是在2022年。當(dāng)時(shí)與Zilliz創(chuàng)始人溝通,也沒有意識到大模型會(huì)有今天這么火。最開始大家對這個(gè)領(lǐng)域的定義也比較模糊。業(yè)內(nèi)也是在不斷綜合向量數(shù)據(jù)或AI數(shù)據(jù)處理的特點(diǎn),做一些全新的設(shè)計(jì)和研發(fā)。二位老師基本也是在這個(gè)時(shí)間段進(jìn)入這個(gè)領(lǐng)域。當(dāng)時(shí)無論是學(xué)術(shù)圈還是工業(yè)界,大家處于怎樣的探索狀態(tài)?

龍程:向量數(shù)據(jù)庫雖是近幾年的熱門詞匯,但相關(guān)研究可追溯至約30年前,即90年代末期,學(xué)術(shù)界已開始研究高維數(shù)據(jù)的近似搜索問題。高維數(shù)據(jù)在那時(shí)本質(zhì)上就是高維向量。例如,一張圖片可提取諸多特征(如長、寬、顏色等),組合起來便構(gòu)成一個(gè)向量。當(dāng)時(shí)已有此類向量數(shù)據(jù),一個(gè)比較經(jīng)典的應(yīng)用是搜圖:給定一張圖片,在存有大量圖片(每張圖對應(yīng)一個(gè)特征向量)的數(shù)據(jù)庫中搜索相似圖片。1998年,Piotr Indyk與導(dǎo)師Rajeev Motwani做了一系列解決這類問題的工作,其中局部敏感哈希(LSH)方法是這個(gè)領(lǐng)域的典型代表。

大約2014、2015年后,隨著深度學(xué)習(xí)的普及,出現(xiàn)能夠有效學(xué)習(xí)各類非結(jié)構(gòu)化數(shù)據(jù)的表征,即嵌入向量。文字、圖片、音頻、視頻均可通過表征技術(shù)轉(zhuǎn)化為高維向量。此后,業(yè)界開始專門開發(fā)用于存儲(chǔ)、管理和查詢這些非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng),一開始還沒有專門稱為向量數(shù)據(jù)庫,而是類似于非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)。

這一時(shí)期,向量搜索算法也取得一定突破,基于圖的索引(如當(dāng)前主流的HNSW)以及倒排索引等方法開始涌現(xiàn)。

在工業(yè)界,也出現(xiàn)了一些開源的向量搜索引擎,最具代表性的是當(dāng)時(shí)Facebook Research(現(xiàn)Meta)發(fā)布的FAISS庫。隨后在2022年底ChatGPT的出現(xiàn),檢索增強(qiáng)生成(RAG)技術(shù)開始流行。RAG的基本思想是在將問題提交給大模型前,先從知識庫中搜索可能與問題相關(guān)的上下文信息,結(jié)合后再提交給大模型,以期獲得更準(zhǔn)確、更具時(shí)效性且更少幻覺的答案。

自那時(shí)起,向量數(shù)據(jù)庫在大模型推理pipeline中的重要作用開始被廣泛認(rèn)識。我記得在2023年美國西雅圖SIGMOD會(huì)議期間,許多人在討論向量數(shù)據(jù)庫。那個(gè)時(shí)候,各類向量數(shù)據(jù)庫,包括開源的、閉源的、基于通用數(shù)據(jù)庫擴(kuò)展的、專門針對向量數(shù)據(jù)開發(fā)的系統(tǒng)大量涌現(xiàn)。

我們團(tuán)隊(duì)則是在2021年底,即ChatGPT發(fā)布前約一年,進(jìn)入這個(gè)領(lǐng)域。契機(jī)是健揚(yáng)在2021年來南洋理工攻讀博士,我們開始為他尋找博士課題,經(jīng)過幾個(gè)月探索后確定了向量搜索方向,覺得還挺有研究價(jià)值。不過,當(dāng)時(shí)我們也沒有意識到后面會(huì)有如此大的應(yīng)用前景。

Q:健揚(yáng)你也談?wù)劗?dāng)時(shí)是如何確定這個(gè)方向的?是突發(fā)奇想,還是受到某些論文啟發(fā),認(rèn)為向量搜索具有研究價(jià)值?

高健揚(yáng):當(dāng)時(shí)促使我們做出決定主要有三方面因素。最初契機(jī)是龍老師推薦了幾篇向量檢索的論文。我們當(dāng)時(shí)在廣泛探索了多個(gè)方向,包括AI4DB及一些傳統(tǒng)數(shù)據(jù)庫理論。但在閱讀向量檢索相關(guān)論文后,我感覺這個(gè)方向?qū)ξ襾碚f比之前探索的都更有趣。

第二點(diǎn),當(dāng)時(shí)雖然沒有ChatGPT,但AI已非;馃。自2012年AlexNet起,計(jì)算機(jī)視覺和自然語言處理領(lǐng)域成果井噴且在實(shí)際生活中已有大量應(yīng)用。當(dāng)時(shí)的想法是,既然所有AI模型都將非結(jié)構(gòu)化數(shù)據(jù)表示為向量,那么對向量數(shù)據(jù)的研究,無論針對何種任務(wù),在未來都至關(guān)重要。

第三點(diǎn),我本人是數(shù)學(xué)背景,相比于其他方向,高維向量相關(guān)問題背后的數(shù)學(xué)結(jié)構(gòu)更為干凈、漂亮,可能更容易獲得可分析、可證明的理論結(jié)果。這一點(diǎn)與我的個(gè)人背景和興趣相契合。所以,在多種因素共同驅(qū)使下,我們開始了對向量數(shù)據(jù)庫的研究。

Q:確實(shí),RaBitQ的提出也顯示出在數(shù)學(xué)領(lǐng)域的理論證明。我們具體聊聊向量數(shù)據(jù)庫。例如,大模型火熱后,業(yè)界可能關(guān)心內(nèi)存占用大、加速效果不理想、召回率較低等問題,難以解決所謂的“不可能三角”。當(dāng)時(shí),業(yè)內(nèi)對向量數(shù)據(jù)庫的瓶頸(如內(nèi)存)最早有哪些解決方案?后來出現(xiàn)了哪些改進(jìn)思路?

高健揚(yáng):解決方案主要分兩類:算法層面和系統(tǒng)層面。

算法層面的話,主要是向量量化。這個(gè)領(lǐng)域最早采用標(biāo)量量化,其做法非常簡單,即將實(shí)數(shù)舍入為一個(gè)有限精度的整數(shù)。之后在2010年左右,出現(xiàn)了乘積量化(PQ)方法。相比于標(biāo)量量化,這個(gè)方法針對特定輸入數(shù)據(jù)集設(shè)計(jì)具體的量化碼本,在實(shí)踐中表現(xiàn)非常好,在很長一段時(shí)間內(nèi)是向量數(shù)據(jù)庫(或向量壓縮領(lǐng)域)的事實(shí)標(biāo)準(zhǔn)。隨后便是RaBitQ。相較于PQ等方法,其主要?jiǎng)?chuàng)新在于利用隨機(jī)旋轉(zhuǎn)(Johnson-Lindenstrauss變換),結(jié)合高維空間中的特殊性質(zhì),獲取“免費(fèi)”信息以提高向量量化的精度。按我的理解,RaBitQ現(xiàn)已成為向量數(shù)據(jù)庫的主流方案,已在超過20家公司的真實(shí)系統(tǒng)中得到大規(guī)模部署。

而在系統(tǒng)層面,為節(jié)省內(nèi)存,一個(gè)自然的思路是不將所有數(shù)據(jù)存于內(nèi)存,而是存儲(chǔ)于硬盤等其他介質(zhì)。這個(gè)方向的典型代表是微軟的DiskANN工作。其核心思想是:原始向量存儲(chǔ)于內(nèi)存成本高昂,所以將其存于硬盤,同時(shí)在內(nèi)存中存儲(chǔ)壓縮后的向量用于檢索。

這兩方面大體概括了當(dāng)前向量數(shù)據(jù)庫解決內(nèi)存瓶頸的主要途徑。

Q:技術(shù)演進(jìn)節(jié)奏還是比較快的。RaBitQ提出至今,你提到已有超過20多家數(shù)據(jù)庫廠商和互聯(lián)網(wǎng)企業(yè)作為重要技術(shù)引入,從你的角度看,原因有哪些?是否注意到或總結(jié)過具體的行業(yè)場景?

龍程:我先嘗試回答為何RaBitQ在工業(yè)界如此流行并被眾多公司采用。我覺得至少有以下幾方面原因:

首先,RaBitQ相較于之前的乘積量化、標(biāo)量量化,具有理論保障。所有量化都會(huì)產(chǎn)生誤差,RaBitQ可以給出這個(gè)誤差的界。在相同壓縮率下,其誤差界是在最壞情況下能達(dá)到的最優(yōu)保證。而之前的PQ等方法完全沒有此類保證。在工業(yè)界,缺乏保證的技術(shù)會(huì)帶來不安全感。只憑經(jīng)驗(yàn),可能在某些數(shù)據(jù)集上有效,在另一些上則無效,且無法預(yù)知在新數(shù)據(jù)集上的表現(xiàn)。

RaBitQ則沒有這個(gè)問題,這在向量搜索中提供了重要保障。再講細(xì)一點(diǎn),RaBitQ支持層次化處理。例如,可先將每個(gè)向量壓縮至4-bit。檢索時(shí)并非一開始就使用全部4-bit估算結(jié)果,而是先使用1-bit。由于1-bit運(yùn)算更快,且有其對應(yīng)的誤差保證。如果根據(jù)這個(gè)保證可解決問題或排除答案,則無需使用剩余3-bit,過程即可終止。僅在1-bit無法解決時(shí),才引入剩余3-bit進(jìn)行增量計(jì)算。這種二階段計(jì)算范式非常具有性價(jià)比,是先前算法無法實(shí)現(xiàn)的。

第二個(gè)優(yōu)勢是這個(gè)方法實(shí)現(xiàn)相對簡單。可以說很干凈:先進(jìn)行隨機(jī)旋轉(zhuǎn),如果是32倍壓縮,則可以取正負(fù)號;如果是更多-bit,則可以在網(wǎng)格上取整。內(nèi)部操作簡潔,易于實(shí)現(xiàn),且與CPU的并行特性兼容良好,上手容易。

第三個(gè)優(yōu)勢是大家特別關(guān)心的:實(shí)際效果到底好不好?實(shí)際上,眾多公司在不同業(yè)務(wù)場景、不同數(shù)據(jù)上的測試表明,其效果穩(wěn)定。由于我們的保障不依賴于具體數(shù)據(jù),對數(shù)據(jù)不做任何假設(shè),因此泛化性極佳。RaBitQ并非基于特定數(shù)據(jù)特性設(shè)計(jì)的方法,所以能在多種數(shù)據(jù)集上取得良好效果。

截至目前,采用的企業(yè)包括許多大型廠商,如Meta、Apple、微軟;國內(nèi)則有字節(jié)、騰訊、阿里、螞蟻等,它們均有向量搜索的需求,因此都實(shí)現(xiàn)或采用了RaBitQ。

在開源生態(tài)中,包括Milvus、VectorChord、Elasticsearch、OpenSearch以及其他一些國內(nèi)外公司,也都采用了RaBitQ。

具體行業(yè)方面,由于RaBitQ的研發(fā)初衷確實(shí)是向量搜索,因此上述企業(yè)及其產(chǎn)品主要聚焦于向量搜索領(lǐng)域,如RAG、推薦等。但我相信RaBitQ的應(yīng)用可更廣泛,包括接下來可能討論的KV Cache量化,大模型權(quán)重量化,我認(rèn)為也極具前景,我們也在探索這個(gè)方向。

任何需要壓縮空間、提高速度的場景,均可應(yīng)用RaBitQ

Q:那么提到KV Cache及大模型參數(shù)層面的量化,能否具體展開講講?具體來講,向量的量化和壓縮技術(shù)都有哪些區(qū)別?比如我們現(xiàn)在會(huì)提到在權(quán)重壓縮和KV Cache的量化壓縮,又有哪些具體需要區(qū)別的?

龍程:我想這個(gè)問題可能包含兩部分。一是你提到的“量化”和“壓縮”聽起來相似,那么有什么區(qū)別?二是“權(quán)重壓縮”和“KV Cache壓縮”或量化,有什么具體區(qū)別?

嚴(yán)格來講,“壓縮”是目的,“量化”是方法,“量化”是“壓縮”算法的其中一種類型,這兩個(gè)術(shù)語側(cè)重點(diǎn)不同。簡單來說,“量化”通常指用低精度的數(shù)值表示去近似高精度的數(shù)值表示,更強(qiáng)調(diào)數(shù)值表示的離散化。壓縮更強(qiáng)調(diào)最終系統(tǒng)資源減少。

第二部分,“權(quán)重壓縮”即大模型權(quán)重的壓縮,以及“KV Cache”的壓縮。相同點(diǎn)在于,它們都是向量。權(quán)重是向量(如權(quán)重矩陣由眾多向量堆疊而成),KV Cache也是(每個(gè)token的key和value均為向量)。它們都是向量,所以都有量化需求。

量化目標(biāo)在于減小大模型尺寸,使其能在更低配置的GPU上運(yùn)行。KV Cache量化同樣有需求,且都需要保證:量化后,基于量化數(shù)據(jù)進(jìn)行的計(jì)算,其結(jié)果與量化前的結(jié)果相差不應(yīng)過大,以確保準(zhǔn)確性。

兩者可能的不同之處在于:大模型權(quán)重?cái)?shù)據(jù)相對靜態(tài)。模型訓(xùn)練完成后,你可以用它跑很多遍,反復(fù)用于各種查詢,參數(shù)保持不變,除非需要重新訓(xùn)練新版本模型。否則大模型權(quán)重不會(huì)產(chǎn)生變化。這個(gè)場景下的量化類似于離線量化。

而KV Cache則不同,每個(gè)查詢都會(huì)產(chǎn)生新的KV,數(shù)據(jù)動(dòng)態(tài)性強(qiáng),更類似于在線量化場景。

因此,針對權(quán)重量化,就我目前看到的論文傾向于利用數(shù)據(jù)自身特點(diǎn),可能使用一些校準(zhǔn)數(shù)據(jù)輔助量化任務(wù),不僅考慮矩陣(向量)本身,還考慮其具體應(yīng)用場景。而KV Cache因變化較大,不同查詢差異顯著,所以較少使用校準(zhǔn)數(shù)據(jù)。因?yàn)楦鼡Q查詢后,校準(zhǔn)數(shù)據(jù)可能完全失效,難以考慮KV Cache之外的因素。如果將RaBitQ用于此場景,我們實(shí)際上無需校準(zhǔn)數(shù)據(jù),可直接進(jìn)行KV Cache量化。

高健揚(yáng):把這件事講得更通俗一點(diǎn):權(quán)重是向量,KV Cache是向量,向量數(shù)據(jù)庫中的向量也是向量。一個(gè)通用的向量壓縮算法,理論上可以在完成一定系統(tǒng)層面的適配之后應(yīng)用于所有存在向量的場景。

Q:如果具體討論RaBitQ在KV Cache量化壓縮中的應(yīng)用,企業(yè)或廠商如果想進(jìn)一步采用,需要進(jìn)行哪些改進(jìn)?

高健揚(yáng):當(dāng)前的RaBitQ相比最初版本已演進(jìn)許多,F(xiàn)在如果想使用RaBitQ,我首先建議企業(yè)嘗試RaBitQ Library中提供的版本。這個(gè)庫集成了我們現(xiàn)有的更好的旋轉(zhuǎn)算法、量化算法,以及在現(xiàn)代GPU、CPU上的具體實(shí)現(xiàn)。如果想在KV Cache場景應(yīng)用,最好采用RaBitQ最新的技術(shù),以最大化其效率。

龍程:RaBitQ Library是我們團(tuán)隊(duì)基于RaBitQ論文和算法自主開發(fā)的開源庫,集成了可能更快的隨機(jī)旋轉(zhuǎn)算法、量化算法的新變種,以實(shí)現(xiàn)更好效果。

Q:關(guān)于RaBitQ,2026年還有哪些方向的探索?

龍程:關(guān)于RaBitQ,我認(rèn)為可能分兩部分。一部分仍在向量數(shù)據(jù)庫領(lǐng)域,我認(rèn)為還有許多探索空間。如前所述,RaBitQ是一種向量量化方法,可壓縮空間并提高速度。任何需要壓縮空間、提高速度的場景,均可應(yīng)用RaBitQ。因此,它可以與向量數(shù)據(jù)庫中各種不同的向量搜索索引(如圖索引、IVF)結(jié)合。這種結(jié)合仍有空間做得更好,這是這個(gè)方法的一個(gè)方向。

當(dāng)前大家研究較多的是經(jīng)典場景:每個(gè)對象有一個(gè)向量,查詢對象也是一個(gè)向量,即用一個(gè)向量搜索一個(gè)向量。但在現(xiàn)實(shí)應(yīng)用中,其實(shí)存在多種方式。例如,可結(jié)合其他標(biāo)量信息進(jìn)行搜索(如混合向量搜索);或流式場景,向量非一次性全部到位,而是持續(xù)流入并實(shí)時(shí)搜索。

此外,軟硬件環(huán)境也存在多種情況。數(shù)據(jù)可全存于內(nèi)存,數(shù)據(jù)量較大時(shí),也可將部分?jǐn)?shù)據(jù)存于硬盤,甚至遠(yuǎn)程存儲(chǔ)。計(jì)算環(huán)境方面,有時(shí)僅有CPU,有時(shí)兼具CPU與GPU。事實(shí)上,我們從去年下半年開始與英偉達(dá)在此方向合作,一項(xiàng)成果是基于RaBitQ的索引,將集成至英偉達(dá)的cuVS庫中,目前處于代碼審核階段。還可能考慮云環(huán)境、分布式計(jì)算環(huán)境等。向量數(shù)據(jù)庫領(lǐng)域仍有許多可探索的問題,我們將持續(xù)發(fā)力。

第二部分,我們想跳出向量數(shù)據(jù)庫應(yīng)用場景,探索包括KV Cache、大模型權(quán)重量化在內(nèi)的其他領(lǐng)域。可能還會(huì)審視整個(gè)機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施棧中,是否有其他環(huán)節(jié)可利用向量搜索技術(shù)進(jìn)行提升或加速。這一塊探索空間可能更大,對我們而言也更未知,但我們非常有興趣在此方向進(jìn)行探索。

重構(gòu)代碼、開源RaBitQ Library,但我們還做的不夠快、不夠好

Q:聊聊RaBitQ背后的一些故事。從這個(gè)方法提出至今(2024年至今)已兩年多。此過程中有哪些感受?或者說,是否感受到RaBitQ確實(shí)廣受歡迎,因而不斷對方法進(jìn)行改進(jìn),包括開源RaBitQ Library?此過程中經(jīng)歷了哪些事情?

高健揚(yáng):這個(gè)過程經(jīng)歷還是蠻豐富的,相對來說比較偏學(xué)術(shù)界之外。學(xué)術(shù)方面,我們未經(jīng)歷太多波折。2023年初,我們內(nèi)部完成RaBitQ工作,做完理論證明和實(shí)驗(yàn)驗(yàn)證后,其實(shí)我們內(nèi)心已比較有底。后續(xù)的論文投稿、發(fā)表,很大程度上是水到渠成的過程。

但在學(xué)術(shù)界之外,發(fā)布RaBitQ論文和代碼后,相當(dāng)短的時(shí)間內(nèi)便有公司跟進(jìn),他們會(huì)利用我們的代碼進(jìn)行測試或部署。我們與其中絕大多數(shù)公司都有非常愉快的交流,甚至后續(xù)合作。也有個(gè)別公司將RaBitQ用于其自身產(chǎn)品,但在媒體宣傳時(shí),對RaBitQ算法的描述做了微調(diào),更改了名稱,并聲稱是其自身創(chuàng)新。

我們與許多公司有接觸、交流、合作,這個(gè)過程中也收到許多意見或建議。其中一個(gè)對我們改變較大的點(diǎn)是,我們發(fā)現(xiàn)大部分公司相比于學(xué)術(shù)論文中的理論嚴(yán)謹(jǐn)性,更在乎現(xiàn)實(shí)實(shí)現(xiàn)的效果。當(dāng)然兩者兼具最好,但如果需選擇,他們會(huì)選擇現(xiàn)實(shí)效果。這一點(diǎn)驅(qū)使我們重構(gòu)了RaBitQ代碼,以及后續(xù)開源RaBitQ Library。具體而言,在重構(gòu)代碼及后續(xù)開源過程中,我們?nèi)谌肓嗽S多實(shí)際效率更高的近似算法,以及更適合當(dāng)前系統(tǒng)的實(shí)現(xiàn)。這可能是此過程中我們的主要改變和收獲。

在擁有RaBitQ Library后,我們發(fā)現(xiàn)國內(nèi)外有更多公司能更快地將RaBitQ部署至其產(chǎn)品中,進(jìn)一步放大了項(xiàng)目影響力。這些可能是一個(gè)非常簡單的概述。但現(xiàn)在回顧起來,我認(rèn)為我們大部分事情:完成RaBitQ工作后,開放代碼、論文,并積極與公司交流,后續(xù)開源RaBitQ Library,在后看來都做對了。當(dāng)然另一點(diǎn)是,在回頭看這件事,我覺得我們可能做得還不夠快、不夠好。

Q:有哪些方面覺得做得不夠快?是因?yàn)槿藛瘟Ρ,尚未形成更大團(tuán)隊(duì)、開源社區(qū)或商業(yè)公司?

高健揚(yáng):我覺得“人單力薄”這個(gè)詞非常準(zhǔn)確?傮w而言,我們?nèi)允菍W(xué)術(shù)界中一個(gè)非常小的團(tuán)隊(duì)。團(tuán)隊(duì)中可能只有龍老師一位教師,加上幾名學(xué)生,這便是我們擁有的全部人力。在此條件下,要求我們編寫工業(yè)級別的大型系統(tǒng),確實(shí)比較強(qiáng)人所難。

Q:是否有想法做成像Databricks這樣的公司?其創(chuàng)始人經(jīng)歷也是從開源到商業(yè)化公司。

高健揚(yáng):我個(gè)人感覺比較困難。一方面,當(dāng)前環(huán)境與Databricks當(dāng)年完全不同;另一方面,具體技術(shù)而言,RaBitQ是一個(gè)更核心、更精巧的算法,而Databricks是系統(tǒng)層面的創(chuàng)新。據(jù)我理解,系統(tǒng)層面的研究更有可能帶來商業(yè)上的壁壘,而RaBitQ這樣的算法研究可能更適合在更多的系統(tǒng)中發(fā)揮它的價(jià)值。

龍程:健揚(yáng)提到RaBitQ是一個(gè)較小的算法,我也要提一句,這個(gè)算法較為底層,實(shí)際上可與不同索引結(jié)合,發(fā)揮更大價(jià)值。

拋開現(xiàn)實(shí)因素,僅從技術(shù)角度看,例如圍繞RaBitQ開發(fā)不同索引,搭建系統(tǒng),或者在存儲(chǔ)方面圍繞RaBitQ開展工作,我認(rèn)為具有可行性。但問題在于,當(dāng)前已有大量向量數(shù)據(jù)庫,如果我們再重新開發(fā)一個(gè),缺乏差異化優(yōu)勢,市場已較擁擠。除非后續(xù)我們找到新出口,它不僅僅是向量數(shù)據(jù)庫,可能是一個(gè)更大場景,且那時(shí)這個(gè)場景玩家不多,我認(rèn)為可以暢想。但如果局限于向量數(shù)據(jù)庫領(lǐng)域,可能確實(shí)特別困難,因?yàn)闀r(shí)機(jī)已過,同類產(chǎn)品過多。

向量量化的進(jìn)步,并不意味著存儲(chǔ)需求會(huì)減少,但也必須由更多硬件來應(yīng)對

Q:存儲(chǔ)這件事情,從硬件層面優(yōu)化的進(jìn)程和優(yōu)勢會(huì)比較明顯嗎?

高健揚(yáng):當(dāng)前情況是假設(shè)有固定總量的存儲(chǔ)需求,我們想以更低成本滿足。有兩個(gè)途徑:硬件途徑與軟件途徑。軟件途徑指設(shè)計(jì)新的模型架構(gòu)、新的向量量化算法以降低存儲(chǔ)開銷;硬件途徑則是生產(chǎn)更多硬件。

據(jù)我理解,像RaBitQ這樣的方法,已做到理論上的最優(yōu)。即在相同誤差情況下,向量量化的壓縮率本質(zhì)上已不可能比RaBitQ更好。因此,在軟件層面,我認(rèn)為向量量化已發(fā)展至瓶頸,甚至達(dá)到天花板,沒有繼續(xù)優(yōu)化的可能。這反而意味著,后續(xù)存儲(chǔ)需求的增長,必須由更多硬件來應(yīng)對。我個(gè)人認(rèn)為,向量量化技術(shù)的進(jìn)步,并不意味著存儲(chǔ)需求會(huì)減少。相反,它意味著未來除了使用更多硬件進(jìn)行存儲(chǔ),我們別無他法。

我們還觀察到,許多團(tuán)隊(duì)正嘗試使用其向量數(shù)據(jù)庫來管理大模型的KV Cache。在這種意義上,未來對KV Cache的管理也可能像數(shù)據(jù)庫一樣,具備多級存儲(chǔ)(包括遠(yuǎn)程存儲(chǔ)、本地硬盤、內(nèi)存等)。這兩個(gè)方向目前呈現(xiàn)合流趨勢。

相關(guān)鏈接: https://zhuanlan.zhihu.com/p/2020969476166808284 https://x.com/Tim_Dettmers/status/2041497412989071707 相關(guān)arxiv鏈接: RaBitQ(1-bit):https://arxiv.org/pdf/2405.12497 RaBitQ(multi-bit):https://arxiv.org/pdf/2409.09913 RaBitQ Library:https://github.com/VectorDB-NTU/RaBitQ-Library

(本文作者 | 楊麗,編輯 | 楊林)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
泰國工廠突發(fā)沖突!中泰工人互相群毆,視頻曝光現(xiàn)場一片混亂

泰國工廠突發(fā)沖突!中泰工人互相群毆,視頻曝光現(xiàn)場一片混亂

暹羅飛鳥
2026-04-28 08:14:15
14死37傷,以軍深夜開火,內(nèi)塔尼亞胡赦免遭拒,特朗普轉(zhuǎn)變態(tài)度

14死37傷,以軍深夜開火,內(nèi)塔尼亞胡赦免遭拒,特朗普轉(zhuǎn)變態(tài)度

軍機(jī)Talk
2026-04-28 11:08:25
奇瑞造的摩托車,可能和你想象的不一樣!

奇瑞造的摩托車,可能和你想象的不一樣!

機(jī)車網(wǎng)
2026-04-27 12:11:39
重磅!俄黑海艦隊(duì)高層遭團(tuán)滅,29集團(tuán)軍被打殘

重磅!俄黑海艦隊(duì)高層遭團(tuán)滅,29集團(tuán)軍被打殘

史政先鋒
2026-04-28 18:10:17
斯諾克世錦賽:墨菲拒絕連輸4局!趙心童今日首敗,小鋼炮暫2-2!

斯諾克世錦賽:墨菲拒絕連輸4局!趙心童今日首敗,小鋼炮暫2-2!

劉姚堯的文字城堡
2026-04-28 18:23:40
新華社權(quán)威快報(bào)|我國自2026年5月1日起對所有非洲建交國實(shí)施零關(guān)稅

新華社權(quán)威快報(bào)|我國自2026年5月1日起對所有非洲建交國實(shí)施零關(guān)稅

新華社
2026-04-28 18:19:09
Manus被取消交易:創(chuàng)業(yè)者不能既要、又要、也要、還要

Manus被取消交易:創(chuàng)業(yè)者不能既要、又要、也要、還要

小星球探索
2026-04-28 12:08:06
AI速度超快!算法專家郭宇認(rèn)為Claude Code在6個(gè)月內(nèi)就能淘汰知識工作者

AI速度超快!算法專家郭宇認(rèn)為Claude Code在6個(gè)月內(nèi)就能淘汰知識工作者

知識圈
2026-04-28 19:09:54
辭任杭州市市長后,姚高員已任浙江省政府黨組成員

辭任杭州市市長后,姚高員已任浙江省政府黨組成員

上海法治聲音
2026-04-28 14:52:08
印度要下狠手了!精心布局9年,今天一把梭哈!

印度要下狠手了!精心布局9年,今天一把梭哈!

華山穹劍
2026-04-27 20:06:05
美空襲伊朗關(guān)鍵基地突發(fā)火災(zāi)

美空襲伊朗關(guān)鍵基地突發(fā)火災(zāi)

環(huán)球時(shí)報(bào)國際
2026-04-28 14:08:41
官宣!伊朗確定參加世界杯 美國不會(huì)設(shè)置障礙 意大利無緣遞補(bǔ)參賽

官宣!伊朗確定參加世界杯 美國不會(huì)設(shè)置障礙 意大利無緣遞補(bǔ)參賽

念洲
2026-04-28 17:19:34
男子曝入職全球頂尖科技公司時(shí)突然被降薪20萬,拒offer后被嘲諷:你的愛國情懷不值20萬嗎

男子曝入職全球頂尖科技公司時(shí)突然被降薪20萬,拒offer后被嘲諷:你的愛國情懷不值20萬嗎

爆角追蹤
2026-04-27 14:54:06
撒貝寧獲全國五一勞動(dòng)獎(jiǎng)?wù)?>
    </a>
        <h3>
      <a href=閃電新聞
2026-04-28 16:25:55
日本廣島突發(fā)爆炸

日本廣島突發(fā)爆炸

第一財(cái)經(jīng)資訊
2026-04-28 16:46:53
俄羅斯做出巨大讓步?中國30年心結(jié)了卻!美國和歐盟幫了中國大忙

俄羅斯做出巨大讓步?中國30年心結(jié)了卻!美國和歐盟幫了中國大忙

知鑒明史
2026-04-27 18:35:03
跌回20年前!權(quán)威數(shù)據(jù)表明,中國房地產(chǎn)的實(shí)際購買力已跌至2006的水平

跌回20年前!權(quán)威數(shù)據(jù)表明,中國房地產(chǎn)的實(shí)際購買力已跌至2006的水平

風(fēng)向觀察
2026-04-28 16:20:39
細(xì)思極恐,躺平思想原來是境外敵對勢力煽動(dòng)的?

細(xì)思極恐,躺平思想原來是境外敵對勢力煽動(dòng)的?

十柱
2026-04-28 11:54:55
越南的恥辱!女子和美國大兵親熱完后,趴在床上一臉崇拜地看著他

越南的恥辱!女子和美國大兵親熱完后,趴在床上一臉崇拜地看著他

微野談寫作
2026-04-28 15:50:06
中國男籃國手王俊杰轉(zhuǎn)校馬塞諸塞大學(xué) 球隊(duì)已長達(dá)12年未打進(jìn)瘋?cè)?>
    </a>
        <h3>
      <a href=醉臥浮生
2026-04-28 10:15:54
2026-04-28 20:07:00
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
132920文章數(shù) 862121關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

15歲女兒遭同學(xué)性侵殺害 父親終日借酒澆愁飲酒300斤

頭條要聞

15歲女兒遭同學(xué)性侵殺害 父親終日借酒澆愁飲酒300斤

體育要聞

季后賽最新局勢:雷霆4-0晉級首隊(duì) 4隊(duì)3-1

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

政治局會(huì)議:加強(qiáng)算力網(wǎng)等規(guī)劃建設(shè)

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

旅游
教育
本地
數(shù)碼
房產(chǎn)

旅游要聞

文化和旅游部:鼓勵(lì)各地因地制宜延長熱門景區(qū)營業(yè)時(shí)間

教育要聞

重磅!2026年綿陽高考適應(yīng)性考試(三診)劃線公布

本地新聞

用青花瓷的方式,打開西溪濕地

數(shù)碼要聞

閃極預(yù)熱隨行Flow移動(dòng)電源:1C+1A,10000mAh售188元

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國人口增量第4省!

無障礙瀏覽 進(jìn)入關(guān)懷版