国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

謝作如:當(dāng)信息系統(tǒng)遇上人工智能之向量檢索——多模態(tài)數(shù)據(jù)分析初體驗

0
分享至

隨著圖像、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù)日益成為信息主體,傳統(tǒng)信息系統(tǒng)在處理多模態(tài)內(nèi)容時面臨理解與檢索的瓶頸。本文首先圍繞“向量檢索”這一人工智能關(guān)鍵技術(shù),探討如何通過嵌入模型將多模態(tài)數(shù)據(jù)轉(zhuǎn)化為特征向量,并利用輕量級向量數(shù)據(jù)庫(如sqlite-vec)實現(xiàn)高效的相似性檢索,接著系統(tǒng)介紹了從“以圖搜圖”到“以文搜圖”的具體實現(xiàn)方法,最后對向量檢索在檢索增強生成(RAG)、視頻內(nèi)容搜索等復(fù)雜AI應(yīng)用中的潛力進行了展望。

數(shù)據(jù)是信息系統(tǒng)的核心要素。在傳統(tǒng)認(rèn)知中,信息系統(tǒng)擅長處理規(guī)整的、存儲在表格里的結(jié)構(gòu)化數(shù)據(jù),如學(xué)生信息、商品庫存或交易記錄。然而,感知技術(shù)的發(fā)展使我們正身處一個數(shù)據(jù)爆炸的時代,圖像、視頻、音頻、文檔等非結(jié)構(gòu)化數(shù)據(jù)已成為信息的主流形式。面對這些多模態(tài)數(shù)據(jù),傳統(tǒng)信息系統(tǒng)往往力不從心。如何讓信息系統(tǒng)“看懂”圖片、“聽懂”聲音,并實現(xiàn)跨模態(tài)的智能檢索?這正是多模態(tài)向量檢索技術(shù)要解決的核心問題。

向量檢索技術(shù)簡介:

從“數(shù)據(jù)”走向“向量”

要理解多模態(tài)數(shù)據(jù),可以借助嵌入(Embedding)模型與向量化技術(shù)的支持。我們可以將嵌入模型理解為一個高效的“翻譯官”,它能將非結(jié)構(gòu)化的原始數(shù)據(jù)(如“一只在草地上奔跑的金毛犬”這段文本,或一張對應(yīng)的照片)轉(zhuǎn)換成一串能夠捕捉其核心特征的數(shù)字,即特征向量(如圖1)。


圖1

通過深度學(xué)習(xí)模型(如CLIP模型),語義相近的內(nèi)容會被“翻譯”成空間中距離相近的向量。例如,“狗”和“貓”之類的文本,在向量空間中的距離會非常接近,而相對來說,“狗”和“電腦”之類的距離,則比“動物”要遠一些。一旦數(shù)據(jù)被轉(zhuǎn)化為向量,復(fù)雜且模糊的語義相似度比較,就轉(zhuǎn)變?yōu)榫_且高效的向量空間距離計算,如余弦相似度。這些向量被存儲在專門的向量數(shù)據(jù)庫中,從而實現(xiàn)快速、可擴展的相似性搜索和分析,這便是向量檢索的基石。

向量數(shù)據(jù)庫的選擇:

輕量化利器sqlite-vec

要實現(xiàn)多模態(tài)檢索,需一個能夠高效存儲與檢索向量的“倉庫”。盡管市面上已有諸多專業(yè)向量數(shù)據(jù)庫,但在教學(xué)環(huán)境、個人項目或資源受限的中小型應(yīng)用中,它們的部署復(fù)雜度與資源消耗往往較高??紤]到高中信息技術(shù)課程普遍以SQLite作為數(shù)據(jù)庫教學(xué)基礎(chǔ),sqlite-vec這一輕量級工具顯得尤為適用。

sqlite-vec是一個專注于向量搜索、無任何外部依賴的SQLite擴展,支持跨平臺使用。其使用方式延續(xù)了SQLite的簡潔風(fēng)格,開發(fā)者只需聲明一個帶有向量列的“虛擬表”,隨后使用標(biāo)準(zhǔn)的INSERT INTO語句插入向量數(shù)據(jù),再通過形如“SELECT…WHERE content_embedding MATCH?”的SQL語句執(zhí)行相似性搜索。這種將強大功能封裝于熟悉接口之下的設(shè)計,大幅降低了向量檢索的開發(fā)門檻與技術(shù)復(fù)雜度。代碼如圖2所示。


圖2

sqlite-vec支持pip安裝,操作便捷。性能測試顯示,相較于傳統(tǒng)手動遍歷計算向量相似度的方式,sqlite-vec在查詢效率上具備壓倒性優(yōu)勢,足以勝任中小規(guī)模檢索場景的需求。

功能展示:

從“以圖搜圖”到“以文搜圖”

要實現(xiàn)向量檢索功能,首先需將原始數(shù)據(jù)轉(zhuǎn)化為向量并存入數(shù)據(jù)庫。sqlite-vec本身不提供向量化功能,需借助其他模型完成特征提取。作為中小學(xué)廣泛使用的深度學(xué)習(xí)工具,XEduHub內(nèi)置了多種向量化模型,成為sqlite-vec的理想搭檔。XEduHub提供的向量特征提取任務(wù)如下表所示。


借助XEduHub的特征提取功能,我們可以輕松實現(xiàn)以圖搜圖、以文搜圖之類的AI檢索功能。

01

以圖搜圖

“以圖搜圖”指用戶上傳一張圖片,系統(tǒng)即可在海量圖庫中快速找出視覺內(nèi)容相似的圖像。其實現(xiàn)流程如下:

首先,將圖庫中所有圖像轉(zhuǎn)換為特征向量并存入數(shù)據(jù)庫;其次,將用戶上傳的查詢圖片也轉(zhuǎn)換為特征向量;最后,在向量數(shù)據(jù)庫中將查詢向量與庫中所有圖像向量進行相似度比較,按相似度從高到低返回結(jié)果。測試代碼如圖3所示。


圖3

02

以文搜圖

“以文搜圖”指用戶通過輸入文字描述來搜索相關(guān)圖片。XEduHub所采用的CLIP模型屬于多模態(tài)理解模型,能夠?qū)D像和文本映射到同一向量空間。因此,文本“一只在沙灘上的金毛犬”與其對應(yīng)圖片的向量在空間中位置鄰近。

“以文搜圖”的實現(xiàn)流程與“以圖搜圖”基本一致,區(qū)別僅在于:先使用CLIP的文本編碼器將用戶輸入的自然語言轉(zhuǎn)換為文本向量,隨后在向量數(shù)據(jù)庫中進行檢索,找出語義最匹配的圖片。

測試代碼中僅需修改生成查詢向量的部分(如圖4)。


圖4

更多AI功能的實現(xiàn)

向量檢索的能力遠不止于此,它還是實現(xiàn)更復(fù)雜AI應(yīng)用的腳手架。

01

檢索增強生成

檢索增強生成是當(dāng)前提升大語言模型回答質(zhì)量、抑制其“幻覺”的關(guān)鍵技術(shù)。其核心思路是:在讓大模型回答問題之前,先從外部知識庫(如專業(yè)文檔、教材)中檢索出相關(guān)信息,并將這些信息作為上下文提供給模型,從而生成更準(zhǔn)確的答案。在此過程中,向量檢索扮演了“信息篩選員”的角色。例如,當(dāng)用戶提問“光合作用的主要階段是什么?”時,系統(tǒng)會先將問題轉(zhuǎn)化為向量,隨后在向量化的知識庫中快速檢索出最相關(guān)的文檔片段,再將這些片段交給大語言模型,生成精準(zhǔn)且有據(jù)可依的答案。

02

視頻畫面搜索

視頻可以視為一系列連續(xù)幀圖像(可能包含音頻)的集合。對視頻內(nèi)容的檢索可借鑒圖像檢索的技術(shù)路徑。我們可以使用視頻描述或視頻問答模型,對視頻關(guān)鍵幀進行抽幀與理解,生成每一幀的特征向量,或?qū)φ麄€視頻內(nèi)容生成概括性向量。當(dāng)用戶搜索“視頻中貓咪跳上沙發(fā)的片段”時,系統(tǒng)可將該文本轉(zhuǎn)換為向量,并與視頻關(guān)鍵幀的向量進行匹配,從而快速定位事件發(fā)生的時間點,實現(xiàn)精準(zhǔn)的“視頻畫面搜索”。

總結(jié)

信息系統(tǒng)是信息技術(shù)課程的核心概念。在傳統(tǒng)教學(xué)中,我們多聚焦于結(jié)構(gòu)化數(shù)據(jù)的處理。然而,人工智能的快速發(fā)展,尤其是多模態(tài)理解與檢索技術(shù)的成熟,正推動傳統(tǒng)信息系統(tǒng)實現(xiàn)功能上的跨越。向量檢索僅僅是這輪變革中的一環(huán),它使信息系統(tǒng)進化為能夠“理解”豐富世界、支持智能問答與跨模態(tài)搜索的“智能信息助手”。借助sqlite-vec等輕量化工具,這些前沿技術(shù)變得觸手可及,更易融入教學(xué)實踐。

本文作者:

謝作如

浙江省溫州科技高級中學(xué)

文章刊登于《中國信息技術(shù)教育》

2025年第23期

引用請注明參考文獻:

謝作如.當(dāng)信息系統(tǒng)遇上人工智能之向量檢索——多模態(tài)數(shù)據(jù)分析初體驗[J].中國信息技術(shù)教育,2025(23):80-82.


歡迎訂閱

識別上方二維碼即可訂閱

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
港口鐵路全面收緊嚴(yán)加防范,歐媒:歐盟這是把中國,當(dāng)成敵國了?

港口鐵路全面收緊嚴(yán)加防范,歐媒:歐盟這是把中國,當(dāng)成敵國了?

聞香閣
2026-01-08 16:47:41
郁亮35年萬科生涯落幕

郁亮35年萬科生涯落幕

每日經(jīng)濟新聞
2026-01-08 23:13:05
伊拉克媒體:中國隊出表現(xiàn)亞洲一流水平,門將表現(xiàn)世界頂級水準(zhǔn)

伊拉克媒體:中國隊出表現(xiàn)亞洲一流水平,門將表現(xiàn)世界頂級水準(zhǔn)

曉隯就是我
2026-01-09 11:55:12
北京接觸麥基有新消息,高詩巖低情商發(fā)言,遼寧男籃尋找新大外援

北京接觸麥基有新消息,高詩巖低情商發(fā)言,遼寧男籃尋找新大外援

中國籃壇快訊
2026-01-09 17:21:20
1970年江青哥哥帶兒子來北京,江青得知對方想見自己后:這事難辦

1970年江青哥哥帶兒子來北京,江青得知對方想見自己后:這事難辦

談古論今歷史有道
2026-01-08 11:50:03
美橄欖球明星的隱私部位尺寸,被模特前妻公開討論,怒而對簿公堂

美橄欖球明星的隱私部位尺寸,被模特前妻公開討論,怒而對簿公堂

失寵的小野豬
2026-01-09 14:29:24
“剛買的新車,就要拆發(fā)動機大修!”知名大牌汽車,引發(fā)滬上消費者“集體維權(quán)”

“剛買的新車,就要拆發(fā)動機大修!”知名大牌汽車,引發(fā)滬上消費者“集體維權(quán)”

新民晚報
2026-01-07 20:30:39
英國一只長壽小貓30歲了,跟它主人同歲,從不錯過任何一頓飯!

英國一只長壽小貓30歲了,跟它主人同歲,從不錯過任何一頓飯!

貍貓之一的動物圈
2026-01-06 10:55:08
央視夸完就叛逃!裁員、清空、屏蔽,中國頂級AI公司出走國外

央視夸完就叛逃!裁員、清空、屏蔽,中國頂級AI公司出走國外

大嘴愛嗶嗶
2025-07-20 11:54:44
馬思純公然爆料楊紫3天后,楊紫再傳新消息,真實一面展露無遺

馬思純公然爆料楊紫3天后,楊紫再傳新消息,真實一面展露無遺

林雁飛
2026-01-09 17:23:42
中小學(xué)校即將“合并關(guān)停”,教師過剩!

中小學(xué)校即將“合并關(guān)停”,教師過剩!

譚老師地理大課堂
2026-01-08 21:50:55
頂級車模王琳 身高182cm 身材擁有黃金比例 散發(fā)迷人魅力

頂級車模王琳 身高182cm 身材擁有黃金比例 散發(fā)迷人魅力

老吳教育課堂
2026-01-07 09:59:57
內(nèi)維爾:阿森納那么猛的火力都沒贏簡直是對利物浦防守的肯定

內(nèi)維爾:阿森納那么猛的火力都沒贏簡直是對利物浦防守的肯定

懂球帝
2026-01-09 13:15:05
研究生教人騎車兩年賺27萬,當(dāng)事人:市場需求大

研究生教人騎車兩年賺27萬,當(dāng)事人:市場需求大

南國今報
2026-01-08 22:11:08
東航餐食過于簡單遭吐槽?有乘客稱“僅收到一包20克花生米”,最新回應(yīng)

東航餐食過于簡單遭吐槽?有乘客稱“僅收到一包20克花生米”,最新回應(yīng)

新浪財經(jīng)
2026-01-08 21:41:09
胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

岐黃傳人孫大夫
2025-12-20 11:45:03
國足名宿范志毅,曾花22萬買下英國豪宅,24年后增值了多少?

國足名宿范志毅,曾花22萬買下英國豪宅,24年后增值了多少?

小莜讀史
2026-01-09 12:05:37
美國國會預(yù)算辦公室:預(yù)計美國GDP增速將在2026年加快至2.2%

美國國會預(yù)算辦公室:預(yù)計美國GDP增速將在2026年加快至2.2%

財聯(lián)社
2026-01-09 03:12:04
爆聞?恩里克成曼聯(lián)新帥熱門,竟點名要皇馬王牌當(dāng)首簽!

爆聞?恩里克成曼聯(lián)新帥熱門,竟點名要皇馬王牌當(dāng)首簽!

奶蓋熊本熊
2026-01-09 04:01:38
0:0悶平伊拉克!安東尼奧一敗筆改變比賽走勢 不該冷落中場天才

0:0悶平伊拉克!安東尼奧一敗筆改變比賽走勢 不該冷落中場天才

零度眼看球
2026-01-09 11:26:16
2026-01-09 19:16:49
中國信息技術(shù)教育 incentive-icons
中國信息技術(shù)教育
中國信息技術(shù)教育雜志
1290文章數(shù) 2533關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

特朗普稱美必須"擁有"整個格陵蘭 英法德迅速統(tǒng)一戰(zhàn)線

頭條要聞

特朗普稱美必須"擁有"整個格陵蘭 英法德迅速統(tǒng)一戰(zhàn)線

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
手機
親子
公開課

數(shù)碼要聞

RK推出大配列燈箱三模機械鍵盤K99,299元起

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

手機要聞

京東“游戲愛好者每周手機銷量榜”上線 華為Mate 80位列榜首

親子要聞

方媛家三姐妹溫馨畫面,一個畫畫,一個看書,一個嬰兒車?yán)锎蝽?/h3>

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版