国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

演講實(shí)錄 | 楊傳輝:AI 時(shí)代,OceanBase 帶來了哪些產(chǎn)品革新?

0
分享至

編者按

11 月 18 日,2025 OceanBase 年度發(fā)布會(huì)在北京舉行?,F(xiàn)場發(fā)布并開源了 OceanBase 首款 AI 原生混合搜索數(shù)據(jù)庫 seekdb(簡稱 seekdb )。作為 OceanBase “Data x AI”戰(zhàn)略的關(guān)鍵一環(huán),OceanBase 4.4 一體化融合版本也正式發(fā)布。

在之后的分享中,OceanBase CTO 楊傳輝以“OceanBase:打造 AI 時(shí)代的一體化數(shù)據(jù)庫”為題,介紹了 OceanBase 在 AI 時(shí)代的產(chǎn)品革新和演進(jìn)。他表示,在 AI 時(shí)代,一體化架構(gòu)所承載的核心技術(shù)能力,只會(huì)愈發(fā)重要。在他看來,向量搜索是 AI 數(shù)據(jù)庫的初級(jí)階段,而最終,所有向量搜索都會(huì)逐步演進(jìn)為混合搜索 —— 能否支持混合搜索,正是衡量 AI 數(shù)據(jù)庫核心實(shí)力的關(guān)鍵分水嶺。

以下為演講實(shí)錄:



各位來賓、數(shù)據(jù)庫領(lǐng)域的新老朋友,大家上午好。剛剛我們正式發(fā)布并開源了 OceanBase 首款 AI 原生混合搜索數(shù)據(jù)庫 seekdb,也提到了混合搜索這一核心方向。今天我的分享,同樣圍繞 AI 展開,主題是 “打造 AI 時(shí)代的一體化數(shù)據(jù)庫”。

相信不少嘉賓在展區(qū)已經(jīng)感受到,這次發(fā)布會(huì)和以往有明顯不同 —— 我們帶來了大量 AI 相關(guān)的新產(chǎn)品。所以今天的分享,我不會(huì)聚焦 TP 或分析 AP,核心想和大家聊聊我們對(duì) AI 時(shí)代、混合搜索與 seekdb 的思考,以及近期的開發(fā)進(jìn)展。



AI時(shí)代一體化數(shù)據(jù)庫的變與不變

首先,我們不妨回顧一下數(shù)據(jù)庫技術(shù)范式的演進(jìn)。數(shù)據(jù)庫技術(shù)奠基人之一 E.F.Codd 于 1970 年提出關(guān)系模型,當(dāng)時(shí)這一模型主要面向交易場景;1993 年,他又提出了面向分析的 OLAP。而最近幾年,業(yè)界涌現(xiàn)的所有新數(shù)據(jù)庫產(chǎn)品,本質(zhì)上都是面向 AI 的 —— 既包括大家熟悉的各類向量數(shù)據(jù)庫,也涵蓋 Supabase等 熱門產(chǎn)品。不難發(fā)現(xiàn),整個(gè)數(shù)據(jù)庫領(lǐng)域的技術(shù)范式,正從原本的支撐應(yīng)用服務(wù),逐步延伸到智能服務(wù)的全新階段。

我們注意到,Oracle、MongoDB 等業(yè)界主流數(shù)據(jù)庫,也正紛紛在自身引擎中新增搜索能力,以此適配 AI 原生場景的需求。在 AI 領(lǐng)域有個(gè)常見概念叫 AI Ready,而我們認(rèn)為,AI Ready 必然會(huì)向 AI Native 逐步演進(jìn)。所謂 AI Native,絕非僅做好數(shù)據(jù)準(zhǔn)備那么簡單,核心是將模型能力深度集成到數(shù)據(jù)庫中,最終實(shí)現(xiàn)數(shù)據(jù)與模型在數(shù)據(jù)庫內(nèi)的原生融合。近期行業(yè)內(nèi)的多起收購事件也印證了這一趨勢 ——MongoDB 收購 Voyage AI、Elastic 收購 Jina AI,核心訴求都是推動(dòng)數(shù)據(jù)與模型的融合,我們高度認(rèn)同這一行業(yè)趨勢。

AI 時(shí)代的到來,既給數(shù)據(jù)庫領(lǐng)域帶來了巨大挑戰(zhàn),更孕育著前所未有的發(fā)展機(jī)遇。

首先,AI 時(shí)代的數(shù)據(jù)庫,數(shù)據(jù)處理量會(huì)持續(xù)激增,用戶與租戶規(guī)模也將迎來量級(jí)式增長。與此同時(shí),AI 還會(huì)給數(shù)據(jù)庫帶來全新的工作負(fù)載 —— 我們將其定義為“面向 Agent 的多路混合搜索”。

在 AI 時(shí)代,數(shù)據(jù)庫的處理范疇不再局限于結(jié)構(gòu)化數(shù)據(jù)與少量半結(jié)構(gòu)化數(shù)據(jù),還需要承載更多半結(jié)構(gòu)化乃至無結(jié)構(gòu)化數(shù)據(jù)。這意味著,除了傳統(tǒng)關(guān)系模型,數(shù)據(jù)庫還需支持 JSON 處理半結(jié)構(gòu)化數(shù)據(jù),并為無結(jié)構(gòu)化數(shù)據(jù)構(gòu)建各類語義索引,比如大家熟知的向量索引、圖索引、全文索引等。在此基礎(chǔ)上,我們更需要一套能覆蓋結(jié)構(gòu)化、半結(jié)構(gòu)化、無結(jié)構(gòu)化數(shù)據(jù)的混合搜索能力。

AI 還帶來了顯著的技術(shù)平權(quán)效應(yīng)。過去,數(shù)據(jù)庫主要由專業(yè)人士通過開發(fā)應(yīng)用程序來使用,而在今天的 AI 時(shí)代,即便沒有計(jì)算機(jī)相關(guān)背景,普通人也能借助大模型輕松開發(fā)自己的 Agent。這也意味著,未來數(shù)據(jù)庫的用戶量與租戶數(shù)量,必將實(shí)現(xiàn)倍數(shù)級(jí)的爆發(fā)式增長。

聊完了 AI 時(shí)代數(shù)據(jù)庫的變化,我們更要明確數(shù)據(jù)庫的變與不變。其中一點(diǎn)我堅(jiān)信不疑:數(shù)據(jù)庫領(lǐng)域不僅不會(huì)被取代,在 AI 時(shí)代還會(huì)變得愈發(fā)重要。

無論 AI 如何迭代演進(jìn),數(shù)據(jù)庫的核心基礎(chǔ)能力始終不可或缺:我們?nèi)孕枰煽康臄?shù)據(jù)庫引擎,解決單機(jī)、分布式及多云平臺(tái)的各類問題;仍需要行存數(shù)據(jù)庫支撐交易場景,列存數(shù)據(jù)庫處理分析需求,更需要強(qiáng)大的 SQL 優(yōu)化器應(yīng)對(duì) HTAP 混合負(fù)載。同時(shí),數(shù)據(jù)庫還需提供豐富的 SQL 功能,助力大家平滑完成從 MySQL、Oracle 等系統(tǒng)的升級(jí)。



混合搜索是 AI 數(shù)據(jù)庫的關(guān)鍵分水嶺

在 AI 時(shí)代,一體化架構(gòu)所承載的核心技術(shù)能力,只會(huì)愈發(fā)重要。一提到 AI 數(shù)據(jù)庫,很多人首先想到的是向量搜索,但在我看來,向量搜索只是 AI 數(shù)據(jù)庫的初級(jí)階段。最終,所有向量搜索都會(huì)逐步演進(jìn)為混合搜索 —— 能否支持混合搜索,正是衡量 AI 數(shù)據(jù)庫核心實(shí)力的關(guān)鍵分水嶺。

大家都知道,大模型具備強(qiáng)大的計(jì)算能力,但缺乏長期記憶。這就需要數(shù)據(jù)庫為大模型提供支撐:存儲(chǔ)并管理其上下文信息,同時(shí)精準(zhǔn)輸出大模型所需的上下文。這個(gè)過程,也被稱為 “上下文工程”。要做好“上下文工程”,首先需要通過向量搜索、向量嵌入解決 “找相似” 的問題。但 “找相似” 只是上下文工程的一部分,除此之外,還可能需要通過全文搜索實(shí)現(xiàn) “找相同”,或借助知識(shí)圖譜與圖索引,挖掘全局相關(guān)的信息。

“上下文工程”往往還涉及大量元數(shù)據(jù)管理,這就需要依托關(guān)系型數(shù)據(jù)庫的能力 —— 通過關(guān)系過濾、關(guān)系查找縮小檢索范圍。每一路檢索都會(huì)產(chǎn)出部分結(jié)果,最終要將各路結(jié)果融合,并經(jīng)過全局重排序(rerank),才能為大模型輸出其真正需要的精準(zhǔn)結(jié)果。這正是混合檢索的核心邏輯。

首先,高性能且功能完備的向量搜索,是多路混合搜索的核心基礎(chǔ)。目前,OceanBase 向量搜索性能已達(dá)到業(yè)界開源向量數(shù)據(jù)庫的最優(yōu)水平—— 無論是稠密向量還是稀疏向量,在向量數(shù)據(jù)庫領(lǐng)域主流 benchmark 測試中均表現(xiàn)突出。同時(shí),我們的磁盤向量索引,在構(gòu)建時(shí)間與存儲(chǔ)占用兩方面,也實(shí)現(xiàn)了業(yè)界領(lǐng)先。

具備強(qiáng)大的向量搜索能力后,我們進(jìn)一步實(shí)現(xiàn)了向量搜索與全文搜索的深度融合,通過多路搜索顯著提升召回效果。



左側(cè)圖示清晰呈現(xiàn)了不同搜索方式的召回表現(xiàn):僅采用單一搜索路徑(無論全文搜索、稠密向量還是稀疏向量),都難以達(dá)到最優(yōu)召回效果;唯有將稀疏向量、稠密向量與全文搜索相結(jié)合,才能實(shí)現(xiàn)更優(yōu)的召回表現(xiàn),達(dá)成 1+1 大于 2 的協(xié)同效應(yīng)。

值得一提的是,OceanBase 不僅擁有上述高性能向量搜索能力,還已落地生產(chǎn)級(jí)全文搜索功能。更重要的是,這兩大能力均構(gòu)建于 OceanBase 數(shù)據(jù)庫原生架構(gòu)之上,天然繼承了分布式架構(gòu)的彈性擴(kuò)展特性與對(duì)象存儲(chǔ)的高效適配能力。

在 AI 場景中,除了要開展多路搜索,還需妥善管理 AI 場景下的元數(shù)據(jù)。要做好 AI 數(shù)據(jù)庫的元數(shù)據(jù)管理,不僅需要支持元數(shù)據(jù)的實(shí)時(shí)寫入與事務(wù)一致性,還需實(shí)現(xiàn)元數(shù)據(jù)檢索結(jié)果與多路搜索結(jié)果的 SQL 級(jí)聯(lián)動(dòng)。毫無疑問,支持 HTAP 的關(guān)系型數(shù)據(jù)庫是更優(yōu)選擇。通過將關(guān)系模型與向量、全文、JSON 能力深度融合,OceanBase 最終形成了全面的混合搜索能力。

下面我簡單分享幾個(gè) OceanBase 混合檢索的客戶實(shí)踐案例:

貨拉拉基于 OceanBase 混合檢索,搭建了一站式企業(yè) AI 數(shù)據(jù)底座。貨拉拉的 AI 應(yīng)用場景十分豐富,涵蓋知識(shí)庫、AI Coding、Agent 平臺(tái)、ChatBI 等。此前,他們曾使用多款不同產(chǎn)品,包括搜索產(chǎn)品 V search 及兩款不同的向量數(shù)據(jù)庫;升級(jí)至 OceanBase 后,實(shí)現(xiàn)了多產(chǎn)品合一,不僅解決了原有開源組件的穩(wěn)定性問題,還直接復(fù)用 OceanBase 的高可用能力,達(dá)成 RPO=0、RTO<8 秒的高標(biāo)準(zhǔn)。

聯(lián)通也是借助 OceanBase 的混合搜索能力,構(gòu)建了公司級(jí)統(tǒng)一知識(shí)庫平臺(tái),該場景此前采用 “關(guān)系數(shù)據(jù)庫 + 全文向量搜索數(shù)據(jù)庫” 的架構(gòu)。將兩者融合至 OceanBase 后,在 10 億級(jí)向量規(guī)模下,OceanBase 的處理效率達(dá)到原全文向量搜索數(shù)據(jù)庫的兩倍以上;同時(shí)通過融合關(guān)系查找與多路搜索,成功解決了知識(shí)庫的元數(shù)據(jù)管理難題,包括精細(xì)化權(quán)限管控及靈活的用戶間權(quán)限共享需求。

螞蟻百寶箱基于混合搜索實(shí)現(xiàn)了智能體在線搜索。此前他們曾使用向量數(shù)據(jù)庫、搜索產(chǎn)品及 OceanBase 本身分別管理不同數(shù)據(jù),最終全部融合至一套 OceanBase 后,不僅幫助客戶統(tǒng)一了技術(shù)棧,還將業(yè)務(wù)層的多產(chǎn)品融合搜索能力下沉至數(shù)據(jù)庫層,極大簡化了數(shù)據(jù)架構(gòu)。



AI 時(shí)代需要怎樣的數(shù)據(jù)架構(gòu)?

實(shí)現(xiàn) AI 場景下的混合搜索,主要有兩種路徑:

第一種實(shí)現(xiàn)方式是從頭開始搭建一個(gè)混合搜索的數(shù)據(jù)庫;第二種方式是直接基于關(guān)系數(shù)據(jù)庫增加混合搜索的功能。

在我看來,第二種路徑更具優(yōu)勢,核心原因有兩點(diǎn):1.關(guān)系型數(shù)據(jù)庫不管是在功能完備性、易用性還是生態(tài)成熟度上,均遠(yuǎn)超其他非關(guān)系型數(shù)據(jù)庫;2.支撐 AI 場景,除了要有混合搜索能力,底層還需一套現(xiàn)代數(shù)據(jù)架構(gòu)。

以 OceanBase 為代表的關(guān)系型數(shù)據(jù)庫,已具備成熟的現(xiàn)代數(shù)據(jù)架構(gòu) —— 這種架構(gòu)技術(shù)壁壘高,也是 AI 時(shí)代數(shù)據(jù)庫的 Foundation。

那么什么是現(xiàn)代數(shù)據(jù)架構(gòu)?我認(rèn)為核心包含三個(gè)點(diǎn):

第一個(gè)點(diǎn):現(xiàn)代數(shù)據(jù)架構(gòu)一定是非常好用的;

第二個(gè)點(diǎn):現(xiàn)代數(shù)據(jù)架構(gòu)一定是非常靈活的;

第三個(gè)點(diǎn):一定是面向未來能夠支撐 AI 的。

現(xiàn)代數(shù)據(jù)架構(gòu)的底層核心是一體化架構(gòu),用戶想要什么功能,數(shù)據(jù)庫就提供相應(yīng)的功能,無需根據(jù)功能的不同而選擇不同的存儲(chǔ)產(chǎn)品、學(xué)習(xí)不同的技術(shù)?!,F(xiàn)在的數(shù)據(jù)庫架構(gòu)非常靈活,在部署模式上,用戶可自由選擇上云、不上云或特定云平臺(tái)。

同時(shí),現(xiàn)代數(shù)據(jù)架構(gòu)也需要能夠支持按需使用。數(shù)據(jù)量小時(shí)用小規(guī)格部署,數(shù)據(jù)量增長后無縫擴(kuò)容,完美適配從初創(chuàng)到規(guī)?;娜A段需求。

更關(guān)鍵的是,現(xiàn)代數(shù)據(jù)架構(gòu)需原生支持 AI 場景。除了前文提到的混合搜索能力,原生多租戶能力也至關(guān)重要 —— 因?yàn)?AI 時(shí)代,數(shù)據(jù)庫的使用者早已不局限于 DBA 或計(jì)算機(jī)專業(yè)開發(fā)人員,每一個(gè)普通人都能通過大模型輕松構(gòu)建自己的 AI Agent。

一體化架構(gòu)的核心,我將其總結(jié)為 “三多”:多負(fù)載、多模態(tài)、混合多云。

  1. 多負(fù)載:一套數(shù)據(jù)庫引擎即可全面支持交易、分析、AI 等各類工作負(fù)載;
  2. 多模態(tài):兼容多樣化數(shù)據(jù)類型與索引 —— 既涵蓋結(jié)構(gòu)化數(shù)據(jù)的關(guān)系模型、半結(jié)構(gòu)化數(shù)據(jù)的 JSON 格式,也支持無結(jié)構(gòu)化數(shù)據(jù)的各類語義索引,比如向量、全文、圖索引等;
  3. 混合多云:賦予用戶完全的部署自由,可自主選擇上云、不上云或特定云平臺(tái)。更關(guān)鍵的是,用戶只需使用一套產(chǎn)品,就能實(shí)現(xiàn)跨所有公有云、混合云平臺(tái)的自動(dòng)升級(jí),無需額外適配。

目前,OB Cloud 已成為業(yè)界支持公有云平臺(tái)最多的云數(shù)據(jù)庫產(chǎn)品,已兼容 7 朵主流云:國內(nèi)涵蓋阿里云、華為云、騰訊云、百度云四大平臺(tái),海外覆蓋 AWS、Azure、GCP 三大平臺(tái)。我們的 OB Cloud 已落地 16 個(gè)國家和地區(qū),覆蓋超 60 個(gè)地域、240 多個(gè)可用區(qū),無論你身處全球哪個(gè)角落、哪個(gè)時(shí)區(qū),都能便捷獲取 OB Cloud 一體化云數(shù)據(jù)庫。

同時(shí),依托一體化架構(gòu),我們實(shí)現(xiàn)了多云及混合云環(huán)境下的用戶體驗(yàn)一致性,更支持跨云高可用能力。當(dāng)用戶需要跨云升級(jí)時(shí),OceanBase 可全程保障業(yè)務(wù)連續(xù)性,確保升級(jí)過程中業(yè)務(wù)不中斷。

AI 場景的工作負(fù)載具有極強(qiáng)的不確定性。AI Agent 這個(gè)生態(tài)雖然數(shù)量眾多,但多數(shù)都默默無聞,僅有少數(shù)會(huì)迎來爆發(fā)式流量,且這類流量往往具備突發(fā)特性。因此,我們必須提供支持彈性伸縮架構(gòu)的 Serverless 方案,以靈活應(yīng)對(duì)流量波動(dòng)。

此外,AI 場景需要管理海量數(shù)據(jù) —— 包含大量長上下文數(shù)據(jù),既有文本類型,也有多模態(tài)類型。這些數(shù)據(jù)中,大部分屬于冷數(shù)據(jù),僅近期高頻訪問、用戶重點(diǎn)關(guān)注的數(shù)據(jù)為熱數(shù)據(jù)?;诖耍覀兺ㄟ^支持對(duì)象存儲(chǔ)的冷熱分離方案,高效解決海量數(shù)據(jù)的存儲(chǔ)與管理難題。

螞蟻集團(tuán)也正基于 OceanBase 開展大模型預(yù)訓(xùn)練工作。為做好大模型預(yù)訓(xùn)練,螞蟻需要將海量網(wǎng)頁內(nèi)容提取至內(nèi)部,再進(jìn)行網(wǎng)頁的數(shù)據(jù)清洗與標(biāo)注。這些網(wǎng)頁數(shù)據(jù)中,大部分屬于冷數(shù)據(jù),但仍有部分網(wǎng)頁更新頻繁,因此我們通過基于對(duì)象存儲(chǔ)的冷熱分離方案,高效適配這一需求;同時(shí),數(shù)據(jù)清洗與標(biāo)注場景的流量具有明顯突發(fā)性 ,當(dāng)一批網(wǎng)頁數(shù)據(jù)集中涌入時(shí),需要?jiǎng)討B(tài)調(diào)度計(jì)算資源實(shí)現(xiàn)彈性處理,而在這一過程中,就需要用到 OceanBase 的 Serverless 方案。



數(shù)模融合,一個(gè)正在被驗(yàn)證的趨勢

我認(rèn)為,數(shù)據(jù)與模型的深度融合,必將是未來的核心趨勢。在數(shù)據(jù)庫內(nèi)直接集成模型能力,能大幅降低模型開發(fā)與使用的復(fù)雜度。

以我們的混合搜索為例:當(dāng)文檔進(jìn)入數(shù)據(jù)庫內(nèi)部后,除了進(jìn)行數(shù)據(jù)處理外,也需要對(duì)文檔做切片、解析、embedding,以及多路搜索。這一過程既用到數(shù)據(jù)處理能力,也集成了模型服務(wù)能力,包括 Parse 解析模型、embedding 模型、Rerank 模型等。

為此,OceanBase 支持了“Document in, Data out”,用戶只需將文檔寫入數(shù)據(jù)庫,通過混合搜索,就能一步獲取所需結(jié)果,真正實(shí)現(xiàn)開箱即用。相比傳統(tǒng)開發(fā)模式 —— 我們需自行尋找各類模型與組件,反復(fù)實(shí)驗(yàn)拼湊,有了“Document in, Data out”,用戶真正能開箱即用,大幅降低了 AI 應(yīng)用的開發(fā)復(fù)雜度。

當(dāng)數(shù)據(jù)庫集成了模型服務(wù)之后,OceanBase 也同時(shí)提供了 MaaS 平臺(tái)。所謂的 MaaS 就是 Model As a Service,提供了后訓(xùn)練到在線推理服務(wù)的全流程管理。MaaS 平臺(tái)支持微調(diào)等后訓(xùn)練,我們也支持對(duì)模型做量化,也支持做推理的加速、模型的評(píng)測,以及各種算力的調(diào)度、模型的管理等。如今,OceanBase 的 MaaS 平臺(tái)已經(jīng)支持了業(yè)界不同場景主流的大語言模型,包括海外和國產(chǎn) GPU。

AI 原生數(shù)據(jù)庫的設(shè)計(jì),必然要秉持開源、開放的核心理念。剛才我們已經(jīng)正式發(fā)布了 OceanBase 首款 AI 原生混合搜索數(shù)據(jù)庫 seekdb——基于 Apache2.0 協(xié)議的 AI 原生混合數(shù)據(jù)庫,主要有以下核心能力與優(yōu)勢如下:

首先,seekdb 支持多?;旌纤阉鳎瑑H需一條查詢,就能同時(shí)檢索關(guān)系、JSON、向量、全文等多種類型的數(shù)據(jù);其次,它內(nèi)置 AI Function 功能。因構(gòu)筑于 OceanBase 原生架構(gòu)之上,所以它也天然繼承了 OceanBase 原生的能力,包括 HTAP混合負(fù)載處理、MySQL 高度兼容等能力。

可能有朋友會(huì)問,seekdb 是不是 OceanBase 的輕量版?答案是,兩者并不同。它遠(yuǎn)比輕量版更輕, 輕上加輕。此前 OceanBase 輕量版最低配置為 2C 8G,而 seekdb 首個(gè)版本已支持 1C2G ,未來還會(huì)把它的內(nèi)存需求進(jìn)一步降低至 1G 甚至 500M。這意味著,seekdb 不僅能部署在臺(tái)式機(jī)、桌面端,未來更可適配各類嵌入式環(huán)境。



seekdb 是基于 Apache 2.0 協(xié)議的開源產(chǎn)品,我們希望與業(yè)界開發(fā)者共同探索,到底什么才是真正的 AI 原生數(shù)據(jù)庫。因?yàn)橛辛藰I(yè)界開發(fā)者的參與,我相信,seekdb 的迭代速度也必將大幅提升。同時(shí), OceanBase在 AI 的能力上將會(huì)跟進(jìn) seekdb 能力演進(jìn),為大規(guī)模、超大型 AI 應(yīng)用提供落地能力和支撐。歡迎大家訪問 OceanBase seekdb 的官方網(wǎng)站—— oceanbase.ai,也誠摯邀請現(xiàn)場及線上的開發(fā)者們加入OceanBase seekdb的開源社區(qū)共建開放生態(tài)。

OceanBase seekdb是一款專為開發(fā)者打造的 AI 原生數(shù)據(jù)庫,只需三行代碼,就能快速構(gòu)建應(yīng)用,實(shí)現(xiàn)關(guān)系、JSON、向量、全文的混合搜索。這里給大家舉一個(gè)簡單的例子:

第一步,創(chuàng)建一個(gè)集合;第二步,在集合中添加文檔,并且可靈活指定文檔的元數(shù)據(jù);第三步,直接使用 OceanBase 的混合搜索接口,直接獲取最終結(jié)果。

今天,我們也正式開源了 OceanBase 的 PowerRAG 產(chǎn)品。PowerRAG 被認(rèn)為是 OceanBase 基于混合搜索的最佳實(shí)踐。PowerRAG在 RAGFlow 的框架之上構(gòu)建,有兩個(gè)特點(diǎn)。第一個(gè)特點(diǎn),是基于混合搜索做的重新設(shè)計(jì);第二個(gè)特點(diǎn),該產(chǎn)品已在螞蟻集團(tuán)內(nèi)部真實(shí)業(yè)務(wù)場景中落地應(yīng)用,具備成熟的企業(yè)級(jí)能力。PowerRAG 文檔解析、處理能力,以及最終召回的效果,是具備企業(yè)級(jí)能力的,要好于業(yè)界已有的 RAG 解決方案。

同時(shí),今天我們也正式發(fā)布并且開源 PowerMem 解決方案, PowerMem 和 PowerRAG 一樣,也是基于混合搜索的一個(gè)解決方案。它兼容 Mem0 接口,幫助開發(fā)者、用戶去管理大語言模型的上下文。同時(shí),PowerMem 的性能在 LOCOMO Berchmark 里達(dá)到了業(yè)界開源 Memory 解決方案的 SOTA 水平(State of the Art),歡迎在座的朋友以及線上的開發(fā)者關(guān)注和加入 OceanBase 的 PowerRAG 以及 PowerMem 開源社區(qū)。

今天是 seekdb 是發(fā)布的第一天,我們已經(jīng)和業(yè)界產(chǎn)品進(jìn)行了生態(tài)對(duì)接。這里面既包括全球知名的產(chǎn)品 Dify、Qoder,也包括 AI 領(lǐng)域的創(chuàng)業(yè)公司。當(dāng)然,我相信這些創(chuàng)業(yè)公司在剛開始的時(shí)候就選擇 OceanBase 這樣一個(gè)能夠解決增長問題的產(chǎn)品,他們未來的增長也一定會(huì)有更多的可能。

未來,我相信所有數(shù)據(jù)類的產(chǎn)品都會(huì)用 AI 的方式重新改造一遍。ODC 是 OceanBase 面向開發(fā)者的工具,ODC 正式推出 DataPilot。對(duì)于 ODC 而言,大家都非常熟悉它的自然語言轉(zhuǎn)化為 SQL,Text2SQL 的功能。但是,如果采用業(yè)界經(jīng)典的 Text2SQL 的解決方案,會(huì)面臨一個(gè)很大的問題,那就是準(zhǔn)確率永遠(yuǎn)都沒有辦法滿足業(yè)務(wù)的需求。

Text2SQL 領(lǐng)域有個(gè)權(quán)威榜單BIRD-bench,行業(yè)內(nèi)普遍認(rèn)為,該榜單得分達(dá)到 80 分左右后,再想突破就十分困難。而 OceanBase 創(chuàng)新性地采用了 Text2Metrics 解決方案:我們先定義統(tǒng)一指標(biāo),對(duì)領(lǐng)域術(shù)語進(jìn)行標(biāo)準(zhǔn)化規(guī)范,再通過這些指標(biāo)約束大語言模型的生成范圍。通過這一方式,我們將自然語言到 SQL 的轉(zhuǎn)化準(zhǔn)確率提升至 90 分以上 —— 目前已達(dá)到 92.2%,且在特定業(yè)務(wù)場景下,準(zhǔn)確率仍有進(jìn)一步提升空間。要知道,只有達(dá)到 90 分以上乃至更高的準(zhǔn)確率,自然語言轉(zhuǎn) SQL 技術(shù)才能真正落地生產(chǎn)系統(tǒng),具備實(shí)實(shí)在在的業(yè)務(wù)價(jià)值。

我們還采用 Agentic AI 理念,對(duì)診斷監(jiān)控產(chǎn)品 OAS 進(jìn)行了全新設(shè)計(jì)。具體來說,我們采用 Agentic AI Multi-Agent 架構(gòu),它有一個(gè)主 Agent 負(fù)責(zé)核心的任務(wù)拆解與分配,再將不同細(xì)分任務(wù)精準(zhǔn)下發(fā)給對(duì)應(yīng)的專項(xiàng) Agent 執(zhí)行 —— 這個(gè)架構(gòu)相信很多在場嘉賓都非常熟悉。通過這一升級(jí),OAS 實(shí)現(xiàn)了從查指標(biāo)、找問題到對(duì)話即診斷的跨越。用戶只需通過自然對(duì)話,就能全程完成診斷流程,系統(tǒng)還會(huì)一步步呈現(xiàn)診斷過程中的詳細(xì)信息。這既方便開發(fā)者人工介入干預(yù),也讓 OAS 真正具備了在生產(chǎn)系統(tǒng)中落地應(yīng)用的實(shí)用價(jià)值。

今天我們也正式發(fā)布了OceanBase AI Stack 智能一體機(jī)。OceanBase 智能一體機(jī)最核心的組件是 OceanBase 的一體化架構(gòu),支持多?;旌纤阉鞯臄?shù)據(jù)庫。數(shù)據(jù)庫之上,我們集成了 PowerRAG、Agent 開發(fā)平臺(tái),以及 OceanBase 數(shù)據(jù)領(lǐng)域的Agent—— 包括之前提到的 ODC DataPilot、基于 Agentic AI 改造的 OAS 等。數(shù)據(jù)庫之下則搭載了 MaaS 平臺(tái),可靈活支持各類模型與算力部署。

OceanBase AI 智能一體機(jī)有兩大特點(diǎn):第一是功能全面覆蓋,從底層的算力,海外或者國產(chǎn)算力支持,到模型、數(shù)據(jù)、RAG,到 Agent 開發(fā),再到數(shù)據(jù)領(lǐng)域智能體,能完整覆蓋企業(yè)從數(shù)據(jù)底座搭建到 AI 應(yīng)用開發(fā)的全生命周期需求;第二個(gè)特點(diǎn),就是超高性價(jià)比,它定價(jià)親民,無需高昂成本,企業(yè)就能直接擁有 OceanBase 這套完善的端到端解決方案。

最后,我們還是回到 OceanBase 的內(nèi)核,我們看看這一次OceanBase 的內(nèi)核,到底帶來哪些全新的能力?

OceanBase 4.4 版本是面向混合負(fù)載的 TP/AP 融合及向量增強(qiáng) LTS 版本,它融合了 OceanBase 4.2.5 LTS 的 OLTP 能力與 OceanBase 4.3.5 LTS 的 AP 及向量能力,能夠同時(shí)兼顧核心系統(tǒng)以及多元化業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)庫的需求。



在 OLTP 的性能方面,OceanBase4.4 版本相比 4.2.5 有了進(jìn)一步的提升,有大量主鍵沖突的場景,性能提升 15% 到 42%,回表場景的性能提升 5.7% 到 9.5%,PL 性能提升會(huì)更加明顯,對(duì)于 UDF 執(zhí)行的性能是提升了 2.3 倍,循環(huán)計(jì)算的性能提供了 4 倍,動(dòng)態(tài)語句的處理性能提升了 3.6 倍,AP 的性能也提到了進(jìn)一步的提升。相比 4.3.5 LTS,它的數(shù)據(jù)導(dǎo)入性能在 ClickBench 這個(gè)場景提升 37%,實(shí)時(shí)分析性能對(duì)于 ClickBench 提升 4%,TPC-H 提升 10%,TPC-DS 提升 13.7%,向量索引的性能也是得到進(jìn)一步的提升。

向量索引總共有兩種索引方式,IVF 和 HNSW。IVF 的索引提升 15%,HNSW 的性能提升 4%-32%。同時(shí)在向量索引上,也針對(duì) ARM 架構(gòu)進(jìn)行大量的優(yōu)化,在 ARM 架構(gòu),性能有倍數(shù)的提升。

OceanBase 4.4 版本的內(nèi)核能力也做進(jìn)一步增強(qiáng)。它具備更強(qiáng)的安全能力以及 Oracle 的兼容能力。OceanBase 4.4 版本不僅支持全密態(tài)數(shù)據(jù)庫,還支持聯(lián)邦查詢和數(shù)據(jù)湖的融合,能夠幫助企業(yè),尤其是金融與政企行業(yè)企業(yè)打通數(shù)據(jù)孤島。

OceanBase 4.4 版本同時(shí)支持存算一體架構(gòu),以及公有云上的存儲(chǔ)計(jì)算分離部署模式,適配多樣化部署需求。更值得關(guān)注的是,該版本新增了一項(xiàng)核心能力 —— 實(shí)時(shí)增量物化視圖。這一功能大幅強(qiáng)化了 OceanBase 的 HTAP 實(shí)力:讓一套引擎既能穩(wěn)定支撐 OLTP 核心交易處理,又能通過動(dòng)態(tài)實(shí)時(shí)的增量物化視圖,實(shí)現(xiàn)多維度的實(shí)時(shí)分析,實(shí)現(xiàn)真正的HTAP。



結(jié)語

各位嘉賓、朋友,AI 時(shí)代的浪潮已然來臨。無論你是企業(yè)管理者,還是深耕技術(shù)的同行,大家都在思考:如何真正把 AI 用好、用深、用在業(yè)務(wù)里。在這樣的背景下,一個(gè)開放、靈活、具備多模與混合搜索能力的數(shù)據(jù)庫,正成為企業(yè)邁向 AI 的關(guān)鍵基礎(chǔ)。它能幫你高效管理企業(yè)數(shù)據(jù),更能將數(shù)據(jù)能力與 AI 能力深度融入業(yè)務(wù)流程,讓 Data 與 AI 真正落地生根,為業(yè)務(wù)創(chuàng)造實(shí)實(shí)在在的價(jià)值。

這就是我的分享,感謝大家一直以來對(duì) OceanBase 持續(xù)的支持。謝謝!

更多企業(yè)在數(shù)據(jù)庫與AI上的應(yīng)用實(shí)踐,大會(huì)中的精彩回放和資料,可通過下方鏈接,前往查看:https://www.oceanbase.com/conference2025/resources?utm_source=itpub&utm_campaign=1127

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大意了!張雪峰不同時(shí)段坐姿,證明他越來越疲憊了,可惜錯(cuò)過了

大意了!張雪峰不同時(shí)段坐姿,證明他越來越疲憊了,可惜錯(cuò)過了

魔都姐姐雜談
2026-03-26 10:53:11
俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

懂球帝
2026-03-26 16:30:07
美眾議院議長:美軍在伊朗“不會(huì)進(jìn)行地面作戰(zhàn)”

美眾議院議長:美軍在伊朗“不會(huì)進(jìn)行地面作戰(zhàn)”

新京報(bào)
2026-03-25 23:26:11
毛主席在博物館內(nèi)吸煙,陳毅提醒說:這里禁止吸煙,主席回四個(gè)字

毛主席在博物館內(nèi)吸煙,陳毅提醒說:這里禁止吸煙,主席回四個(gè)字

兵鑒史
2026-03-26 00:06:21
殲20總師被除名軍工脊梁,何以折戟名利場?

殲20總師被除名軍工脊梁,何以折戟名利場?

荷蘭豆愛健康
2026-03-25 07:50:12
撿漏成功!廣州市一棟三層別墅拍賣,被人撿漏170.6萬就競得,還要啥套間

撿漏成功!廣州市一棟三層別墅拍賣,被人撿漏170.6萬就競得,還要啥套間

阿離家居
2026-03-26 16:52:37
一代香港美人,感覺不是很開心的樣子,大家還記得她的名字嗎?

一代香港美人,感覺不是很開心的樣子,大家還記得她的名字嗎?

動(dòng)物奇奇怪怪
2026-03-26 08:35:16
費(fèi)率0.3%,社?!暗诹U(xiǎn)”來了,退休人員也要交

費(fèi)率0.3%,社?!暗诹U(xiǎn)”來了,退休人員也要交

財(cái)話連篇
2026-03-26 13:09:33
外交部發(fā)言人反問日媒:“你見過有人未經(jīng)允許持刀進(jìn)入使館與大使交談的先例嗎?”

外交部發(fā)言人反問日媒:“你見過有人未經(jīng)允許持刀進(jìn)入使館與大使交談的先例嗎?”

環(huán)球網(wǎng)資訊
2026-03-25 15:39:26
地平線員工撕開窗戶紙,小鵬智駕成了"皇帝新衣"?

地平線員工撕開窗戶紙,小鵬智駕成了"皇帝新衣"?

汽車大事記
2026-03-24 20:48:45
很多人都患過“帶狀皰疹”,卻不知它和“老年癡呆”有關(guān)!了解下

很多人都患過“帶狀皰疹”,卻不知它和“老年癡呆”有關(guān)!了解下

岐黃傳人孫大夫
2026-03-26 20:45:03
赫內(nèi)斯:不會(huì)把奧利塞賣給利物浦,賬戶里多2億歐元意義不大

赫內(nèi)斯:不會(huì)把奧利塞賣給利物浦,賬戶里多2億歐元意義不大

懂球帝
2026-03-27 01:10:09
巴拿馬后悔了,主動(dòng)找上中國,愿中方不計(jì)前嫌,兩國還是好伙伴

巴拿馬后悔了,主動(dòng)找上中國,愿中方不計(jì)前嫌,兩國還是好伙伴

比利
2026-03-26 23:13:58
馬英九疑似患失智癥,臺(tái)律師:大陸已注意到,沒讓其擔(dān)任統(tǒng)一大使

馬英九疑似患失智癥,臺(tái)律師:大陸已注意到,沒讓其擔(dān)任統(tǒng)一大使

卷史
2026-03-26 20:08:36
603444,業(yè)績大增!擬10派70元!

603444,業(yè)績大增!擬10派70元!

證券時(shí)報(bào)e公司
2026-03-26 19:32:17
巴基斯坦外長說美伊正進(jìn)行間接談判

巴基斯坦外長說美伊正進(jìn)行間接談判

新華社
2026-03-26 18:55:07
舊手機(jī)回收價(jià)狂漲五六倍!回收商:開不了機(jī)的照樣高價(jià)收

舊手機(jī)回收價(jià)狂漲五六倍!回收商:開不了機(jī)的照樣高價(jià)收

快科技
2026-03-25 14:53:24
張雪峰6年前已離婚,獨(dú)女張姩菡只能分16.5%遺產(chǎn),現(xiàn)任妻子占大頭

張雪峰6年前已離婚,獨(dú)女張姩菡只能分16.5%遺產(chǎn),現(xiàn)任妻子占大頭

楓紅染山徑
2026-03-25 16:56:22
蘋果受追捧,國產(chǎn)手機(jī)漲價(jià)基本失敗了,正在悄悄降價(jià)

蘋果受追捧,國產(chǎn)手機(jī)漲價(jià)基本失敗了,正在悄悄降價(jià)

柏銘銳談
2026-03-24 15:38:55
越南5年免簽新政策4.1開始實(shí)施

越南5年免簽新政策4.1開始實(shí)施

創(chuàng)作者_(dá)cLg1
2026-03-26 09:42:32
2026-03-27 01:28:49
ITPUB學(xué)院
ITPUB學(xué)院
分享技術(shù)干貨,了解最新動(dòng)態(tài)
1189文章數(shù) 628關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
親子
家居
教育

藝術(shù)要聞

都說烏克蘭美女多,看完攝影師貝格瑪 的作品我信了!

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

親子要聞

看看把孩子嚇得哈哈哈

家居要聞

傍海而居 靜觀蝴蝶海

教育要聞

精準(zhǔn)研判,提質(zhì)增效丨我校召開2026屆畢業(yè)生就業(yè)工作研判會(huì)

無障礙瀏覽 進(jìn)入關(guān)懷版