国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從 SQL 到自然語言,下一代 Lakehouse 為何必須「AI 優(yōu)先」

0
分享至


作者 | 陳鵬,鏡舟科技技術(shù)副總裁

過去三十年,OLAP 引擎的發(fā)展核心始終圍繞結(jié)構(gòu)化數(shù)據(jù)的處理與分析,當(dāng)然也取得了顯著的進(jìn)步,比如分布式架構(gòu)、存算分離及 cloud native、查詢性能大幅提升等。然而,隨著大模型(LLM)技術(shù)的爆發(fā),數(shù)據(jù)分析的范式正在發(fā)生根本性重構(gòu)。行業(yè)預(yù)測顯示,未來五年內(nèi),非結(jié)構(gòu)化數(shù)據(jù)(文本、圖像、音視頻等)在企業(yè)數(shù)據(jù)資產(chǎn)中的占比將達(dá)到 80%。未來的數(shù)據(jù)形態(tài)將趨于多模態(tài),分析需求將更加復(fù)雜,查詢方式也將從單一的 SQL 轉(zhuǎn)向自然語言與多模態(tài)混合檢索。因此,我們需要在現(xiàn)代大數(shù)據(jù)分析平臺(tái)基礎(chǔ)上,全面擁抱 AI,構(gòu)建下一代 AI-First Lakehouse。

1 基礎(chǔ)設(shè)施演進(jìn):異構(gòu)融合的存儲(chǔ)與計(jì)算層

1. 存儲(chǔ)層統(tǒng)一:管理多模態(tài)數(shù)據(jù)

目前大數(shù)據(jù)體系與 AI 體系存在嚴(yán)重的物理與邏輯割裂。

大數(shù)據(jù)團(tuán)隊(duì)習(xí)慣維護(hù)基于 Hive、OLAP、Lakehouse 等大數(shù)據(jù)平臺(tái)來處理分析結(jié)構(gòu)化數(shù)據(jù),也誕生出業(yè)界主流的存儲(chǔ)格式如 Parquet、ORC 等,能很好的支持結(jié)構(gòu)化數(shù)據(jù)分析需求。而 AI 團(tuán)隊(duì)習(xí)慣在單機(jī)服務(wù)器或配備獨(dú)立顯卡的個(gè)人電腦(Laptop)上開發(fā)調(diào)試,數(shù)據(jù)以本地文件形式散落。

這種割裂導(dǎo)致數(shù)據(jù)無法統(tǒng)一存儲(chǔ),治理困難,且跨系統(tǒng)調(diào)用的性能極低,需先查數(shù)據(jù)庫再調(diào) AI 模型。但大數(shù)據(jù)時(shí)代的存儲(chǔ)格式如 Parquet 的 Row Group 設(shè)計(jì)專為結(jié)構(gòu)化數(shù)據(jù)優(yōu)化,不再適配 AI 場景,AI 場景非結(jié)構(gòu)化數(shù)據(jù)異構(gòu)特性明顯,同一批數(shù)據(jù)里,部分字段內(nèi)容小,部分 embedding 后的字段會(huì)很大。

為此,可以考慮引入如 Lance 等專為 AI 設(shè)計(jì)的存儲(chǔ)引擎,支持對(duì)文本、圖像、視頻等多模態(tài)數(shù)據(jù)的高效索引與存取。以實(shí)現(xiàn)統(tǒng)一管理分散在各處的非結(jié)構(gòu)化數(shù)據(jù),使得 Lakehouse 不僅是數(shù)據(jù)存儲(chǔ)庫,更是 AI 資產(chǎn)的統(tǒng)一底座。


2. CPU/GPU 異構(gòu)計(jì)算統(tǒng)一調(diào)度

傳統(tǒng) OLAP 依賴 CPU 進(jìn)行聚合、排序與過濾,而 AI 負(fù)載(如 Embedding 生成、非結(jié)構(gòu)化數(shù)據(jù)解析、模型推理)高度依賴 GPU 資源。

計(jì)算引擎需從單一的 CPU 架構(gòu)向 CPU/GPU 異構(gòu)架構(gòu)演進(jìn)。系統(tǒng)應(yīng)具備智能調(diào)度能力,根據(jù)任務(wù)類型自動(dòng)分配計(jì)算資源,實(shí)現(xiàn)結(jié)構(gòu)化查詢與非結(jié)構(gòu)化推理的混合執(zhí)行。

典型場景:直播電商實(shí)時(shí)分析

單場直播會(huì)上架數(shù)十至上百個(gè)商品,每個(gè)商品展示時(shí)長僅 1-2 分鐘。系統(tǒng)需同時(shí)處理兩類數(shù)據(jù):

  • 結(jié)構(gòu)化計(jì)算(CPU):五維四率數(shù)據(jù)(曝光進(jìn)房率、商品曝光率、商品點(diǎn)擊率、成交轉(zhuǎn)化率)等實(shí)時(shí)指標(biāo);

  • 非結(jié)構(gòu)化計(jì)算(GPU):主播語音講解分析、主播商品展示視頻分析、助播互動(dòng)表現(xiàn)、用戶彈幕評(píng)論分析

業(yè)務(wù)方需要將“點(diǎn)擊率”與“主播當(dāng)時(shí)說了什么 / 做了什么”進(jìn)行關(guān)聯(lián)分析,以判斷推薦是否精準(zhǔn),以及多種因素對(duì)成單的影響。這要求計(jì)算引擎具備異構(gòu)資源管理能力,能夠靈活調(diào)度 CPU 處理統(tǒng)計(jì)指標(biāo),調(diào)度 GPU 處理特征提取與推理,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的實(shí)時(shí)融合計(jì)算。

2 內(nèi)核能力構(gòu)建:AI 原生的查詢與 In-Database 推理

1. 原生向量檢索,從外掛到內(nèi)核的能力下沉

簡單的語義檢索已無法滿足高精度的業(yè)務(wù)需求,且外掛式的向量庫方案會(huì)導(dǎo)致數(shù)據(jù)冗余與延遲,向量能力已經(jīng)是多模態(tài)處理的必備項(xiàng)(Must-have)。同時(shí)引擎內(nèi)核需要原生支持混合檢索,并具備混合召回能力,結(jié)合關(guān)鍵詞匹配(通過倒排索引實(shí)現(xiàn))與語義檢索(通過向量檢索實(shí)現(xiàn)),通過粗排與精排的組合策略,滿足如“搜合同關(guān)鍵條款”、“電商以圖搜圖”、“在線教育以圖搜題”等高精度業(yè)務(wù)需求。

更進(jìn)一步,隨著越來越多不同類型、不同領(lǐng)域、不同維度的數(shù)據(jù)攝入 Lakehouse,內(nèi)嵌知識(shí)圖譜搜索能力也變得越來越重要,以便高效快捷的挖掘數(shù)據(jù)之間的關(guān)系。

2. In-Database AI ,寫入即處理,查詢即分析

(1)寫入時(shí)處理

傳統(tǒng)架構(gòu)中,非結(jié)構(gòu)化數(shù)據(jù)的 ETL 依賴外部腳本或獨(dú)立工具鏈,維護(hù)成本高且容易形成數(shù)據(jù)孤島。下一代系統(tǒng)應(yīng)將 AI 能力內(nèi)置于寫入路徑,系統(tǒng)自動(dòng)調(diào)用內(nèi)核級(jí)的解析(Parse)、分塊(Chunking)、向量化(Embedding),實(shí)現(xiàn)從原始非結(jié)構(gòu)化文件到可查詢數(shù)據(jù)資產(chǎn)的自動(dòng)化轉(zhuǎn)換,無需人工深度介入即可完成打標(biāo)與關(guān)聯(lián)。

(2)查詢時(shí)推理

將 LLM 能力內(nèi)嵌至數(shù)據(jù)庫內(nèi)核,實(shí)現(xiàn)“查詢即分析”。用戶無需將數(shù)據(jù)導(dǎo)出至外部模型處理,而是直接在 SQL 中調(diào)用 AI 函數(shù)。

還是以直播評(píng)論分析為例,系統(tǒng)應(yīng)能直接通過 SQL 調(diào)用內(nèi)置 AI 能力,對(duì)海量彈幕進(jìn)行情感分析,如:

  • 自動(dòng)過濾“扣 1”、“扣 2”等無意義評(píng)論;

  • 識(shí)別具有購買意向的負(fù)面 / 正面反饋,甚至觸發(fā)內(nèi)置 Chatbot 進(jìn)行自動(dòng)回復(fù)。

相比調(diào)用外部 API,內(nèi)置推理可利用本地?cái)?shù)據(jù)過濾機(jī)制,僅對(duì)篩選后的高價(jià)值數(shù)據(jù)進(jìn)行推理,大幅降低延遲與成本,并提升吞吐量。


將 AI 能力貫穿寫入和查詢?nèi)鞒?,讓?shù)據(jù)處理成為數(shù)據(jù)庫的內(nèi)置本能。這種架構(gòu)下,數(shù)據(jù)從接入到分析的每個(gè)環(huán)節(jié)都被 AI 增強(qiáng),消解了傳統(tǒng)“先存儲(chǔ)、后處理”模式的滯后性,使數(shù)據(jù)在落盤時(shí)即具備智能檢索和分析能力。

3 面向 Agent 架構(gòu)適配:從確定性查詢到探索式執(zhí)行

隨著 AI Agent 應(yīng)用的普及,數(shù)據(jù)交互模式將從“確定性查詢”轉(zhuǎn)向“探索式執(zhí)行”。Agent 具有多輪推理、自我修正及高并發(fā)的特點(diǎn),這對(duì)底層系統(tǒng)提出了新要求:

1. 極致彈性與高并發(fā)

Agent 通過多輪推理、自我修正來完成任務(wù),且存在 Multi-Agent 場景,這將導(dǎo)致會(huì)產(chǎn)生海量、突發(fā)性的查詢請(qǐng)求。系統(tǒng)需要具備毫秒級(jí)的彈性伸縮能力,支持多路 Agent 并發(fā)協(xié)作,來實(shí)現(xiàn)計(jì)算資源的即用即取與成本隔離。

2. 高效智能元數(shù)據(jù)管理

Agent 會(huì)頻繁探索數(shù)據(jù)的 Schema 信息以理解數(shù)據(jù)結(jié)構(gòu),系統(tǒng)需提供高性能元數(shù)據(jù)管理服務(wù),快速響應(yīng) Schema 查詢。同時(shí)在查詢元數(shù)據(jù)時(shí)除了常規(guī)的庫表結(jié)構(gòu)信息外,還應(yīng)包含豐富的語義數(shù)據(jù)。

另外,不同于精確的 SQL,Agent 生成的查詢往往很模糊。執(zhí)行引擎需要支持描述性約束信息(例如,Agent 指令包含“精度要求>80%”或“查詢超時(shí)<2 秒”),可以根據(jù)約束動(dòng)態(tài)調(diào)整策略,允許在精度與資源消耗之間做權(quán)衡,而非僵硬地執(zhí)行全量掃描。

4 平臺(tái)自治:AI 反哺系統(tǒng)的自我進(jìn)化

在基礎(chǔ)層、內(nèi)核層、以及架構(gòu)層升級(jí)后,還可以思考進(jìn)一步利用 AI 技術(shù)反哺 Lakehouse 自身的魯棒性與性能。

  • 學(xué)習(xí)最佳實(shí)踐: 系統(tǒng)應(yīng)自動(dòng)學(xué)習(xí)內(nèi)部海量日志中的 Best Practice,將其內(nèi)化為引擎的管理能力。

  • 智能故障排查: 利用 AI 自動(dòng)定位數(shù)據(jù)庫運(yùn)行中的隱性問題,替代人工排查。

智能物化視圖(Auto-MV)加速洞察

目前的物化視圖依賴業(yè)務(wù)方手動(dòng)創(chuàng)建,門檻較高。未來系統(tǒng)將結(jié)合慢查詢分析與數(shù)據(jù)量特征,自動(dòng)識(shí)別性能瓶頸,同時(shí),學(xué)習(xí)用戶的查詢行為,自動(dòng)創(chuàng)建并維護(hù)物化視圖,從底層透明地加速查詢響應(yīng),無需用戶感知。

流暢開發(fā):避免復(fù)雜的 UDF 依賴

對(duì)于復(fù)雜的業(yè)務(wù)邏輯與非結(jié)構(gòu)化數(shù)據(jù)處理,不應(yīng)強(qiáng)行依賴傳統(tǒng)的 UDF,而應(yīng)通過上述的內(nèi)核級(jí) AI 能力與開放接口來解決,提供更流暢的開發(fā)體驗(yàn)。

5 結(jié)語

下一代 AI-first Lakehouse 的構(gòu)建是一個(gè)系統(tǒng)性工程,需要從數(shù)據(jù)處理、存儲(chǔ)引擎、計(jì)算架構(gòu)、Agent 支持以及平臺(tái)生態(tài)進(jìn)行全方位升級(jí)。核心目標(biāo)是打破結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的壁壘,將 AI 能力從應(yīng)用層下沉至內(nèi)核層,構(gòu)建真正面向 AI 時(shí)代的新一代數(shù)據(jù)平臺(tái)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
瓦良格號(hào)曾讓中國為之震撼的程度有多深?當(dāng)時(shí)在場的專家給出評(píng)價(jià):蘇聯(lián)采用的鋼材品質(zhì)極佳

瓦良格號(hào)曾讓中國為之震撼的程度有多深?當(dāng)時(shí)在場的專家給出評(píng)價(jià):蘇聯(lián)采用的鋼材品質(zhì)極佳

老杉說歷史
2025-12-31 20:55:11
我國古代4大曠世文章,一生必背的4篇千古奇文,誰能夠排在第一?

我國古代4大曠世文章,一生必背的4篇千古奇文,誰能夠排在第一?

掠影后有感
2025-11-18 11:14:38
遭聯(lián)合國怒批后馬斯克終于服軟?星鏈數(shù)千顆衛(wèi)星緊急“搬家”,太空霸權(quán)還能橫行多久?

遭聯(lián)合國怒批后馬斯克終于服軟?星鏈數(shù)千顆衛(wèi)星緊急“搬家”,太空霸權(quán)還能橫行多久?

Thurman在昆明
2026-01-10 00:05:17
《小城大事》主演爆雷!校園霸凌致女生精神分裂,網(wǎng)友要求回應(yīng)

《小城大事》主演爆雷!校園霸凌致女生精神分裂,網(wǎng)友要求回應(yīng)

萌神木木
2026-01-10 15:21:24
馬克龍終于成了拿破侖,“八國聯(lián)軍”正式成立,軍隊(duì)總部設(shè)在巴黎

馬克龍終于成了拿破侖,“八國聯(lián)軍”正式成立,軍隊(duì)總部設(shè)在巴黎

達(dá)文西看世界
2026-01-07 12:25:11
“讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發(fā)生關(guān)系

“讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發(fā)生關(guān)系

有書
2026-01-09 21:30:59
一天內(nèi),杭州兩位38歲寶爸帶娃時(shí)倒下!醫(yī)生:這些都是導(dǎo)火索

一天內(nèi),杭州兩位38歲寶爸帶娃時(shí)倒下!醫(yī)生:這些都是導(dǎo)火索

杭州之聲
2026-01-10 18:19:51
古天樂再創(chuàng)奇跡《尋秦記》破紀(jì)錄,《九龍城寨》前傳劍指20億?

古天樂再創(chuàng)奇跡《尋秦記》破紀(jì)錄,《九龍城寨》前傳劍指20億?

草莓解說體育
2026-01-11 07:36:55
案例:河北女子確診癌癥,無意看見垃圾桶內(nèi)紙團(tuán),將女兒7刀捅殺

案例:河北女子確診癌癥,無意看見垃圾桶內(nèi)紙團(tuán),將女兒7刀捅殺

蘭姐說故事
2025-01-08 05:05:02
切爾西5-1大捷,羅總首秀神似穆帥,南美雙驕代表全隊(duì)獻(xiàn)大禮

切爾西5-1大捷,羅總首秀神似穆帥,南美雙驕代表全隊(duì)獻(xiàn)大禮

凡人說體育
2026-01-11 06:56:51
炸裂!切爾西新帥激活 3700 萬水貨,庫庫雷利亞主力位置告急

炸裂!切爾西新帥激活 3700 萬水貨,庫庫雷利亞主力位置告急

瀾歸序
2026-01-11 06:21:24
連續(xù)4年?duì)幇?!皇馬大戰(zhàn)巴薩:沖擊2026首冠 奪冠再獎(jiǎng)200萬

連續(xù)4年?duì)幇?!皇馬大戰(zhàn)巴薩:沖擊2026首冠 奪冠再獎(jiǎng)200萬

葉青足球世界
2026-01-10 14:44:27
籃板第1+蓋帽第1!中國男籃17歲2米13新星崛起:新韓德君轟33+16

籃板第1+蓋帽第1!中國男籃17歲2米13新星崛起:新韓德君轟33+16

李喜林籃球絕殺
2026-01-10 11:55:51
中國斯諾克戰(zhàn)報(bào)!6人直通正賽,4將3-4惜敗,龍澤煌3-2奪賽點(diǎn)!

中國斯諾克戰(zhàn)報(bào)!6人直通正賽,4將3-4惜敗,龍澤煌3-2奪賽點(diǎn)!

劉姚堯的文字城堡
2026-01-11 05:51:06
未來的優(yōu)秀3D!開拓者側(cè)翼新星簡直是在攻防兩端都完爆了火箭?

未來的優(yōu)秀3D!開拓者側(cè)翼新星簡直是在攻防兩端都完爆了火箭?

稻谷與小麥
2026-01-11 01:59:11
中美貿(mào)易戰(zhàn)掀桌子了,1月10日,凌晨的四大消息正式發(fā)酵!

中美貿(mào)易戰(zhàn)掀桌子了,1月10日,凌晨的四大消息正式發(fā)酵!

叮當(dāng)當(dāng)科技
2026-01-10 06:03:51
以忠誠擔(dān)當(dāng)繪就“平安畫卷”

以忠誠擔(dān)當(dāng)繪就“平安畫卷”

人民網(wǎng)
2026-01-10 08:23:06
騎士5人得分20+!復(fù)仇終結(jié)森林狼4連勝 米切爾28分華子25分

騎士5人得分20+!復(fù)仇終結(jié)森林狼4連勝 米切爾28分華子25分

羅說NBA
2026-01-11 05:38:06
辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

觸摸史跡
2026-01-08 17:30:40
26年春晚首次彩排,16位大咖亮相,看到他們出現(xiàn),今年是真穩(wěn)了

26年春晚首次彩排,16位大咖亮相,看到他們出現(xiàn),今年是真穩(wěn)了

洲洲影視娛評(píng)
2026-01-10 20:05:52
2026-01-11 08:11:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11923文章數(shù) 51693關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開年最頂格的AI對(duì)話

頭條要聞

宜家確定關(guān)閉全國7家商場清倉 大批上海人涌入"撿漏"

頭條要聞

宜家確定關(guān)閉全國7家商場清倉 大批上海人涌入"撿漏"

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺(tái) 中國仍是第一大市場

態(tài)度原創(chuàng)

房產(chǎn)
健康
數(shù)碼
親子
公開課

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

熊貓主題圈粉老外,長虹AI家電亮相CES,東方元素成頂流

親子要聞

寶寶第一次吃米糊,寶寶:有這好東西不早點(diǎn)拿出來!網(wǎng)友:眼里全是對(duì)食物的渴望

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版