国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 成為主流負載后,數(shù)據(jù)基礎(chǔ)設(shè)施將如何演進?|Apache Doris 2026 Roadmap

0
分享至


在過去幾年中,數(shù)據(jù)基礎(chǔ)設(shè)施的演進始終圍繞一個核心問題展開:如何更快地分析數(shù)據(jù)?

但進入 2026 年,這個問題正在被重新定義。隨著 AI 應(yīng)用的爆發(fā)式增長,數(shù)據(jù)系統(tǒng)不再只是分析工具,而逐漸成為 智能系統(tǒng)的一部分。數(shù)據(jù)不再只是被查詢,而是被 Agent 調(diào)用、被模型理解、被系統(tǒng)實時消費。

在這樣的背景下,Apache Doris 社區(qū)提出了 2026 年的年度主題:

Scale Intelligence, Accelerate Insight

如果說過去 Doris 關(guān)注的是更快的數(shù)據(jù)分析,那么在 2026 年,我們要回答的問題是:

當(dāng)AI成為主流負載之后,數(shù)據(jù)庫應(yīng)該演進成什么樣子?

01

2025:變化的起點

回看 2025 年,Apache Doris 的演進路徑其實已經(jīng)顯露出這一變化的方向。

過去一年,社區(qū)發(fā)布了兩個重要版本——3.1 與 4.0,分別在數(shù)據(jù)分析能力與檢索能力上實現(xiàn)了關(guān)鍵突破。

在 3.1 版本中,進一步夯實了 Doris 在半結(jié)構(gòu)化數(shù)據(jù)分析場景與 Lakehouse 上的基礎(chǔ)能力,并在大量生產(chǎn)環(huán)境中得到穩(wěn)定應(yīng)用。

  • 在半結(jié)構(gòu)化數(shù)據(jù)分析上,圍繞面向 JSON 的 ,持續(xù)完善功能并優(yōu)化性能,同時提升倒排索引與全文檢索在空間利用率與可擴展性上的表現(xiàn),并引入更靈活的 tokenizer 插件機制;

  • 在 Lakehouse 方向,增強了對 Iceberg、Paimon 等外部數(shù)據(jù)源的支持能力,物化視圖與查詢優(yōu)化能力持續(xù)提升,同時優(yōu)化了數(shù)據(jù)寫入與更新性能。

在 3.1 版本中,大量的精力被投入到一個看似比較局部的能力上——JSON,在當(dāng)時主要是為日志、事件等半結(jié)構(gòu)化數(shù)據(jù)服務(wù)。但進入AI時代,這類結(jié)構(gòu)不穩(wěn)定、模式不固定的數(shù)據(jù),正在成為主流數(shù)據(jù)形態(tài)

到了 4.0,這種變化進一步加速。

相較于 3.1,4.0 的核心演進可以概括為“”的建立。越來越多的業(yè)務(wù)負載從結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù),延伸至非結(jié)構(gòu)化數(shù)據(jù)分析場景。從數(shù)據(jù)庫視角來看,這一變化本質(zhì)上對語義檢索能力提出了更高要求。

以典型應(yīng)用為例,企業(yè)需要對音頻、視頻、圖像等非結(jié)構(gòu)化數(shù)據(jù)進行 embedding,將其轉(zhuǎn)化為向量形式存儲,并在此基礎(chǔ)上實現(xiàn)語義檢索。

基于這一趨勢,Doris 在 4.0 版本中正式引入了 ,從而實現(xiàn)在同一引擎內(nèi)對結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及向量數(shù)據(jù)的統(tǒng)一檢索。

而這,也讓 Doris 的定位發(fā)生本質(zhì)的轉(zhuǎn)變:從一個分析型數(shù)據(jù)庫,走向一個能夠在AI時代同時承載分析與檢索的統(tǒng)一數(shù)據(jù)平臺。

02

AI 帶來哪些機遇與挑戰(zhàn)?

進入 2026 年,AI 正在從應(yīng)用層快速滲透至數(shù)據(jù)基礎(chǔ)設(shè)施層。

首先,數(shù)據(jù)形態(tài)發(fā)生顯著變化。以 Agent 交互、模型輸出與用戶行為記錄為代表的數(shù)據(jù),大量以 JSON 形式存在,且在規(guī)模與結(jié)構(gòu)上高度不確定。這使問題不再只是能否支持 JSON,而是:

在 schema 持續(xù)變化、列數(shù)不斷膨脹的情況下,如何仍然保持高效的存儲與分析能力?

由此延伸出的,是AI可觀測性(AI Observability)問題。圍繞 Agent 行為日志展開分析,正在重塑傳統(tǒng)以 trace、logs、metrics 為核心的分析方式,成為理解系統(tǒng)運行機制與識別行為模式的重要手段。

與此同時,AI數(shù)據(jù)還帶來了更高并發(fā)與更強實時性的要求。單個 Agent 請求往往會觸發(fā)大量底層訪問,從而顯著提高系統(tǒng)對并發(fā)處理能力與響應(yīng)時效的要求。未來的使用模式,將更強調(diào)快速反饋,而非長時間等待復(fù)雜推理過程完成。

此外,統(tǒng)一平臺的重要性進一步提升。企業(yè)更傾向于在同一數(shù)據(jù)基礎(chǔ)上,同時支持分析、檢索等多樣化需求,從而降低系統(tǒng)復(fù)雜度并保證數(shù)據(jù)一致性。

03

2026 年:從場景看演進

圍繞這些變化,Doris 在 2026 年的演進可以從四類關(guān)鍵場景來理解。

半結(jié)構(gòu)化數(shù)據(jù)分析 & AI 可觀測性

AI 應(yīng)用帶來的一個直接變化,是 JSON 等半結(jié)構(gòu)化數(shù)據(jù)的快速增長。問題的關(guān)鍵在于如何在深層嵌套結(jié)構(gòu)、列數(shù)持續(xù)擴展的情況下,仍然保持可接受的存儲成本與查詢性能。與此同時,隨著 Agent、LLM tracing 等新型應(yīng)用快速發(fā)展,圍繞 JSON 日志的分析也正逐步成為 AI 可觀測性的重要組成部分。

  • 在技術(shù)路徑上,持續(xù)增強 Variant Type,在兼顧靈活性的同時兼具列式存儲性能;構(gòu)建統(tǒng)一的可觀測性數(shù)據(jù)底座,將 trace、logs、metrics 等統(tǒng)一納入 Doris,并與 OpenTelemetry 等生態(tài)深度集成。

  • 在具體實現(xiàn)上,支持深層嵌套 JSON 結(jié)構(gòu),持續(xù)優(yōu)化稀疏列與字符串列的高效存儲機制,以提升存儲效率與查詢性能。

在此基礎(chǔ)上,繼續(xù)完善列式能力支持,如部分列更新、索引能力及超寬表處理,進一步強化 Variant 類型在 JSON 與半結(jié)構(gòu)化數(shù)據(jù)分析場景中的整體支撐能力。

在此背景下,AI可觀測性也逐漸成為這一場景的重要延伸。此前,社區(qū)已通過相關(guān)實踐展示了,并從中識別包括安全風(fēng)險在內(nèi)的多種行為模式,這正是 AI 可觀測性的典型應(yīng)用場景之一。

混合檢索與分析(HSAP)

在 AI 場景中,檢索范式正在從單一模式走向融合。在混合檢索出現(xiàn)之前,用戶通常需要額外引入向量數(shù)據(jù)庫或 Elasticsearch 等檢索系統(tǒng),以滿足語義檢索與全文檢索需求。然而,這種割裂式架構(gòu)存在明顯局限:僅依賴向量檢索時,精確匹配能力不足;僅依賴文本檢索時,又難以覆蓋語義相關(guān)但不包含關(guān)鍵詞的內(nèi)容。

基于這一背景,Doris 在 4.0 版本中引入了混合檢索能力,使用戶能夠通過單一 SQL 同時完成全文檢索、語義打分與向量檢索,從而兼顧關(guān)鍵詞精確匹配與語義召回能力。

在 2026 年,混合檢索與分析及相關(guān)能力將進一步增強:

  • 持續(xù)增強語義檢索與 Vector Search,引入基于磁盤的 ANN 算法與數(shù)據(jù)結(jié)構(gòu),以支持百億級向量的高效存儲與檢索。

  • 進一步融合向量能力與存儲計算體系,包括在 Merge-on-Write 上構(gòu)建可更新索引、優(yōu)化索引優(yōu)先訪問路徑,以及提升向量數(shù)據(jù)壓縮與管理效率。

  • 持續(xù)增強全局索引與延遲物化能力以優(yōu)化以 TopN 為主的語義檢索查詢,在減少數(shù)據(jù)訪問量的同時顯著提升性能。

  • 探索開放湖格式上的向量能力建設(shè)使用戶在無需遷移數(shù)據(jù)的前提下,即可在 Iceberg、Paimon 等數(shù)據(jù)湖之上實現(xiàn)高效的向量檢索與分析,進一步打通湖倉一體化生態(tài)。

多模態(tài)場景 & AI SQL

作為以 SQL 為核心的數(shù)據(jù)庫系統(tǒng),Doris 最初面向結(jié)構(gòu)化數(shù)據(jù)設(shè)計,但隨著 AI 應(yīng)用發(fā)展,多模態(tài)需求快速增長,推動其在該方向持續(xù)演進。

Doris 在這一方向的核心目標,是降低數(shù)據(jù)處理門檻并統(tǒng)一處理流程:

  • AISQL 與 PythonUDF結(jié)合,形成覆蓋數(shù)據(jù)預(yù)處理、特征提取、向量構(gòu)建與分析的一體化能力體系,支撐更加完整的多模態(tài)數(shù)據(jù)處理鏈路。

  • 引入 File 數(shù)據(jù)類型,該數(shù)據(jù)類型在不同執(zhí)行環(huán)境下可具備不同語義。如在 SQL 中用于訪問文件元數(shù)據(jù),在 AI SQL 或 Python UDF 中則可直接處理文件內(nèi)容,從而支持 embedding 與內(nèi)容分析。

通過上述能力的逐步完善,Doris 的目標是在多模態(tài)場景下,依托統(tǒng)一的數(shù)據(jù)平臺,為用戶提供從數(shù)據(jù)接入、處理到分析的端到端能力支持。

面向 Agent 的分析能力

當(dāng)數(shù)據(jù)庫的主要調(diào)用方從人轉(zhuǎn)向 Agent,交互方式也隨之改變。僅依賴 Text-to-SQL 難以支撐復(fù)雜場景,因為 Agent 在缺乏語義信息時難以穩(wěn)定生成正確查詢。

因此,Doris 在 2026 年將重點建設(shè):

  • 加強語義層建設(shè),包括數(shù)據(jù)標簽體系與元數(shù)據(jù)開放 API,以支持構(gòu)建更靈活、可控的語義層,并提升 Agent 交互質(zhì)量。

  • 持續(xù)推進 Data Agent 集成,使數(shù)據(jù)庫具備面向 Agent 的原生服務(wù)能力,從而支持更自然的交互與更準確的結(jié)果返回。

  • 完善元數(shù)據(jù)API,強化對外部 Catalog 的集成能力,以對接統(tǒng)一的數(shù)據(jù)管理、權(quán)限與語義體系,為 Agent 提供一致、可靠的數(shù)據(jù)理解基礎(chǔ)。

04

2026 年:從能力看演進

上述場景的落地,最終依賴于底層能力的持續(xù)演進。

查詢引擎:能力、性能與穩(wěn)定性提升

在 2026 年,查詢引擎的演進將圍繞三個核心目標展開。

  • 能力完善。提供更豐富且兼容性更強的 SQL 語法與函數(shù)支持,包括 ASOF Join、Recursive CTE、UNNEST 等能力;持續(xù)推進語法簡化與兼容性增強,降低 Lakehouse 場景下的遷移成本;MERGE INTO 能力增強,支持在單條 SQL 或事務(wù)中完成更完整的 CDC 流程。

  • 性能優(yōu)化。強化 Condition Cache,緩存 Block 級過濾結(jié)果以降低運行時計算開銷;重構(gòu) ZoneMap(智能索引)表達式,提升數(shù)據(jù)過濾效率;提升復(fù)雜列場景(JSON)列裁剪能力,支撐高并發(fā)場景下穩(wěn)定性能表現(xiàn)。

  • 大規(guī)模任務(wù)的執(zhí)行能力與穩(wěn)定性提升,即“Run Big, Run Stable”。優(yōu)化 Spill-to-Disk 與 Global Buffer Mgmt 內(nèi)存管理能力,系統(tǒng)在資源受限情況下仍能穩(wěn)定執(zhí)行大規(guī)模任務(wù)。

同時,持續(xù)完善查詢可觀測性,使用戶在調(diào)度平臺與交互式查詢場景中直觀地理解執(zhí)行狀態(tài)。

存儲引擎:規(guī)模、緩存與彈性優(yōu)化

在存儲層面,圍繞規(guī)模(Scale)、緩存(Cache)與彈性(Elasticity)三個核心方向展開。

  • 在規(guī)模方面,重點解決超寬表場景與大規(guī)模 Tablet 帶來的元數(shù)據(jù)與管理問題,比如 JSON 經(jīng) Variant 子列抽取后,列數(shù)可能擴展至數(shù)千甚至上萬列,類似問題在 Parquet 等列式系統(tǒng)中同樣存在。

  • 在緩存方面,持續(xù)優(yōu)化 Smart Caching 加強跨計算組緩存預(yù)熱、細粒度緩存策略及分布式共享緩存能力;緩存策略也將支持基于時間范圍、表級或分區(qū)級定義緩存策略,或?qū)μ囟狳c分區(qū)進行定向預(yù)熱。

  • 在彈性方面,結(jié)合云基礎(chǔ)設(shè)施優(yōu)化動態(tài)伸縮能力,提升擴縮容效率、優(yōu)化多計算組讀寫分離,以及通過元數(shù)據(jù)持久化與本地緩存機制加快節(jié)點啟動過程,降低切換帶來的性能影響。

總體而言,存儲層的演進一方面面向更大規(guī)模與更復(fù)雜數(shù)據(jù)結(jié)構(gòu),另一方面致力于在存算分離架構(gòu)下提供更加穩(wěn)定、高效的實時服務(wù)能力。

開放數(shù)據(jù)湖:讀寫能力與統(tǒng)一治理

在開放數(shù)據(jù)湖方向,隨著 Lakehouse 架構(gòu)逐步成為主流,Iceberg、Paimon 等開放湖格式持續(xù)演進。2026 年,Doris 將圍繞讀(Read)、寫(Write)與治理(Govern)三個核心維度展開能力建設(shè)。

  • 查詢能力:在不遷移數(shù)據(jù)的前提下,讓湖表查詢性能盡可能接近內(nèi)表。優(yōu)化在 Iceberg、Paimon 等湖表的實時查詢能力,增強 Parquet Page Cache 與本地 File Block Cache,并將 Condition Cache 擴展至湖表場景,同時通過 Distributed Planning 優(yōu)化超大規(guī)模湖表的元數(shù)據(jù)規(guī)劃與解析。

  • 湖表管理能力:支持 Iceberg 與 Paimon 的完整生命周期管理,包括 DDL 與 DML(Update、Delete、Merge Into)。同時持續(xù)跟進生態(tài)演進,如 Iceberg V3 行級血緣與 Paimon 索引能力。

  • 生態(tài)接入能力:一方面,深化與 Flink 的集成,推進 Streaming Lakehouse;另一方面,擴展 Arrow Flight 能力,并引入基于 Arrow Flight 的 Catalog,降低多數(shù)據(jù)源接入成本,拓展數(shù)據(jù)訪問邊界。

  • 統(tǒng)一治理能力:加強與各類 Catalog 服務(wù)的深度集成,包括支持第三方認證接入、兼容 Iceberg 與 Paimon 的 REST Catalog 標準,以及完善自身元數(shù)據(jù) Open API 能力。使 Doris 能無縫融入現(xiàn)有數(shù)據(jù)治理體系。

06

結(jié)束語

數(shù)據(jù)形態(tài)正在從結(jié)構(gòu)化走向 JSON、向量與多模態(tài),數(shù)據(jù)使用方式也從面向人擴展到面向 Agent 。數(shù)據(jù)庫面對的,不再是單一分析負載,而是分析、檢索與 AI Agent 并存的復(fù)合負載。

Apache Doris 在 2026 年的規(guī)劃,核心不再只是提升分析性能,而是響應(yīng)AI時代數(shù)據(jù)基礎(chǔ)設(shè)施的根本變化。

Scale Intelligence, Accelerate Insight,不僅是年度主題,也定義了 Doris 在AI時代的演進方向。

如果你對這些方向感興趣,或者正在做相關(guān)探索,歡迎了解和參與 Apache Doris 社區(qū):

  • 想看看最新能力 可以體驗最新版本

  • 想了解實現(xiàn)細節(jié) 可以閱讀官方文檔

  • 有實踐經(jīng)驗或問題 歡迎一起交流討論

  • 也歡迎一起參與開源貢獻,讓這些能力真正落地

GitHub: https://github.com/apache/doris

官方網(wǎng)站:https://doris.apache.org

PREVIOUS RECOMMENDATIONS

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
打起來了,以軍不宣而戰(zhàn),美深夜開火,無人機墜毀后又有兩國反水

打起來了,以軍不宣而戰(zhàn),美深夜開火,無人機墜毀后又有兩國反水

快看張同學(xué)
2026-04-20 09:41:17
李澤楷被她迷得瘋狂,林丹為她不顧孕妻,她有什么魅力?

李澤楷被她迷得瘋狂,林丹為她不顧孕妻,她有什么魅力?

觀察鑒娛
2026-04-05 21:26:05
含永久化學(xué)品?特步、探路者、駱駝、海瀾之家、石下、太平鳥中招

含永久化學(xué)品?特步、探路者、駱駝、海瀾之家、石下、太平鳥中招

劉曠
2026-04-20 09:06:11
劉雨鑫吃了6000家餐廳、走遍幾十個國家,他的錢其實就3個來源

劉雨鑫吃了6000家餐廳、走遍幾十個國家,他的錢其實就3個來源

老吳教育課堂
2026-04-14 07:44:56
這6種食物不能“二次加熱”,吃不完就倒掉,別為節(jié)省,害了自己

這6種食物不能“二次加熱”,吃不完就倒掉,別為節(jié)省,害了自己

所食所想
2026-04-01 10:30:32
直播翻車!哈蘭德賽后采訪爆粗口,知名體育平臺緊急道歉

直播翻車!哈蘭德賽后采訪爆粗口,知名體育平臺緊急道歉

夜白侃球
2026-04-20 09:49:08
長白山驚現(xiàn)“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

長白山驚現(xiàn)“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

抽象派大師
2026-04-20 01:30:41
太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

橙星文娛
2026-04-17 13:19:56
鄭麗文之后,洪秀柱也抵達北京,曾喊:兩岸必須統(tǒng)一,也必然統(tǒng)一

鄭麗文之后,洪秀柱也抵達北京,曾喊:兩岸必須統(tǒng)一,也必然統(tǒng)一

閱微札記
2026-04-19 16:40:39
上海那三萬日本僑民要睡不著了,不是因為戰(zhàn)爭,而是因為日本政府

上海那三萬日本僑民要睡不著了,不是因為戰(zhàn)爭,而是因為日本政府

余塩搞笑段子
2026-04-20 00:00:00
特朗普一小時內(nèi)發(fā)布了近五十篇帖子,伊朗快把特朗普逼瘋了!

特朗普一小時內(nèi)發(fā)布了近五十篇帖子,伊朗快把特朗普逼瘋了!

達文西看世界
2026-04-20 10:57:45
亞歷山大一數(shù)據(jù)逆天,太陽35分慘敗雷霆,庫里提前輸球太明智了

亞歷山大一數(shù)據(jù)逆天,太陽35分慘敗雷霆,庫里提前輸球太明智了

姜大叔侃球
2026-04-20 10:15:08
伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

荷蘭豆愛健康
2026-04-19 21:53:37
5月1日醫(yī)療新政來了!全國公立醫(yī)院改革,以后看病不用再擠破頭

5月1日醫(yī)療新政來了!全國公立醫(yī)院改革,以后看病不用再擠破頭

復(fù)轉(zhuǎn)這些年
2026-04-16 12:26:39
塞爾比回應(yīng)被奧沙利文取綽號:我們彼此尊重,被談?wù)撜f明你做對了

塞爾比回應(yīng)被奧沙利文取綽號:我們彼此尊重,被談?wù)撜f明你做對了

世界體壇觀察家
2026-04-20 06:27:05
文章面館開業(yè)4天后,終于有藝人到場!網(wǎng)友:這對比太心酸了

文章面館開業(yè)4天后,終于有藝人到場!網(wǎng)友:這對比太心酸了

娛小余
2026-04-19 23:21:33
36萬億美債還不起,特朗普決定“弄死”大債主,為此不惜自曝家丑

36萬億美債還不起,特朗普決定“弄死”大債主,為此不惜自曝家丑

介知
2026-04-19 20:10:28
香港一工地近百人追討欠薪,結(jié)果網(wǎng)友們卻樂了

香港一工地近百人追討欠薪,結(jié)果網(wǎng)友們卻樂了

映射生活的身影
2026-04-19 09:55:59
小學(xué)生拒絕“借”車 遭9人圍毆、死亡威脅、搜家 警方:8人未滿14歲不處罰

小學(xué)生拒絕“借”車 遭9人圍毆、死亡威脅、搜家 警方:8人未滿14歲不處罰

閃電新聞
2026-04-20 09:33:05
發(fā)布一個多月,閃充電池就落后了?比亞迪迫不及待,給自己一刀?

發(fā)布一個多月,閃充電池就落后了?比亞迪迫不及待,給自己一刀?

小李車評李建紅
2026-04-20 08:00:03
2026-04-20 11:32:49
開源中國 incentive-icons
開源中國
每天為開發(fā)者推送最新技術(shù)資訊
7699文章數(shù) 34535關(guān)注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

章子怡!增重20斤素顏拍新片

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

手機
教育
家居
公開課
軍事航空

手機要聞

上市還沒半年!三星三折疊屏手機面臨退市 友商跟華為差距太遠

教育要聞

給孩子最深的滋養(yǎng):一半愛護,一半需要

家居要聞

法式線條 時光靜淌

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關(guān)懷版