国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

開放表格:大數(shù)據已死,亦將永存

0
分享至

去年底的2024 AWS re:Invent大會,新任CEO Matt Garman發(fā)布了一眾與AI相關的新服務。在這些新服務中,新的Amazon S3 Tables服務看似不起眼,卻對于未來數(shù)據存儲有著深遠影響。

在當時的發(fā)布現(xiàn)場,筆者與多位技術專家進行交流,均認為Amazon S3 Tables的發(fā)布是以Apache Iceberg為代表的開放表格發(fā)展歷程的重要時刻,不僅僅標志著AI時代下基于對象存的開放表格在湖倉一體的霸主地位,更意味著對象存儲作為主存儲的時代正加速到來。

那么,開放表格目前市場情況如何?三大開放表格彼此之間的競爭情況如何?為什么開放表格格式是對象存儲的理想選擇?開放表格的流行為什么會像當初Hadoop的崛起一樣,在未來的AI世界中占據數(shù)據分析的霸主地位?

近日,數(shù)據庫和數(shù)據湖技術專家Brenna Buuck對此進行了深度分析。對此,大數(shù)據在線進行編譯與解讀。

開放表格:湖倉一體的關鍵組件

現(xiàn)代化的湖倉一體架構建立在三個關鍵組件之上:存儲層、開放表格式式和計算引擎。

這其中,開放表格格式(Open Table Formats)和對象存儲(Object Storage)正在重新定義構建數(shù)據系統(tǒng)的方式,成為可擴展、高效且面向未來的現(xiàn)代化湖倉一體架構的基石。

現(xiàn)代化湖倉一體架構采用模塊化設計,且充分利用對象存儲的可擴展性、靈活性和成本效益等優(yōu)勢,以及開放表格的高級元數(shù)據管理功能和跨不同計算引擎的互操作性,幫助企業(yè)與組織滿足現(xiàn)代工作負載的需求。

在存儲層,現(xiàn)代化湖倉一體架構通常采用對象存儲作,以方便存儲結構化、半結構化和非結構化數(shù)據。而開放表格則充當元數(shù)據抽象層,提供類似數(shù)據庫的功能,包括 Schema、分區(qū)和版本控制,以及 ACID 事務、Schema 演變和時間旅行等高級功能。最后,Spark、Presto、Trino 和 Dremio 等計算引擎與開放表格式交互,以大規(guī)模處理和分析數(shù)據,使用戶能夠靈活地選擇最適合其工作負載的工具。

現(xiàn)代化湖倉一體架構的核心設計思路是算和存儲的分解,充分利用對象存儲、開放表格和各種計算引擎進行交互,既滿足大規(guī)模處理和分析數(shù)據的需求,又具備足夠的靈活性和擴展性,不會受制于供應商。

在AI應用蓬勃發(fā)展和高級分析需求日漸增多的大趨勢下,打造現(xiàn)代的湖倉一體架構依然成為企業(yè)與組織在數(shù)字化轉型中的必選項。

數(shù)據架構的演變

企業(yè)的數(shù)據架構最早要追溯到在線事務處理 (OTLP) 數(shù)據庫等早期系統(tǒng)。由于OLTP數(shù)據并不具備分析功能,所以在線分析處理 (OLAP) 系統(tǒng)隨后開始出現(xiàn),針對查詢結構化數(shù)據進行優(yōu)化,但無法有效處理半結構化和非結構化數(shù)據。

隨著互聯(lián)網、移動互聯(lián)網的快速發(fā)展,半結構化、非結構化數(shù)據成為數(shù)據增長的主力軍,如何在數(shù)據分析中納入半結構化、非結構化數(shù)據就成為很多企業(yè)與組織的必須,這推動了數(shù)據湖的出現(xiàn),數(shù)據湖為各種數(shù)據類型提供可擴展的存儲和 Schema-on-Read 功能,但數(shù)據湖也缺乏事務保證。

最終,數(shù)據湖與數(shù)據倉庫開始走向融合,推動了湖倉一體的數(shù)據架構發(fā)展,將數(shù)據湖和數(shù)據倉庫的優(yōu)勢集中到統(tǒng)一架構之中。Lakehouse 基于開放表格式和對象存儲構建,并且完全解耦,這意味著它們由模塊化組件構成。這種分解式架構既提供了數(shù)據庫的事務一致性,又提供了對象存儲的可擴展性。

如果想詳細了解數(shù)據倉庫、數(shù)據湖、湖倉一體的區(qū)別與特點,可以參考大數(shù)據在線之前發(fā)布的技術稿件《》,技術專家張友東詳細解讀了數(shù)據倉庫、數(shù)據湖和湖倉一體的演進過程。

為什么開放表格是對象存儲的理想選擇

湖倉一體的數(shù)據架構架構經過專門設計,旨在利用對象存儲系統(tǒng)的可擴展性和成本效益,例如 Amazon Web Services (AWS) S3、Google Cloud Storage 和 Azure Blob Storage。這種集成支持在一個統(tǒng)一的平臺中無縫管理各種數(shù)據類型(結構化、半結構化和非結構化)。

對象存儲上的數(shù)據湖倉一體架構的主要功能包括:

01

統(tǒng)一存儲層:通過利用對象存儲,數(shù)據湖倉一體可以以其原生格式存儲大量數(shù)據,無需在存儲前進行復雜的數(shù)據轉換。這種方法簡化了數(shù)據攝取,并實現(xiàn)了與各種數(shù)據源的兼容性。

02

可擴展性:對象存儲系統(tǒng)本質上具有可擴展性,使數(shù)據湖倉一體能夠容納不斷增長的數(shù)據量,而無需對基礎設施進行重大更改。這種可擴展性使組織能夠有效地管理不斷擴大的數(shù)據集和不斷變化的分析要求。

03

靈活性:一流的對象存儲可以部署在任何地方 - 本地、私有云、公共云、主機托管設施、數(shù)據中心和邊緣。這種靈活性使組織能夠根據特定的運營和地理需求定制其數(shù)據基礎設施。

通過集成這些元素,數(shù)據湖倉一體架構提供了一個全面的解決方案,結合了數(shù)據湖和數(shù)據倉庫的優(yōu)勢。這種設計有助于高效的數(shù)據存儲、管理和分析,所有這些都建立在可擴展且靈活的對象存儲系統(tǒng)的基礎上。

開放表格格式的定義

開放表格格式(Open Table Formats)是一種標準化的開源框架,旨在高效管理大規(guī)模分析數(shù)據集。它作為數(shù)據文件之上的元數(shù)據層運行,促進跨各種處理引擎的無縫數(shù)據管理和訪問。在目前的市場中,主要有以下三種開放表格式(Iceberg、Delta Lake 和 Hudi):

Apache Iceberg

Apache Iceberg 是一種高性能表格格式,專為海量數(shù)據集而設計。其架構優(yōu)先考慮高效的讀取操作和可擴展性,使其成為現(xiàn)代分析工作負載的基石。其定義功能之一是將元數(shù)據與數(shù)據分離,從而允許基于快照的高效隔離和規(guī)劃。這種設計消除了成本高昂的元數(shù)據操作,支持跨大型數(shù)據集的并行查詢規(guī)劃。

Iceberg 生態(tài)系統(tǒng)的最新進展凸顯了它在整個行業(yè)的日益普及。S3 表使查詢引擎能夠直接訪問存儲在 S3 兼容系統(tǒng)中的表元數(shù)據和數(shù)據文件,從而減少延遲并提高互操作性,從而簡化數(shù)據管理。與此同時,Databricks 對 Tabular 的收購凸顯了 Iceberg 在開放式湖倉一體平臺中的首要作用,并強調了其對性能和治理的關注。

此外,Snowflake 將 Polaris 開源的決定表明了該行業(yè)對開放性和互操作性的承諾,進一步鞏固了 Iceberg 作為領先表格格式的地位。

目前Apache Iceberg的主要支持者包括Snowflake、Databricks、Cloudera、Google Cloud、AWS、阿里云、微軟等。

Delta Lake

Delta Lake 最初由 Databricks 開發(fā),與 Apache Spark 密切相關。它與 Spark API 完全兼容,并與 Spark 的結構化流式處理集成,允許批處理和流式處理操作。

Delta Lake 的一個關鍵功能是它使用事務日志來記錄對數(shù)據所做的所有更改,從而確保一致的視圖和寫入隔離。此設計支持并發(fā)數(shù)據操作,使其適用于高吞吐量環(huán)境。

目前Delta Lake主要支持者包括Databricks、微軟、SAP等。

Apache Hudi

Apache Hudi 旨在應對實時數(shù)據攝取和分析的挑戰(zhàn),尤其是在需要頻繁更新的環(huán)境中。其架構支持用于高效數(shù)據攝取的寫入優(yōu)化存儲 (WOS) 和用于查詢的讀取優(yōu)化存儲 (ROS),從而實現(xiàn)數(shù)據集的最新視圖。

通過逐步處理數(shù)據流中的更改,Hudi 促進了大規(guī)模實時分析。篩選條件和全局索引等功能可優(yōu)化 I/O 操作,從而提高查詢和寫入性能。此外,Hudi 還包括用于集群、壓縮和清理的工具,這些工具有助于維護表的組織和性能。它處理記錄級更新和刪除的能力使其成為高速數(shù)據流和需要合規(guī)性和嚴格數(shù)據管理的場景的實用選擇。

目前Apache Hudi主要支持者包括:騰訊云、阿里云、華為云等。

三大開放表格的不同

Apache Iceberg、Delta Lake 和 Apache Hudi 都為數(shù)據湖倉一體架構帶來了獨特的優(yōu)勢。以下是基于主要特征的這些格式的比較概述:

  • ACID 事務:所有三種格式都符合 ACID 要求,確保可靠的數(shù)據操作。Iceberg 采用快照隔離來實現(xiàn)事務完整性,Delta Lake 利用事務日志實現(xiàn)一致的視圖和寫入隔離,Hudi 為高并發(fā)場景提供文件級并發(fā)控制。

  • 架構演變:每種格式都支持架構更改,允許添加、刪除或修改列。Iceberg 提供靈活的架構演變,而無需重寫現(xiàn)有數(shù)據,Delta Lake 在運行時強制執(zhí)行架構以保持數(shù)據質量,而 Hudi 提供預提交轉換以提高靈活性。

  • 分區(qū)演變:Iceberg 支持分區(qū)演變,無需重寫現(xiàn)有數(shù)據即可無縫更新分區(qū)方案。Delta Lake 允許分區(qū)更改,但可能需要手動干預才能獲得最佳性能,而 Hudi 提供精細集群作為傳統(tǒng)分區(qū)的替代方案。

  • 時間旅行:這三種格式都提供時間旅行功能,允許用戶查詢歷史數(shù)據狀態(tài)。此功能對于審計和調試目的非常有用。

  • 廣泛采用:Iceberg 是數(shù)據社區(qū)最廣泛采用的開放表格式。從 Databricks 到 Snowflake 再到 AWS,許多大型平臺都投資了 Iceberg。如果您已經是這些生態(tài)系統(tǒng)的一部分或正在考慮加入它們,那么 Iceberg 可能會自然而然地脫穎而出。

  • 索引:Hudi 提供多模式索引功能,包括 Bloom 過濾器和記錄級索引,可以提高查詢性能。Delta Lake 和 Iceberg 依賴于元數(shù)據優(yōu)化,但不提供相同級別的索引靈活性。

  • 并發(fā)和流式處理:Hudi 專為實時分析而設計,具有高級并發(fā)控制和內置工具(如 DeltaStreamer)用于增量攝取。Delta Lake 支持通過更改數(shù)據源進行流式處理,而 Iceberg 提供基本的增量讀取功能。

這些區(qū)別突出表明,雖然這三種格式都為現(xiàn)代數(shù)據架構提供了強大的基礎,但最佳選擇取決于特定的工作負載要求和組織需求。

性能預期

在數(shù)據湖倉一體架構中實現(xiàn)最佳性能對于充分利用開放表格式的功能至關重要。這種性能取決于存儲層和計算層的效率。

存儲層必須提供低延遲和高吞吐量,以滿足大規(guī)模分析需求。對象存儲解決方案應有助于快速訪問數(shù)據并支持高速傳輸,即使在高工作負載下也能確保平穩(wěn)運行。此外,高效的IOPS對于處理大量并發(fā)數(shù)據請求至關重要,可實現(xiàn)無瓶頸的響應式數(shù)據交互。

計算層性能同樣重要,它直接影響數(shù)據處理和查詢執(zhí)行速度。計算引擎必須可擴展,才能在不影響性能的情況下管理不斷增長的數(shù)據量和用戶查詢。采用優(yōu)化的查詢執(zhí)行計劃和資源管理策略可以進一步提高處理效率。此外,計算引擎需要與開放表格式無縫集成,以充分利用 ACID 事務、架構演變和時間旅行等高級功能。

開放式表格式還包含旨在提高性能的功能。這些也需要正確配置并用于完全優(yōu)化的堆棧。其中一項功能是高效的元數(shù)據處理,其中元數(shù)據與數(shù)據分開管理,從而可以更快地進行查詢規(guī)劃和執(zhí)行。數(shù)據分區(qū)將數(shù)據組織成子集,通過減少操作期間掃描的數(shù)據量來提高查詢性能。對架構演變的支持使表格式能夠適應數(shù)據結構的變化,而無需進行大量的數(shù)據重寫,從而確保靈活性,同時最大限度地減少處理開銷。

通過關注存儲和計算層的這些性能方面,組織可以確保其數(shù)據湖倉一體環(huán)境高效、可擴展,并且能夠滿足現(xiàn)代分析和 AI 工作負載的需求。這些考慮因素使開放式表格格式能夠充分發(fā)揮其潛力,提供實時洞察和決策所需的高性能。

開放數(shù)據湖倉一體和互操作性

數(shù)據湖倉一體架構基于開放表格式構建,可提供統(tǒng)一的數(shù)據管理方法。但是,實現(xiàn)真正的開放性需要的不僅僅是采用開放的表格格式。開放數(shù)據湖倉一體必須集成模塊化、可互操作的開源組件,例如存儲引擎、目錄和計算引擎,以實現(xiàn)跨不同平臺的無縫運行。

開放表格式是開放標準,并且根據其設計,支持整個堆棧的互操作性和開放性。然而,實際挑戰(zhàn)仍然存在,例如確保目錄互操作性和避免依賴專有服務進行表管理。最近推出的 Apache XTable 等工具展示了通用兼容性的進展,為一次編寫、隨處查詢的系統(tǒng)提供了一條途徑。需要注意的是,XTable 不允許你以多種開放的表格格式寫入,只允許讀取。希望未來互操作性的創(chuàng)新將繼續(xù)建立在這些項目和其他圍繞開放表格格式的項目之上。

開放表格的未來

隨著數(shù)據湖倉一體的不斷發(fā)展,一些新的趨勢開始顯現(xiàn)。

一個重要的發(fā)展趨勢就是將 AI 和機器學習 (ML) 工作負載直接集成到湖倉一體架構中。對于存儲層,這可能看起來像是與 Hugging Face 和 OpenAI 等關鍵 AI 平臺直接集成的平臺。對于計算層,AI 集成可能會導致創(chuàng)建針對 ML 算法優(yōu)化的專用計算引擎,從而提高湖倉一體生態(tài)系統(tǒng)中訓練和推理過程的效率。

另一個重要的發(fā)展領域回是開源社區(qū)。當 Databricks、Snowflake 和 AWS 等大型公司開始大展拳腳時,人們很容易忘記開放表格格式是真正的開放標準。Iceberg、Hudi 和 Delta Lake 可供任何貢獻者、協(xié)作或集成到開源工具和平臺中。換句話說,它們是充滿活力且不斷發(fā)展的開放標準數(shù)據生態(tài)系統(tǒng)的一部分,開源應用程序、附加組件、目錄和創(chuàng)新等會持續(xù)激增。

最后,隨著企業(yè)與組織為 AI 和其他高級分析應用構建大規(guī)模、高性能的數(shù)據湖倉一體,開放表格式的采用率將繼續(xù)上升。一些行業(yè)專業(yè)人士已經將開放表的流行等同于十多年前Hadoop 的崛起,開放表格未來有望實現(xiàn)大數(shù)據的霸主地位。隨著Hadoop逐漸走向沒落,開放表格的崛起,正所謂是大數(shù)據已死、亦將永存。

大數(shù)據在線是聚焦人工智能、大數(shù)據、云計算等前沿科技領域深度觀察的深度媒體。目前,大數(shù)據在線在微信公眾號、今日頭條號、新浪財經、36氪、雪球號、觀察號等主流自媒體平臺均有入駐,積累粉絲超過20W;并榮獲今日頭條十大科技新銳媒體、商業(yè)新知十大人工智能媒體等多項殊榮。商務聯(lián)系請?zhí)砑游⑿牛篛wen_Inter,添加請備注具體信息。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

比利
2026-03-21 13:00:22
她帶弟弟進入娛樂圈,沒想到如今自己無人問津,弟弟卻紅透半邊天

她帶弟弟進入娛樂圈,沒想到如今自己無人問津,弟弟卻紅透半邊天

看盡落塵花q
2026-03-05 19:53:18
西部3-6名之爭:湖人鎖第3,掘金占第4,火狼大戰(zhàn),杜蘭特兩難

西部3-6名之爭:湖人鎖第3,掘金占第4,火狼大戰(zhàn),杜蘭特兩難

鐵甲西奇
2026-03-30 10:40:55
速效救心丸、硝酸甘油、阿司匹林,關鍵時刻用哪個?答案跟你想的不一樣

速效救心丸、硝酸甘油、阿司匹林,關鍵時刻用哪個?答案跟你想的不一樣

人民日報健康客戶端
2026-03-27 21:12:30
火爆沖突3人吃T!掘金逆轉勇士6連勝 約基奇25+15+8波神里程碑

火爆沖突3人吃T!掘金逆轉勇士6連勝 約基奇25+15+8波神里程碑

醉臥浮生
2026-03-30 12:38:53
決不輕饒!軍工反腐揪出大老虎,不是技不如人,而是“蛀蟲”太多

決不輕饒!軍工反腐揪出大老虎,不是技不如人,而是“蛀蟲”太多

無悔的燦爛人生
2026-03-28 20:46:25
從上海到成都6小時直達!5000億超級工程,把長江經濟帶焊成一體

從上海到成都6小時直達!5000億超級工程,把長江經濟帶焊成一體

小鹿姐姐情感說
2026-03-31 03:09:41
奧運會為什么要用掉那么多避孕套?頂尖運動員旺盛精力更需要滿足

奧運會為什么要用掉那么多避孕套?頂尖運動員旺盛精力更需要滿足

我心縱橫天地間
2026-02-24 08:45:28
豐田終于被當作真電車!鉑智7預售破萬,用戶對比最多的是Model 3

豐田終于被當作真電車!鉑智7預售破萬,用戶對比最多的是Model 3

言車有徐
2026-03-29 21:20:33
武元甲說,如果當年中國不撤軍,再打五天,河內肯定丟

武元甲說,如果當年中國不撤軍,再打五天,河內肯定丟

百年歷史老號
2026-03-31 00:36:46
張凌赫那個高中暗戀的女孩被扒出來了!暗戀信也曝光了!

張凌赫那個高中暗戀的女孩被扒出來了!暗戀信也曝光了!

喜歡歷史的阿繁
2026-03-30 18:05:49
李梓萌,私生活傳聞太荒唐

李梓萌,私生活傳聞太荒唐

做一個合格的吃瓜群眾
2026-03-21 19:20:55
陳奕迅現(xiàn)身單依純演唱會,全程黑臉還睡著,網友:替李榮浩監(jiān)場?

陳奕迅現(xiàn)身單依純演唱會,全程黑臉還睡著,網友:替李榮浩監(jiān)場?

潮鹿逐夢
2026-03-30 12:50:49
連續(xù)6場被棄用,不打球也能拿600萬!球迷:你小子真滋潤啊

連續(xù)6場被棄用,不打球也能拿600萬!球迷:你小子真滋潤啊

弄月公子
2026-03-30 23:05:01
19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創(chuàng)傷

19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創(chuàng)傷

丫頭舫
2025-09-22 20:39:00
白人女性與黑人女性的體味差異,網友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異,網友真實分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
不是張本美和、申裕斌!孫穎莎王曼昱最大對手曝光,侯英超說是她

不是張本美和、申裕斌!孫穎莎王曼昱最大對手曝光,侯英超說是她

曹說體育
2026-03-30 11:49:41
危險信號!特朗普,徹底被架空了!

危險信號!特朗普,徹底被架空了!

大嘴說天下
2026-03-30 18:13:30
事發(fā)上海高架!男子突然情緒失控,沖向前車司機…行為太瘋狂!

事發(fā)上海高架!男子突然情緒失控,沖向前車司機…行為太瘋狂!

環(huán)球網資訊
2026-03-30 21:19:52
全紅嬋聊到體重哭了,每天只吃一頓飯,看到體重秤就特別害怕

全紅嬋聊到體重哭了,每天只吃一頓飯,看到體重秤就特別害怕

素素娛樂
2026-03-30 11:08:05
2026-03-31 05:31:00
dobigdata incentive-icons
dobigdata
科技推動商業(yè)
770文章數(shù) 304關注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

特朗普:對伊朗襲擊以煉油廠的回應“很快到來”

頭條要聞

特朗普:對伊朗襲擊以煉油廠的回應“很快到來”

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態(tài)度原創(chuàng)

手機
健康
親子
游戲
軍事航空

手機要聞

4999元起!超能小V單vivo X300s發(fā)布:全焦段蔡司影像、支持口紅增距鏡

干細胞抗衰4大誤區(qū),90%的人都中招

親子要聞

杰森抱著吉他給我們唱了幾首,有個愛好生活挺豐富,聽聽唱的咋樣

《紅色沙漠》Steam熱更新上線 修復光線重建問題

軍事要聞

第三艘航母出動數(shù)千名士兵抵達 美軍大舉增兵中東戰(zhàn)場

無障礙瀏覽 進入關懷版