国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

2025 年度數(shù)據世界總結:石破天與Andy Pavlo對談錄

0
分享至

最近,圖靈獎得主、Postgres 創(chuàng)始人、MIT 與 UC Berkeley 計算機系教授 Mike Stonebraker, 以及數(shù)據庫領域大網紅、卡耐基梅隆大學數(shù)據庫系教授 Andy Pavlo 聯(lián)合主持了一期播客, 回顧了 2025 年 AI 對數(shù)據庫的影響、數(shù)據庫行業(yè)的重大事件,以及 AI 對計算機科學教育和職業(yè)發(fā)展的作用。


老馮轉錄了視頻的文字稿,翻譯并點評了一下,供大家參考。

Data 2025:年度回顧 —— Mike Stonebraker 與 Andy Pavlo 對談錄 錄制于 2025 年 12 月 10 日 對談嘉賓:Mike Stonebraker(MIT CSAIL,圖靈獎得主,PostgreSQL 創(chuàng)始人)、Andy Pavlo(卡內基梅隆大學),主持:DBOS 團隊 原文地址:Data 2025: The year in review with Mike Stonebraker 中文譯評:馮若航
開場介紹

[0:00] 主持人(DBOS): 大家好,感謝各位參加今天的活動。我們將與 Mike Stonebraker 和 Andy Pavlo 一起回顧 2025 年的技術發(fā)展。

今天的議程包括:深入探討 AI 與數(shù)據管理之間的相互影響——AI 趨勢如何改變數(shù)據管理,數(shù)據管理趨勢又如何反過來影響 AI。我們也會談到 AI 在數(shù)據庫運維自動化方面的應用。

之后,Andy Pavlo 將回顧今年行業(yè)發(fā)生的重大事件——里程碑式的進展、收購案、新公司的誕生、已經退出歷史舞臺的公司、被收購的公司,并探討這些變化將如何塑造 2026 年乃至更長遠的數(shù)據管理和軟件開發(fā)格局。

最后,我們會展開一場非常有意思的討論:AI 正如何影響計算機科學——它改變了教學方式、研究方式,以及許多人的職業(yè)發(fā)展道路。最后大約留 10 分鐘進行問答。

熟悉 DBOS 的朋友可能知道,它曾經代表 Database Operating System(數(shù)據庫操作系統(tǒng))。這家公司起源于 MIT 和斯坦福的一個研究項目,最初是因為聯(lián)合創(chuàng)始人 Matei Zaharia 請 Mike 幫忙解決 Databricks 的持久化分布式隊列問題。這個契機催生了一個研究項目:在分布式數(shù)據庫之上構建操作系統(tǒng),作為 Linux 的潛在替代方案——一個從設計上就更加云原生的系統(tǒng)。

如今,DBOS 代表 Durable Backends that are Observable and Scalable(持久、可觀測、可擴展的后端)——這個縮寫是我后來硬湊的。如果你了解 DBOS,它是一個開源的持久化工作流編排庫,能讓你的應用程序和后端具備故障恢復能力,同時提供可觀測性,并通過更簡便的隊列機制實現(xiàn)彈性擴展。正如一位 DBOS 用戶精辟總結的:DBOS 讓你想搞砸都難。這也是為什么 DBOS 在眾多新興 AI 應用公司中如此受歡迎——他們需要 AI 工作流無論遇到什么意外情況都能按預期運行。

Michael 稍后會詳細講解持久性與 Agentic AI 之間的關系。簡單說,這就是 DBOS。如果你正在構建軟件,想讓它輕松實現(xiàn)防錯和可觀測,可以了解一下 DBOS 開源庫。

你可能會好奇:我們不是數(shù)據庫公司,為什么要舉辦數(shù)據庫研發(fā)的網絡研討會?原因是:Postgres 的發(fā)明者 Mike Stonebraker 是 DBOS 的聯(lián)合創(chuàng)始人;我們也和 CMU 的 Andy Pavlo 是好朋友——他發(fā)明了"數(shù)據庫學"(databaseology)這個詞,同時也是 "So You Don't Have To" AI 的創(chuàng)始人,這是一個 AI 驅動的數(shù)據庫調優(yōu)服務,推薦大家去看看。好,閑話少說,讓我們開始今天的議程,聽聽 Andy 和 Mike 怎么說。

第一部分:AI 如何影響數(shù)據管理?

[4:03] 主持人: 第一個話題是:AI 如何影響數(shù)據管理?數(shù)據管理又如何影響 AI?Mike,你先來?

[4:10] Mike Stonebraker: 謝謝 Andy。還有另一位 Andy,你好。我得先說一下,我現(xiàn)在身體不太舒服,狀態(tài)不是 100%,所以 Andy P,你得對我手下留情。

Sam Madden 幾周前把生成式 AI 和大語言模型形容為"自切片面包以來最偉大的發(fā)明"——他沒有原話這么說,但意思差不多。我的看法要保守得多,讓我分享一下我使用大語言模型的經驗。

【譯注】"自切片面包以來最偉大的發(fā)明"(the best thing since sliced bread)是英語中一個常見的俚語,用來形容某樣東西非常了不起、革命性。這個說法源于 1928 年美國發(fā)明的預切片面包,當時被認為是家庭生活的重大便利創(chuàng)新。

我關注的是企業(yè)數(shù)據,所以一個顯而易見的問題是:能不能用大語言模型來查詢數(shù)據倉庫?業(yè)界有一些公開的基準測試——BIRD、Spider、Spider 2——報告的準確率在 60% 到 90% 之間,看起來相當不錯。但這不是我在真實數(shù)據倉庫上的體驗。

我們試了 MIT 數(shù)據倉庫的一個子集,里面有學生、課程、教職員工、專業(yè)等各種信息。我們找了真實用戶——事實上,我所在的 MIT CSAIL 實驗室就是這個數(shù)據倉庫的真實用戶。我們收集了真實用戶的查詢,搞清楚對應的標準 SQL 是什么,于是我們有了一批"自然語言-標準 SQL"的配對數(shù)據。

我們用各種 LLM 在 MIT 數(shù)據倉庫上測試,準確率是。不是說很低——是零。什么都查不出來。

然后我們嘗試了所有標準技術——RAG、把查詢分解成更簡單的部分、從其他來源補充數(shù)據——準確率勉強提升到 20% 左右。如果我們告訴 LLM 具體要查哪張表或哪幾張表,能提升到 30% 左右。但離實際可用還差得遠。

你可能會說,也許 MIT 的數(shù)據是特例。但我們在七個不同的真實數(shù)據倉庫上測試,結果每次都一樣。

有些人報告了更好的結果,但我持懷疑態(tài)度。原因如下——MIT 數(shù)據倉庫有什么特點讓它如此困難?

第一,這不是公開數(shù)據。 LLM 根本無法訪問這些數(shù)據,因為它們受到各種隱私和安全保護。

第二,MIT 有很多獨特的術語。 如果你想查"過去兩年誰主修了計算機科學"——MIT 數(shù)據倉庫回答不了這個問題,因為 MIT 根本不用"計算機科學"這種說法。計算機科學實際上叫 "Course 6.2"。還有 J-term,是一月份的一個月學期。這些東西你不能指望 LLM 知道。

第三個問題是我所說的"語義重疊"。 MIT 的數(shù)據倉庫里充滿了物化視圖,這些視圖是為了加速常用查詢而存在的。但問題在于,它給你提供了多種方式來回答同一個查詢,而且語義往往略有不同——比如有些數(shù)據是按月的,有些是按周的。

第四是復雜查詢。 這些查詢大多涉及三到四張表的連接,還帶有聚合操作,相當復雜。

[10:00] 因此,如果你的數(shù)據庫具有這四個特征中的任何一個——非公開、術語獨特、語義重疊、查詢復雜——我對用 LLM 解決問題不抱樂觀態(tài)度。

所以我的思路其實不太一樣。要想把 Text-to-SQL 做好——首先,在企業(yè)環(huán)境中,真正的問題是這樣的:我有 ERP 系統(tǒng)、CRM 系統(tǒng),還有一大堆其他系統(tǒng)和大量文本,我想查詢類似"誰既是我的供應商又是我的客戶"這樣的問題。這需要查詢多個私有數(shù)據源,既有文本也有 SQL。這本質上是數(shù)據湖問題。

怎么解決數(shù)據湖問題?讓我舉個簡單的例子。我們有個學生在和德國慕尼黑市合作,處理他們的交通部門數(shù)據。有各種各樣的查詢,比如:為什么這個路口的綠燈時間不長一點?或者,電車通過沒有紅綠燈的路口時最高時速是多少?慕尼黑市有六七個不同的數(shù)據源,理論上可以回答這些問題。這是典型的數(shù)據湖場景。

我的觀點是:最簡單的方法是把這些數(shù)據源包裝成一個非常小的 SQL 子集,讓用戶能夠表達他們想要什么。我主張系統(tǒng)的頂層應該是面向 SQL 的,而不是面向 LLM 的。 這是我正在研究的方向。也許這是個特例,也許不是。也許 Amazon 最近發(fā)布的 Bedrock 能在這方面有所幫助。

我留給大家一個測試:試著問你最喜歡的 LLM 這個問題——"有多少 MIT 教授有維基百科頁面?"這個查詢有兩個問題。第一,"誰是 MIT 教授"的答案在 MIT 數(shù)據倉庫里——我剛才說的那些問題都適用。第二個問題是維基百科,這是另一個數(shù)據源,它有個很好用的界面——你輸入某人的名字就能看到他們的頁面。LLM 最近開始能做這個了。但我很容易給你出一個更復雜的問題,它們就答不上來了。

我的思路是:給 MIT 數(shù)據倉庫包一層封裝,讓它足夠簡單,能夠通過 Text-to-SQL(或者 Text-to-簡化SQL)來回答問題;然后給維基百科包一層封裝,就是一個"查找 Andy Pavlo"或"查找任何人"的接口。然后把這兩個系統(tǒng)做一個連接操作。要用迭代替換,因為維基百科頁面比 MIT 教授多得多。

在我看來,這變成了一個查詢優(yōu)化問題——查詢優(yōu)化器最擅長解決這類問題。這就是我的研究方向。

當然,這些觀點要打很大的折扣。第一,我只關注企業(yè)數(shù)據,別人可能關注很多其他領域。第二,我主要關注的是防火墻內部、LLM 無法訪問的數(shù)據。所以我的經驗可能比較特殊。在我看來,LLM 在某些事情上表現(xiàn)很好,但可能不是所有問題的答案。

好,現(xiàn)在讓 Andy Pavlo 來說說,他對世界的看法要樂觀得多。

第二部分:Andy Pavlo 談 LLM 與 Vibe Coding

[15:21] Andy Pavlo: 說到維基百科,我還想提一嘴——我的維基百科頁面被刪掉了,因為我的簡介里寫我是"在巴爾的摩街頭出生的"(born in the streets of Baltimore),實際上我是在巴爾的摩出生的,但顯然不是在街頭。

【譯注】這里 Andy 在自嘲。"Born in the streets" 聽起來像是說在街頭流浪時出生的,有一種"街頭混混"的既視感,而實際上他只是在巴爾的摩市出生而已。維基百科可能因為來源不可靠或措辭不當而刪除了他的頁面。

總之,我對 LLM 取得的成就要樂觀得多。在自然語言轉 SQL 這件事上,對于某些特定挑戰(zhàn),確實會有困難。但我更關注的是全新應用(greenfield applications)——未來的企業(yè)應用總要從某個地方開始,而它們現(xiàn)在就在開始。

【譯注】Greenfield(綠地)在軟件開發(fā)中指從零開始構建的新項目,沒有歷史包袱,與 brownfield(棕地,指在既有系統(tǒng)上改造)相對。

Andrej Karpathy 去年創(chuàng)造了 "vibe coding"(氛圍編程/憑感覺寫代碼) 這個詞,我們看到大量新應用幾乎完全由 LLM 或編程代理生成。你可能會問:"這些代碼比人寫的好還是差?"差不多,因為這些模型是在海量代碼語料上訓練的。人類有時寫好代碼,有時寫爛代碼——LLM 也一樣。

【譯注】Vibe coding 是 Andrej Karpathy(前 OpenAI/Tesla AI 總監(jiān))提出的概念,指的是用自然語言描述你想要什么,讓 AI 幫你生成代碼,你只需要"感覺"一下對不對,而不是逐行編寫。這個詞帶有一點調侃意味,暗示程序員只需要"找感覺",不用真正懂代碼。

我對 LLM 作為編程代理的能力相當看好。說說我們自己的經驗:我們在卡內基梅隆教的課程,項目都是用 C++ 寫的。一年前,LLM 能解決一部分項目,但不是全部——它能生成代碼,但不是所有代碼都正確或有用。現(xiàn)在已經到了這樣的程度:我們的項目幾乎可以完全由 LLM 編寫和解決。

所以我認為 vibe coding 是真實存在的趨勢,我們將看到更多基于數(shù)據庫的應用涌現(xiàn)。但挑戰(zhàn)在于:你有這么多代理在生成新的應用代碼,這些代碼會和數(shù)據庫交互、讀寫數(shù)據?,F(xiàn)在我們要處理所有涌向數(shù)據庫系統(tǒng)的負載。

在 LLM 出現(xiàn)之前,所有應用代碼都是人寫的,它們會訪問數(shù)據庫系統(tǒng),你很幸運才能有一個人類或 DBA 來維護、優(yōu)化和監(jiān)控這些數(shù)據庫系統(tǒng)。現(xiàn)在人類不寫代碼了,也沒有人類監(jiān)控數(shù)據庫系統(tǒng)了——這簡直是災難的完美配方。

[18:01] 在研究方面,我們已經研究了好幾年如何用機器學習和 AI 技術來自動化數(shù)據庫系統(tǒng)的管理和優(yōu)化。這不是 AI 突然帶來的新能力——人們從 1970 年代就開始嘗試了。最早的工作之一是自動為關系數(shù)據庫選擇索引——1976 年 SIGMOD 上就有相關論文。Microsoft 的 AutoAdmin 項目也在做這件事。

但我們研究的是從整體上看待數(shù)據庫系統(tǒng)——嘗試調優(yōu)數(shù)據庫系統(tǒng)中所有可調的東西,以應對來自 vibe-coded 應用的隨機查詢,同時關注數(shù)據庫系統(tǒng)的整個生命周期。

事實證明,LLM 在這方面相當擅長。我們現(xiàn)在研究的是如何同時調優(yōu)數(shù)據庫系統(tǒng)暴露給你的所有配置。已有很多工作研究如何調優(yōu)單個方面——"你需要什么最佳索引"或"系統(tǒng)需要什么最佳配置參數(shù)"——比如 Postgres 的 shared_buffers 或 MySQL 的 innodb_buffer_pool_size。但所有這些工具都只針對一件事。我們研究的是:如何同時調優(yōu)所有東西?因為這樣才能找到數(shù)據庫的真正全局最優(yōu)配置。

在我們這個領域的最新工作中,我們不是用 LLM 來做決策,而是用 LLM 來實現(xiàn)不同類型數(shù)據庫或不同數(shù)據庫部署之間的知識遷移。我們的算法可以在一個流程中調優(yōu)索引、配置參數(shù)、查詢計劃提示、表級參數(shù)、索引日志——基本上是 Postgres 暴露給你的所有東西。我們可以把這些全部一起調優(yōu)。

但問題是,你得為這個特定的數(shù)據庫實例訓練非常專用的模型。我們最新的工作是利用 LLM 來識別彼此相似但不完全相同的數(shù)據庫。然后我們可以把從調優(yōu)一個數(shù)據庫收集的所有訓練數(shù)據,應用到另一個數(shù)據庫上——效果出奇地好。

[20:40] 關于這些算法的性能,我要說的是:當前研究表明,這種專門為數(shù)據庫優(yōu)化和調優(yōu)定制的算法,比 LLM 能做到的好兩到三倍。但 LLM 速度很快——ChatGPT 能在 15 分鐘內給你的數(shù)據庫吐出一套方案,而我們最好的算法現(xiàn)在需要 50 分鐘。所以這是速度和質量之間的權衡。根據問題的嚴重程度和你的需求,你可能會選擇其中一個。

[21:21] 現(xiàn)在我們在研究的另一個很酷的東西——也是我非??春?LLM 的原因——是推理代理(reasoning agents):識別問題,然后決定調用哪個子代理或工具來解決它。比如,如果有異常檢測,數(shù)據庫系統(tǒng)有某種延遲問題,推理代理可以決定:"我要運行這個工具來構建索引,因為我認為這就是當前的問題;我要運行另一個工具來優(yōu)化存儲性能。"

這就是我認為在未來一年左右會出現(xiàn)的真正酷炫的東西:能夠同時審視一堆不同的問題,并決定調用哪個子代理。子代理可以是 LLM,也可以是這些定制算法之一。我認為這非常令人興奮,LLM 在這個領域絕對是顛覆性的。

第三部分:Agentic AI 與數(shù)據庫技術

[22:18] Mike Stonebraker: 我認為,至少在數(shù)據管理領域,自動調優(yōu)應該能成功,因為它理應可行,理應具有商業(yè)價值。所以我很高興看到"OtterTune 二代"還活著,盡管 OtterTune 本身沒能成功。

【譯注】OtterTune 是 Andy Pavlo 之前創(chuàng)辦的數(shù)據庫自動調優(yōu)公司,后來關閉了。Mike 這里用"Son of OtterTune"(OtterTune 之子)來調侃 Andy 新的創(chuàng)業(yè)項目 "So You Don't Have To" AI。

[22:52] Andy Pavlo: 我得說,OtterTune 面臨的挑戰(zhàn)是——因為我們不托管數(shù)據庫系統(tǒng)——存在形態(tài)問題,需要用戶授權我們連接到他們的數(shù)據庫。而且 OtterTune 是被動調優(yōu),在系統(tǒng)外部觀察發(fā)生了什么,然后做改變,再觀察后來發(fā)生了什么。

我們現(xiàn)在做的新工作不同——我們不是要托管數(shù)據庫系統(tǒng),而是尋求與現(xiàn)有平臺集成。如果你在應用程序和數(shù)據庫服務器之間放一個代理(想想 PgBouncer、PgCat、PgDog——現(xiàn)在有很多這樣的 Postgres 代理和其他系統(tǒng)的代理),你就能看到查詢到達時的樣子,可以在查詢進入時操縱它們。我們仍然不托管數(shù)據庫系統(tǒng)本身,但至少現(xiàn)在我們能看到我們所做改變的效果——這對我們能做的事情產生了很大影響,而 OtterTune 做不到這一點。

從商業(yè)角度,我們現(xiàn)在的做法是:不再做一個獨立產品讓用戶注冊、連接數(shù)據庫、授權等等,而是在討論與現(xiàn)有平臺做 OEM 白標集成。這讓我們可以專注于 ML 數(shù)據庫這一塊,而不用操心開發(fā)者體驗和入職流程。

[24:20] Mike Stonebraker: 好吧,祝你好運,希望你成功。

Andy Pavlo: 謝謝 Mike。

[24:26] Mike Stonebraker: 我想談一件事:整個世界都愛上了 Agentic AI。在我看來,Agentic AI 意味著你有一個工作流,里面有些是 LLM,有些是 AI,有些是別的什么。也就是說:如果 LLM 不能直接做某件事,也許你可以在它周圍加一些東西,讓它更成功。我們在 MIT 做了很多這方面的工作。

DBOS 早期發(fā)現(xiàn)的一件事是:總體而言,Agentic AI 應用需要持久化計算(durable computing),因為這些東西很多是長時間運行的,如果出錯,你不想從頭再來。所以持久化計算在 Agentic AI 中是個大問題。有一堆商業(yè)產品在做這個。

但到目前為止,Agentic AI 基本上是我所說的"只讀"——你查詢一堆地方,然后拼湊出結論,比如"我預測 Andy Pavlo 的 OtterTune 繼任者會成功"之類的。

我認為用不了多久,Agentic AI 就會變成"讀寫"的。這意味著持久化計算本質上就是事務系統(tǒng)中 ACID 的 D(Durability,持久性)。完全是同一回事?,F(xiàn)在大家實現(xiàn)持久性的方式都在使用數(shù)據庫技術——你有一個日志,如果出了問題,你回滾然后重放。

[26:39] 所以這將是一個數(shù)據庫問題,而妙處在于:它要求你把應用狀態(tài)放進數(shù)據庫。正如 Andy Pavlo 剛才說的,我相信數(shù)據庫將逐漸接管應用程序狀態(tài)的存儲——因為這樣你就能獲得持久性。

但一旦涉及讀寫……我最喜歡的例子是:假設你在經營一家在線自行車店。服務器端的大致流程是這樣的:客戶進來說"我想買一輛 XYZ 自行車"。你的第一個動作是:"我有沒有這輛車?"所以你需要查詢庫存,如果有就預留它。

第二步,如果有貨,你要確認是否愿意和這個客戶做生意。這可以用 LLM 來判斷:這個客戶是不是退貨太多?信用評級如何?等等。

如果都沒問題,第三步就是收錢——PayPal 或者你喜歡的任何支付系統(tǒng)。如果這也沒問題,就發(fā)貨。

所以基本上是四個步驟,每個都是一個事務,大多數(shù)涉及更新操作。比如,如果你給履約系統(tǒng)一個錯誤的地址,它就得把所有東西回滾。這些步驟里有一堆更新操作。

[28:36] 這就是涉及更新的場景。你必須處理失敗情況。持久性只處理正向場景——完成你的工作流。你還必須處理回滾,這需要某種原子性的概念。

[29:04] 我認為搞清楚 ACID 對工作流來說到底意味著什么,是一件大事。我正在推銷我為 CIDR 寫的一篇論文,將在一月份發(fā)表。我認為那是一個過渡性的解決方案,但不是最終方案。搞清楚這一切還需要一些時間。

另一個問題是:目前 LLM 的架構方式,大多數(shù)是非確定性的。所以如果你的代碼有 bug,你很可能無法復現(xiàn)它。數(shù)據庫領域的人對此早就知道了。這叫做 Heisenbug(海森堡 bug)——不可復現(xiàn)的 bug,相對于 Bohrbug(玻爾 bug)——可復現(xiàn)的。Jim Gray 很久很久以前寫了很多關于這個的東西。我們顯然要重新審視所有這些問題。

【譯注】Heisenbug 這個名字來源于量子力學的"海森堡不確定性原理"——你一觀察它,它就消失了。Bohrbug 則來源于玻爾的確定性原子模型。這是 Jim Gray 在 1985 年提出的術語,用來描述軟件中兩類不同性質的 bug。

[30:02] 所以我認為,這是一個數(shù)據庫技術將對 Agentic AI 產生巨大幫助的領域——讓它實現(xiàn)"ACID-plus"或者不管最終叫什么。我認為這將是一件大事。

關于編程語言方面——事實已經證明它非常有用。Vibe coding 確實有效,在全新應用上效果最好——絕對正確。問題是 95% 的企業(yè)程序員不是在做全新項目,他們得處理已有的系統(tǒng)。

而且眾所周知,vibe coding 在代碼結構良好的情況下效果最好。但問題是,典型的企業(yè)系統(tǒng)不是這樣的。系統(tǒng)被更新、維護、打補丁、更新、維護、打補丁……最后變得太丑陋了,你只好扔掉重寫。

所以我認為,要想最大限度地利用 vibe coding 的優(yōu)勢,我們必須改變企業(yè)編寫軟件的方式。還有大量工作要做。

第四部分:2025 年行業(yè)回顧——并購與市場動態(tài)

[31:43] Andy Pavlo: 不僅僅是并購——今年數(shù)據庫領域風起云涌。我感覺今年的活動比去年還多。

先說說主要的收購案。最大的一筆可能是 Databricks 收購了 Neon,緊接著 Snowflake 收購了 Crunchy。所以 Postgres 生態(tài)有很多動作——我們稍后會談到。

IBM 買了兩家數(shù)據庫公司。 年初買了 DataStax——這是開發(fā) Cassandra 的主要公司。然后我記得這周剛宣布收購了 Confluent——Kafka 背后的主要公司。這些都是大手筆。

融資方面,ClickHouse、Supabase 都完成了大額融資。Databricks 又融了一大筆,因為他們總是在融錢,等著 IPO。Informatica 被 Salesforce 收購了。SkyDB 被 MariaDB 又買回去了——這個比較奇怪,因為他們去年好像是把它拆分成獨立公司的,今年又買回來了。

另一個大消息是 Fivetran 正在與 dbt 合并——我想這筆交易明年會完成。

所以是的,又是活動頻繁的一年。

[33:17] 關于倒閉的數(shù)據庫公司,我曾預測 2025 年會有更多公司失敗。大約兩年前有一份 Gartner 報告也做了類似的推測。但我能想到倒閉的只有兩三家:Voltron Data 幾周前宣布關閉;Fauna 五月份關閉;還有一家叫 MycaleDB 的中國 MySQL 托管公司今年早些時候倒閉了。

所以我預測錯了。我以為會有更多數(shù)據庫公司倒閉。數(shù)據庫公司的朋友們告訴我,其實今年相當不錯。這是積極的信號。當然確實有一些公司倒閉了,但沒有我想象的那么多。也許有些公司在苦苦支撐,誰知道呢。

有兩家公司被私募股權收購了:CouchbaseSingleStore。SingleStore 被一家叫 Vector 的私募公司收購了——他們幾年前買過 MarkLogic,所以有運營數(shù)據庫公司的經驗。但通常私募股權買下一家公司后,會讓它進入維護模式。希望 Couchbase 和 SingleStore 能挺過去。

[34:50] 說到今年的整體氛圍——顯然,Postgres 又是輝煌的一年。說到 Mike——我喜歡開頭介紹里他被列為 Postgres 的發(fā)明者,而我被列為一個網絡梗"數(shù)據庫學"的發(fā)明者。當然不是一回事,但我就當個榮譽收了。另外我們也可以加上圖靈獎——那更重要。

是的,Postgres 今年太瘋狂了。Databricks 買了 Neon,還買了 Mooncake——這讓他們有了讓 Postgres 讀寫 Iceberg 的能力。微軟剛剛發(fā)布了 Horizon DB——這是他們托管版的 Postgres,架構類似 Neon,采用存算分離,大概兩三周前宣布的——是他們一直在做的項目。

所以越來越多的 Postgres。

[35:42] 在開源數(shù)據庫領域,唯一可能算是 Postgres 競爭對手的是 MySQL——但那條船已經開走了。而且 Oracle 解雇了基本上整個 MySQL 開發(fā)團隊,只留下做 HeatWave 的——九月份的事。所以現(xiàn)在真的沒有什么大公司在全力投入 MySQL 的開發(fā)?;旧希?strong>Postgres 已經贏了。

這真是太令人興奮了。Postgres 的代碼庫——非常漂亮,前端很棒。后端有點問題,我寫過博客文章,我們也報道過這個。

Supabase 整合 OrioleDB 的努力非常令人興奮,因為那是多版本并發(fā)控制和其他機制的現(xiàn)代實現(xiàn)。Postgres 的那些機制——Mike,你們當年在 80 年代做的時候,根本沒有其他系統(tǒng)可以參考怎么做。所以希望他們能糾正你們當年在伯克利犯的錯誤。

[36:45] 總之,數(shù)據庫商業(yè)領域現(xiàn)在非常活躍。正如我說的,大量 vibe coding 應用正在生成,而 Postgres 是很多應用的默認選擇。

還有一件事要提——有兩個重大項目宣布要做分布式 Postgres。一個是 Supabase 的 Multigres,由發(fā)明 MySQL Vitess 的那個人領導——Vitess 后來被商業(yè)化為 PlanetScale。然后 PlanetScale 也宣布了一個叫 Naki 的項目,試圖做一個類似的分片、無共享版本的 Postgres。

有趣的是,這不是第一次有人嘗試做分布式 Postgres。2000 年代末、2010 年代初有一堆這方面的工作——Translattice、Greenplum,我記得華為也有一個項目。但對于 OLTP 工作負載,沒有人真正成功做出來。

我認為現(xiàn)在有足夠的能量,時機終于到了——你終于可以擁有一個真正可擴展的分布式 Postgres——不管是通過 Multigres 還是 Naki。這是我期待明年會出現(xiàn)的一個重大進展。

第五部分:Postgres 的未來與向量數(shù)據庫

[38:14] Mike Stonebraker: 說到 Postgres,我認為 Postgres 已經并將繼續(xù)統(tǒng)治世界。原因是所有主要云廠商都把寶押在了 Postgres 用戶接口上。Postgres 的線協(xié)議將無處不在。

他們要么選擇一個標準來開發(fā),要么自己搞一套,而每一家都選擇了 Postgres 線協(xié)議。

我認為這是一個好選擇的原因是:很多年前 Oracle 收購了 MySQL,這讓社區(qū)對 MySQL 能否保持社區(qū)屬性產生了疑慮。

我覺得 Postgres 最令人驚嘆的是:這個系統(tǒng)不屬于任何企業(yè)——它由一群非常非常聰明的人運營,這些人在各種不同的地方工作。 所以你應該把 Postgres 看作開源本來應該是的樣子。它來自社區(qū),服務于社區(qū)。

[39:46] 我還想談幾件事。第一,有人在聊天里提到了 Kumo。是的,我們看過 Kumo。Kumo 做的是預測,不是 Text-to-SQL,他們解決的是不同的問題。

另外,還有其他分布式 Postgres 類的東西。Greenplum 是一個,CockroachDB 是另一個,Yugabyte 也是。還有幾個我一時想不起名字了。但我認為,如果你還沒有把寶押在 Postgres 上,現(xiàn)在這樣做絕對是正確的。

[40:43] 我還想指出,Andy 和我?guī)啄昵皩懥艘黄撐?,叫做《What Goes Around Comes Around... and Around》(風水輪流轉……轉眼又一圈)之類的。你們都應該回去讀那篇論文,因為在我看來,那是對未來走向的絕佳預測。

【譯注】這是 Mike Stonebraker 和 Andy Pavlo 在 2024 年發(fā)表的論文,是對 2005 年經典論文《What Goes Around Comes Around》的續(xù)篇。論文回顧了數(shù)據庫領域的技術輪回,指出很多"新"技術其實是舊概念的重新包裝。

舉個例子,現(xiàn)在對向量索引或向量數(shù)據庫有很大興趣。那么,什么是向量數(shù)據庫?向量數(shù)據庫就是一堆關系型的 blob,加上一個圖結構的索引。

讀過 Frank McSherry 工作的人都知道,他清楚地表明:做圖檢索的最佳方法是——盡可能多地對圖進行編碼,把它放進內存,然后寫一個定制的查詢執(zhí)行器來處理。成功的向量數(shù)據庫似乎正是這么做的。

所以我的觀點是:去讀那篇論文吧,我認為它對未來走向的預見性很強。

[42:11] 主持人: 謝謝。我們會把論文鏈接和活動錄像一起分享給大家。

在我們轉向計算機科學的未來之前,快速問一個問題。你剛才提到向量數(shù)據庫,有不少關于向量數(shù)據庫的問題。Andy,你有沒有特別喜歡的向量數(shù)據庫?你對向量數(shù)據庫這個領域整體怎么看?

[42:36] Andy Pavlo: 我得小心措辭,免得得罪人。

我是說,我喜歡 Weaviate 的團隊。我沒用過他們的系統(tǒng),但他們非常開放——開源的,文檔寫得很好——我能理解他們在做什么,比其他家可能更清楚一些。所有向量數(shù)據庫公司都來我們這兒做過演講,都在 YouTube 上。

這些向量數(shù)據庫公司需要想清楚的問題是——我?guī)啄昵昂?Weaviate 的 CEO 聊過這個——現(xiàn)在他們不是作為主數(shù)據庫在用。正如 Mike 說的,它們基本上是 JSON blob,里面放著向量嵌入,然后他們?yōu)檫@些建索引?,F(xiàn)在很多人把它們當成 Elasticsearch 來用——就像數(shù)據庫的第二份副本,你可以在上面跑最近鄰搜索,不干擾數(shù)據倉庫或常規(guī)的 OLTP 工作負載。

[43:48] 所以他們會走到一個十字路口,必須決定:是繼續(xù)做一個像 Elasticsearch 那樣的邊緣專用數(shù)據庫(這沒問題,有市場),還是想成為主數(shù)據庫。如果是后者,你就得開始添加 Postgres、CockroachDB 或 Oracle 提供的所有那些東西——事務、SQL 等等。

所以他們得決定怎么走。

不過我要說,挑戰(zhàn)在于:歸根結底,向量索引就是索引而已。所以對于像 Postgres 這樣高度可擴展的系統(tǒng),你可以很快添加這些新的索引類型。

值得注意的是,當 ChatGPT 在 2022-2023 年左右成為主流時,然后 RAG 成了人人都在說的熱詞,大家意識到"噢,怎么做 RAG?你需要向量索引"——所有主要數(shù)據庫廠商在一年內都添加了向量索引。很多都利用了開源庫,比如 Meta 的 DiskANN 或 FAISS。添加這些東西并不是大工程。

相比之下,當列存儲出現(xiàn)時——那是相當根本性的工程改變,你必須改造系統(tǒng)來支持向量化執(zhí)行或列存儲。而向量索引,你可以直接塞進去,很快就能跑起來。

[45:23] 所以對我來說,這表明專門的向量數(shù)據庫系統(tǒng)的護城河沒那么寬。當然,它們做的事情肯定比 pgvector 好很多,但對于 99% 的人來說,用 pgvector 可能就夠了。

[45:46] Mike Stonebraker: 好,再補充兩點。

第一,花哨的向量索引基本上局限于內存。 所以如果你的問題超出了內存容量,性能會斷崖式下降。

第二,如果你的向量有大量更新,更新索引是個噩夢級的問題。 絕對是噩夢。

所以,如果你的數(shù)據是只讀的、規(guī)模不大,我認為向量索引沒問題。但如果你有大量更新,問題就復雜得多。而且如果你把索引和數(shù)據放在同一個主系統(tǒng)里運行,至少可以保持一致性。

[46:54] Andy Pavlo: 我是說,也不是那么一致,對吧?因為有時候這些索引你得重跑聚類算法,那意味著你得重新掃描所有數(shù)據。這和全文搜索的倒排索引面臨的挑戰(zhàn)一樣。它們可能有一個側緩沖區(qū),你先吸收所有寫入,然后最終得運行代價更高的重建任務。

第六部分:GPU 數(shù)據庫與 IBM 收購

[47:21] 主持人: 謝謝。關于市場還有一個問題。Andy,你提到 Voltron 關門了。有人問這對 GPU 加速數(shù)據庫的未來意味著什么?

[47:33] Andy Pavlo: 好,我得小心點。

我對 GPU 數(shù)據庫一直持懷疑態(tài)度。2018 年我們有一個研討會系列,邀請了所有主要的 GPU 數(shù)據庫廠商來校園。我記得他們會炫耀各種驚人的數(shù)字,但那些只適用于能裝進 GPU 內存的數(shù)據庫。而且他們總是拿 Greenplum 來比——2018 年誰還在乎 Greenplum 啊?

所以我當時很懷疑,因為這看起來很小眾——你的數(shù)據必須足夠小才能裝進 GPU。

但發(fā)生變化的是——Voltron 在他們的論文項目或論文系統(tǒng)中展示的(雖然沒有找到產品市場契合點或商業(yè)可行性)——他們展示了如何快速地把數(shù)據從磁盤流式傳輸?shù)?GPU,讓 GPU 作為整個數(shù)據系統(tǒng)的加速器,而不用把所有東西都加載進去。

對我來說,這才是顛覆性的變化。不點名的話,我預計——你們應該預期——2026 年會有一些主要數(shù)據庫廠商宣布他們現(xiàn)在支持 GPU 加速。

[49:00] 主持人: 酷。還有一個市場問題。IBM 收購 DataStax(Cassandra)和 Confluent(Kafka 和 Flink)如何改變 IBM 在數(shù)據庫市場的地位?

[49:07] Andy Pavlo: 噢,Mike 當過 Informix 的 CTO。他可以講講 IBM,對吧?

我是說,DB2 仍然賺很多錢。IMS 可能還在收維護費。他們在這些老東西上仍然賺很多錢。今天的 IBM 不是 IMS 時代的 IBM,文化和產出都變了。

【譯注】IMS(Information Management System)是 IBM 在 1966 年推出的層次型數(shù)據庫,至今仍在一些大型企業(yè)的核心系統(tǒng)中運行,是"古董級"但仍在收費的產品。

所以,還得看吧?還得看他們會多深入地參與 DataStax 和 Confluent 的日常運營——是像 Red Hat 那樣讓他們作為衛(wèi)星公司獨立運作,還是快速整合成 IBM 整體咨詢服務棧的一部分。

[49:56] 對于 Cassandra 來說,Cassandra 源代碼的第二大貢獻者其實是蘋果。蘋果運營著世界上最大的——如果不是最大也是最大之一的——公開 Cassandra 集群。所以我認為 Cassandra 的管理權會沒問題的。

Kafka 的話,還得看。但 Jay 是個聰明人,在 Confluent,我相信他們會想出辦法的。

【譯注】Jay Kreps 是 Kafka 的創(chuàng)始人之一,也是 Confluent 的聯(lián)合創(chuàng)始人兼 CEO。

[50:43] Mike Stonebraker: 我認為你們都應該記住的是:IBM 基本上是一家服務公司和定制軟件開發(fā)公司。

很明顯發(fā)生的事情是 IBM 的客戶一直在要求這兩個系統(tǒng)。所以 IBM 有足夠的閑錢直接買下它們。

但我認為 IBM 有一個遺留硬件業(yè)務和一個巨大的遺留軟件業(yè)務。他們會繼續(xù)榨取這些業(yè)務的價值,直到這個電話會議上的每個人都安全退休。

第七部分:計算機科學教育與職業(yè)發(fā)展的未來

[51:33] 主持人: 好,讓我們換個話題,談談計算機科學以及 AI 如何影響課程設置——MIT、CMU 和其他地方——以及職業(yè)機會。

事實上,問答區(qū)已經有人問了:在 DBMS 公司找工作需要什么技能?Andy,也許你可以先談談 AI 如何影響了 CMU 的課程?

[51:58] Andy Pavlo: 我得說,現(xiàn)在沒人知道答案。 LLM 在回答考試題目、作業(yè)問題上好得驚人。

說個軼事,在我們的數(shù)據庫系統(tǒng)入門課上,第一個作業(yè)是:我們給你一個數(shù)據集,給你問題——有點像在解決 Mike 剛才說的那個問題——你必須寫 SQL 來回答問題。我們相當確定大多數(shù)學生在用 LLM。事實上,老實說,我在學期開始時鼓勵他們用 LLM——這是現(xiàn)在任何開發(fā)者都應該使用的工具,就像 GDB 或其他調試工具一樣。這就是世界的現(xiàn)狀。

但我要說,最終你必須理解基礎。這是卡內基梅隆一直在更加強調的——我們一直在這方面做得很好,但現(xiàn)在比以往任何時候都更重要。

[52:55] 回到 vibe coding 的話題。你可以讓 LLM 生成一堆代碼,但如果你不理解這些代碼試圖做什么、你試圖實現(xiàn)什么,你就會迷失。

所以我說,你應該學習的是計算機科學的核心基礎,這部分其實沒變。不管是用 JavaScript、C++、Rust 還是什么——語言和工具可能變,但基礎很重要。理解軟件在為你做什么。

[53:40] 關于在數(shù)據庫系統(tǒng)公司找工作需要什么技能——我認為目前沒有太大變化。理解系統(tǒng)基礎,理解硬件在做什么。

數(shù)據庫的美妙之處在于你必須理解一切——你會接觸到所有層面。所以你必須理解硬件想做什么、操作系統(tǒng)想做什么(或不想為你做什么)、網絡想做什么。理解所有這些。

然后我要強調的是:能夠與你沒有寫過的大型代碼庫互動、操作和理解。同樣,LLM 在這方面很有幫助。

[54:17] 還有調試——因為這個問題不會消失。LLM 還解決不了這個——我認為它們最終會做到。但理解復雜組件如何協(xié)同工作、相互交互、識別 bug、識別競態(tài)條件和其他問題——這個問題不會消失。這些東西只能通過實踐獲得。有很多方式可以做到。

我得說,現(xiàn)在的資源比 Mike 當學生時好太多了,比我當學生時也好太多?,F(xiàn)在有很多東西可以幫助人們理解數(shù)據庫系統(tǒng)在做什么。就是去做就行了。

[54:59] Mike Stonebraker: 我認為只要你來自一流大學,主修 CS 就會沒問題——正如 Andy 說的,你會學到如何利用所有可用的工具來提高生產力。

如果你從 Control Data Institute 或那類地方畢業(yè),我認為市場會很糟糕——因為那里只教你寫代碼,而這不會是一個很有市場價值的技能,除非你超級超級超級聰明。

【譯注】Control Data Institute 是美國一家已經倒閉的職業(yè)培訓學校,曾經提供計算機相關的職業(yè)培訓課程。Mike 這里用它來泛指那些只教技術操作、不注重計算機科學基礎的培訓機構。

[55:48] 所以我認為,一流大學的 CS 專業(yè)招生總數(shù)可能會持平或下降一段時間。之后會怎樣,我不知道。

[56:00] Andy Pavlo: 但我還要說——一方面是的,因為 AI 幫助了很多事情,找工作會更難。但回到 vibe coding 那點,現(xiàn)在構建東西太容易了。

所以最終目標不一定是去 Google 或 Apple 或誰那里工作——你可以自己干。當然,我知道對很多人來說,由于不同的經濟狀況,說起來容易做起來難。但這也是令人興奮的一點——進入門檻大大降低了。

但同樣,我要說你仍然需要理解基礎。

第八部分:問答——核心數(shù)據庫基礎

[56:36] 主持人: 有一個關于基礎的問題。實際上有好幾個。人們在問:你認為最重要的數(shù)據庫內部基礎概念是什么?應該學習或掌握哪些來提升職業(yè)機會?

[56:52] Andy Pavlo: 我是說,一個——不是要推銷自己的東西——但我們把所有課程材料都放在 YouTube 上了,你可以做所有編程作業(yè),做所有家庭作業(yè),不用付 CMU 一分錢。所以都在那兒,盡管去學吧。

我覺得就是 ACID 那一套,對吧?原子性、一致性、隔離性、持久性。理解那是什么樣子——如何把數(shù)據從非易失性存儲移到內存中并進行交互。如何確保人們可以訪問他們的數(shù)據而不丟失任何東西。

這些是高層次的基礎。作為其中的一部分,你得理解算法復雜度。你得理解數(shù)據結構。你得理解優(yōu)化技術。你得理解并發(fā)控制。一點關系代數(shù)的集合論也總是有用的。

[57:54] 我會稱這些為基礎。然后正如我之前說的,數(shù)據庫系統(tǒng)的美妙之處在于:無論你對計算的哪個方面感興趣,你都可以在數(shù)據庫的背景下做。

如果你喜歡算法,那個領域有很多工作可以看。如果你喜歡網絡,你可以做那個。如果你喜歡編程語言,有一堆嘗試改進 SQL 或改變 SQL 的工作。

無論你對什么感興趣,你都可以在數(shù)據庫的背景下做。而且通常人們會為此付你很多錢。所以這就是為什么我對這個領域很看好。

第九部分:為什么選擇成為數(shù)據庫研究者?

[58:27] 主持人: 好,我們到整點了,最后一個問題。這是注冊表上有人問的。問題是問你們倆的:你們?yōu)槭裁催x擇成為 DBMS 研究者?

Andy Pavlo: Mike,你講講征兵的故事。

[58:46] Mike Stonebraker: 嗯,簡單的答案是:我讀研究生是因為當時有征兵制。 我的選擇是:去加拿大、進監(jiān)獄、去越南,或者讀研究生。這讓事情變得很簡單。

進了研究生院之后,我設法待到了 26 歲,然后軍隊就不要我了。

【譯注】這里說的是越南戰(zhàn)爭時期(1955-1975)美國的征兵制度。當時年輕男性面臨被征召入伍的風險,但研究生可以獲得延期服役的資格。26 歲之后通常不再被征召。

所以當我找到工作時——順便說一下,我認為我的論文完全是胡扯——當我到伯克利時,我說:"好吧,我得想辦法拿到終身教職,得找個新東西來研究。"

[59:47] 對我產生巨大影響的一件事是伯克利給了我一個導師:Gene Wong(黃煦濤)。Gene 說:"我們來看看這個——Ted Codd 剛剛寫了這篇開創(chuàng)性的論文。"那是 1971 年;他的論文 1970 年發(fā)表在 CACM 上。

于是我們開始研究數(shù)據方面的東西。Ted Codd 的東西簡單易懂,有一些數(shù)學基礎。另一個提案來自數(shù)據系統(tǒng)語言委員會(CODASYL),那是個低層次的圖結構的東西,完全是一團糟。

Gene 和我看著彼此說:"怎么可能這么復雜的東西是正確的做法?"

所以這就定下了方向。很多是偶然,但很多是因為在你落腳的大學找到一個好導師。

【譯注】Ted Codd 是關系型數(shù)據庫之父,1970 年發(fā)表的論文《A Relational Model of Data for Large Shared Data Banks》奠定了關系數(shù)據庫的理論基礎。CODASYL(Conference on Data Systems Languages)則提出了網狀數(shù)據庫模型,在當時是 Codd 關系模型的主要競爭對手。

[1:01:06] Andy Pavlo: Mike 的故事比較傳奇。

我的情況是,我高中時被逮捕了,我不想進監(jiān)獄。 所以我查了聯(lián)邦監(jiān)獄管理局的統(tǒng)計數(shù)據,看什么類型的美國人進監(jiān)獄的比例最低?是有博士學位的人。

所以我想,如果我拿個博士,進監(jiān)獄的可能性就更低了。這就是我決定讀博的原因。

然后數(shù)據庫對我來說就是自然而然的事。我在一家不太正經的創(chuàng)業(yè)公司工作過,我們切換到 MySQL,我高中時就學了關系模型。太棒了。

Mike Stonebraker: 你應該講講你真的進監(jiān)獄那次。

Andy Pavlo: 呃,等等。我被逮捕的時候,我們認罪的是地方指控,沒走聯(lián)邦程序。所以我從來沒進過監(jiān)獄。

但我確實試過在監(jiān)獄向我妻子求婚。他們從來沒真的把我關進去,Mike,因為他們擔心一旦我進了監(jiān)獄,我就在他們的保險范圍內了。所以如果我出了問題或受傷,他們會被開除。所以我一直在外面的拘留區(qū)。

[1:02:25] 主持人: 嗯,好吧。不是我預期的答案,但非常精彩。

結語

[1:02:31] 主持人: 好了,我們得結束了。很抱歉沒能回答所有問題。

感謝 Mike 和 Andy,還有 DBOS 的 Jen,感謝你們幫助舉辦今天的網絡研討會,分享你們的智慧和經驗。

祝你們和所有在線的朋友節(jié)日快樂、新年快樂,期待 2026 年的活動再見!

正文完

觀點總結與老馮評論 Mike Stonebraker 的核心觀點 1. 對 LLM 做 Text-to-SQL 持悲觀態(tài)度

觀點摘要: 在真實企業(yè)數(shù)據倉庫上測試 LLM,準確率幾乎為零。原因有四:數(shù)據非公開、術語獨特、語義重疊、查詢復雜。他主張用 SQL 封裝數(shù)據源,讓查詢優(yōu)化器解決問題,而非依賴 LLM。

老馮評論: 這是對 Text-to-SQL 炒作的當頭棒喝。學術界和媒體吹捧 60-90% 準確率,但那是在玩具數(shù)據集上的成績。一到真實企業(yè)環(huán)境——MIT 數(shù)據倉庫這種用"Course 6.2"代替"計算機科學"的奇葩命名——LLM 立刻原形畢露。

這揭示了 LLM 的本質局限:它們是模式匹配器,不是推理引擎。企業(yè)數(shù)據的"暗知識"——隱性業(yè)務規(guī)則、歷史遺留術語——不在訓練語料里,LLM 自然束手無策。Mike 的"SQL 封裝 + 查詢優(yōu)化器"方案,本質是承認:結構化問題還得用結構化方法解決。

2. Agentic AI 需要 ACID,數(shù)據庫技術將大放異彩

觀點摘要: 當前 Agentic AI 是"只讀"的,很快會變成"讀寫"。一旦涉及更新操作(如在線購物流程),就需要事務語義——原子性、持久性、回滾能力。這正是數(shù)據庫技術幾十年來解決的問題。

老馮評論: 這是 Mike 最具遠見的觀點。當前 AI Agent 框架基本都是"樂觀執(zhí)行"——假設一切順利,出錯就重來。這在真實業(yè)務場景中是災難。

Mike 用自行車店的例子講得很清楚:查庫存→檢查信用→收款→發(fā)貨,每一步都可能失敗,失敗后必須回滾前序操作。這不是新問題——這就是 ACID 事務要解決的問題,只是披了層 AI 的皮

我完全同意這個判斷:未來 1-2 年,數(shù)據庫技術(尤其是工作流事務、Saga 模式)將成為 Agentic AI 的核心基礎設施。DBOS 確實踩準了這個點。 這也是最近 PG 生態(tài)的各路 Agent DB 都在蹭 "Git for Data" 熱度的原因 —— 老馮在《Agent 需要什么樣的數(shù)據庫?[2]》中剛探討過這個問題。

3. Postgres 已經贏了,押注 Postgres 是正確選擇

觀點摘要: 所有主要云廠商都選擇了 Postgres 線協(xié)議。Postgres 的治理模式是"開源該有的樣子"——社區(qū)所有,沒有單一企業(yè)控制。Oracle 收購 MySQL 后社區(qū)失去信任,Postgres 因此受益。

老馮評論: 這是事實陳述,不是預測。Postgres 確實已經贏了——至少在開源關系型數(shù)據庫領域。AWS Aurora、Google AlloyDB、Azure Horizon DB、Supabase、Neon……所有人都在 Postgres 生態(tài)里玩。

Mike 作為 Postgres 創(chuàng)始人說這話,難免有"王婆賣瓜"之嫌,但客觀來說他沒說錯。MySQL 在 Oracle 手里確實涼了——今年 Oracle 裁掉了幾乎整個 MySQL 團隊。

不過老馮要補充一點:Postgres 贏了"協(xié)議戰(zhàn)",但這也意味著 PG 發(fā)行版內戰(zhàn)即將打響。詳見《PostgreSQL 主宰數(shù)據庫世界,而誰來吞噬 PG?[3]》

4. 向量數(shù)據庫是"內存圖索引 + 關系型 blob",護城河不寬

觀點摘要: 向量數(shù)據庫本質上是給 JSON blob 加了個圖結構索引。兩大限制:只能在內存里跑(數(shù)據大了性能斷崖)、更新索引是噩夢。

老馮評論: 這是對向量數(shù)據庫最精準的降維打擊。Pinecone、Weaviate、Milvus 炒得火熱,但 Mike 一句話戳破泡沫:你們做的不過是 Postgres 擴展能做的事

事實也確實如此——pgvector 出來后,大多數(shù)場景根本不需要專門的向量數(shù)據庫。Mike 說"99% 的人用 pgvector 就夠了",Andy 也表示認同。

我在兩年前《專用向量數(shù)據庫涼了嗎?[4]》一文中就預測過這一點。 向量數(shù)據庫公司的出路:要么做到極致性能(服務那 1% 的大規(guī)模場景),要么轉型成完整數(shù)據庫(加事務、加 SQL)—— 但后者意味著和 Postgres 正面硬剛,幾乎是死路一條。順帶一提,PG 生態(tài)里已經有擴展在做 DiskANN 了,在 NVMe SSD 上跑得相當不錯。

Andy Pavlo 的核心觀點 1. Vibe Coding 是真的,LLM 正在改變軟件開發(fā)

觀點摘要: Andrej Karpathy 創(chuàng)造的"vibe coding"概念正在成為現(xiàn)實。CMU 的課程項目現(xiàn)在幾乎可以完全由 LLM 解決。代碼質量和人寫的差不多——因為都是從同一個代碼語料庫學來的。

老馮評論: Andy 比 Mike 年輕 40 歲,他的樂觀主義反映了新一代研究者的心態(tài)。Vibe coding 確實在發(fā)生——GitHub Copilot、Cursor、Claude Code 的普及就是證明。

但 Andy 有一個關鍵前提經常被忽略:vibe coding 只對新項目有效。他自己也承認,95% 的企業(yè)程序員不是在做新項目開發(fā)。那些幾十年積累下來的屎山——被反復"更新、維護、打補丁"直到丑陋不堪——LLM 同樣束手無策。

所以 vibe coding 的真正影響可能是:新應用開發(fā)加速,但遺留系統(tǒng)維護依然是噩夢。這會加劇新舊兩極分化——用 AI 寫的新系統(tǒng)越來越多,老系統(tǒng)越來越沒人愿意碰。

2. 數(shù)據庫自動調優(yōu)需要 LLM + 專用算法的組合

觀點摘要: 專用調優(yōu)算法比 LLM 好 2-3 倍,但 LLM 快得多(15 分鐘 vs 50 分鐘)。未來方向是用"推理代理"來調度——可能調 LLM,可能調專用算法。

老馮評論: 這是 Andy 作為 OtterTune 創(chuàng)始人的復盤總結。OtterTune 失敗的原因他講得很清楚:形態(tài)問題——需要用戶授權連接、被動觀察而非主動干預。新方案通過 proxy 模式解決了這個痛點。

"LLM + 專用算法"的組合思路非常務實:LLM 擅長快速給出"差不多"的答案,專用算法擅長精雕細琢,用推理代理調度兩者,工程上完全可行。

不過我一直有個疑問:數(shù)據庫調優(yōu)真的需要這么復雜嗎? 大多數(shù) Postgres 性能問題,有經驗的 DBA 看 10 分鐘就能定位。用 Pigsty 這樣的發(fā)行版,重要參數(shù)都已經自動調到對生產"足夠好"的程度——從"足夠好"調到"最優(yōu)",邊際收益有多大?

真正需要自動調優(yōu)的場景是:(1) 沒有 DBA 的小公司;(2) 大規(guī)模多租戶場景。這兩個市場能養(yǎng)活一家公司嗎?OtterTune 的失敗說明,至少單獨做這個不行。Andy 現(xiàn)在的策略是 OEM 白標集成,比獨立產品務實得多。

3. 計算機科學教育的核心不變:理解基礎

觀點摘要: LLM 能解決 CMU 的作業(yè),但學生仍需理解基礎——ACID、數(shù)據結構、算法復雜度、并發(fā)控制。語言和工具會變,基礎不變。

老馮評論: 老生常談,但在 AI 時代重提很有必要。Andy 說得對:如果你不理解代碼在做什么,LLM 生成再多代碼也沒用。

Mike 說得更直白:從 Control Data Institute(職業(yè)培訓機構)那種地方出來的人會很慘,但一流大學出來的人沒問題。 言下之意:編程正在分化 —— 頂尖人才設計系統(tǒng),AI 寫代碼,頭部專家發(fā)揮幾十倍的效能,普通程序員直接出局。 殘酷,但可能是真實的未來。

4. 向量數(shù)據庫護城河不寬,pgvector 對 99% 的人夠用

觀點摘要: 向量索引就是索引,Postgres 一年內就加上了。向量數(shù)據庫要么做專用場景(二級索引),要么加事務/SQL 變成完整數(shù)據庫——后者意味著和 Postgres 正面競爭。

老馮評論: Andy 在這一點上和 Mike 完全一致——這也說明這是數(shù)據庫圈的共識 。老馮覺得,向量數(shù)據庫真的已經很無聊了。

總結

Mike Stonebraker 是 “老派智慧” 的代表 —— 50 年數(shù)據庫經驗讓他對技術炒作保持警惕。 他的悲觀主義不是因為不懂 AI,而是因為見過太多大風大浪后的一地雞毛了。 他對 Agentic AI 需要 ACID 數(shù)據庫 的判斷非常精準,這可能是這場對話中最有價值的洞見。

Andy Pavlo 是"新生代務實派" —— 既不盲目樂觀,也不固守舊觀念。 他承認 OtterTune 失敗的原因,調整策略做 OEM 集成; 他看到 vibe coding 的真實影響,但也承認只對新項目有效。 作為學者,他保持著難得的商業(yè)敏感度。

兩人的共識比分歧更重要:Postgres 贏了,向量數(shù)據庫過譽了,基礎比工具重要,AI 不會取代理解系統(tǒng)的人。

數(shù)據庫老司機

點一個關注 ??,精彩不迷路

對 PostgreSQL, Pigsty,下云 感興趣的朋友

歡迎加入 PGSQL x Pigsty 交流群(搜pigsty-cc)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美媒稱美考慮將援助烏克蘭的武器轉至中東

美媒稱美考慮將援助烏克蘭的武器轉至中東

每日經濟新聞
2026-03-27 00:02:30
已被禁賽4年 俄羅斯不后悔未加入亞足聯(lián) 主帥:就5隊能打難獲進步

已被禁賽4年 俄羅斯不后悔未加入亞足聯(lián) 主帥:就5隊能打難獲進步

我愛英超
2026-03-26 18:25:55
加圖索:我必須大聲說出來,我們要去參加這場決賽了!

加圖索:我必須大聲說出來,我們要去參加這場決賽了!

懂球帝
2026-03-27 06:20:37
Meta收購Manus后, Manus創(chuàng)始人因為不合規(guī)被禁止離境

Meta收購Manus后, Manus創(chuàng)始人因為不合規(guī)被禁止離境

我不叫阿哏
2026-03-27 00:22:03
拉里賈尼繼任者不到一天被殺,川普加派82空降師開赴中東

拉里賈尼繼任者不到一天被殺,川普加派82空降師開赴中東

移光幻影
2026-03-26 09:56:37
金融圈的"超級聯(lián)系人",失聯(lián)了!

金融圈的"超級聯(lián)系人",失聯(lián)了!

言叔財經視角
2026-03-26 22:09:56
澳門國民黨中將呂文貞突然說,我是李克農的人,該向組織報到了

澳門國民黨中將呂文貞突然說,我是李克農的人,該向組織報到了

鶴羽說個事
2026-03-25 21:56:09
太堵了!網友盼早日修成都地鐵29號線,官方回應

太堵了!網友盼早日修成都地鐵29號線,官方回應

天府觀察
2026-03-26 16:00:34
首個因中東戰(zhàn)爭宣布進入緊急狀態(tài)的國家,為何是菲律賓?

首個因中東戰(zhàn)爭宣布進入緊急狀態(tài)的國家,為何是菲律賓?

上觀新聞
2026-03-26 19:36:04
破防了,當所有人都在為張雪峰沸騰時,西工大博導嚴紅悄然離去了

破防了,當所有人都在為張雪峰沸騰時,西工大博導嚴紅悄然離去了

小娛樂悠悠
2026-03-27 09:25:11
谷歌翻譯耳機實時翻譯功能正式登陸 iOS 平臺,支持超 70 種語言

谷歌翻譯耳機實時翻譯功能正式登陸 iOS 平臺,支持超 70 種語言

龍劍秀南
2026-03-27 07:23:23
回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風韻猶存

回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風韻猶存

素衣讀史
2026-03-25 21:05:22
美參議員沃倫8頁長信控訴沃什:特朗普的傀儡、毫無長進

美參議員沃倫8頁長信控訴沃什:特朗普的傀儡、毫無長進

金十數(shù)據
2026-03-27 09:56:11
4-3!4-0!世預賽1夜4場逆轉:意大利瑞典丹麥進決賽 烏克蘭出局

4-3!4-0!世預賽1夜4場逆轉:意大利瑞典丹麥進決賽 烏克蘭出局

侃球熊弟
2026-03-27 06:09:34
2026物業(yè)收費:只管公共區(qū)域,卻按面積收物業(yè)費,到底合不合法?

2026物業(yè)收費:只管公共區(qū)域,卻按面積收物業(yè)費,到底合不合法?

靚仔情感
2026-03-25 15:28:02
20億美元還不夠!中企宣布,對巴拿馬索賠漲價,巴政府內部已亂套

20億美元還不夠!中企宣布,對巴拿馬索賠漲價,巴政府內部已亂套

李健政觀察
2026-03-26 11:11:27
指揮過5位元帥和6名大將,晚年悔恨:若不犯錯,我就是元帥之首

指揮過5位元帥和6名大將,晚年悔恨:若不犯錯,我就是元帥之首

北海史記
2026-03-25 12:00:19
3連勝!米切爾轟27+7,哈登20+6你再超神下去,騎士讓東部大結局

3連勝!米切爾轟27+7,哈登20+6你再超神下去,騎士讓東部大結局

巴叔GO聊體育
2026-03-27 10:20:46
出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

霹靂炮
2026-03-14 22:49:47
太離譜!農村老師相親帶娃,張口要28萬彩禮,要求多到能逼瘋人

太離譜!農村老師相親帶娃,張口要28萬彩禮,要求多到能逼瘋人

潮鹿逐夢
2026-03-24 12:11:55
2026-03-27 10:43:00
老馮云數(shù) incentive-icons
老馮云數(shù)
數(shù)據庫老司機,云計算泥石流,PostgreSQL大法師
140文章數(shù) 55關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產力

頭條要聞

媒體:內塔尼亞胡夫人為兩個兒子訴苦 加沙兒童怎么看

頭條要聞

媒體:內塔尼亞胡夫人為兩個兒子訴苦 加沙兒童怎么看

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強?

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經要聞

很反常!油價向上,黃金向下

汽車要聞

線控底盤+千問上車 智己LS8預售權益價25.98萬起

態(tài)度原創(chuàng)

家居
本地
房產
親子
公開課

家居要聞

傍海而居 靜觀蝴蝶海

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

房產要聞

勁銷64億后,??谶@座改善標桿盤,又要引爆樓市!

親子要聞

原生家庭真的是會傷害子女嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版