国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

2025 年度數(shù)據(jù)世界總結(jié):石破天與Andy Pavlo對談錄

0
分享至

最近,圖靈獎得主、Postgres 創(chuàng)始人、MIT 與 UC Berkeley 計算機系教授 Mike Stonebraker, 以及數(shù)據(jù)庫領(lǐng)域大網(wǎng)紅、卡耐基梅隆大學數(shù)據(jù)庫系教授 Andy Pavlo 聯(lián)合主持了一期播客, 回顧了 2025 年 AI 對數(shù)據(jù)庫的影響、數(shù)據(jù)庫行業(yè)的重大事件,以及 AI 對計算機科學教育和職業(yè)發(fā)展的作用。


老馮轉(zhuǎn)錄了視頻的文字稿,翻譯并點評了一下,供大家參考。

Data 2025:年度回顧 —— Mike Stonebraker 與 Andy Pavlo 對談錄 錄制于 2025 年 12 月 10 日 對談嘉賓:Mike Stonebraker(MIT CSAIL,圖靈獎得主,PostgreSQL 創(chuàng)始人)、Andy Pavlo(卡內(nèi)基梅隆大學),主持:DBOS 團隊 原文地址:Data 2025: The year in review with Mike Stonebraker 中文譯評:馮若航
開場介紹

[0:00] 主持人(DBOS): 大家好,感謝各位參加今天的活動。我們將與 Mike Stonebraker 和 Andy Pavlo 一起回顧 2025 年的技術(shù)發(fā)展。

今天的議程包括:深入探討 AI 與數(shù)據(jù)管理之間的相互影響——AI 趨勢如何改變數(shù)據(jù)管理,數(shù)據(jù)管理趨勢又如何反過來影響 AI。我們也會談到 AI 在數(shù)據(jù)庫運維自動化方面的應(yīng)用。

之后,Andy Pavlo 將回顧今年行業(yè)發(fā)生的重大事件——里程碑式的進展、收購案、新公司的誕生、已經(jīng)退出歷史舞臺的公司、被收購的公司,并探討這些變化將如何塑造 2026 年乃至更長遠的數(shù)據(jù)管理和軟件開發(fā)格局。

最后,我們會展開一場非常有意思的討論:AI 正如何影響計算機科學——它改變了教學方式、研究方式,以及許多人的職業(yè)發(fā)展道路。最后大約留 10 分鐘進行問答。

熟悉 DBOS 的朋友可能知道,它曾經(jīng)代表 Database Operating System(數(shù)據(jù)庫操作系統(tǒng))。這家公司起源于 MIT 和斯坦福的一個研究項目,最初是因為聯(lián)合創(chuàng)始人 Matei Zaharia 請 Mike 幫忙解決 Databricks 的持久化分布式隊列問題。這個契機催生了一個研究項目:在分布式數(shù)據(jù)庫之上構(gòu)建操作系統(tǒng),作為 Linux 的潛在替代方案——一個從設(shè)計上就更加云原生的系統(tǒng)。

如今,DBOS 代表 Durable Backends that are Observable and Scalable(持久、可觀測、可擴展的后端)——這個縮寫是我后來硬湊的。如果你了解 DBOS,它是一個開源的持久化工作流編排庫,能讓你的應(yīng)用程序和后端具備故障恢復(fù)能力,同時提供可觀測性,并通過更簡便的隊列機制實現(xiàn)彈性擴展。正如一位 DBOS 用戶精辟總結(jié)的:DBOS 讓你想搞砸都難。這也是為什么 DBOS 在眾多新興 AI 應(yīng)用公司中如此受歡迎——他們需要 AI 工作流無論遇到什么意外情況都能按預(yù)期運行。

Michael 稍后會詳細講解持久性與 Agentic AI 之間的關(guān)系。簡單說,這就是 DBOS。如果你正在構(gòu)建軟件,想讓它輕松實現(xiàn)防錯和可觀測,可以了解一下 DBOS 開源庫。

你可能會好奇:我們不是數(shù)據(jù)庫公司,為什么要舉辦數(shù)據(jù)庫研發(fā)的網(wǎng)絡(luò)研討會?原因是:Postgres 的發(fā)明者 Mike Stonebraker 是 DBOS 的聯(lián)合創(chuàng)始人;我們也和 CMU 的 Andy Pavlo 是好朋友——他發(fā)明了"數(shù)據(jù)庫學"(databaseology)這個詞,同時也是 "So You Don't Have To" AI 的創(chuàng)始人,這是一個 AI 驅(qū)動的數(shù)據(jù)庫調(diào)優(yōu)服務(wù),推薦大家去看看。好,閑話少說,讓我們開始今天的議程,聽聽 Andy 和 Mike 怎么說。

第一部分:AI 如何影響數(shù)據(jù)管理?

[4:03] 主持人: 第一個話題是:AI 如何影響數(shù)據(jù)管理?數(shù)據(jù)管理又如何影響 AI?Mike,你先來?

[4:10] Mike Stonebraker: 謝謝 Andy。還有另一位 Andy,你好。我得先說一下,我現(xiàn)在身體不太舒服,狀態(tài)不是 100%,所以 Andy P,你得對我手下留情。

Sam Madden 幾周前把生成式 AI 和大語言模型形容為"自切片面包以來最偉大的發(fā)明"——他沒有原話這么說,但意思差不多。我的看法要保守得多,讓我分享一下我使用大語言模型的經(jīng)驗。

【譯注】"自切片面包以來最偉大的發(fā)明"(the best thing since sliced bread)是英語中一個常見的俚語,用來形容某樣東西非常了不起、革命性。這個說法源于 1928 年美國發(fā)明的預(yù)切片面包,當時被認為是家庭生活的重大便利創(chuàng)新。

我關(guān)注的是企業(yè)數(shù)據(jù),所以一個顯而易見的問題是:能不能用大語言模型來查詢數(shù)據(jù)倉庫?業(yè)界有一些公開的基準測試——BIRD、Spider、Spider 2——報告的準確率在 60% 到 90% 之間,看起來相當不錯。但這不是我在真實數(shù)據(jù)倉庫上的體驗。

我們試了 MIT 數(shù)據(jù)倉庫的一個子集,里面有學生、課程、教職員工、專業(yè)等各種信息。我們找了真實用戶——事實上,我所在的 MIT CSAIL 實驗室就是這個數(shù)據(jù)倉庫的真實用戶。我們收集了真實用戶的查詢,搞清楚對應(yīng)的標準 SQL 是什么,于是我們有了一批"自然語言-標準 SQL"的配對數(shù)據(jù)。

我們用各種 LLM 在 MIT 數(shù)據(jù)倉庫上測試,準確率是。不是說很低——是零。什么都查不出來。

然后我們嘗試了所有標準技術(shù)——RAG、把查詢分解成更簡單的部分、從其他來源補充數(shù)據(jù)——準確率勉強提升到 20% 左右。如果我們告訴 LLM 具體要查哪張表或哪幾張表,能提升到 30% 左右。但離實際可用還差得遠。

你可能會說,也許 MIT 的數(shù)據(jù)是特例。但我們在七個不同的真實數(shù)據(jù)倉庫上測試,結(jié)果每次都一樣。

有些人報告了更好的結(jié)果,但我持懷疑態(tài)度。原因如下——MIT 數(shù)據(jù)倉庫有什么特點讓它如此困難?

第一,這不是公開數(shù)據(jù)。 LLM 根本無法訪問這些數(shù)據(jù),因為它們受到各種隱私和安全保護。

第二,MIT 有很多獨特的術(shù)語。 如果你想查"過去兩年誰主修了計算機科學"——MIT 數(shù)據(jù)倉庫回答不了這個問題,因為 MIT 根本不用"計算機科學"這種說法。計算機科學實際上叫 "Course 6.2"。還有 J-term,是一月份的一個月學期。這些東西你不能指望 LLM 知道。

第三個問題是我所說的"語義重疊"。 MIT 的數(shù)據(jù)倉庫里充滿了物化視圖,這些視圖是為了加速常用查詢而存在的。但問題在于,它給你提供了多種方式來回答同一個查詢,而且語義往往略有不同——比如有些數(shù)據(jù)是按月的,有些是按周的。

第四是復(fù)雜查詢。 這些查詢大多涉及三到四張表的連接,還帶有聚合操作,相當復(fù)雜。

[10:00] 因此,如果你的數(shù)據(jù)庫具有這四個特征中的任何一個——非公開、術(shù)語獨特、語義重疊、查詢復(fù)雜——我對用 LLM 解決問題不抱樂觀態(tài)度。

所以我的思路其實不太一樣。要想把 Text-to-SQL 做好——首先,在企業(yè)環(huán)境中,真正的問題是這樣的:我有 ERP 系統(tǒng)、CRM 系統(tǒng),還有一大堆其他系統(tǒng)和大量文本,我想查詢類似"誰既是我的供應(yīng)商又是我的客戶"這樣的問題。這需要查詢多個私有數(shù)據(jù)源,既有文本也有 SQL。這本質(zhì)上是數(shù)據(jù)湖問題。

怎么解決數(shù)據(jù)湖問題?讓我舉個簡單的例子。我們有個學生在和德國慕尼黑市合作,處理他們的交通部門數(shù)據(jù)。有各種各樣的查詢,比如:為什么這個路口的綠燈時間不長一點?或者,電車通過沒有紅綠燈的路口時最高時速是多少?慕尼黑市有六七個不同的數(shù)據(jù)源,理論上可以回答這些問題。這是典型的數(shù)據(jù)湖場景。

我的觀點是:最簡單的方法是把這些數(shù)據(jù)源包裝成一個非常小的 SQL 子集,讓用戶能夠表達他們想要什么。我主張系統(tǒng)的頂層應(yīng)該是面向 SQL 的,而不是面向 LLM 的。 這是我正在研究的方向。也許這是個特例,也許不是。也許 Amazon 最近發(fā)布的 Bedrock 能在這方面有所幫助。

我留給大家一個測試:試著問你最喜歡的 LLM 這個問題——"有多少 MIT 教授有維基百科頁面?"這個查詢有兩個問題。第一,"誰是 MIT 教授"的答案在 MIT 數(shù)據(jù)倉庫里——我剛才說的那些問題都適用。第二個問題是維基百科,這是另一個數(shù)據(jù)源,它有個很好用的界面——你輸入某人的名字就能看到他們的頁面。LLM 最近開始能做這個了。但我很容易給你出一個更復(fù)雜的問題,它們就答不上來了。

我的思路是:給 MIT 數(shù)據(jù)倉庫包一層封裝,讓它足夠簡單,能夠通過 Text-to-SQL(或者 Text-to-簡化SQL)來回答問題;然后給維基百科包一層封裝,就是一個"查找 Andy Pavlo"或"查找任何人"的接口。然后把這兩個系統(tǒng)做一個連接操作。要用迭代替換,因為維基百科頁面比 MIT 教授多得多。

在我看來,這變成了一個查詢優(yōu)化問題——查詢優(yōu)化器最擅長解決這類問題。這就是我的研究方向。

當然,這些觀點要打很大的折扣。第一,我只關(guān)注企業(yè)數(shù)據(jù),別人可能關(guān)注很多其他領(lǐng)域。第二,我主要關(guān)注的是防火墻內(nèi)部、LLM 無法訪問的數(shù)據(jù)。所以我的經(jīng)驗可能比較特殊。在我看來,LLM 在某些事情上表現(xiàn)很好,但可能不是所有問題的答案。

好,現(xiàn)在讓 Andy Pavlo 來說說,他對世界的看法要樂觀得多。

第二部分:Andy Pavlo 談 LLM 與 Vibe Coding

[15:21] Andy Pavlo: 說到維基百科,我還想提一嘴——我的維基百科頁面被刪掉了,因為我的簡介里寫我是"在巴爾的摩街頭出生的"(born in the streets of Baltimore),實際上我是在巴爾的摩出生的,但顯然不是在街頭。

【譯注】這里 Andy 在自嘲。"Born in the streets" 聽起來像是說在街頭流浪時出生的,有一種"街頭混混"的既視感,而實際上他只是在巴爾的摩市出生而已。維基百科可能因為來源不可靠或措辭不當而刪除了他的頁面。

總之,我對 LLM 取得的成就要樂觀得多。在自然語言轉(zhuǎn) SQL 這件事上,對于某些特定挑戰(zhàn),確實會有困難。但我更關(guān)注的是全新應(yīng)用(greenfield applications)——未來的企業(yè)應(yīng)用總要從某個地方開始,而它們現(xiàn)在就在開始。

【譯注】Greenfield(綠地)在軟件開發(fā)中指從零開始構(gòu)建的新項目,沒有歷史包袱,與 brownfield(棕地,指在既有系統(tǒng)上改造)相對。

Andrej Karpathy 去年創(chuàng)造了 "vibe coding"(氛圍編程/憑感覺寫代碼) 這個詞,我們看到大量新應(yīng)用幾乎完全由 LLM 或編程代理生成。你可能會問:"這些代碼比人寫的好還是差?"差不多,因為這些模型是在海量代碼語料上訓練的。人類有時寫好代碼,有時寫爛代碼——LLM 也一樣。

【譯注】Vibe coding 是 Andrej Karpathy(前 OpenAI/Tesla AI 總監(jiān))提出的概念,指的是用自然語言描述你想要什么,讓 AI 幫你生成代碼,你只需要"感覺"一下對不對,而不是逐行編寫。這個詞帶有一點調(diào)侃意味,暗示程序員只需要"找感覺",不用真正懂代碼。

我對 LLM 作為編程代理的能力相當看好。說說我們自己的經(jīng)驗:我們在卡內(nèi)基梅隆教的課程,項目都是用 C++ 寫的。一年前,LLM 能解決一部分項目,但不是全部——它能生成代碼,但不是所有代碼都正確或有用?,F(xiàn)在已經(jīng)到了這樣的程度:我們的項目幾乎可以完全由 LLM 編寫和解決。

所以我認為 vibe coding 是真實存在的趨勢,我們將看到更多基于數(shù)據(jù)庫的應(yīng)用涌現(xiàn)。但挑戰(zhàn)在于:你有這么多代理在生成新的應(yīng)用代碼,這些代碼會和數(shù)據(jù)庫交互、讀寫數(shù)據(jù)?,F(xiàn)在我們要處理所有涌向數(shù)據(jù)庫系統(tǒng)的負載。

在 LLM 出現(xiàn)之前,所有應(yīng)用代碼都是人寫的,它們會訪問數(shù)據(jù)庫系統(tǒng),你很幸運才能有一個人類或 DBA 來維護、優(yōu)化和監(jiān)控這些數(shù)據(jù)庫系統(tǒng)?,F(xiàn)在人類不寫代碼了,也沒有人類監(jiān)控數(shù)據(jù)庫系統(tǒng)了——這簡直是災(zāi)難的完美配方。

[18:01] 在研究方面,我們已經(jīng)研究了好幾年如何用機器學習和 AI 技術(shù)來自動化數(shù)據(jù)庫系統(tǒng)的管理和優(yōu)化。這不是 AI 突然帶來的新能力——人們從 1970 年代就開始嘗試了。最早的工作之一是自動為關(guān)系數(shù)據(jù)庫選擇索引——1976 年 SIGMOD 上就有相關(guān)論文。Microsoft 的 AutoAdmin 項目也在做這件事。

但我們研究的是從整體上看待數(shù)據(jù)庫系統(tǒng)——嘗試調(diào)優(yōu)數(shù)據(jù)庫系統(tǒng)中所有可調(diào)的東西,以應(yīng)對來自 vibe-coded 應(yīng)用的隨機查詢,同時關(guān)注數(shù)據(jù)庫系統(tǒng)的整個生命周期。

事實證明,LLM 在這方面相當擅長。我們現(xiàn)在研究的是如何同時調(diào)優(yōu)數(shù)據(jù)庫系統(tǒng)暴露給你的所有配置。已有很多工作研究如何調(diào)優(yōu)單個方面——"你需要什么最佳索引"或"系統(tǒng)需要什么最佳配置參數(shù)"——比如 Postgres 的 shared_buffers 或 MySQL 的 innodb_buffer_pool_size。但所有這些工具都只針對一件事。我們研究的是:如何同時調(diào)優(yōu)所有東西?因為這樣才能找到數(shù)據(jù)庫的真正全局最優(yōu)配置。

在我們這個領(lǐng)域的最新工作中,我們不是用 LLM 來做決策,而是用 LLM 來實現(xiàn)不同類型數(shù)據(jù)庫或不同數(shù)據(jù)庫部署之間的知識遷移。我們的算法可以在一個流程中調(diào)優(yōu)索引、配置參數(shù)、查詢計劃提示、表級參數(shù)、索引日志——基本上是 Postgres 暴露給你的所有東西。我們可以把這些全部一起調(diào)優(yōu)。

但問題是,你得為這個特定的數(shù)據(jù)庫實例訓練非常專用的模型。我們最新的工作是利用 LLM 來識別彼此相似但不完全相同的數(shù)據(jù)庫。然后我們可以把從調(diào)優(yōu)一個數(shù)據(jù)庫收集的所有訓練數(shù)據(jù),應(yīng)用到另一個數(shù)據(jù)庫上——效果出奇地好。

[20:40] 關(guān)于這些算法的性能,我要說的是:當前研究表明,這種專門為數(shù)據(jù)庫優(yōu)化和調(diào)優(yōu)定制的算法,比 LLM 能做到的好兩到三倍。但 LLM 速度很快——ChatGPT 能在 15 分鐘內(nèi)給你的數(shù)據(jù)庫吐出一套方案,而我們最好的算法現(xiàn)在需要 50 分鐘。所以這是速度和質(zhì)量之間的權(quán)衡。根據(jù)問題的嚴重程度和你的需求,你可能會選擇其中一個。

[21:21] 現(xiàn)在我們在研究的另一個很酷的東西——也是我非??春?LLM 的原因——是推理代理(reasoning agents):識別問題,然后決定調(diào)用哪個子代理或工具來解決它。比如,如果有異常檢測,數(shù)據(jù)庫系統(tǒng)有某種延遲問題,推理代理可以決定:"我要運行這個工具來構(gòu)建索引,因為我認為這就是當前的問題;我要運行另一個工具來優(yōu)化存儲性能。"

這就是我認為在未來一年左右會出現(xiàn)的真正酷炫的東西:能夠同時審視一堆不同的問題,并決定調(diào)用哪個子代理。子代理可以是 LLM,也可以是這些定制算法之一。我認為這非常令人興奮,LLM 在這個領(lǐng)域絕對是顛覆性的。

第三部分:Agentic AI 與數(shù)據(jù)庫技術(shù)

[22:18] Mike Stonebraker: 我認為,至少在數(shù)據(jù)管理領(lǐng)域,自動調(diào)優(yōu)應(yīng)該能成功,因為它理應(yīng)可行,理應(yīng)具有商業(yè)價值。所以我很高興看到"OtterTune 二代"還活著,盡管 OtterTune 本身沒能成功。

【譯注】OtterTune 是 Andy Pavlo 之前創(chuàng)辦的數(shù)據(jù)庫自動調(diào)優(yōu)公司,后來關(guān)閉了。Mike 這里用"Son of OtterTune"(OtterTune 之子)來調(diào)侃 Andy 新的創(chuàng)業(yè)項目 "So You Don't Have To" AI。

[22:52] Andy Pavlo: 我得說,OtterTune 面臨的挑戰(zhàn)是——因為我們不托管數(shù)據(jù)庫系統(tǒng)——存在形態(tài)問題,需要用戶授權(quán)我們連接到他們的數(shù)據(jù)庫。而且 OtterTune 是被動調(diào)優(yōu),在系統(tǒng)外部觀察發(fā)生了什么,然后做改變,再觀察后來發(fā)生了什么。

我們現(xiàn)在做的新工作不同——我們不是要托管數(shù)據(jù)庫系統(tǒng),而是尋求與現(xiàn)有平臺集成。如果你在應(yīng)用程序和數(shù)據(jù)庫服務(wù)器之間放一個代理(想想 PgBouncer、PgCat、PgDog——現(xiàn)在有很多這樣的 Postgres 代理和其他系統(tǒng)的代理),你就能看到查詢到達時的樣子,可以在查詢進入時操縱它們。我們?nèi)匀徊煌泄軘?shù)據(jù)庫系統(tǒng)本身,但至少現(xiàn)在我們能看到我們所做改變的效果——這對我們能做的事情產(chǎn)生了很大影響,而 OtterTune 做不到這一點。

從商業(yè)角度,我們現(xiàn)在的做法是:不再做一個獨立產(chǎn)品讓用戶注冊、連接數(shù)據(jù)庫、授權(quán)等等,而是在討論與現(xiàn)有平臺做 OEM 白標集成。這讓我們可以專注于 ML 數(shù)據(jù)庫這一塊,而不用操心開發(fā)者體驗和入職流程。

[24:20] Mike Stonebraker: 好吧,祝你好運,希望你成功。

Andy Pavlo: 謝謝 Mike。

[24:26] Mike Stonebraker: 我想談一件事:整個世界都愛上了 Agentic AI。在我看來,Agentic AI 意味著你有一個工作流,里面有些是 LLM,有些是 AI,有些是別的什么。也就是說:如果 LLM 不能直接做某件事,也許你可以在它周圍加一些東西,讓它更成功。我們在 MIT 做了很多這方面的工作。

DBOS 早期發(fā)現(xiàn)的一件事是:總體而言,Agentic AI 應(yīng)用需要持久化計算(durable computing),因為這些東西很多是長時間運行的,如果出錯,你不想從頭再來。所以持久化計算在 Agentic AI 中是個大問題。有一堆商業(yè)產(chǎn)品在做這個。

但到目前為止,Agentic AI 基本上是我所說的"只讀"——你查詢一堆地方,然后拼湊出結(jié)論,比如"我預(yù)測 Andy Pavlo 的 OtterTune 繼任者會成功"之類的。

我認為用不了多久,Agentic AI 就會變成"讀寫"的。這意味著持久化計算本質(zhì)上就是事務(wù)系統(tǒng)中 ACID 的 D(Durability,持久性)。完全是同一回事?,F(xiàn)在大家實現(xiàn)持久性的方式都在使用數(shù)據(jù)庫技術(shù)——你有一個日志,如果出了問題,你回滾然后重放。

[26:39] 所以這將是一個數(shù)據(jù)庫問題,而妙處在于:它要求你把應(yīng)用狀態(tài)放進數(shù)據(jù)庫。正如 Andy Pavlo 剛才說的,我相信數(shù)據(jù)庫將逐漸接管應(yīng)用程序狀態(tài)的存儲——因為這樣你就能獲得持久性。

但一旦涉及讀寫……我最喜歡的例子是:假設(shè)你在經(jīng)營一家在線自行車店。服務(wù)器端的大致流程是這樣的:客戶進來說"我想買一輛 XYZ 自行車"。你的第一個動作是:"我有沒有這輛車?"所以你需要查詢庫存,如果有就預(yù)留它。

第二步,如果有貨,你要確認是否愿意和這個客戶做生意。這可以用 LLM 來判斷:這個客戶是不是退貨太多?信用評級如何?等等。

如果都沒問題,第三步就是收錢——PayPal 或者你喜歡的任何支付系統(tǒng)。如果這也沒問題,就發(fā)貨。

所以基本上是四個步驟,每個都是一個事務(wù),大多數(shù)涉及更新操作。比如,如果你給履約系統(tǒng)一個錯誤的地址,它就得把所有東西回滾。這些步驟里有一堆更新操作。

[28:36] 這就是涉及更新的場景。你必須處理失敗情況。持久性只處理正向場景——完成你的工作流。你還必須處理回滾,這需要某種原子性的概念。

[29:04] 我認為搞清楚 ACID 對工作流來說到底意味著什么,是一件大事。我正在推銷我為 CIDR 寫的一篇論文,將在一月份發(fā)表。我認為那是一個過渡性的解決方案,但不是最終方案。搞清楚這一切還需要一些時間。

另一個問題是:目前 LLM 的架構(gòu)方式,大多數(shù)是非確定性的。所以如果你的代碼有 bug,你很可能無法復(fù)現(xiàn)它。數(shù)據(jù)庫領(lǐng)域的人對此早就知道了。這叫做 Heisenbug(海森堡 bug)——不可復(fù)現(xiàn)的 bug,相對于 Bohrbug(玻爾 bug)——可復(fù)現(xiàn)的。Jim Gray 很久很久以前寫了很多關(guān)于這個的東西。我們顯然要重新審視所有這些問題。

【譯注】Heisenbug 這個名字來源于量子力學的"海森堡不確定性原理"——你一觀察它,它就消失了。Bohrbug 則來源于玻爾的確定性原子模型。這是 Jim Gray 在 1985 年提出的術(shù)語,用來描述軟件中兩類不同性質(zhì)的 bug。

[30:02] 所以我認為,這是一個數(shù)據(jù)庫技術(shù)將對 Agentic AI 產(chǎn)生巨大幫助的領(lǐng)域——讓它實現(xiàn)"ACID-plus"或者不管最終叫什么。我認為這將是一件大事。

關(guān)于編程語言方面——事實已經(jīng)證明它非常有用。Vibe coding 確實有效,在全新應(yīng)用上效果最好——絕對正確。問題是 95% 的企業(yè)程序員不是在做全新項目,他們得處理已有的系統(tǒng)。

而且眾所周知,vibe coding 在代碼結(jié)構(gòu)良好的情況下效果最好。但問題是,典型的企業(yè)系統(tǒng)不是這樣的。系統(tǒng)被更新、維護、打補丁、更新、維護、打補丁……最后變得太丑陋了,你只好扔掉重寫。

所以我認為,要想最大限度地利用 vibe coding 的優(yōu)勢,我們必須改變企業(yè)編寫軟件的方式。還有大量工作要做。

第四部分:2025 年行業(yè)回顧——并購與市場動態(tài)

[31:43] Andy Pavlo: 不僅僅是并購——今年數(shù)據(jù)庫領(lǐng)域風起云涌。我感覺今年的活動比去年還多。

先說說主要的收購案。最大的一筆可能是 Databricks 收購了 Neon,緊接著 Snowflake 收購了 Crunchy。所以 Postgres 生態(tài)有很多動作——我們稍后會談到。

IBM 買了兩家數(shù)據(jù)庫公司。 年初買了 DataStax——這是開發(fā) Cassandra 的主要公司。然后我記得這周剛宣布收購了 Confluent——Kafka 背后的主要公司。這些都是大手筆。

融資方面,ClickHouse、Supabase 都完成了大額融資。Databricks 又融了一大筆,因為他們總是在融錢,等著 IPO。Informatica 被 Salesforce 收購了。SkyDB 被 MariaDB 又買回去了——這個比較奇怪,因為他們?nèi)ツ旰孟袷前阉鸱殖瑟毩⒐镜?,今年又買回來了。

另一個大消息是 Fivetran 正在與 dbt 合并——我想這筆交易明年會完成。

所以是的,又是活動頻繁的一年。

[33:17] 關(guān)于倒閉的數(shù)據(jù)庫公司,我曾預(yù)測 2025 年會有更多公司失敗。大約兩年前有一份 Gartner 報告也做了類似的推測。但我能想到倒閉的只有兩三家:Voltron Data 幾周前宣布關(guān)閉;Fauna 五月份關(guān)閉;還有一家叫 MycaleDB 的中國 MySQL 托管公司今年早些時候倒閉了。

所以我預(yù)測錯了。我以為會有更多數(shù)據(jù)庫公司倒閉。數(shù)據(jù)庫公司的朋友們告訴我,其實今年相當不錯。這是積極的信號。當然確實有一些公司倒閉了,但沒有我想象的那么多。也許有些公司在苦苦支撐,誰知道呢。

有兩家公司被私募股權(quán)收購了:CouchbaseSingleStore。SingleStore 被一家叫 Vector 的私募公司收購了——他們幾年前買過 MarkLogic,所以有運營數(shù)據(jù)庫公司的經(jīng)驗。但通常私募股權(quán)買下一家公司后,會讓它進入維護模式。希望 Couchbase 和 SingleStore 能挺過去。

[34:50] 說到今年的整體氛圍——顯然,Postgres 又是輝煌的一年。說到 Mike——我喜歡開頭介紹里他被列為 Postgres 的發(fā)明者,而我被列為一個網(wǎng)絡(luò)梗"數(shù)據(jù)庫學"的發(fā)明者。當然不是一回事,但我就當個榮譽收了。另外我們也可以加上圖靈獎——那更重要。

是的,Postgres 今年太瘋狂了。Databricks 買了 Neon,還買了 Mooncake——這讓他們有了讓 Postgres 讀寫 Iceberg 的能力。微軟剛剛發(fā)布了 Horizon DB——這是他們托管版的 Postgres,架構(gòu)類似 Neon,采用存算分離,大概兩三周前宣布的——是他們一直在做的項目。

所以越來越多的 Postgres。

[35:42] 在開源數(shù)據(jù)庫領(lǐng)域,唯一可能算是 Postgres 競爭對手的是 MySQL——但那條船已經(jīng)開走了。而且 Oracle 解雇了基本上整個 MySQL 開發(fā)團隊,只留下做 HeatWave 的——九月份的事。所以現(xiàn)在真的沒有什么大公司在全力投入 MySQL 的開發(fā)?;旧?,Postgres 已經(jīng)贏了。

這真是太令人興奮了。Postgres 的代碼庫——非常漂亮,前端很棒。后端有點問題,我寫過博客文章,我們也報道過這個。

Supabase 整合 OrioleDB 的努力非常令人興奮,因為那是多版本并發(fā)控制和其他機制的現(xiàn)代實現(xiàn)。Postgres 的那些機制——Mike,你們當年在 80 年代做的時候,根本沒有其他系統(tǒng)可以參考怎么做。所以希望他們能糾正你們當年在伯克利犯的錯誤。

[36:45] 總之,數(shù)據(jù)庫商業(yè)領(lǐng)域現(xiàn)在非?;钴S。正如我說的,大量 vibe coding 應(yīng)用正在生成,而 Postgres 是很多應(yīng)用的默認選擇。

還有一件事要提——有兩個重大項目宣布要做分布式 Postgres。一個是 Supabase 的 Multigres,由發(fā)明 MySQL Vitess 的那個人領(lǐng)導——Vitess 后來被商業(yè)化為 PlanetScale。然后 PlanetScale 也宣布了一個叫 Naki 的項目,試圖做一個類似的分片、無共享版本的 Postgres。

有趣的是,這不是第一次有人嘗試做分布式 Postgres。2000 年代末、2010 年代初有一堆這方面的工作——Translattice、Greenplum,我記得華為也有一個項目。但對于 OLTP 工作負載,沒有人真正成功做出來。

我認為現(xiàn)在有足夠的能量,時機終于到了——你終于可以擁有一個真正可擴展的分布式 Postgres——不管是通過 Multigres 還是 Naki。這是我期待明年會出現(xiàn)的一個重大進展。

第五部分:Postgres 的未來與向量數(shù)據(jù)庫

[38:14] Mike Stonebraker: 說到 Postgres,我認為 Postgres 已經(jīng)并將繼續(xù)統(tǒng)治世界。原因是所有主要云廠商都把寶押在了 Postgres 用戶接口上。Postgres 的線協(xié)議將無處不在。

他們要么選擇一個標準來開發(fā),要么自己搞一套,而每一家都選擇了 Postgres 線協(xié)議。

我認為這是一個好選擇的原因是:很多年前 Oracle 收購了 MySQL,這讓社區(qū)對 MySQL 能否保持社區(qū)屬性產(chǎn)生了疑慮。

我覺得 Postgres 最令人驚嘆的是:這個系統(tǒng)不屬于任何企業(yè)——它由一群非常非常聰明的人運營,這些人在各種不同的地方工作。 所以你應(yīng)該把 Postgres 看作開源本來應(yīng)該是的樣子。它來自社區(qū),服務(wù)于社區(qū)。

[39:46] 我還想談幾件事。第一,有人在聊天里提到了 Kumo。是的,我們看過 Kumo。Kumo 做的是預(yù)測,不是 Text-to-SQL,他們解決的是不同的問題。

另外,還有其他分布式 Postgres 類的東西。Greenplum 是一個,CockroachDB 是另一個,Yugabyte 也是。還有幾個我一時想不起名字了。但我認為,如果你還沒有把寶押在 Postgres 上,現(xiàn)在這樣做絕對是正確的。

[40:43] 我還想指出,Andy 和我?guī)啄昵皩懥艘黄撐?,叫做《What Goes Around Comes Around... and Around》(風水輪流轉(zhuǎn)……轉(zhuǎn)眼又一圈)之類的。你們都應(yīng)該回去讀那篇論文,因為在我看來,那是對未來走向的絕佳預(yù)測。

【譯注】這是 Mike Stonebraker 和 Andy Pavlo 在 2024 年發(fā)表的論文,是對 2005 年經(jīng)典論文《What Goes Around Comes Around》的續(xù)篇。論文回顧了數(shù)據(jù)庫領(lǐng)域的技術(shù)輪回,指出很多"新"技術(shù)其實是舊概念的重新包裝。

舉個例子,現(xiàn)在對向量索引或向量數(shù)據(jù)庫有很大興趣。那么,什么是向量數(shù)據(jù)庫?向量數(shù)據(jù)庫就是一堆關(guān)系型的 blob,加上一個圖結(jié)構(gòu)的索引。

讀過 Frank McSherry 工作的人都知道,他清楚地表明:做圖檢索的最佳方法是——盡可能多地對圖進行編碼,把它放進內(nèi)存,然后寫一個定制的查詢執(zhí)行器來處理。成功的向量數(shù)據(jù)庫似乎正是這么做的。

所以我的觀點是:去讀那篇論文吧,我認為它對未來走向的預(yù)見性很強。

[42:11] 主持人: 謝謝。我們會把論文鏈接和活動錄像一起分享給大家。

在我們轉(zhuǎn)向計算機科學的未來之前,快速問一個問題。你剛才提到向量數(shù)據(jù)庫,有不少關(guān)于向量數(shù)據(jù)庫的問題。Andy,你有沒有特別喜歡的向量數(shù)據(jù)庫?你對向量數(shù)據(jù)庫這個領(lǐng)域整體怎么看?

[42:36] Andy Pavlo: 我得小心措辭,免得得罪人。

我是說,我喜歡 Weaviate 的團隊。我沒用過他們的系統(tǒng),但他們非常開放——開源的,文檔寫得很好——我能理解他們在做什么,比其他家可能更清楚一些。所有向量數(shù)據(jù)庫公司都來我們這兒做過演講,都在 YouTube 上。

這些向量數(shù)據(jù)庫公司需要想清楚的問題是——我?guī)啄昵昂?Weaviate 的 CEO 聊過這個——現(xiàn)在他們不是作為主數(shù)據(jù)庫在用。正如 Mike 說的,它們基本上是 JSON blob,里面放著向量嵌入,然后他們?yōu)檫@些建索引。現(xiàn)在很多人把它們當成 Elasticsearch 來用——就像數(shù)據(jù)庫的第二份副本,你可以在上面跑最近鄰搜索,不干擾數(shù)據(jù)倉庫或常規(guī)的 OLTP 工作負載。

[43:48] 所以他們會走到一個十字路口,必須決定:是繼續(xù)做一個像 Elasticsearch 那樣的邊緣專用數(shù)據(jù)庫(這沒問題,有市場),還是想成為主數(shù)據(jù)庫。如果是后者,你就得開始添加 Postgres、CockroachDB 或 Oracle 提供的所有那些東西——事務(wù)、SQL 等等。

所以他們得決定怎么走。

不過我要說,挑戰(zhàn)在于:歸根結(jié)底,向量索引就是索引而已。所以對于像 Postgres 這樣高度可擴展的系統(tǒng),你可以很快添加這些新的索引類型。

值得注意的是,當 ChatGPT 在 2022-2023 年左右成為主流時,然后 RAG 成了人人都在說的熱詞,大家意識到"噢,怎么做 RAG?你需要向量索引"——所有主要數(shù)據(jù)庫廠商在一年內(nèi)都添加了向量索引。很多都利用了開源庫,比如 Meta 的 DiskANN 或 FAISS。添加這些東西并不是大工程。

相比之下,當列存儲出現(xiàn)時——那是相當根本性的工程改變,你必須改造系統(tǒng)來支持向量化執(zhí)行或列存儲。而向量索引,你可以直接塞進去,很快就能跑起來。

[45:23] 所以對我來說,這表明專門的向量數(shù)據(jù)庫系統(tǒng)的護城河沒那么寬。當然,它們做的事情肯定比 pgvector 好很多,但對于 99% 的人來說,用 pgvector 可能就夠了。

[45:46] Mike Stonebraker: 好,再補充兩點。

第一,花哨的向量索引基本上局限于內(nèi)存。 所以如果你的問題超出了內(nèi)存容量,性能會斷崖式下降。

第二,如果你的向量有大量更新,更新索引是個噩夢級的問題。 絕對是噩夢。

所以,如果你的數(shù)據(jù)是只讀的、規(guī)模不大,我認為向量索引沒問題。但如果你有大量更新,問題就復(fù)雜得多。而且如果你把索引和數(shù)據(jù)放在同一個主系統(tǒng)里運行,至少可以保持一致性。

[46:54] Andy Pavlo: 我是說,也不是那么一致,對吧?因為有時候這些索引你得重跑聚類算法,那意味著你得重新掃描所有數(shù)據(jù)。這和全文搜索的倒排索引面臨的挑戰(zhàn)一樣。它們可能有一個側(cè)緩沖區(qū),你先吸收所有寫入,然后最終得運行代價更高的重建任務(wù)。

第六部分:GPU 數(shù)據(jù)庫與 IBM 收購

[47:21] 主持人: 謝謝。關(guān)于市場還有一個問題。Andy,你提到 Voltron 關(guān)門了。有人問這對 GPU 加速數(shù)據(jù)庫的未來意味著什么?

[47:33] Andy Pavlo: 好,我得小心點。

我對 GPU 數(shù)據(jù)庫一直持懷疑態(tài)度。2018 年我們有一個研討會系列,邀請了所有主要的 GPU 數(shù)據(jù)庫廠商來校園。我記得他們會炫耀各種驚人的數(shù)字,但那些只適用于能裝進 GPU 內(nèi)存的數(shù)據(jù)庫。而且他們總是拿 Greenplum 來比——2018 年誰還在乎 Greenplum ???

所以我當時很懷疑,因為這看起來很小眾——你的數(shù)據(jù)必須足夠小才能裝進 GPU。

但發(fā)生變化的是——Voltron 在他們的論文項目或論文系統(tǒng)中展示的(雖然沒有找到產(chǎn)品市場契合點或商業(yè)可行性)——他們展示了如何快速地把數(shù)據(jù)從磁盤流式傳輸?shù)?GPU,讓 GPU 作為整個數(shù)據(jù)系統(tǒng)的加速器,而不用把所有東西都加載進去。

對我來說,這才是顛覆性的變化。不點名的話,我預(yù)計——你們應(yīng)該預(yù)期——2026 年會有一些主要數(shù)據(jù)庫廠商宣布他們現(xiàn)在支持 GPU 加速。

[49:00] 主持人: 酷。還有一個市場問題。IBM 收購 DataStax(Cassandra)和 Confluent(Kafka 和 Flink)如何改變 IBM 在數(shù)據(jù)庫市場的地位?

[49:07] Andy Pavlo: 噢,Mike 當過 Informix 的 CTO。他可以講講 IBM,對吧?

我是說,DB2 仍然賺很多錢。IMS 可能還在收維護費。他們在這些老東西上仍然賺很多錢。今天的 IBM 不是 IMS 時代的 IBM,文化和產(chǎn)出都變了。

【譯注】IMS(Information Management System)是 IBM 在 1966 年推出的層次型數(shù)據(jù)庫,至今仍在一些大型企業(yè)的核心系統(tǒng)中運行,是"古董級"但仍在收費的產(chǎn)品。

所以,還得看吧?還得看他們會多深入地參與 DataStax 和 Confluent 的日常運營——是像 Red Hat 那樣讓他們作為衛(wèi)星公司獨立運作,還是快速整合成 IBM 整體咨詢服務(wù)棧的一部分。

[49:56] 對于 Cassandra 來說,Cassandra 源代碼的第二大貢獻者其實是蘋果。蘋果運營著世界上最大的——如果不是最大也是最大之一的——公開 Cassandra 集群。所以我認為 Cassandra 的管理權(quán)會沒問題的。

Kafka 的話,還得看。但 Jay 是個聰明人,在 Confluent,我相信他們會想出辦法的。

【譯注】Jay Kreps 是 Kafka 的創(chuàng)始人之一,也是 Confluent 的聯(lián)合創(chuàng)始人兼 CEO。

[50:43] Mike Stonebraker: 我認為你們都應(yīng)該記住的是:IBM 基本上是一家服務(wù)公司和定制軟件開發(fā)公司。

很明顯發(fā)生的事情是 IBM 的客戶一直在要求這兩個系統(tǒng)。所以 IBM 有足夠的閑錢直接買下它們。

但我認為 IBM 有一個遺留硬件業(yè)務(wù)和一個巨大的遺留軟件業(yè)務(wù)。他們會繼續(xù)榨取這些業(yè)務(wù)的價值,直到這個電話會議上的每個人都安全退休。

第七部分:計算機科學教育與職業(yè)發(fā)展的未來

[51:33] 主持人: 好,讓我們換個話題,談?wù)動嬎銠C科學以及 AI 如何影響課程設(shè)置——MIT、CMU 和其他地方——以及職業(yè)機會。

事實上,問答區(qū)已經(jīng)有人問了:在 DBMS 公司找工作需要什么技能?Andy,也許你可以先談?wù)?AI 如何影響了 CMU 的課程?

[51:58] Andy Pavlo: 我得說,現(xiàn)在沒人知道答案。 LLM 在回答考試題目、作業(yè)問題上好得驚人。

說個軼事,在我們的數(shù)據(jù)庫系統(tǒng)入門課上,第一個作業(yè)是:我們給你一個數(shù)據(jù)集,給你問題——有點像在解決 Mike 剛才說的那個問題——你必須寫 SQL 來回答問題。我們相當確定大多數(shù)學生在用 LLM。事實上,老實說,我在學期開始時鼓勵他們用 LLM——這是現(xiàn)在任何開發(fā)者都應(yīng)該使用的工具,就像 GDB 或其他調(diào)試工具一樣。這就是世界的現(xiàn)狀。

但我要說,最終你必須理解基礎(chǔ)。這是卡內(nèi)基梅隆一直在更加強調(diào)的——我們一直在這方面做得很好,但現(xiàn)在比以往任何時候都更重要。

[52:55] 回到 vibe coding 的話題。你可以讓 LLM 生成一堆代碼,但如果你不理解這些代碼試圖做什么、你試圖實現(xiàn)什么,你就會迷失。

所以我說,你應(yīng)該學習的是計算機科學的核心基礎(chǔ),這部分其實沒變。不管是用 JavaScript、C++、Rust 還是什么——語言和工具可能變,但基礎(chǔ)很重要。理解軟件在為你做什么。

[53:40] 關(guān)于在數(shù)據(jù)庫系統(tǒng)公司找工作需要什么技能——我認為目前沒有太大變化。理解系統(tǒng)基礎(chǔ),理解硬件在做什么。

數(shù)據(jù)庫的美妙之處在于你必須理解一切——你會接觸到所有層面。所以你必須理解硬件想做什么、操作系統(tǒng)想做什么(或不想為你做什么)、網(wǎng)絡(luò)想做什么。理解所有這些。

然后我要強調(diào)的是:能夠與你沒有寫過的大型代碼庫互動、操作和理解。同樣,LLM 在這方面很有幫助。

[54:17] 還有調(diào)試——因為這個問題不會消失。LLM 還解決不了這個——我認為它們最終會做到。但理解復(fù)雜組件如何協(xié)同工作、相互交互、識別 bug、識別競態(tài)條件和其他問題——這個問題不會消失。這些東西只能通過實踐獲得。有很多方式可以做到。

我得說,現(xiàn)在的資源比 Mike 當學生時好太多了,比我當學生時也好太多?,F(xiàn)在有很多東西可以幫助人們理解數(shù)據(jù)庫系統(tǒng)在做什么。就是去做就行了。

[54:59] Mike Stonebraker: 我認為只要你來自一流大學,主修 CS 就會沒問題——正如 Andy 說的,你會學到如何利用所有可用的工具來提高生產(chǎn)力。

如果你從 Control Data Institute 或那類地方畢業(yè),我認為市場會很糟糕——因為那里只教你寫代碼,而這不會是一個很有市場價值的技能,除非你超級超級超級聰明。

【譯注】Control Data Institute 是美國一家已經(jīng)倒閉的職業(yè)培訓學校,曾經(jīng)提供計算機相關(guān)的職業(yè)培訓課程。Mike 這里用它來泛指那些只教技術(shù)操作、不注重計算機科學基礎(chǔ)的培訓機構(gòu)。

[55:48] 所以我認為,一流大學的 CS 專業(yè)招生總數(shù)可能會持平或下降一段時間。之后會怎樣,我不知道。

[56:00] Andy Pavlo: 但我還要說——一方面是的,因為 AI 幫助了很多事情,找工作會更難。但回到 vibe coding 那點,現(xiàn)在構(gòu)建東西太容易了。

所以最終目標不一定是去 Google 或 Apple 或誰那里工作——你可以自己干。當然,我知道對很多人來說,由于不同的經(jīng)濟狀況,說起來容易做起來難。但這也是令人興奮的一點——進入門檻大大降低了

但同樣,我要說你仍然需要理解基礎(chǔ)。

第八部分:問答——核心數(shù)據(jù)庫基礎(chǔ)

[56:36] 主持人: 有一個關(guān)于基礎(chǔ)的問題。實際上有好幾個。人們在問:你認為最重要的數(shù)據(jù)庫內(nèi)部基礎(chǔ)概念是什么?應(yīng)該學習或掌握哪些來提升職業(yè)機會?

[56:52] Andy Pavlo: 我是說,一個——不是要推銷自己的東西——但我們把所有課程材料都放在 YouTube 上了,你可以做所有編程作業(yè),做所有家庭作業(yè),不用付 CMU 一分錢。所以都在那兒,盡管去學吧。

我覺得就是 ACID 那一套,對吧?原子性、一致性、隔離性、持久性。理解那是什么樣子——如何把數(shù)據(jù)從非易失性存儲移到內(nèi)存中并進行交互。如何確保人們可以訪問他們的數(shù)據(jù)而不丟失任何東西。

這些是高層次的基礎(chǔ)。作為其中的一部分,你得理解算法復(fù)雜度。你得理解數(shù)據(jù)結(jié)構(gòu)。你得理解優(yōu)化技術(shù)。你得理解并發(fā)控制。一點關(guān)系代數(shù)的集合論也總是有用的。

[57:54] 我會稱這些為基礎(chǔ)。然后正如我之前說的,數(shù)據(jù)庫系統(tǒng)的美妙之處在于:無論你對計算的哪個方面感興趣,你都可以在數(shù)據(jù)庫的背景下做。

如果你喜歡算法,那個領(lǐng)域有很多工作可以看。如果你喜歡網(wǎng)絡(luò),你可以做那個。如果你喜歡編程語言,有一堆嘗試改進 SQL 或改變 SQL 的工作。

無論你對什么感興趣,你都可以在數(shù)據(jù)庫的背景下做。而且通常人們會為此付你很多錢。所以這就是為什么我對這個領(lǐng)域很看好。

第九部分:為什么選擇成為數(shù)據(jù)庫研究者?

[58:27] 主持人: 好,我們到整點了,最后一個問題。這是注冊表上有人問的。問題是問你們倆的:你們?yōu)槭裁催x擇成為 DBMS 研究者?

Andy Pavlo: Mike,你講講征兵的故事。

[58:46] Mike Stonebraker: 嗯,簡單的答案是:我讀研究生是因為當時有征兵制。 我的選擇是:去加拿大、進監(jiān)獄、去越南,或者讀研究生。這讓事情變得很簡單。

進了研究生院之后,我設(shè)法待到了 26 歲,然后軍隊就不要我了。

【譯注】這里說的是越南戰(zhàn)爭時期(1955-1975)美國的征兵制度。當時年輕男性面臨被征召入伍的風險,但研究生可以獲得延期服役的資格。26 歲之后通常不再被征召。

所以當我找到工作時——順便說一下,我認為我的論文完全是胡扯——當我到伯克利時,我說:"好吧,我得想辦法拿到終身教職,得找個新東西來研究。"

[59:47] 對我產(chǎn)生巨大影響的一件事是伯克利給了我一個導師:Gene Wong(黃煦濤)。Gene 說:"我們來看看這個——Ted Codd 剛剛寫了這篇開創(chuàng)性的論文。"那是 1971 年;他的論文 1970 年發(fā)表在 CACM 上。

于是我們開始研究數(shù)據(jù)方面的東西。Ted Codd 的東西簡單易懂,有一些數(shù)學基礎(chǔ)。另一個提案來自數(shù)據(jù)系統(tǒng)語言委員會(CODASYL),那是個低層次的圖結(jié)構(gòu)的東西,完全是一團糟。

Gene 和我看著彼此說:"怎么可能這么復(fù)雜的東西是正確的做法?"

所以這就定下了方向。很多是偶然,但很多是因為在你落腳的大學找到一個好導師。

【譯注】Ted Codd 是關(guān)系型數(shù)據(jù)庫之父,1970 年發(fā)表的論文《A Relational Model of Data for Large Shared Data Banks》奠定了關(guān)系數(shù)據(jù)庫的理論基礎(chǔ)。CODASYL(Conference on Data Systems Languages)則提出了網(wǎng)狀數(shù)據(jù)庫模型,在當時是 Codd 關(guān)系模型的主要競爭對手。

[1:01:06] Andy Pavlo: Mike 的故事比較傳奇。

我的情況是,我高中時被逮捕了,我不想進監(jiān)獄。 所以我查了聯(lián)邦監(jiān)獄管理局的統(tǒng)計數(shù)據(jù),看什么類型的美國人進監(jiān)獄的比例最低?是有博士學位的人。

所以我想,如果我拿個博士,進監(jiān)獄的可能性就更低了。這就是我決定讀博的原因。

然后數(shù)據(jù)庫對我來說就是自然而然的事。我在一家不太正經(jīng)的創(chuàng)業(yè)公司工作過,我們切換到 MySQL,我高中時就學了關(guān)系模型。太棒了。

Mike Stonebraker: 你應(yīng)該講講你真的進監(jiān)獄那次。

Andy Pavlo: 呃,等等。我被逮捕的時候,我們認罪的是地方指控,沒走聯(lián)邦程序。所以我從來沒進過監(jiān)獄。

但我確實試過在監(jiān)獄向我妻子求婚。他們從來沒真的把我關(guān)進去,Mike,因為他們擔心一旦我進了監(jiān)獄,我就在他們的保險范圍內(nèi)了。所以如果我出了問題或受傷,他們會被開除。所以我一直在外面的拘留區(qū)。

[1:02:25] 主持人: 嗯,好吧。不是我預(yù)期的答案,但非常精彩。

結(jié)語

[1:02:31] 主持人: 好了,我們得結(jié)束了。很抱歉沒能回答所有問題。

感謝 Mike 和 Andy,還有 DBOS 的 Jen,感謝你們幫助舉辦今天的網(wǎng)絡(luò)研討會,分享你們的智慧和經(jīng)驗。

祝你們和所有在線的朋友節(jié)日快樂、新年快樂,期待 2026 年的活動再見!

正文完

觀點總結(jié)與老馮評論 Mike Stonebraker 的核心觀點 1. 對 LLM 做 Text-to-SQL 持悲觀態(tài)度

觀點摘要: 在真實企業(yè)數(shù)據(jù)倉庫上測試 LLM,準確率幾乎為零。原因有四:數(shù)據(jù)非公開、術(shù)語獨特、語義重疊、查詢復(fù)雜。他主張用 SQL 封裝數(shù)據(jù)源,讓查詢優(yōu)化器解決問題,而非依賴 LLM。

老馮評論: 這是對 Text-to-SQL 炒作的當頭棒喝。學術(shù)界和媒體吹捧 60-90% 準確率,但那是在玩具數(shù)據(jù)集上的成績。一到真實企業(yè)環(huán)境——MIT 數(shù)據(jù)倉庫這種用"Course 6.2"代替"計算機科學"的奇葩命名——LLM 立刻原形畢露。

這揭示了 LLM 的本質(zhì)局限:它們是模式匹配器,不是推理引擎。企業(yè)數(shù)據(jù)的"暗知識"——隱性業(yè)務(wù)規(guī)則、歷史遺留術(shù)語——不在訓練語料里,LLM 自然束手無策。Mike 的"SQL 封裝 + 查詢優(yōu)化器"方案,本質(zhì)是承認:結(jié)構(gòu)化問題還得用結(jié)構(gòu)化方法解決。

2. Agentic AI 需要 ACID,數(shù)據(jù)庫技術(shù)將大放異彩

觀點摘要: 當前 Agentic AI 是"只讀"的,很快會變成"讀寫"。一旦涉及更新操作(如在線購物流程),就需要事務(wù)語義——原子性、持久性、回滾能力。這正是數(shù)據(jù)庫技術(shù)幾十年來解決的問題。

老馮評論: 這是 Mike 最具遠見的觀點。當前 AI Agent 框架基本都是"樂觀執(zhí)行"——假設(shè)一切順利,出錯就重來。這在真實業(yè)務(wù)場景中是災(zāi)難。

Mike 用自行車店的例子講得很清楚:查庫存→檢查信用→收款→發(fā)貨,每一步都可能失敗,失敗后必須回滾前序操作。這不是新問題——這就是 ACID 事務(wù)要解決的問題,只是披了層 AI 的皮。

我完全同意這個判斷:未來 1-2 年,數(shù)據(jù)庫技術(shù)(尤其是工作流事務(wù)、Saga 模式)將成為 Agentic AI 的核心基礎(chǔ)設(shè)施。DBOS 確實踩準了這個點。 這也是最近 PG 生態(tài)的各路 Agent DB 都在蹭 "Git for Data" 熱度的原因 —— 老馮在《Agent 需要什么樣的數(shù)據(jù)庫?[2]》中剛探討過這個問題。

3. Postgres 已經(jīng)贏了,押注 Postgres 是正確選擇

觀點摘要: 所有主要云廠商都選擇了 Postgres 線協(xié)議。Postgres 的治理模式是"開源該有的樣子"——社區(qū)所有,沒有單一企業(yè)控制。Oracle 收購 MySQL 后社區(qū)失去信任,Postgres 因此受益。

老馮評論: 這是事實陳述,不是預(yù)測。Postgres 確實已經(jīng)贏了——至少在開源關(guān)系型數(shù)據(jù)庫領(lǐng)域。AWS Aurora、Google AlloyDB、Azure Horizon DB、Supabase、Neon……所有人都在 Postgres 生態(tài)里玩。

Mike 作為 Postgres 創(chuàng)始人說這話,難免有"王婆賣瓜"之嫌,但客觀來說他沒說錯。MySQL 在 Oracle 手里確實涼了——今年 Oracle 裁掉了幾乎整個 MySQL 團隊。

不過老馮要補充一點:Postgres 贏了"協(xié)議戰(zhàn)",但這也意味著 PG 發(fā)行版內(nèi)戰(zhàn)即將打響。詳見《PostgreSQL 主宰數(shù)據(jù)庫世界,而誰來吞噬 PG?[3]》

4. 向量數(shù)據(jù)庫是"內(nèi)存圖索引 + 關(guān)系型 blob",護城河不寬

觀點摘要: 向量數(shù)據(jù)庫本質(zhì)上是給 JSON blob 加了個圖結(jié)構(gòu)索引。兩大限制:只能在內(nèi)存里跑(數(shù)據(jù)大了性能斷崖)、更新索引是噩夢。

老馮評論: 這是對向量數(shù)據(jù)庫最精準的降維打擊。Pinecone、Weaviate、Milvus 炒得火熱,但 Mike 一句話戳破泡沫:你們做的不過是 Postgres 擴展能做的事。

事實也確實如此——pgvector 出來后,大多數(shù)場景根本不需要專門的向量數(shù)據(jù)庫。Mike 說"99% 的人用 pgvector 就夠了",Andy 也表示認同。

我在兩年前《專用向量數(shù)據(jù)庫涼了嗎?[4]》一文中就預(yù)測過這一點。 向量數(shù)據(jù)庫公司的出路:要么做到極致性能(服務(wù)那 1% 的大規(guī)模場景),要么轉(zhuǎn)型成完整數(shù)據(jù)庫(加事務(wù)、加 SQL)—— 但后者意味著和 Postgres 正面硬剛,幾乎是死路一條。順帶一提,PG 生態(tài)里已經(jīng)有擴展在做 DiskANN 了,在 NVMe SSD 上跑得相當不錯。

Andy Pavlo 的核心觀點 1. Vibe Coding 是真的,LLM 正在改變軟件開發(fā)

觀點摘要: Andrej Karpathy 創(chuàng)造的"vibe coding"概念正在成為現(xiàn)實。CMU 的課程項目現(xiàn)在幾乎可以完全由 LLM 解決。代碼質(zhì)量和人寫的差不多——因為都是從同一個代碼語料庫學來的。

老馮評論: Andy 比 Mike 年輕 40 歲,他的樂觀主義反映了新一代研究者的心態(tài)。Vibe coding 確實在發(fā)生——GitHub Copilot、Cursor、Claude Code 的普及就是證明。

但 Andy 有一個關(guān)鍵前提經(jīng)常被忽略:vibe coding 只對新項目有效。他自己也承認,95% 的企業(yè)程序員不是在做新項目開發(fā)。那些幾十年積累下來的屎山——被反復(fù)"更新、維護、打補丁"直到丑陋不堪——LLM 同樣束手無策。

所以 vibe coding 的真正影響可能是:新應(yīng)用開發(fā)加速,但遺留系統(tǒng)維護依然是噩夢。這會加劇新舊兩極分化——用 AI 寫的新系統(tǒng)越來越多,老系統(tǒng)越來越?jīng)]人愿意碰。

2. 數(shù)據(jù)庫自動調(diào)優(yōu)需要 LLM + 專用算法的組合

觀點摘要: 專用調(diào)優(yōu)算法比 LLM 好 2-3 倍,但 LLM 快得多(15 分鐘 vs 50 分鐘)。未來方向是用"推理代理"來調(diào)度——可能調(diào) LLM,可能調(diào)專用算法。

老馮評論: 這是 Andy 作為 OtterTune 創(chuàng)始人的復(fù)盤總結(jié)。OtterTune 失敗的原因他講得很清楚:形態(tài)問題——需要用戶授權(quán)連接、被動觀察而非主動干預(yù)。新方案通過 proxy 模式解決了這個痛點。

"LLM + 專用算法"的組合思路非常務(wù)實:LLM 擅長快速給出"差不多"的答案,專用算法擅長精雕細琢,用推理代理調(diào)度兩者,工程上完全可行。

不過我一直有個疑問:數(shù)據(jù)庫調(diào)優(yōu)真的需要這么復(fù)雜嗎? 大多數(shù) Postgres 性能問題,有經(jīng)驗的 DBA 看 10 分鐘就能定位。用 Pigsty 這樣的發(fā)行版,重要參數(shù)都已經(jīng)自動調(diào)到對生產(chǎn)"足夠好"的程度——從"足夠好"調(diào)到"最優(yōu)",邊際收益有多大?

真正需要自動調(diào)優(yōu)的場景是:(1) 沒有 DBA 的小公司;(2) 大規(guī)模多租戶場景。這兩個市場能養(yǎng)活一家公司嗎?OtterTune 的失敗說明,至少單獨做這個不行。Andy 現(xiàn)在的策略是 OEM 白標集成,比獨立產(chǎn)品務(wù)實得多。

3. 計算機科學教育的核心不變:理解基礎(chǔ)

觀點摘要: LLM 能解決 CMU 的作業(yè),但學生仍需理解基礎(chǔ)——ACID、數(shù)據(jù)結(jié)構(gòu)、算法復(fù)雜度、并發(fā)控制。語言和工具會變,基礎(chǔ)不變。

老馮評論: 老生常談,但在 AI 時代重提很有必要。Andy 說得對:如果你不理解代碼在做什么,LLM 生成再多代碼也沒用。

Mike 說得更直白:從 Control Data Institute(職業(yè)培訓機構(gòu))那種地方出來的人會很慘,但一流大學出來的人沒問題。 言下之意:編程正在分化 —— 頂尖人才設(shè)計系統(tǒng),AI 寫代碼,頭部專家發(fā)揮幾十倍的效能,普通程序員直接出局。 殘酷,但可能是真實的未來。

4. 向量數(shù)據(jù)庫護城河不寬,pgvector 對 99% 的人夠用

觀點摘要: 向量索引就是索引,Postgres 一年內(nèi)就加上了。向量數(shù)據(jù)庫要么做專用場景(二級索引),要么加事務(wù)/SQL 變成完整數(shù)據(jù)庫——后者意味著和 Postgres 正面競爭。

老馮評論: Andy 在這一點上和 Mike 完全一致——這也說明這是數(shù)據(jù)庫圈的共識 。老馮覺得,向量數(shù)據(jù)庫真的已經(jīng)很無聊了。

總結(jié)

Mike Stonebraker 是 “老派智慧” 的代表 —— 50 年數(shù)據(jù)庫經(jīng)驗讓他對技術(shù)炒作保持警惕。 他的悲觀主義不是因為不懂 AI,而是因為見過太多大風大浪后的一地雞毛了。 他對 Agentic AI 需要 ACID 數(shù)據(jù)庫 的判斷非常精準,這可能是這場對話中最有價值的洞見。

Andy Pavlo 是"新生代務(wù)實派" —— 既不盲目樂觀,也不固守舊觀念。 他承認 OtterTune 失敗的原因,調(diào)整策略做 OEM 集成; 他看到 vibe coding 的真實影響,但也承認只對新項目有效。 作為學者,他保持著難得的商業(yè)敏感度。

兩人的共識比分歧更重要:Postgres 贏了,向量數(shù)據(jù)庫過譽了,基礎(chǔ)比工具重要,AI 不會取代理解系統(tǒng)的人

數(shù)據(jù)庫老司機

點一個關(guān)注 ??,精彩不迷路

對 PostgreSQL, Pigsty,下云 感興趣的朋友

歡迎加入 PGSQL x Pigsty 交流群(搜pigsty-cc)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
因質(zhì)疑“年會穿西裝”,國產(chǎn)操作系統(tǒng)核心研發(fā)被開除?

因質(zhì)疑“年會穿西裝”,國產(chǎn)操作系統(tǒng)核心研發(fā)被開除?

觀察者網(wǎng)
2026-01-09 16:12:08
中方再表態(tài):合作意愿不會改變

中方再表態(tài):合作意愿不會改變

觀察者網(wǎng)
2026-01-09 16:12:08
永久停業(yè)!東莞所有門店全部關(guān)閉

永久停業(yè)!東莞所有門店全部關(guān)閉

東莞好生活
2026-01-09 22:29:48
圖片報:多特認為小貝林厄姆體型相對偏壯,希望他減肌

圖片報:多特認為小貝林厄姆體型相對偏壯,希望他減肌

懂球帝
2026-01-09 20:05:06
全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國資一把

全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國資一把

文史旺旺旺
2025-12-27 18:22:03
重慶永輝超市生鮮營運部原負責人:收受160萬元,獲刑三年七個月

重慶永輝超市生鮮營運部原負責人:收受160萬元,獲刑三年七個月

黃桷樹財經(jīng)
2026-01-08 19:36:15
狐貍尾巴終究藏不住,他“妻妾成群”,大兒子和鞏俐越長越像?

狐貍尾巴終究藏不住,他“妻妾成群”,大兒子和鞏俐越長越像?

豐譚筆錄
2026-01-03 07:50:06
71歲左宗棠娶17歲章怡為妾。洞房夜,章怡脫衣服準備侍候左宗棠。

71歲左宗棠娶17歲章怡為妾。洞房夜,章怡脫衣服準備侍候左宗棠。

百態(tài)人間
2025-12-28 05:30:03
土豪有多任性?看完開眼界了,窮限制了我的想象啊

土豪有多任性?看完開眼界了,窮限制了我的想象啊

夜深愛雜談
2026-01-03 22:15:07
凱特王妃發(fā)布44歲生日療愈視頻,講述自己借自然重拾生命意義

凱特王妃發(fā)布44歲生日療愈視頻,講述自己借自然重拾生命意義

土澳的故事
2026-01-09 23:28:53
劉濤帶兒女吃烤肉喝紅酒!18歲紫嫣胖到140斤,17歲兒子又高又帥

劉濤帶兒女吃烤肉喝紅酒!18歲紫嫣胖到140斤,17歲兒子又高又帥

阿雹娛樂
2026-01-08 11:34:01
克洛澤:我是梅西球迷,若有人打破世界杯進球紀錄我希望是他

克洛澤:我是梅西球迷,若有人打破世界杯進球紀錄我希望是他

懂球帝
2026-01-09 16:14:30
最高24℃!廣州,開始升溫,廣州人:還能入冬嗎?

最高24℃!廣州,開始升溫,廣州人:還能入冬嗎?

環(huán)球網(wǎng)資訊
2026-01-10 07:35:09
回國了我才敢說:委內(nèi)瑞拉,是我去過的所有國家中,最被低估的!

回國了我才敢說:委內(nèi)瑞拉,是我去過的所有國家中,最被低估的!

另子維愛讀史
2026-01-09 21:09:05
CBA一夜3場慘案!山東絕殺北京,黑馬大勝同曦,積分榜又亂了

CBA一夜3場慘案!山東絕殺北京,黑馬大勝同曦,積分榜又亂了

呂謔極限手工
2026-01-10 07:34:52
中國財政供養(yǎng)人員達6846萬?結(jié)構(gòu)失衡才是財政壓力的核心

中國財政供養(yǎng)人員達6846萬?結(jié)構(gòu)失衡才是財政壓力的核心

流蘇晚晴
2025-12-04 19:27:08
在持續(xù)風波中,勇士隊交易德雷蒙德·格林的傳聞不再是天方夜譚

在持續(xù)風波中,勇士隊交易德雷蒙德·格林的傳聞不再是天方夜譚

好火子
2026-01-10 01:54:06
咸魚還是太全面了,怪不得人稱國內(nèi)黑市

咸魚還是太全面了,怪不得人稱國內(nèi)黑市

另子維愛讀史
2025-12-20 17:07:20
我媽90歲還能生活自理,她的長壽秘訣就一句:“別老想著走動”

我媽90歲還能生活自理,她的長壽秘訣就一句:“別老想著走動”

蟬吟槐蕊
2025-12-28 14:32:30
美方正在加勒比??垩阂凰矣洼?>
    </a>
        <h3>
      <a href=新華社
2026-01-09 20:33:22
2026-01-10 08:56:49
老馮云數(shù) incentive-icons
老馮云數(shù)
數(shù)據(jù)庫老司機,云計算泥石流,PostgreSQL大法師
75文章數(shù) 28關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

1年奪8冠的30歲健美冠軍猝死 其師父去年死于心臟驟停

頭條要聞

1年奪8冠的30歲健美冠軍猝死 其師父去年死于心臟驟停

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風波后露面 不受影響狀態(tài)佳

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

藝術(shù)
時尚
教育
本地
游戲

藝術(shù)要聞

15位著名畫家的女性之美:哪一張觸動了你的心?

2026春夏八大流行趨勢

教育要聞

畢業(yè)就拿編制!3類大學生直接分配工作

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

拉瑞安回應(yīng)新作《神界》爭議!堅定明確立場

無障礙瀏覽 進入關(guān)懷版