香港科大與新加坡國立大學(xué)找到了評判AI翻譯SQL語句的更好方法

2026-04-26 19:08:10　來源: 科技行者

天津舉報

分享至

這項由香港科技大學(xué)（廣州）與新加坡國立大學(xué)共同主導(dǎo)的研究，發(fā)表于2026年4月，論文預(yù)印本編號為arXiv:2604.12988，研究方向隸屬于計算機數(shù)據(jù)庫領(lǐng)域（cs.DB）。

你有沒有遇到過這樣的情況：你問一個人"幫我從賬本里找出上個月花了多少錢"，他轉(zhuǎn)身給你寫下的算式和你心里想的不完全一樣，但算出來的答案卻是對的。這時候，你會說他答錯了嗎？大多數(shù)人會說，答對了，畢竟你要的就是那個數(shù)字。

然而，現(xiàn)在主流的AI評估體系，卻偏偏會說他"錯了"。

這正是這篇論文試圖解決的核心問題。研究的主角，是一種叫做"NL2SQL"的技術(shù)——全名是Natural Language to SQL，簡單說就是"把人類說的話翻譯成數(shù)據(jù)庫能讀懂的查詢語言"。當(dāng)你對一個智能系統(tǒng)說"幫我找出銷售額最高的三個月"，背后的AI需要把這句話翻譯成一串結(jié)構(gòu)化的數(shù)據(jù)庫指令（SQL語句），才能真正去數(shù)據(jù)庫里"取貨"。

這項技術(shù)在大量數(shù)據(jù)分析、企業(yè)報表、智能客服等場景里極為常見。而如何判斷AI翻譯得好不好，一直是個讓研究者頭疼的難題。研究團隊給出的答案叫做**ROSE**，全名是ReasOning ScorE（推理評分），并配套構(gòu)建了一個由專家共識標(biāo)注的驗證數(shù)據(jù)集ROSE-VEC。

一、舊裁判犯了什么錯

先從"老裁判"說起?，F(xiàn)有的主流評估標(biāo)準(zhǔn)叫做執(zhí)行準(zhǔn)確率（Execution Accuracy，簡稱EX）。它的工作原理非常直白：把AI寫的SQL和人工標(biāo)注的"標(biāo)準(zhǔn)答案SQL"各自跑一遍，如果兩邊跑出來的數(shù)據(jù)結(jié)果一模一樣，就算對；不一樣，就算錯。

這聽起來很合理，但研究團隊通過大量實測發(fā)現(xiàn)，這位"老裁判"在至少三種常見情況下會判錯。

第一種情況，叫做"寫法不同，答案相同"。數(shù)據(jù)庫查詢就像做數(shù)學(xué)題，同一道題可以有多種解法，比如先排序再取第一名，和直接取最大值，最后都能得到同一個冠軍。但EX只認(rèn)識"標(biāo)準(zhǔn)答案寫法"，一旦AI用了另一種合法但不同的寫法，它就判"錯"。研究發(fā)現(xiàn)，這類誤判帶來的假陰性比例高達(dá)28.9%，也就是說將近三成正確答案被冤枉成錯誤答案。

第二種情況，叫做"問題本身有歧義"。比如"上個季度表現(xiàn)最好的產(chǎn)品是哪個"，有人理解為銷量最多，有人理解為收入最高——兩種理解都合理，寫出來的SQL自然不同。EX只認(rèn)識那一份標(biāo)注好的標(biāo)準(zhǔn)答案，其他合理解讀一律判錯。一項專門研究歧義問題的基準(zhǔn)測試Ambrosia發(fā)現(xiàn)，超過一半的"失敗案例"其實都源于這類歧義。

第三種情況更麻煩，叫做"標(biāo)準(zhǔn)答案本身就寫錯了"。大規(guī)模數(shù)據(jù)集里，標(biāo)注員也會犯錯。研究者審查了BIRD Dev這個知名數(shù)據(jù)集，發(fā)現(xiàn)標(biāo)準(zhǔn)答案SQL的錯誤率高達(dá)6.91%，而在他們自己抽樣核查時，竟有約25%的樣本被至少一位專家標(biāo)記為有問題。用一個錯誤的標(biāo)準(zhǔn)答案去評判AI，等于用一把彎曲的尺子量東西，量出來的數(shù)字能信嗎？

由此可見，EX這位"老裁判"的問題，不是偶發(fā)性的小失誤，而是系統(tǒng)性的結(jié)構(gòu)缺陷——它太執(zhí)著于"和標(biāo)準(zhǔn)答案長得像"，而忘記了評判的真正目標(biāo)：AI寫的SQL，到底有沒有回答用戶的問題？

二、新裁判是怎么工作的

ROSE的核心設(shè)計哲學(xué)，可以用"先獨立判斷，再接受質(zhì)疑"來理解。

整個評判流程分成兩個角色，一個叫"證明者"（SQL Prover），另一個叫"反駁者"（Adversarial Refuter），兩者串聯(lián)構(gòu)成一個審查流水線。

證明者的工作原則是完全獨立。它拿到一條AI寫的SQL，同時拿到用戶的原始問題和數(shù)據(jù)庫的結(jié)構(gòu)信息，然后在完全不看標(biāo)準(zhǔn)答案的情況下，自行判斷這條SQL有沒有正確回答用戶的意圖。它就像一位考官，只看學(xué)生的答題紙和原題，不參考"標(biāo)準(zhǔn)解析"，純粹從邏輯和語義上評判答案合不合理。

然而，僅靠證明者還不夠，因為它有時會"過于寬松"。假設(shè)AI碰巧寫了一條邏輯有缺陷的SQL，但恰好在這個數(shù)據(jù)庫狀態(tài)下跑出了正確結(jié)果，證明者可能會被結(jié)果迷惑，誤判為正確。這就是所謂的"巧合正確"——好比一個學(xué)生答錯了解題過程，卻蒙對了最終答案，如果只看答案就會錯誤地表揚他。

反駁者就是專門對付這種情況的。它在拿到標(biāo)準(zhǔn)答案SQL之后，并不是簡單地拿來"比對"，而是把它當(dāng)作一件"有力但不可盲信的證據(jù)"，專門用來挑戰(zhàn)證明者的判斷。具體來說，在兩邊SQL執(zhí)行結(jié)果相同的情況下，反駁者會深入比對兩條SQL的邏輯，看看AI的那條是否只是碰巧答對，還是真的理解了問題。而在兩邊結(jié)果不同、但證明者已經(jīng)判AI為"正確"的情況下，反駁者會進(jìn)一步分析：到底是AI的邏輯更貼合用戶意圖，還是標(biāo)準(zhǔn)答案更準(zhǔn)確，抑或這道題本身就有歧義，兩種寫法都合理？

反駁者還有一個額外的能力：打"診斷標(biāo)簽"。當(dāng)它判斷某個案例的問題來自問題歧義時，它會打上"AmbQ"（Ambiguous Question，問題歧義）的標(biāo)簽；當(dāng)它發(fā)現(xiàn)標(biāo)準(zhǔn)答案SQL本身存在錯誤時，會打上"GoldX"（Gold Error，標(biāo)準(zhǔn)答案錯誤）的標(biāo)簽。這讓ROSE不僅僅是一個打分工具，同時也是一個數(shù)據(jù)集質(zhì)量審查工具。

在整個流水線中，只有通過了語法檢查、經(jīng)證明者獨立確認(rèn)、并最終抵御了反駁者挑戰(zhàn)的SQL，才能獲得滿分1分；任何一關(guān)沒過，都是0分。

三、用專家打分來檢驗裁判是否可靠

光是設(shè)計出一套新評判體系還不夠，還得證明它比舊體系更靠譜。為此，研究團隊專門構(gòu)建了一個驗證數(shù)據(jù)集，叫做ROSE-VEC。

這個數(shù)據(jù)集包含585個"問題-SQL預(yù)測"對，來自多個主流NL2SQL系統(tǒng)在Spider和BIRD兩大權(quán)威數(shù)據(jù)集上的真實輸出。每一個案例都由五位專家中的兩位獨立打分，只保留兩人意見完全一致的案例。這五位專家都是計算機科學(xué)專業(yè)的研究生，在參與標(biāo)注前已各自積累了至少兩個NL2SQL相關(guān)項目的研究經(jīng)驗，并經(jīng)過專門的標(biāo)注培訓(xùn)。

有了這個"專家共識"數(shù)據(jù)集，研究團隊就能客觀衡量：各種評估指標(biāo)的判斷，到底有多接近專家的判斷。衡量方式采用了多個統(tǒng)計指標(biāo)，其中最核心的是Cohen's Kappa（κ），這是一個專門用來衡量"超出隨機猜測之上的一致性"的指標(biāo)，越高代表越可靠。

結(jié)果非常清晰。EX的κ值只有25.56%，意味著它和專家判斷的一致性勉強高于瞎猜的水平。同類的LLM裁判工具FLEX（一種同樣用大語言模型打分的評估方法）在最強的OpenAI o3模型支撐下達(dá)到了56.70%。而ROSE在同樣的模型支撐下，達(dá)到了80.43%，比FLEX高出將近24個百分點。

準(zhǔn)確率（ACC）同樣說明問題：EX只有55.90%，F(xiàn)LEX達(dá)到78.97%，ROSE則達(dá)到了91.79%。

研究團隊還測試了"如果去掉反駁者，只用證明者"會怎樣，結(jié)果是κ值降到60.74%——依然超過FLEX，但明顯低于完整版ROSE。這說明反駁者這個"挑剔的質(zhì)疑者"確實發(fā)揮了不可替代的作用。

除了使用OpenAI o3，研究團隊還測試了Google Gemini-2.5 Pro和開源的DeepSeek-R1。三款模型下，ROSE都穩(wěn)定超越了同模型下的其他評估方式，只是絕對數(shù)值有所差異——例如DeepSeek-R1驅(qū)動的ROSE達(dá)到了64.49%的κ值，Gemini-2.5 Pro驅(qū)動的ROSE為69.68%。這說明ROSE的優(yōu)勢在于方法設(shè)計本身，而非依賴于某款特定模型。

四、診斷能力：順手抓出數(shù)據(jù)集的漏洞

ROSE的診斷標(biāo)簽功能在驗證中也獲得了量化證明。

研究團隊將反駁者標(biāo)記為"標(biāo)準(zhǔn)答案有錯"（GoldX）或"問題有歧義"（AmbQ）的案例，交給人工二次核驗，計算"打?qū)α硕嗌?（精確率）。

在OpenAI o3驅(qū)動下，GoldX標(biāo)簽的精確率達(dá)到84.32%，AmbQ標(biāo)簽的精確率達(dá)到91.23%。換句話說，ROSE每標(biāo)記100個"標(biāo)準(zhǔn)答案可能有問題"的案例，有84個經(jīng)人工確認(rèn)確實有問題；每標(biāo)記100個"這道題有歧義"的案例，有91個被人工認(rèn)同。這個準(zhǔn)確率已經(jīng)足以支撐自動化的數(shù)據(jù)集質(zhì)量審查。

不同底層模型下的表現(xiàn)差異也很有規(guī)律：OpenAI o3最強，Gemini-2.5 Pro居中，DeepSeek-R1較弱——特別是在AmbQ標(biāo)簽上，DeepSeek-R1的精確率只有51.85%，說明歧義識別對模型的推理能力要求更高。

五、大規(guī)模重新評估19個NL2SQL系統(tǒng)后發(fā)現(xiàn)了什么

有了ROSE這把新尺子，研究團隊重新測量了19個主流NL2SQL系統(tǒng)在BIRD Mini-Dev數(shù)據(jù)集（500道題，11個數(shù)據(jù)庫）上的表現(xiàn)，并將結(jié)果與EX對比。這次大規(guī)模復(fù)測帶來了四個值得關(guān)注的發(fā)現(xiàn)。

**第一個發(fā)現(xiàn)：是底層模型的能力決定了上限，而不是系統(tǒng)設(shè)計的精妙程度。**

研究者發(fā)現(xiàn)，所有NL2SQL系統(tǒng)可以按使用的基礎(chǔ)語言模型分層聚類——GPT-3.5時代的系統(tǒng)聚在低分區(qū)，GPT-4時代的聚在中分區(qū)，GPT-4o和GPT-5時代的聚在高分區(qū)。同一時代內(nèi)，無論系統(tǒng)用了多少精心設(shè)計的多步驟流水線和提示工程技巧，表現(xiàn)都被基礎(chǔ)模型的天花板牢牢壓住。比如基于GPT-4o的RSL-SQL（ROSE得分81.92）全面超越基于GPT-3.5的C3-SQL（46.29），而GPT-4直接在零樣本下（66.53）甚至超過了同時代精心打磨的DAIL-SQL（55.60）——因為后者用的是更早版本的GPT-4，而基線使用的是更新的版本。這意味著，近年來許多被歸功于"系統(tǒng)設(shè)計創(chuàng)新"的性能提升，實際上很大程度上是基礎(chǔ)模型升級帶來的，研究者應(yīng)該更謹(jǐn)慎地將系統(tǒng)貢獻(xiàn)與模型貢獻(xiàn)區(qū)分開來。

**第二個發(fā)現(xiàn)：隨著模型越來越強，EX和ROSE之間的分差越來越大，這是一場評估危機的信號。**

在2023年中的早期系統(tǒng)（如CoT、C3-SQL）上，EX和ROSE的差距還不到5個百分點。但到了2025年中期的最新系統(tǒng)，差距已經(jīng)擴大到超過20個百分點。以GPT-5為例，EX只給它打了55.74分，而ROSE給出了88.93分——差了33分。這種發(fā)散趨勢不是偶然，背后有兩層原因。一方面，早期模型犯的錯誤往往是真正的語義錯誤，EX和專家都會判錯，兩者一致；而如今的模型越來越少犯真正的邏輯錯誤，更多的情況是寫了"正確但與標(biāo)準(zhǔn)答案寫法不同"的SQL，EX判錯而專家認(rèn)為是對的。另一方面，更強的模型生成的SQL在寫法上更為多樣，更富有創(chuàng)造性表達(dá)，但EX的嚴(yán)格比對機制恰恰對這類"創(chuàng)意寫法"最不友好。EX越來越像是在懲罰模型的進(jìn)步，而不是準(zhǔn)確反映它。

**第三個發(fā)現(xiàn)：EX和ROSE之間的分歧，主要來源是數(shù)據(jù)集本身的缺陷。**

研究團隊利用ROSE的診斷標(biāo)簽，專門統(tǒng)計了在"標(biāo)準(zhǔn)答案有錯"（GoldX）和"問題有歧義"（AmbQ）這兩類樣本上，EX和ROSE的不一致比例。結(jié)果極為顯著：在GoldX樣本上，不一致率超過80%（對所有被測系統(tǒng)均如此）；在AmbQ樣本上，不一致率維持在60%左右。相比之下，整體數(shù)據(jù)集的平均不一致率不到20%。這意味著，EX和ROSE之間超過一半的分歧，可以歸因于數(shù)據(jù)集中標(biāo)準(zhǔn)答案錯誤和問題歧義這兩類可以被修復(fù)的缺陷——如果未來的數(shù)據(jù)集能減少這類問題，EX的可靠性也會相應(yīng)提升。

**第四個發(fā)現(xiàn)：微調(diào)（Fine-tuning）會縮小EX和ROSE之間的差距，但這未必是好事。**

對比提示工程型系統(tǒng)和微調(diào)型系統(tǒng)，前者的EX與ROSE差距明顯更大（平均約12.9分），后者則小得多（平均約3.4分）。但研究團隊的分析顯示，這種差距縮小并非來自微調(diào)系統(tǒng)真的更好地理解了語義——而是因為微調(diào)讓模型"學(xué)會了"數(shù)據(jù)集里標(biāo)準(zhǔn)答案的寫作風(fēng)格，讓預(yù)測的SQL在表面形式上更接近標(biāo)準(zhǔn)答案，從而獲得更高的EX分?jǐn)?shù)。一個有趣的反例是OmniSQL，它主要在大規(guī)模合成語料（SynSQL）上訓(xùn)練，沒有深度適應(yīng)BIRD數(shù)據(jù)集的寫作風(fēng)格，結(jié)果EX與ROSE之間的差距反而比其他微調(diào)方法大。而反過來，像CodeS和CHESS這類可能對訓(xùn)練數(shù)據(jù)過擬合的模型，EX甚至比ROSE還高——意味著它們靠風(fēng)格擬合把EX刷高了，卻并沒有真正更好地理解用戶意圖。微調(diào)可能只是在教模型"寫得像答案"，而不是"想清楚問題"。

六、系統(tǒng)的效率和長期維護機制

一個實用的評估工具，還需要在效率和成本上經(jīng)得起推敲。研究團隊在時間效率方面做了專項測試，結(jié)果顯示：ROSE在單線程下平均每題需要22.48秒，明顯高于EX的1.22秒。但通過8線程并行，每題時間降到了3.35秒，整個322題的BIRD驗證集跑完只需18分鐘。

在成本上，ROSE反而有意外的優(yōu)勢。由于整個流程設(shè)計了"按需調(diào)用"機制——只有當(dāng)證明者判為"正確"時才觸發(fā)反駁者，因此實際上只有約45%的案例需要兩次LLM調(diào)用，另外55%只需要一次。最終測算下來，ROSE在BIRD驗證集上的平均每題成本為0.007美元，反而比FLEX的0.0118美元更低。

研究團隊還為ROSE設(shè)計了一套版本管理機制。每個ROSE實例都標(biāo)注了底層模型和版本時間，例如ROSEo3-2504代表使用2025年4月版o3的ROSE。當(dāng)有更新的模型出現(xiàn)時，團隊會在ROSE-VEC上重新驗證，只有在準(zhǔn)確率、κ、MCC、F1四個指標(biāo)全部不低于前任模型的前提下，才會正式切換為新的"官方版本"，以避免版本迭代導(dǎo)致歷史分?jǐn)?shù)不可比。

七、ROSE還會犯哪些錯

研究團隊對ROSE在BIRD驗證集上的所有判斷錯誤進(jìn)行了逐案人工分析，共發(fā)現(xiàn)29個失誤，其中26個是"漏判"（明明正確卻打了低分），3個是"誤判"（明明有問題卻放行了）。這說明ROSE整體上偏保守，寧可錯判正確為錯誤，也不輕易把錯誤放過。

漏判主要集中在三類場景。最多的是"邏輯健壯性"問題：AI寫的SQL恰好在當(dāng)前數(shù)據(jù)庫狀態(tài)下跑出了正確結(jié)果，但如果數(shù)據(jù)變化（比如一個賬戶有了多條記錄），答案就會出錯。ROSE會發(fā)現(xiàn)這種潛在的邏輯漏洞并判為錯誤，但專家有時接受"當(dāng)前答案是對的"這一事實而給出正確判斷。其次是單位和格式問題：比如題目問"百分之幾"，但AI給的是0到1之間的小數(shù)比例，專家可能接受這是等價表達(dá)，而ROSE會認(rèn)為語義上確實有差異。第三類則是世界知識和模式解讀的歧義：比如"最高經(jīng)度的學(xué)校"，專家認(rèn)為用絕對值取最大經(jīng)度是合理解讀，而ROSE堅持按字面意思取數(shù)值最大的經(jīng)度。這些錯誤揭示了ROSE作為一個基于語言模型的評估器，在一些需要常識靈活性的細(xì)節(jié)判斷上，仍然可能比真實專家更"刻板"。

說到底，這項研究做的事情，是給AI翻譯數(shù)據(jù)庫語言這件事配上一位"更懂人意"的裁判。

過去我們用的裁判太死板，只認(rèn)標(biāo)準(zhǔn)答案的長相，不管答案的意思。ROSE的出現(xiàn)，相當(dāng)于把裁判從"死記硬背型"換成了"理解題意型"——先獨立看你答得對不對，再用參考答案來質(zhì)疑你有沒有偷懶取巧。

從實驗結(jié)果來看，這位新裁判和真實專家的判斷一致性高出舊裁判整整三倍，而且還順帶幫研究者發(fā)現(xiàn)了現(xiàn)有數(shù)據(jù)集里大量積累的錯誤和歧義問題。這對整個領(lǐng)域都有價值：不僅讓現(xiàn)有AI系統(tǒng)的能力被更準(zhǔn)確地衡量，也指出了未來數(shù)據(jù)集建設(shè)應(yīng)該更注重標(biāo)注質(zhì)量和問題清晰度。

這項工作也提出了一個讓人深思的問題：當(dāng)AI越來越聰明，能用多種正確方式完成任務(wù)時，我們的評判標(biāo)準(zhǔn)是不是也應(yīng)該跟著進(jìn)化？還是說，我們會繼續(xù)用一把彎曲的舊尺子，得出一個"AI沒什么長進(jìn)"的錯誤結(jié)論？

對這個問題感興趣的讀者，可以通過論文編號arXiv:2604.12988查閱完整原文，相關(guān)代碼和ROSE-VEC數(shù)據(jù)集也已在GitHub上公開發(fā)布。

Q&A

Q1：ROSE評估指標(biāo)和傳統(tǒng)EX評估指標(biāo)的根本區(qū)別是什么？

A：傳統(tǒng)EX只比較AI寫的SQL和標(biāo)準(zhǔn)答案SQL執(zhí)行結(jié)果是否完全相同，答案只要不一致就判錯，完全不管AI的寫法是否合理。ROSE則不同，它先讓"證明者"獨立判斷AI的SQL有沒有正確理解用戶的提問意圖，再用"反駁者"拿標(biāo)準(zhǔn)答案來挑戰(zhàn)這個判斷，最終目標(biāo)是評估AI有沒有真正回答了用戶的問題，而非是否和標(biāo)準(zhǔn)答案寫法一致。在專家驗證集上，ROSE與專家判斷的一致性達(dá)到80.43%，而EX只有25.56%。

Q2：ROSE發(fā)現(xiàn)現(xiàn)有NL2SQL數(shù)據(jù)集最主要的質(zhì)量問題是什么？

A：研究發(fā)現(xiàn)兩類主要問題：一是標(biāo)準(zhǔn)答案SQL本身寫錯了，被標(biāo)記為GoldX；二是問題本身存在多種合理解讀，被標(biāo)記為AmbQ。在標(biāo)準(zhǔn)答案有錯的樣本上，ROSE和EX的判斷不一致率超過80%；在有歧義的問題上，不一致率約為60%。這兩類問題合計解釋了超過一半的指標(biāo)差異，說明數(shù)據(jù)集質(zhì)量是評估可靠性的關(guān)鍵瓶頸。

Q3：NL2SQL系統(tǒng)靠微調(diào)來提高分?jǐn)?shù)是真的變厲害了嗎？

A：不一定。研究發(fā)現(xiàn)，微調(diào)系統(tǒng)的EX分?jǐn)?shù)和ROSE分?jǐn)?shù)之間差距更小，但這主要是因為微調(diào)讓模型學(xué)會了模仿訓(xùn)練數(shù)據(jù)集里標(biāo)準(zhǔn)答案的書寫風(fēng)格，導(dǎo)致EX分?jǐn)?shù)虛高，而不代表真正提升了語義理解能力。一些在專有數(shù)據(jù)上深度微調(diào)的模型，EX甚至比ROSE高，說明它們是在"寫得像答案"而非"真正理解問題"。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.