AI寫量子程序，三大框架誰最難搞定？

2026-04-22 22:54:28　來源: 科技行者

北京舉報

分享至

這項由貝魯特美國大學與沙特阿拉伯阿卜杜拉國王科技大學聯(lián)合開展的研究，以論文預印本形式于2026年3月25日發(fā)布在arXiv平臺，編號為arXiv:2604.08570，并作為工作坊論文收錄于2026年國際學習表征會議（ICLR 2026）。有意深入了解的讀者可通過該編號查閱完整論文。

量子計算聽起來遙不可及，但它已經(jīng)悄悄滲透進軟件開發(fā)的日常工作中。越來越多的程序員開始使用專門的量子編程框架——就像寫普通程序要用Python或Java一樣，寫量子程序也有自己的"語言工具箱"。目前最主流的三個工具箱分別叫做Qiskit、PennyLane和Cirq。面對這種新型編程需求，人們自然會想到一個問題：現(xiàn)在這些能寫代碼的人工智能（也就是我們常說的大語言模型，或LLM），到底能不能可靠地幫人寫出正確的量子程序？

偏偏大多數(shù)已有的測試都只在一個工具箱里打轉(zhuǎn)。這就好比你想招一個廚師，卻只考他用一個牌子的鍋能不能做出好菜——完全不知道換了別的鍋他會不會抓瞎。于是這支研究團隊決定設計一套更公平、更全面的考試，讓AI同時在三個框架下完成同樣的量子編程任務，看看誰真的會做量子計算，誰只是背熟了某一本菜譜。這套考試就是本文要介紹的QuanBench+。

一、量子程序為什么比普通程序更難測評

在正式介紹這套考試之前，有必要先說清楚，量子程序究竟有什么特別之處，讓它的測評比普通程序復雜得多。

普通程序的輸出是確定的：你輸入2加2，程序必然告訴你4，對錯一目了然。量子程序則不然。量子計算機的核心單位叫做"量子比特"，它的神奇之處在于，它可以同時處于"0"和"1"的疊加狀態(tài)，只有當你去測量它的時候，它才會隨機坍縮成某個確定的結(jié)果。更準確地說，量子比特的狀態(tài)可以用一個數(shù)學式子來表達：一部分概率屬于"0"，另一部分概率屬于"1"，兩部分概率加起來等于100%。

這意味著量子程序每次運行的結(jié)果都可能不同，就像擲骰子一樣——你不能用"結(jié)果是否精確匹配"來判斷程序?qū)懙脤Σ粚Γ仨毧此a(chǎn)生的"概率分布"是否正確。舉個例子，一個正確的量子程序在被運行1000次之后，大約有500次應該輸出"00"，500次應該輸出"11"；如果某個AI寫的程序運行1000次后，900次輸出"00"，100次輸出"11"，那它就是錯的，盡管它確實輸出了"00"這個答案。

正因為如此，研究團隊在設計測評標準時，沒有采用簡單的"答案對不對"，而是引入了一種叫做KL散度（Kullback-Leibler Divergence）的數(shù)學工具來衡量概率分布之間的差距。你可以把它理解為"兩個骰子點數(shù)分布有多不相似"的量化工具。研究團隊對標準答案反復運行1000次，建立起一個參考分布，然后把AI生成的程序也運行一遍，比較兩個分布之間的差異。只要差異足夠小（具體閾值定為0.05），就認為AI寫的程序是正確的。

研究團隊還特別解釋了為什么他們不使用另一種常見的評分方式——"保真度"（Fidelity）。保真度衡量的是兩個電路在數(shù)學結(jié)構(gòu)上有多像，但問題在于，兩個結(jié)構(gòu)完全不同的量子電路，完全有可能產(chǎn)生完全相同的測量結(jié)果。就像烤蛋糕可以用烤箱也可以用氣炸鍋，最終的蛋糕可能一樣好吃，但做法天差地別。如果用"做法是否相同"來評判蛋糕好壞，就會冤枉很多好廚師。QuanBench+選擇的是只看"蛋糕好不好吃"——即最終程序運行的結(jié)果是否正確。

二、這套考試是怎么設計的

QuanBench+的內(nèi)容來源于一個已有的量子代碼基準測試集，叫做QuanBench。研究團隊在此基礎上做了改造：他們剔除了兩道因為無法在三個框架之間進行統(tǒng)一評分而顯得模糊的題目，并對其余題目進行了適配，讓同一道題可以分別用Qiskit、PennyLane和Cirq三種框架來作答。最終保留下來的題目共42道，涵蓋三個大類。

第一類叫做"量子算法"，包含31道題，是比重最大的一類。這類題目考察的是AI能否正確實現(xiàn)已知的量子算法或其子程序，相當于考試中的"綜合應用題"，需要AI理解算法的邏輯并把它翻譯成代碼。第二類叫做"態(tài)制備"，共6道題，考察的是如何構(gòu)建電路使量子系統(tǒng)進入某個特定的量子態(tài)，就像考你能否按照配方調(diào)制出一杯特定成分的雞尾酒。第三類叫做"門分解"，共5道題，考察的是如何把復雜的量子操作拆解成基本的量子門，類似于把一個復雜的機械動作分解成一系列標準手勢。

為了保證公平，研究團隊做了大量標準化工作。每道題在三個框架下給AI看的題目表述完全相同，只在庫的導入和API的調(diào)用方式上做了適應性調(diào)整——因為這三個框架的"語法"雖然目的相同，但寫法各異，就像同一道菜的中文菜譜和英文菜譜，內(nèi)容一樣但表達方式不同。AI被明確要求只返回可執(zhí)行的代碼，不需要附加任何解釋。需要輸入?yún)?shù)的題目，研究團隊提前隨機生成了一組固定的輸入，并在所有模型和框架中統(tǒng)一使用，確保比較的公平性。

測評流程分三步走：先從AI的回答里提取出可執(zhí)行的代碼，然后在對應的框架環(huán)境中運行這段代碼，最后將運行結(jié)果與標準答案進行比對——確定性結(jié)果直接比對，概率性結(jié)果用KL散度比對。整個過程自動化完成，不需要人工干預。

三、參加考試的選手們

研究團隊邀請了12個當前最有代表性的大語言模型參與測評，既有頂級的商業(yè)閉源模型，也有開放權(quán)重的模型，覆蓋面相當廣。這些模型包括：來自谷歌DeepMind的Gemini 3 Pro和Gemini 2.5 Flash、來自OpenAI的GPT-5.1和GPT-4.1、來自Anthropic的Claude 3.7 Sonnet、來自DeepSeek的DeepSeek-R1和DeepSeek-Chat、來自Meta的Llama 4 Maverick、來自阿里巴巴的Qwen 2.5 7B Instruct、來自智譜AI的GLM 4.7、來自MiniMax的MiniMax M2.1，以及來自月之暗面的Kimi K2 Thinking。

所有模型運行在統(tǒng)一的Python 3.10環(huán)境下，使用Qiskit v0.46.0、Cirq v1.6.1和PennyLane v0.43.1三個固定版本的框架。評分指標主要有三個：Pass@1，即給AI一次機會，看它能答對多少題；Pass@5，即給AI五次機會，只要有一次答對就算通過；以及Pass@1（反饋修復后），即在一次作答失敗后，把錯誤信息反饋給AI，最多給它五次修正機會，看最終能答對多少題。對于Pass@1，模型采用貪婪解碼（溫度為0，即每次都選最可能的答案）；對于Pass@5，模型以較高的隨機性（溫度為0.8）生成五個不同的答案。

四、考試結(jié)果：誰強誰弱，差距有多大

成績揭曉，最直觀的發(fā)現(xiàn)就是：框架的差異對AI的成績影響巨大，而且這個規(guī)律對幾乎所有模型都成立。

在單次作答（Pass@1）的成績中，Qiskit框架下的最高分由Gemini 3 Pro獲得，達到59.5%——也就是說，它能在第一次嘗試中答對42道題里的大約25道。Cirq框架下的最高分也是Gemini 3 Pro，達到54.8%。PennyLane框架下的最高分則由GPT-5.1摘得，為42.9%。換句話說，即便是當前最強的模型，在最擅長的框架下也只能做對一半左右，在最難的框架下甚至不到一半。

從整體排名來看，Gemini 3 Pro在三個框架的平均得分上領跑，主要因為它在Qiskit和Cirq兩個框架上表現(xiàn)突出。而GPT-5.1則在PennyLane上獨占鰲頭。幾乎所有模型都呈現(xiàn)出同一個規(guī)律：Qiskit得分最高，Cirq居中，PennyLane最低。這強烈暗示著，模型的表現(xiàn)很大程度上取決于它在訓練數(shù)據(jù)中接觸過多少該框架的代碼——Qiskit作為最老牌、應用最廣泛的框架，在互聯(lián)網(wǎng)上存在大量的示例代碼，所以AI對它最熟悉。

排名靠后的模型差距也相當顯著。Qwen 2.5 7B Instruct在Qiskit下只拿到16.7%，在Cirq下僅有4.8%，在PennyLane下是11.9%，說明小參數(shù)量的開源模型在量子代碼生成上還有很大的成長空間。

當允許生成五個答案、取其中最好的一個時（Pass@5），成績普遍有所提升，但框架之間的差距并沒有消失。GPT-5.1在Qiskit下從57.1%上升到76.2%，在PennyLane下從42.9%上升到57.1%，DeepSeek R1在PennyLane下從33.3%大幅躍升至59.5%。這說明，很多時候AI其實"知道"正確答案，只是在單次生成時不夠穩(wěn)定，沒能恰好選對那個答案。

五、提前告訴AI用哪個框架，有沒有用

研究團隊還做了一個額外的實驗：在題目中提前給AI提供正確的庫導入語句、函數(shù)簽名和基本框架代碼（這種做法叫做"預填充"或prefill），與完全讓AI從零開始生成的情況進行對比。

結(jié)果顯示，預填充確實有用，但主要幫的是那些中等水平的模型，以及在PennyLane這類不太常見的框架上。對于頂級模型來說，預填充帶來的提升就小得多。這說明預填充的主要作用在于減少"框架摩擦"——比如忘記導入某個庫、函數(shù)簽名寫錯格式之類的低級錯誤——而不是幫助AI理解量子算法本身的邏輯。換句話說，給AI搭好架子，它就不會因為忘記搭架子而出錯，但如果AI從根本上不理解這道題的量子邏輯，給它搭好架子也沒用。

在Cirq框架下，預填充同樣帶來了明顯的改善，尤其是在中間層次的模型中，排名出現(xiàn)了一些變化。在Qiskit下，預填充的效果相對沒那么統(tǒng)一，對強模型和弱模型的影響程度參差不齊。

六、給AI一個改錯機會，成績能提高多少

這項研究最引人關注的部分之一，是測試了一個"反饋修復"機制：當AI第一次寫的代碼運行出錯或答案不對時，系統(tǒng)會把錯誤信息（比如報錯的堆棧信息，或者"你給出的概率分布與標準答案差太遠了"這樣的提示）反饋給AI，然后讓它再試一次，最多給五次修正機會。

反饋修復的效果非常顯著。GPT-5.1在Qiskit下的得分從57.1%躍升到83.3%，Gemini 3 Pro在Cirq下從54.8%升到76.2%，GPT-5.1和Gemini 3 Pro在PennyLane下都從40-42%范圍升到66.7%。這種提升不是個別強模型的專利，幾乎整個排行榜的中間層次也都有顯著改善。

從修復的軌跡來看，大多數(shù)改善發(fā)生在第一次到第二次反饋之間，之后每一輪的邊際收益逐漸遞減。到了第四、第五輪，曲線已經(jīng)明顯趨于平緩。Qiskit框架下的強模型飽和得更快，而PennyLane和Cirq框架下的模型則往往在第四、第五輪還有一些零散的改善空間。

反饋修復之所以有效，關鍵在于錯誤的類型。研究團隊分析了所有第一次作答失敗的情況，發(fā)現(xiàn)錯誤主要分為以下幾類：答案本身就是錯的（錯誤分布，占46.7%）、邏輯錯誤（25.0%）、缺少正確的方法或量子門（11.8%）、輸出形狀不匹配（8.0%）、語法錯誤（4.7%）、以及量子比特規(guī)格錯誤（3.9%）。總計977個失敗案例。

當把錯誤信息告訴AI之后，那些屬于"語法錯誤"、"缺少正確方法"、"量子比特規(guī)格寫錯"之類的具體、明確的錯誤很容易被修復——AI看到報錯信息就知道哪里寫錯了，自然可以改對。但那些屬于"答案本身就是錯的"和"邏輯錯誤"的情況，就算給了五次機會，也往往依然無法修復。

經(jīng)過五輪反饋修復后，錯誤總數(shù)從977個降低到665個，減少了約32%。但在這665個剩余錯誤中，"答案本身就是錯的"的比例從46.7%上升到53.4%，"邏輯錯誤"從25.0%降到22.0%，而"缺少正確方法"從11.8%暴跌到3.8%，"語法錯誤"從4.7%驟降到1.5%。這個變化說明：反饋修復擅長解決"能看見的毛病"，修不了"腦子里的誤解"。

七、分任務來看，哪些題最難

研究團隊還提供了按每道題展開的熱力圖，讓我們可以看到哪些具體任務對所有模型都構(gòu)成挑戰(zhàn)，哪些任務幾乎所有模型都能輕松通過。

在Qiskit框架的熱力圖中，成績較好的模型（如Gemini 3 Pro、GPT-5.1）呈現(xiàn)出一片連續(xù)的"深色區(qū)域"，說明它們能覆蓋相當多的任務，但仍然有幾列任務ID對應的格子是空白的——這些列代表著幾乎所有模型都無法解決的難題。PennyLane的熱力圖則整體稀疏得多，深色區(qū)域明顯少于Qiskit，即便是最強的模型也有大片空白。Cirq的熱力圖介于二者之間，比PennyLane稠密，但不及Qiskit完整。

到了Pass@5的熱力圖，可以看到很多原本空白的格子變成了深色，說明這些任務并非"完全不可能"，只是在單次生成時AI不夠穩(wěn)定。Pass@5把這部分不穩(wěn)定的能力也統(tǒng)計進來了，因此整體覆蓋面更廣。經(jīng)過反饋修復的熱力圖則是三個版本中最稠密的，但那些對所有模型都頑固空白的列，基本上在反饋修復之后也還是空白的——這些就是那批更深層次的、語義層面的錯誤。

說到底，這項研究想回答的核心問題，不是"AI到底強不強"，而是"AI到底在哪里強、在哪里弱，以及這種強弱是因為真懂量子計算，還是只是背熟了某一套工具書"。得到的答案是：很可能大部分是后者。

同一道量子算法題，AI在Qiskit下能寫對，換到PennyLane就寫不對，這不太可能是因為AI突然忘記了量子力學的基本原理——更可能的解釋是，AI在訓練數(shù)據(jù)里見過大量Qiskit代碼，所以知道怎么用Qiskit的API把算法表達出來；但它見過的PennyLane代碼相對少，不知道那套API的寫法，就容易出錯。這是一種框架知識的不對稱，而不是量子知識的不對稱。

歸根結(jié)底，這項研究傳遞的信息是：當前最強的AI在量子編程上確實取得了實質(zhì)性進展，但要說"可靠"，還差得遠。最好的模型在最容易的框架里也只有不到六成的一次通過率，在最難的框架里只有四成多，即便給了反饋修復機會，最高也只能到83%。這說明至少有近兩成的任務是AI無論如何都搞不定的。未來要提升AI在量子編程上的能力，光靠把模型做得更大、參數(shù)更多可能還不夠，還需要更多高質(zhì)量的量子編程訓練數(shù)據(jù)、更好的跨框架泛化能力，以及真正理解量子邏輯而非死記硬背API的推理機制。

這項研究的代碼和數(shù)據(jù)集已開放在GitHub平臺，感興趣的讀者可通過原論文（arXiv:2604.08570）找到對應的代碼倉庫地址，進一步探索。

Q&A

Q1：QuanBench+和普通代碼測試基準有什么不同？

A：QuanBench+專門針對量子程序的特殊性做了設計。普通程序輸出是確定的，對錯一目了然；量子程序每次運行的結(jié)果是隨機的概率分布，因此QuanBench+引入KL散度來衡量AI生成的分布與標準答案的差距，而不是簡單比對輸出值。此外，QuanBench+同時覆蓋Qiskit、PennyLane和Cirq三個框架，可以區(qū)分AI是真正懂量子邏輯，還是只熟悉某一套特定API。

Q2：為什么PennyLane比Qiskit更難讓AI寫對？

A：最可能的原因是訓練數(shù)據(jù)的數(shù)量差異。Qiskit是目前最成熟、用戶最多的量子框架，互聯(lián)網(wǎng)上存在大量相關代碼示例，AI在訓練時接觸更多，自然對其API更熟悉。PennyLane相對較新、用戶群體較小，訓練數(shù)據(jù)中涉及它的代碼更少，AI在使用時更容易出現(xiàn)API調(diào)用錯誤或框架習慣不匹配的問題，導致整體成績最低。

Q3：反饋修復機制對量子代碼生成的提升有多大？

A：反饋修復的提升相當顯著，但有明顯的上限。以最強的GPT-5.1為例，在Qiskit框架下得分從57.1%提升到83.3%，提升幅度超過26個百分點。不過大部分提升集中在第一次到第二次修復之間，之后收益遞減。最重要的是，那些屬于量子邏輯錯誤或算法理解錯誤的失敗案例，無論給多少次修復機會都很難改正，這也是當前AI量子編程能力的核心瓶頸所在。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.