国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI寫量子程序,三大框架誰最難搞定?

0
分享至


這項由貝魯特美國大學與沙特阿拉伯阿卜杜拉國王科技大學聯(lián)合開展的研究,以論文預印本形式于2026年3月25日發(fā)布在arXiv平臺,編號為arXiv:2604.08570,并作為工作坊論文收錄于2026年國際學習表征會議(ICLR 2026)。有意深入了解的讀者可通過該編號查閱完整論文。

量子計算聽起來遙不可及,但它已經(jīng)悄悄滲透進軟件開發(fā)的日常工作中。越來越多的程序員開始使用專門的量子編程框架——就像寫普通程序要用Python或Java一樣,寫量子程序也有自己的"語言工具箱"。目前最主流的三個工具箱分別叫做Qiskit、PennyLane和Cirq。面對這種新型編程需求,人們自然會想到一個問題:現(xiàn)在這些能寫代碼的人工智能(也就是我們常說的大語言模型,或LLM),到底能不能可靠地幫人寫出正確的量子程序?

偏偏大多數(shù)已有的測試都只在一個工具箱里打轉(zhuǎn)。這就好比你想招一個廚師,卻只考他用一個牌子的鍋能不能做出好菜——完全不知道換了別的鍋他會不會抓瞎。于是這支研究團隊決定設計一套更公平、更全面的考試,讓AI同時在三個框架下完成同樣的量子編程任務,看看誰真的會做量子計算,誰只是背熟了某一本菜譜。這套考試就是本文要介紹的QuanBench+。

一、量子程序為什么比普通程序更難測評

在正式介紹這套考試之前,有必要先說清楚,量子程序究竟有什么特別之處,讓它的測評比普通程序復雜得多。

普通程序的輸出是確定的:你輸入2加2,程序必然告訴你4,對錯一目了然。量子程序則不然。量子計算機的核心單位叫做"量子比特",它的神奇之處在于,它可以同時處于"0"和"1"的疊加狀態(tài),只有當你去測量它的時候,它才會隨機坍縮成某個確定的結(jié)果。更準確地說,量子比特的狀態(tài)可以用一個數(shù)學式子來表達:一部分概率屬于"0",另一部分概率屬于"1",兩部分概率加起來等于100%。

這意味著量子程序每次運行的結(jié)果都可能不同,就像擲骰子一樣——你不能用"結(jié)果是否精確匹配"來判斷程序?qū)懙脤Σ粚Γ仨毧此a(chǎn)生的"概率分布"是否正確。舉個例子,一個正確的量子程序在被運行1000次之后,大約有500次應該輸出"00",500次應該輸出"11";如果某個AI寫的程序運行1000次后,900次輸出"00",100次輸出"11",那它就是錯的,盡管它確實輸出了"00"這個答案。

正因為如此,研究團隊在設計測評標準時,沒有采用簡單的"答案對不對",而是引入了一種叫做KL散度(Kullback-Leibler Divergence)的數(shù)學工具來衡量概率分布之間的差距。你可以把它理解為"兩個骰子點數(shù)分布有多不相似"的量化工具。研究團隊對標準答案反復運行1000次,建立起一個參考分布,然后把AI生成的程序也運行一遍,比較兩個分布之間的差異。只要差異足夠小(具體閾值定為0.05),就認為AI寫的程序是正確的。

研究團隊還特別解釋了為什么他們不使用另一種常見的評分方式——"保真度"(Fidelity)。保真度衡量的是兩個電路在數(shù)學結(jié)構(gòu)上有多像,但問題在于,兩個結(jié)構(gòu)完全不同的量子電路,完全有可能產(chǎn)生完全相同的測量結(jié)果。就像烤蛋糕可以用烤箱也可以用氣炸鍋,最終的蛋糕可能一樣好吃,但做法天差地別。如果用"做法是否相同"來評判蛋糕好壞,就會冤枉很多好廚師。QuanBench+選擇的是只看"蛋糕好不好吃"——即最終程序運行的結(jié)果是否正確。

二、這套考試是怎么設計的

QuanBench+的內(nèi)容來源于一個已有的量子代碼基準測試集,叫做QuanBench。研究團隊在此基礎上做了改造:他們剔除了兩道因為無法在三個框架之間進行統(tǒng)一評分而顯得模糊的題目,并對其余題目進行了適配,讓同一道題可以分別用Qiskit、PennyLane和Cirq三種框架來作答。最終保留下來的題目共42道,涵蓋三個大類。

第一類叫做"量子算法",包含31道題,是比重最大的一類。這類題目考察的是AI能否正確實現(xiàn)已知的量子算法或其子程序,相當于考試中的"綜合應用題",需要AI理解算法的邏輯并把它翻譯成代碼。第二類叫做"態(tài)制備",共6道題,考察的是如何構(gòu)建電路使量子系統(tǒng)進入某個特定的量子態(tài),就像考你能否按照配方調(diào)制出一杯特定成分的雞尾酒。第三類叫做"門分解",共5道題,考察的是如何把復雜的量子操作拆解成基本的量子門,類似于把一個復雜的機械動作分解成一系列標準手勢。

為了保證公平,研究團隊做了大量標準化工作。每道題在三個框架下給AI看的題目表述完全相同,只在庫的導入和API的調(diào)用方式上做了適應性調(diào)整——因為這三個框架的"語法"雖然目的相同,但寫法各異,就像同一道菜的中文菜譜和英文菜譜,內(nèi)容一樣但表達方式不同。AI被明確要求只返回可執(zhí)行的代碼,不需要附加任何解釋。需要輸入?yún)?shù)的題目,研究團隊提前隨機生成了一組固定的輸入,并在所有模型和框架中統(tǒng)一使用,確保比較的公平性。

測評流程分三步走:先從AI的回答里提取出可執(zhí)行的代碼,然后在對應的框架環(huán)境中運行這段代碼,最后將運行結(jié)果與標準答案進行比對——確定性結(jié)果直接比對,概率性結(jié)果用KL散度比對。整個過程自動化完成,不需要人工干預。

三、參加考試的選手們

研究團隊邀請了12個當前最有代表性的大語言模型參與測評,既有頂級的商業(yè)閉源模型,也有開放權(quán)重的模型,覆蓋面相當廣。這些模型包括:來自谷歌DeepMind的Gemini 3 Pro和Gemini 2.5 Flash、來自OpenAI的GPT-5.1和GPT-4.1、來自Anthropic的Claude 3.7 Sonnet、來自DeepSeek的DeepSeek-R1和DeepSeek-Chat、來自Meta的Llama 4 Maverick、來自阿里巴巴的Qwen 2.5 7B Instruct、來自智譜AI的GLM 4.7、來自MiniMax的MiniMax M2.1,以及來自月之暗面的Kimi K2 Thinking。

所有模型運行在統(tǒng)一的Python 3.10環(huán)境下,使用Qiskit v0.46.0、Cirq v1.6.1和PennyLane v0.43.1三個固定版本的框架。評分指標主要有三個:Pass@1,即給AI一次機會,看它能答對多少題;Pass@5,即給AI五次機會,只要有一次答對就算通過;以及Pass@1(反饋修復后),即在一次作答失敗后,把錯誤信息反饋給AI,最多給它五次修正機會,看最終能答對多少題。對于Pass@1,模型采用貪婪解碼(溫度為0,即每次都選最可能的答案);對于Pass@5,模型以較高的隨機性(溫度為0.8)生成五個不同的答案。

四、考試結(jié)果:誰強誰弱,差距有多大

成績揭曉,最直觀的發(fā)現(xiàn)就是:框架的差異對AI的成績影響巨大,而且這個規(guī)律對幾乎所有模型都成立。

在單次作答(Pass@1)的成績中,Qiskit框架下的最高分由Gemini 3 Pro獲得,達到59.5%——也就是說,它能在第一次嘗試中答對42道題里的大約25道。Cirq框架下的最高分也是Gemini 3 Pro,達到54.8%。PennyLane框架下的最高分則由GPT-5.1摘得,為42.9%。換句話說,即便是當前最強的模型,在最擅長的框架下也只能做對一半左右,在最難的框架下甚至不到一半。

從整體排名來看,Gemini 3 Pro在三個框架的平均得分上領跑,主要因為它在Qiskit和Cirq兩個框架上表現(xiàn)突出。而GPT-5.1則在PennyLane上獨占鰲頭。幾乎所有模型都呈現(xiàn)出同一個規(guī)律:Qiskit得分最高,Cirq居中,PennyLane最低。這強烈暗示著,模型的表現(xiàn)很大程度上取決于它在訓練數(shù)據(jù)中接觸過多少該框架的代碼——Qiskit作為最老牌、應用最廣泛的框架,在互聯(lián)網(wǎng)上存在大量的示例代碼,所以AI對它最熟悉。

排名靠后的模型差距也相當顯著。Qwen 2.5 7B Instruct在Qiskit下只拿到16.7%,在Cirq下僅有4.8%,在PennyLane下是11.9%,說明小參數(shù)量的開源模型在量子代碼生成上還有很大的成長空間。

當允許生成五個答案、取其中最好的一個時(Pass@5),成績普遍有所提升,但框架之間的差距并沒有消失。GPT-5.1在Qiskit下從57.1%上升到76.2%,在PennyLane下從42.9%上升到57.1%,DeepSeek R1在PennyLane下從33.3%大幅躍升至59.5%。這說明,很多時候AI其實"知道"正確答案,只是在單次生成時不夠穩(wěn)定,沒能恰好選對那個答案。

五、提前告訴AI用哪個框架,有沒有用

研究團隊還做了一個額外的實驗:在題目中提前給AI提供正確的庫導入語句、函數(shù)簽名和基本框架代碼(這種做法叫做"預填充"或prefill),與完全讓AI從零開始生成的情況進行對比。

結(jié)果顯示,預填充確實有用,但主要幫的是那些中等水平的模型,以及在PennyLane這類不太常見的框架上。對于頂級模型來說,預填充帶來的提升就小得多。這說明預填充的主要作用在于減少"框架摩擦"——比如忘記導入某個庫、函數(shù)簽名寫錯格式之類的低級錯誤——而不是幫助AI理解量子算法本身的邏輯。換句話說,給AI搭好架子,它就不會因為忘記搭架子而出錯,但如果AI從根本上不理解這道題的量子邏輯,給它搭好架子也沒用。

在Cirq框架下,預填充同樣帶來了明顯的改善,尤其是在中間層次的模型中,排名出現(xiàn)了一些變化。在Qiskit下,預填充的效果相對沒那么統(tǒng)一,對強模型和弱模型的影響程度參差不齊。

六、給AI一個改錯機會,成績能提高多少

這項研究最引人關注的部分之一,是測試了一個"反饋修復"機制:當AI第一次寫的代碼運行出錯或答案不對時,系統(tǒng)會把錯誤信息(比如報錯的堆棧信息,或者"你給出的概率分布與標準答案差太遠了"這樣的提示)反饋給AI,然后讓它再試一次,最多給五次修正機會。

反饋修復的效果非常顯著。GPT-5.1在Qiskit下的得分從57.1%躍升到83.3%,Gemini 3 Pro在Cirq下從54.8%升到76.2%,GPT-5.1和Gemini 3 Pro在PennyLane下都從40-42%范圍升到66.7%。這種提升不是個別強模型的專利,幾乎整個排行榜的中間層次也都有顯著改善。

從修復的軌跡來看,大多數(shù)改善發(fā)生在第一次到第二次反饋之間,之后每一輪的邊際收益逐漸遞減。到了第四、第五輪,曲線已經(jīng)明顯趨于平緩。Qiskit框架下的強模型飽和得更快,而PennyLane和Cirq框架下的模型則往往在第四、第五輪還有一些零散的改善空間。

反饋修復之所以有效,關鍵在于錯誤的類型。研究團隊分析了所有第一次作答失敗的情況,發(fā)現(xiàn)錯誤主要分為以下幾類:答案本身就是錯的(錯誤分布,占46.7%)、邏輯錯誤(25.0%)、缺少正確的方法或量子門(11.8%)、輸出形狀不匹配(8.0%)、語法錯誤(4.7%)、以及量子比特規(guī)格錯誤(3.9%)。總計977個失敗案例。

當把錯誤信息告訴AI之后,那些屬于"語法錯誤"、"缺少正確方法"、"量子比特規(guī)格寫錯"之類的具體、明確的錯誤很容易被修復——AI看到報錯信息就知道哪里寫錯了,自然可以改對。但那些屬于"答案本身就是錯的"和"邏輯錯誤"的情況,就算給了五次機會,也往往依然無法修復。

經(jīng)過五輪反饋修復后,錯誤總數(shù)從977個降低到665個,減少了約32%。但在這665個剩余錯誤中,"答案本身就是錯的"的比例從46.7%上升到53.4%,"邏輯錯誤"從25.0%降到22.0%,而"缺少正確方法"從11.8%暴跌到3.8%,"語法錯誤"從4.7%驟降到1.5%。這個變化說明:反饋修復擅長解決"能看見的毛病",修不了"腦子里的誤解"。

七、分任務來看,哪些題最難

研究團隊還提供了按每道題展開的熱力圖,讓我們可以看到哪些具體任務對所有模型都構(gòu)成挑戰(zhàn),哪些任務幾乎所有模型都能輕松通過。

在Qiskit框架的熱力圖中,成績較好的模型(如Gemini 3 Pro、GPT-5.1)呈現(xiàn)出一片連續(xù)的"深色區(qū)域",說明它們能覆蓋相當多的任務,但仍然有幾列任務ID對應的格子是空白的——這些列代表著幾乎所有模型都無法解決的難題。PennyLane的熱力圖則整體稀疏得多,深色區(qū)域明顯少于Qiskit,即便是最強的模型也有大片空白。Cirq的熱力圖介于二者之間,比PennyLane稠密,但不及Qiskit完整。

到了Pass@5的熱力圖,可以看到很多原本空白的格子變成了深色,說明這些任務并非"完全不可能",只是在單次生成時AI不夠穩(wěn)定。Pass@5把這部分不穩(wěn)定的能力也統(tǒng)計進來了,因此整體覆蓋面更廣。經(jīng)過反饋修復的熱力圖則是三個版本中最稠密的,但那些對所有模型都頑固空白的列,基本上在反饋修復之后也還是空白的——這些就是那批更深層次的、語義層面的錯誤。

說到底,這項研究想回答的核心問題,不是"AI到底強不強",而是"AI到底在哪里強、在哪里弱,以及這種強弱是因為真懂量子計算,還是只是背熟了某一套工具書"。得到的答案是:很可能大部分是后者。

同一道量子算法題,AI在Qiskit下能寫對,換到PennyLane就寫不對,這不太可能是因為AI突然忘記了量子力學的基本原理——更可能的解釋是,AI在訓練數(shù)據(jù)里見過大量Qiskit代碼,所以知道怎么用Qiskit的API把算法表達出來;但它見過的PennyLane代碼相對少,不知道那套API的寫法,就容易出錯。這是一種框架知識的不對稱,而不是量子知識的不對稱。

歸根結(jié)底,這項研究傳遞的信息是:當前最強的AI在量子編程上確實取得了實質(zhì)性進展,但要說"可靠",還差得遠。最好的模型在最容易的框架里也只有不到六成的一次通過率,在最難的框架里只有四成多,即便給了反饋修復機會,最高也只能到83%。這說明至少有近兩成的任務是AI無論如何都搞不定的。未來要提升AI在量子編程上的能力,光靠把模型做得更大、參數(shù)更多可能還不夠,還需要更多高質(zhì)量的量子編程訓練數(shù)據(jù)、更好的跨框架泛化能力,以及真正理解量子邏輯而非死記硬背API的推理機制。

這項研究的代碼和數(shù)據(jù)集已開放在GitHub平臺,感興趣的讀者可通過原論文(arXiv:2604.08570)找到對應的代碼倉庫地址,進一步探索。

Q&A

Q1:QuanBench+和普通代碼測試基準有什么不同?

A:QuanBench+專門針對量子程序的特殊性做了設計。普通程序輸出是確定的,對錯一目了然;量子程序每次運行的結(jié)果是隨機的概率分布,因此QuanBench+引入KL散度來衡量AI生成的分布與標準答案的差距,而不是簡單比對輸出值。此外,QuanBench+同時覆蓋Qiskit、PennyLane和Cirq三個框架,可以區(qū)分AI是真正懂量子邏輯,還是只熟悉某一套特定API。

Q2:為什么PennyLane比Qiskit更難讓AI寫對?

A:最可能的原因是訓練數(shù)據(jù)的數(shù)量差異。Qiskit是目前最成熟、用戶最多的量子框架,互聯(lián)網(wǎng)上存在大量相關代碼示例,AI在訓練時接觸更多,自然對其API更熟悉。PennyLane相對較新、用戶群體較小,訓練數(shù)據(jù)中涉及它的代碼更少,AI在使用時更容易出現(xiàn)API調(diào)用錯誤或框架習慣不匹配的問題,導致整體成績最低。

Q3:反饋修復機制對量子代碼生成的提升有多大?

A:反饋修復的提升相當顯著,但有明顯的上限。以最強的GPT-5.1為例,在Qiskit框架下得分從57.1%提升到83.3%,提升幅度超過26個百分點。不過大部分提升集中在第一次到第二次修復之間,之后收益遞減。最重要的是,那些屬于量子邏輯錯誤或算法理解錯誤的失敗案例,無論給多少次修復機會都很難改正,這也是當前AI量子編程能力的核心瓶頸所在。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
NBA官方:弗拉格當選年度最佳新秀 成獨行俠隊史第三位獲獎者

NBA官方:弗拉格當選年度最佳新秀 成獨行俠隊史第三位獲獎者

羅說NBA
2026-04-28 07:21:45
遼寧男籃1-0山東,郭艾倫一針見血道出遼籃內(nèi)線強大優(yōu)勢

遼寧男籃1-0山東,郭艾倫一針見血道出遼籃內(nèi)線強大優(yōu)勢

赫岝鄉(xiāng)村攝影
2026-04-29 03:34:08
一場1:1驗出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國足鋒線又添猛人

一場1:1驗出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國足鋒線又添猛人

零度眼看球
2026-04-28 06:46:34
阿聯(lián)酋退出歐佩克,直接讓全球能源圈來了個大震蕩!

阿聯(lián)酋退出歐佩克,直接讓全球能源圈來了個大震蕩!

利刃號
2026-04-28 22:23:41
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時空
2026-04-16 06:04:48
世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險晉級唯一

世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險晉級唯一

小犙拍客在北漂
2026-04-29 03:02:30
21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動過氣

21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動過氣

悠悠說世界
2026-04-25 14:03:58
賴清德做夢都沒想到,鄭麗文的丈夫早被策反,臺獨情侶變統(tǒng)一夫妻

賴清德做夢都沒想到,鄭麗文的丈夫早被策反,臺獨情侶變統(tǒng)一夫妻

小楊侃事
2026-04-12 09:40:51
中央政治局會議穩(wěn)定軍心!兩天內(nèi)A股大盤將向上變盤!誰能領漲?

中央政治局會議穩(wěn)定軍心!兩天內(nèi)A股大盤將向上變盤!誰能領漲?

丁丁鯉史紀
2026-04-28 18:24:04
豆包提前查到事業(yè)編成績單,全網(wǎng)炸了!

豆包提前查到事業(yè)編成績單,全網(wǎng)炸了!

互聯(lián)網(wǎng)品牌官
2026-04-27 18:11:08
臺灣政壇徹底炸鍋!

臺灣政壇徹底炸鍋!

安安說
2026-04-28 10:56:05
聯(lián)想把用了20年的BIOS供應商買回家了

聯(lián)想把用了20年的BIOS供應商買回家了

薛定諤的BUG
2026-04-27 22:37:44
賴清德向大陸喊話,林佳龍返臺:機場大言不慚!解放軍打獨大動作

賴清德向大陸喊話,林佳龍返臺:機場大言不慚!解放軍打獨大動作

共工之錨
2026-04-28 15:40:37
遼寧省委書記、省長等共同巡看夜經(jīng)濟市集

遼寧省委書記、省長等共同巡看夜經(jīng)濟市集

蘭妮搞笑分享
2026-04-29 00:11:17
白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

海外散修厲飛雨
2026-04-27 17:50:27
和前夫分道揚鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

和前夫分道揚鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

翰飛觀事
2026-04-26 14:55:41
帕勞通告全球,拒與臺灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

帕勞通告全球,拒與臺灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

厲羽萱
2026-04-29 00:28:09
為什么男人每次偷情要開房,女人每次偷情都在車里呢?

為什么男人每次偷情要開房,女人每次偷情都在車里呢?

思絮
2026-04-28 10:25:11
別再吹天生美貌!朱珠真實原生臉曝光,整容前后差距一目了然

別再吹天生美貌!朱珠真實原生臉曝光,整容前后差距一目了然

小娛樂悠悠
2026-04-27 09:21:13
5月1日正式開刀!3萬就立案,所有打工人都要警惕

5月1日正式開刀!3萬就立案,所有打工人都要警惕

洞見小能手
2026-04-27 21:17:44
2026-04-29 04:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財經(jīng)要聞

中央政治局會議定調(diào),八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

房產(chǎn)
健康
時尚
教育
數(shù)碼

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國人口增量第4省!

干細胞治療燒燙傷三大優(yōu)勢!

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

教育要聞

教育部通知,今年9月份開始,上學的規(guī)則全變了

數(shù)碼要聞

機械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預約

無障礙瀏覽 進入關懷版