国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北航團隊突破:讓AI不用任何外部數(shù)據(jù)就能學(xué)會編程

0
分享至


這項由北航(北京航空航天大學(xué))的吳家俊、楊健等研究團隊與華為聯(lián)合完成的研究,發(fā)表于2025年12月19日的arXiv預(yù)印本平臺(論文編號:arXiv:2512.17385v1)。這項工作首次實現(xiàn)了讓大語言模型完全依靠自己內(nèi)部的知識來學(xué)習(xí)編程,無需任何外部數(shù)據(jù)或人工標注,為AI編程能力的提升開辟了全新路徑。

想象你是一個剛剛學(xué)會基礎(chǔ)語言的孩子,突然有一天你不需要任何老師、課本或外界幫助,僅憑自己大腦中已有的知識就能學(xué)會復(fù)雜的數(shù)學(xué)和寫作技巧。這聽起來不可思議,但北航的研究團隊就是讓AI做到了類似的事情。他們開發(fā)的UCoder系統(tǒng)能夠讓大語言模型完全依靠自身內(nèi)部已有的編程知識,通過一套巧妙的"自我訓(xùn)練"機制,在不依賴任何外部代碼庫、教學(xué)樣例或人工標注的情況下,自主提升編程能力。

傳統(tǒng)的AI編程訓(xùn)練就像是讓學(xué)生反復(fù)做老師精心準備的練習(xí)題。研究人員需要花費大量時間和精力收集編程題目,編寫標準答案,然后讓AI模型學(xué)習(xí)這些人工準備的材料。這個過程不僅成本高昂,而且非常耗時。更重要的是,隨著AI模型能力的不斷提升,準備高質(zhì)量訓(xùn)練數(shù)據(jù)的難度也在急劇增加,就像是需要不斷出更難的題目來挑戰(zhàn)越來越聰明的學(xué)生。

北航團隊提出的解決方案可以比作讓AI成為自己的老師。他們設(shè)計了一套名為IPC(Internal Probing of LLMs for Code generation)的框架,這個框架能夠探測和利用大語言模型內(nèi)部已經(jīng)存在的編程知識。這就好比發(fā)現(xiàn)一個人其實已經(jīng)掌握了很多技能,只是需要一個合適的方法來激發(fā)和整理這些潛在能力。

這套系統(tǒng)的工作原理可以用一個生動的比喻來理解。設(shè)想AI模型的大腦就像一個巨大的圖書館,里面存放著通過預(yù)訓(xùn)練獲得的各種編程知識,但這些知識就像散落在不同角落的書籍,沒有得到很好的整理和利用。UCoder系統(tǒng)就像一位聰明的圖書管理員,能夠系統(tǒng)性地整理這些知識,并創(chuàng)造出一套讓AI自我學(xué)習(xí)和提升的機制。

具體來說,這個過程分為六個相互關(guān)聯(lián)的階段,就像是一個完整的自我訓(xùn)練循環(huán)。首先是"問題空間探索"階段,AI模型需要自己生成編程問題。這不是簡單的復(fù)制粘貼,而是真正創(chuàng)造性的工作。模型需要設(shè)計出具有完整功能規(guī)范的算法問題,包括清晰的問題描述、輸入輸出示例,甚至是解題提示。這個過程就像是讓AI成為出題老師,需要深入理解各種編程概念和算法思維。

接下來是"質(zhì)量評估"階段,AI需要對自己生成的問題進行評分和分類。這個步驟類似于讓AI擔任閱卷老師的角色,需要判斷問題的質(zhì)量、難度和完整性。然后是"接口綜合"階段,AI會為每個問題生成相應(yīng)的解決方案框架,包括函數(shù)簽名、文檔說明和基本的實現(xiàn)結(jié)構(gòu)。

第四個階段是"測試理解探索",這個環(huán)節(jié)特別有趣。AI需要為每個編程問題生成大約100個測試用例,這些測試用例要能夠充分驗證解決方案的正確性,包括邊界條件和特殊情況。這就像是讓AI成為質(zhì)量檢測員,需要想出各種可能的情況來測試程序的可靠性。

核心的第五階段是"解決方案空間探索"。在這個階段,AI會為每個問題生成128個不同的解決方案候選,這些解決方案在實現(xiàn)方法和代碼結(jié)構(gòu)上都有所不同。然后系統(tǒng)會運用一種巧妙的"執(zhí)行驅(qū)動共識聚類"機制來識別正確的解決方案。這個機制基于一個重要的觀察:正確的程序?qū)崿F(xiàn)雖然代碼可能不同,但它們在面對相同測試用例時會產(chǎn)生相同的輸出結(jié)果,而錯誤的實現(xiàn)往往會產(chǎn)生各不相同的錯誤結(jié)果。

這種共識機制就像是在茫茫人海中尋找志同道合的朋友。當很多不同的解決方案都給出相同的正確答案時,我們就可以相信這些解決方案很可能是正確的。反之,如果某個解決方案給出的答案與大多數(shù)不同,那它很可能存在錯誤。通過這種方式,系統(tǒng)能夠在沒有標準答案的情況下,自動識別出高質(zhì)量的解決方案。

最后的第六階段是"知識鞏固和強化"。系統(tǒng)會將通過共識機制篩選出的高質(zhì)量解決方案作為新的訓(xùn)練數(shù)據(jù),對AI模型進行進一步的有監(jiān)督微調(diào)。這個過程會不斷重復(fù),形成一個正向反饋循環(huán):改進后的模型能夠生成更高質(zhì)量的候選解決方案,從而產(chǎn)生更可靠的訓(xùn)練信號,進一步提升模型性能。

研究團隊在多個標準編程基準測試上驗證了UCoder的效果,結(jié)果令人印象深刻。在HumanEval這個經(jīng)典的Python編程測試中,UCoder-7B模型達到了83.5%的通過率,UCoder-14B達到87.8%,UCoder-32B更是達到89.0%。這些數(shù)字意味著什么呢?簡單來說,就是AI能夠正確解決大部分常見的編程問題,其表現(xiàn)已經(jīng)接近甚至超越了一些需要大量人工標注數(shù)據(jù)訓(xùn)練的傳統(tǒng)模型。

更有趣的是,研究團隊發(fā)現(xiàn)了一個"反向縮放"現(xiàn)象。通常我們認為更大的模型會從訓(xùn)練中獲得更大的收益,但在這個自我訓(xùn)練框架中,較小的模型反而能夠獲得更顯著的性能提升。7B參數(shù)的小模型通過6輪迭代訓(xùn)練,在某些測試中的性能提升超過13個百分點,而32B的大模型提升幅度相對較小。這個現(xiàn)象可能是因為較小的模型在預(yù)訓(xùn)練階段獲得的編程知識還不夠充分,因此有更大的改進空間,而自我訓(xùn)練恰好能夠幫助它們更好地整理和利用這些潛在知識。

為了驗證系統(tǒng)生成內(nèi)容的質(zhì)量和多樣性,研究團隊進行了詳細的分析。他們發(fā)現(xiàn),AI生成的16867個編程問題在詞匯、語義和結(jié)構(gòu)上都展現(xiàn)出了豐富的多樣性。從詞匯角度看,這些問題的平均信息熵達到3.64比特,接近自然語言的變化程度,說明AI沒有簡單地重復(fù)模板,而是真正創(chuàng)造出了多樣化的問題描述。

從語義覆蓋面來看,生成的問題涵蓋了七個主要領(lǐng)域:數(shù)據(jù)結(jié)構(gòu)(占18.3%)、算法設(shè)計(14.8%)、字符串處理(11.4%)等,沒有任何單一類別占主導(dǎo)地位,體現(xiàn)了良好的領(lǐng)域平衡性。更重要的是,這些問題包含了229個領(lǐng)域特定的技術(shù)術(shù)語,如"dijkstra"、"greedy"、"traversal"等,表明AI確實理解了具體的算法概念,而不是在泛泛而談。

在解決方案的多樣性方面,系統(tǒng)生成的260萬個代碼樣本在抽象語法樹結(jié)構(gòu)上覆蓋了15種不同的語法構(gòu)造,總計超過2.1億個語法節(jié)點。這些解決方案在復(fù)雜度和代碼長度上也表現(xiàn)出廣泛的分布,平均復(fù)雜度為2.7,平均代碼長度為22.4行,顯示出實現(xiàn)方法的豐富性。

執(zhí)行驅(qū)動共識機制的有效性也得到了充分驗證。研究團隊分析了9700個解決方案候選的質(zhì)量分布,發(fā)現(xiàn)代碼質(zhì)量與其困惑度(一種衡量代碼流暢性的指標)之間存在明顯的分層關(guān)系。高質(zhì)量的解決方案(執(zhí)行成功率80%以上)主要集中在困惑度1.05以下的區(qū)間,而低質(zhì)量解決方案的困惑度則明顯更高。這種清晰的分層為自動質(zhì)量識別提供了可靠的信號。

通過對比實驗,研究團隊證明了基于共識的選擇策略確實優(yōu)于其他替代方案。與隨機選擇、基于聚類、選擇最低困惑度或基于執(zhí)行成功率等策略相比,共識機制在所有測試基準上都取得了最佳或接近最佳的性能。特別是在FullStackBench這樣的綜合性測試中,共識方法比隨機選擇的優(yōu)勢隨著模型規(guī)模增大而擴大,在32B模型上的優(yōu)勢達到13.9個百分點。

這項研究的理論基礎(chǔ)也十分扎實。研究團隊提出了一個重要的理論保證:在滿足一定條件的情況下,最大共識聚類包含正確實現(xiàn)的概率至少為1-δ-n?p^|T|,其中δ是錯誤概率的上界,n是候選數(shù)量,p是錯誤實現(xiàn)產(chǎn)生相同輸出的概率,|T|是測試用例數(shù)量。這個公式告訴我們,只要測試用例足夠多,錯誤實現(xiàn)很難"串通"產(chǎn)生相同的錯誤輸出,因此共識機制能夠可靠地識別正確的解決方案。

從實際應(yīng)用的角度來看,這項研究具有重要的意義。首先,它大大降低了訓(xùn)練高質(zhì)量AI編程助手的門檻。傳統(tǒng)方法需要大量人工標注的訓(xùn)練數(shù)據(jù),成本高昂且耗時。而UCoder只需要基礎(chǔ)的預(yù)訓(xùn)練模型,就能夠自主提升編程能力,這為資源受限的研究機構(gòu)和企業(yè)提供了新的可能性。

其次,這種自我改進的能力意味著AI編程助手能夠持續(xù)學(xué)習(xí)和適應(yīng)新的編程挑戰(zhàn),而不需要頻繁的人工干預(yù)和數(shù)據(jù)更新。這對于快速變化的軟件開發(fā)環(huán)境來說特別有價值。

不過,這項研究也存在一些局限性。目前的實驗主要集中在Python編程任務(wù)上,對于其他編程語言和更復(fù)雜的軟件工程場景,還需要進一步驗證。另外,系統(tǒng)的有效性依賴于可執(zhí)行的測試用例,對于一些難以形式化驗證的編程任務(wù)(如用戶界面設(shè)計、代碼可維護性等),可能需要額外的質(zhì)量評估機制。

此外,為每個問題生成128個候選解決方案的計算成本仍然不小,雖然比收集和標注大量訓(xùn)練數(shù)據(jù)要經(jīng)濟得多,但在資源嚴重受限的環(huán)境中可能仍然是一個考慮因素。研究團隊也注意到,迭代訓(xùn)練過程在一定輪次后會出現(xiàn)收益遞減的現(xiàn)象,需要通過驗證性能來確定最佳的停止點。

總的來說,這項研究為AI編程能力的提升提供了一個全新的思路。它證明了大語言模型內(nèi)部已經(jīng)蘊含了豐富的編程知識,關(guān)鍵在于如何有效地激發(fā)和利用這些知識。通過巧妙的自我訓(xùn)練機制,AI能夠在沒有外部監(jiān)督的情況下持續(xù)改進自己的編程能力,這不僅是技術(shù)上的突破,也為我們理解AI學(xué)習(xí)機制提供了新的視角。

這項工作的意義不僅局限于編程領(lǐng)域。它展示了一種通用的自我改進范式,可能對其他需要復(fù)雜推理和問題解決能力的AI應(yīng)用產(chǎn)生啟發(fā)。隨著AI模型規(guī)模和能力的不斷提升,如何有效利用模型內(nèi)部的潛在知識,而不僅僅依賴外部數(shù)據(jù)的數(shù)量增長,將成為AI發(fā)展的一個重要方向。

北航團隊的這項研究為我們展現(xiàn)了AI自主學(xué)習(xí)的巨大潛力。在這個AI技術(shù)快速發(fā)展的時代,能夠讓機器自己成為自己最好的老師,無疑是朝著真正智能化邁出的重要一步。對于關(guān)注AI發(fā)展的讀者來說,這項研究值得深入了解和思考,有興趣的讀者可以通過論文編號arXiv:2512.17385v1查詢完整的技術(shù)細節(jié)。

Q&A

Q1:UCoder是什么,它是如何工作的?

A:UCoder是北航團隊開發(fā)的一個AI編程系統(tǒng),它的特別之處在于能讓大語言模型完全依靠自身已有的知識學(xué)會編程,不需要任何外部數(shù)據(jù)。它通過六個階段的循環(huán)訓(xùn)練,讓AI自己出編程題、寫解決方案、驗證答案,然后從正確的解決方案中學(xué)習(xí),就像讓AI成為自己的編程老師。

Q2:UCoder的編程能力有多強?

A:UCoder在多個標準測試中表現(xiàn)出色,7B版本在HumanEval測試中達到83.5%的通過率,14B版本達到87.8%,32B版本更是達到89.0%。這意味著它能正確解決大部分常見的編程問題,性能已經(jīng)接近或超越需要大量人工數(shù)據(jù)訓(xùn)練的傳統(tǒng)模型。

Q3:普通開發(fā)者能使用UCoder嗎?

A:目前UCoder還是一個研究階段的技術(shù)框架,主要證明了AI可以通過自我訓(xùn)練提升編程能力的可能性。雖然研究團隊基于開源的Qwen2.5-Coder模型開發(fā),但要成為普通開發(fā)者可以直接使用的工具,還需要進一步的工程化和產(chǎn)品化工作。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我是河南人,從臺灣回來,實在忍不住想說:臺灣給我的5點印象

我是河南人,從臺灣回來,實在忍不住想說:臺灣給我的5點印象

i書與房
2026-01-01 16:58:55
美國提醒日本,小心被中國揍!日本天皇急召高市早苗:有要事交代

美國提醒日本,小心被中國揍!日本天皇急召高市早苗:有要事交代

興史興談
2025-12-31 18:51:20
一歲寶寶突然性情大變,厭食一周!上海醫(yī)生檢查后發(fā)現(xiàn)竟是這個原因,奶奶驚呼:疏忽了

一歲寶寶突然性情大變,厭食一周!上海醫(yī)生檢查后發(fā)現(xiàn)竟是這個原因,奶奶驚呼:疏忽了

環(huán)球網(wǎng)資訊
2026-01-01 07:16:13
無意之中和親戚談戀愛是啥體驗?網(wǎng)友:近親不能結(jié)婚,建議五代外

無意之中和親戚談戀愛是啥體驗?網(wǎng)友:近親不能結(jié)婚,建議五代外

解讀熱點事件
2025-12-29 01:45:30
最低溫-11℃!小雪局部中雪、小雨或雨夾雪,陣風(fēng)7~8級,山東最新元旦假期天氣→

最低溫-11℃!小雪局部中雪、小雨或雨夾雪,陣風(fēng)7~8級,山東最新元旦假期天氣→

魯中晨報
2026-01-01 16:25:12
2025年有一種痛苦叫搬進了“大平層”,不好住不好賣,已淪不動產(chǎn)

2025年有一種痛苦叫搬進了“大平層”,不好住不好賣,已淪不動產(chǎn)

巢客HOME
2025-12-25 07:25:03
母親電話說新年天冷別回去了,我回答說好,卻收到她要的禮物清單

母親電話說新年天冷別回去了,我回答說好,卻收到她要的禮物清單

周哥一影視
2025-12-30 11:30:23
因長得太漂亮,7次拒絕導(dǎo)演要求遭打壓,如今43歲才等到掌聲

因長得太漂亮,7次拒絕導(dǎo)演要求遭打壓,如今43歲才等到掌聲

黎兜兜
2025-12-25 21:57:32
臺海和平新方案橫空出世:拋棄,“一國兩制”的新模式行不行?

臺海和平新方案橫空出世:拋棄,“一國兩制”的新模式行不行?

解鎖世界風(fēng)云
2025-12-28 00:10:47
吳越公開84歲父親中風(fēng)沒去養(yǎng)老院,在家請護工,自己53歲還未育

吳越公開84歲父親中風(fēng)沒去養(yǎng)老院,在家請護工,自己53歲還未育

銀河史記
2025-12-17 01:26:27
好萊塢電影很少以中國為反派?美國:把中國設(shè)為最終大Boss更厲害

好萊塢電影很少以中國為反派?美國:把中國設(shè)為最終大Boss更厲害

詩意世界
2025-12-31 17:34:55
倫銅破萬+庫存見底!6元銅陵有色,下一個10倍大黑馬?

倫銅破萬+庫存見底!6元銅陵有色,下一個10倍大黑馬?

墜入二次元的海洋
2026-01-01 15:45:46
榮耀新機撞臉iPhone17 Pro Max!配色、鏡頭模組高度相似

榮耀新機撞臉iPhone17 Pro Max!配色、鏡頭模組高度相似

鞭牛士
2025-12-30 18:19:14
明朝一男子將私房錢藏于木雕中,藏了600年,幾任收藏家都沒發(fā)現(xiàn)

明朝一男子將私房錢藏于木雕中,藏了600年,幾任收藏家都沒發(fā)現(xiàn)

銘記歷史呀
2025-12-30 18:14:57
許光達愧受大將軍銜,他對賀老總說:段師長才是實至名歸的大將

許光達愧受大將軍銜,他對賀老總說:段師長才是實至名歸的大將

健康快樂丁
2026-01-01 19:11:26
京粵大戰(zhàn)在即,廣東傳來壞消息,3大支柱缺一門,杜鋒拿誰來填補

京粵大戰(zhàn)在即,廣東傳來壞消息,3大支柱缺一門,杜鋒拿誰來填補

萌蘭聊個球
2026-01-01 11:43:47
給2025最好的10部國產(chǎn)劇排名:《生萬物》僅排第2,第1名沒有爭議

給2025最好的10部國產(chǎn)劇排名:《生萬物》僅排第2,第1名沒有爭議

小老頭奇聞
2026-01-01 19:28:01
當著70多國的面,普京直言被中國蒙在鼓里,直到最后一刻才知道

當著70多國的面,普京直言被中國蒙在鼓里,直到最后一刻才知道

趣生活
2025-12-31 21:01:58
票價原路退回,羅永浩剛剛發(fā)文確認!此前承諾166.87萬元門票收入將全捐

票價原路退回,羅永浩剛剛發(fā)文確認!此前承諾166.87萬元門票收入將全捐

每日經(jīng)濟新聞
2026-01-01 18:18:06
笑死!原來這才是基層公務(wù)員真實的生活

笑死!原來這才是基層公務(wù)員真實的生活

夜深愛雜談
2025-12-08 20:20:44
2026-01-01 20:51:00
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
896文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

特斯拉Model 3車主首度全程自駕橫穿美國

頭條要聞

女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

頭條要聞

女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

體育要聞

2026,這些英超紀錄可能會被打破

娛樂要聞

跨年零點時刻好精彩!何炅飛奔擁抱

財經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

房產(chǎn)
親子
旅游
本地
公開課

房產(chǎn)要聞

實景暴擊!??谶@個頂流紅盤,拋出準現(xiàn)房+頂級書包雙王炸!

親子要聞

這三種兒科檢查,可以當面拒絕醫(yī)生!

旅游要聞

黑龍江方正:360°玩轉(zhuǎn)冰雪

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版