国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

開源屠刀!400美元煉成「代碼副腦」,硅谷天價(jià)模型成廢鐵

0
分享至


新智元報(bào)道

編輯:peter東

【新智元導(dǎo)讀】Claude Code這樣私有的編程智能體雖然能力強(qiáng)大,但有著封閉、昂貴、難以定制的局限。艾倫研究院推出的Open Coding Agents,讓你只需要400美元就能訓(xùn)練一個(gè)32B的專屬編程智能體。

一個(gè)行業(yè)的價(jià)格體系,往往不是被更強(qiáng)的技術(shù)」擊穿,而是被「更便宜的復(fù)制」改寫。

今天,AI2直接把編程智能體的入場費(fèi)從「實(shí)驗(yàn)室級預(yù)算」砍到「團(tuán)隊(duì)報(bào)銷級」:公開開源Open Coding Agents,用最低數(shù)百美元的算力成本,就能訓(xùn)練出能跑SWE-Bench Verified、還能貼合私有代碼庫的專屬編程智能體。

封閉、昂貴、難定制的「巨頭護(hù)城河」,第一次被開源用成本刀鋒切開一道口子。

開源編程智能體適配私人風(fēng)格

過去一年,AI編碼智能體徹底改寫了軟件開發(fā)的游戲規(guī)則——

從代碼生成、調(diào)試到重構(gòu)甚至提交拉取請求,AI正以前所未有的深度介入開發(fā)流程。

然而繁榮背后,一個(gè)殘酷的現(xiàn)實(shí)是:最強(qiáng)大的編碼智能體幾乎都被科技巨頭封閉,訓(xùn)練成本動(dòng)輒百萬美元,更無法適配企業(yè)的私有代碼庫。


現(xiàn)在有了Allen AI發(fā)布的Open Coding Agents,為任何代碼庫構(gòu)建自己的編程智能體變得異常容易,你可以使用個(gè)人代碼庫或所在組織的內(nèi)部代碼庫,輕松訓(xùn)練一個(gè)能夠用于包括代碼生成、代碼審查、調(diào)試、維護(hù)和代碼解釋等任務(wù)的智能體。

用上這套方法,達(dá)到先前最佳開源模型只需約400 美元的計(jì)算成本,而要微調(diào)出一個(gè)與32B最佳行業(yè)模型相當(dāng)性能的編程大模型,成本最高也不過12,000美元,僅需40個(gè)GPU日訓(xùn)練(2塊NVIDIA Hopper或Blackwell GPU)。

這個(gè)價(jià)格比許多傳統(tǒng)方法便宜25倍以上,對實(shí)驗(yàn)室和小型團(tuán)隊(duì)來說都觸手可及。


圖1:SERA-32B在編程任務(wù)上的表現(xiàn)

在標(biāo)準(zhǔn)編碼基準(zhǔn)測試SWE-Bench中,SERA-32B交出了一份令人驚艷的成績單:在64K上下文長度下,解決率達(dá)到54.2%,超越了所有同規(guī)模開源模型。

推理速度更是驚人,在4×H100上達(dá)到每秒3,700個(gè)token,在Blackwell 4×B200上更是達(dá)到每秒8,600個(gè)token。

但更顛覆認(rèn)知的是在特定代碼庫上的表現(xiàn)。當(dāng)針對Django和SymPy等大型開源項(xiàng)目進(jìn)行專業(yè)化訓(xùn)練后,僅用8,000個(gè)樣本、1,300美元成本微調(diào)的SERA-32B,竟然在多項(xiàng)任務(wù)上超越了其老師,擁有1100億參數(shù)的GLM-4.5-Air。

這說明模型規(guī)模并非決定性能的唯一因素,高質(zhì)量、針對性的訓(xùn)練數(shù)據(jù)可以讓小模型在特定領(lǐng)域表現(xiàn)出色。這為資源有限的研究團(tuán)隊(duì)和企業(yè)提供了新的可能性。他們不再需要追逐千億參數(shù)規(guī)模的模型,而是可以通過有針對性的訓(xùn)練,讓較小的模型在特定任務(wù)上達(dá)到頂尖水平。

軟驗(yàn)證生成與工作流高保真模擬

SERA的核心突破源于其在合成數(shù)據(jù)生成方法上的根本性創(chuàng)新。傳統(tǒng)方法需要精確驗(yàn)證生成的代碼補(bǔ)丁是否正確,這一過程計(jì)算成本高昂,成為大規(guī)模應(yīng)用的瓶頸。

而SERA引入的軟驗(yàn)證生成(SVG Soft-verified generation)技術(shù),徹底改變了這一范式。

之前的編程智能體訓(xùn)練之所以成本高,是因?yàn)橛?xùn)練數(shù)據(jù)需要包含錯(cuò)誤和修正代碼的代碼示例對,這就意味著需要花費(fèi)很多人力成本來生成并驗(yàn)證訓(xùn)練數(shù)據(jù)集。

AllenAI的研究者發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)不需要完美無缺才能有效。

就像不同的代碼可以實(shí)現(xiàn)相同功能一樣,部分正確的代碼補(bǔ)丁同樣可以訓(xùn)練出強(qiáng)大的編碼智能體。這一發(fā)現(xiàn)解放了數(shù)據(jù)生成過程,使其從昂貴的全驗(yàn)證循環(huán)中解脫出來。

AllenAI團(tuán)隊(duì)通過系統(tǒng)實(shí)驗(yàn)證明,軟驗(yàn)證數(shù)據(jù)與完全驗(yàn)證數(shù)據(jù)在訓(xùn)練效果上具有相似的縮放規(guī)律,但生成成本卻大幅降低。

這意味著研究者可以將資源集中在數(shù)據(jù)量和多樣性上,而非追求每個(gè)樣本的完美正確性。

為了讓訓(xùn)練數(shù)據(jù)多樣化,AllenAI團(tuán)隊(duì)從51種常見錯(cuò)誤模式中系統(tǒng)化生成多樣化的訓(xùn)練數(shù)據(jù),避免數(shù)據(jù)單調(diào)性。對于代碼庫中的每個(gè)函數(shù),分別生成多個(gè)不同的 bug 風(fēng)格的提示詞,這樣一個(gè)包含數(shù)千個(gè)函數(shù)的代碼庫可以以低成本產(chǎn)生數(shù)萬個(gè)多樣化的用于編程智能體的訓(xùn)練數(shù)據(jù)。


圖2:SERA訓(xùn)練過程

在訓(xùn)練時(shí),SERA通過「教師模型」結(jié)合「錯(cuò)誤指令集」,在目標(biāo)代碼庫上自動(dòng)化生成兩輪數(shù)據(jù):第一輪模擬開發(fā)者引入錯(cuò)誤(Rollout 1),第二輪模擬審查與修復(fù)(Rollout 2)。最關(guān)鍵的是,系統(tǒng)并不驗(yàn)證第二輪生成的補(bǔ)丁(P2)是否絕對正確,而是通過r = |P2 ∩ P1| / |P1|來衡量新舊補(bǔ)丁的重疊度。只要重疊度超過50%(r ≥ 0.5),修復(fù)補(bǔ)丁即被視為有效。

上述SERA的訓(xùn)練數(shù)據(jù)的生成方式,模擬的是開發(fā)者的工作過程,而不僅僅是代碼結(jié)果。這意味著AI學(xué)習(xí)的是如何發(fā)現(xiàn)問題、分析問題、解決問題的完整思維鏈,而不僅僅是記憶正確的代碼片段。

SERA項(xiàng)目負(fù)責(zé)人表示,「軟驗(yàn)證捕捉的是開發(fā)者的思維過程,而非簡單的代碼正確性」。這一設(shè)計(jì)實(shí)現(xiàn)了根本性的成本革命。它放棄了追求「完美正確」的樣本,轉(zhuǎn)而捕捉「部分正確但邏輯合理」的開發(fā)者工作流。

這使得從任何私有代碼庫大規(guī)模、低成本生成高質(zhì)量訓(xùn)練數(shù)據(jù)成為可能,最終產(chǎn)出的軌跡與補(bǔ)丁數(shù)據(jù)可用于高效的監(jiān)督微調(diào),讓中小團(tuán)隊(duì)也能訓(xùn)練出理解自身代碼的專屬編程智能體。

高性能、易部署、兼容Claude Code

此次開源的代碼,包括了從8B到32B的所有規(guī)模模型,以及在SERA上進(jìn)行據(jù)生成、訓(xùn)練參數(shù)、優(yōu)化策略以微調(diào)、測試和構(gòu)建私有AI編程智能體的全過程,僅需兩行代碼即可啟動(dòng)推理服務(wù)器。

Allen AI還開發(fā)了一個(gè)設(shè)置腳本和推理優(yōu)化,使SERA直接兼容Claude Code。


優(yōu)化后的SERA在消費(fèi)級硬件就可以運(yùn)行,這對于想使用AI編程智能體的公司,意味著不必?fù)?dān)心自身數(shù)據(jù)外泄,就可以用一個(gè)和更大參數(shù)模型性能相近,還適配自身編程規(guī)范的本地智能體。這對于金融,醫(yī)療等關(guān)注數(shù)據(jù)安全的行業(yè)尤為適用。

一個(gè)充分理解特定代碼庫的小模型,完全可以戰(zhàn)勝通用的巨無霸模型。這對于企業(yè)來說,意味著定制化的編碼智能體不再是科技巨頭的特權(quán),只需要用1/3的參數(shù)規(guī)模、更少的內(nèi)存、更快的推理速度,就能獲得更好的編程效果。


SERA展示出的小模型+高質(zhì)量數(shù)據(jù)的技術(shù)路徑,減少了對極端算力資源的依賴,使得在更接近數(shù)據(jù)源的地方進(jìn)行訓(xùn)練和推理成為可能。這將改變AI智能體的發(fā)展方向。

SERA的出現(xiàn),將會(huì)有利于垂直類的編程智能體。企業(yè)現(xiàn)在可以構(gòu)建理解自身代碼基的智能體,而非試圖讓通用模型適應(yīng)自己的特定需求。醫(yī)療、金融、制造等特定行業(yè)的編碼規(guī)范將被快速學(xué)習(xí),催生領(lǐng)域?qū)俚腁I編碼助手。

就像Linux開啟了操作系統(tǒng)的開源時(shí)代,SERA可能開啟編碼智能體的開源時(shí)代。當(dāng)每個(gè)開發(fā)者都能擁有理解自己代碼庫的AI伙伴時(shí),編碼智能體的平民化時(shí)代將會(huì)到來。最強(qiáng)大的AI工具不應(yīng)被鎖在科技巨頭的服務(wù)器里,而應(yīng)該掌握在每個(gè)創(chuàng)造者手中。

參考資料:

https://allenai.org/blog/open-coding-agents


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
繼續(xù)打的可能性不到一半,更可能保持沖突但暫時(shí)不打

繼續(xù)打的可能性不到一半,更可能保持沖突但暫時(shí)不打

邵旭峰域
2026-04-11 13:02:42
陳坤兒子陳尊佑:我媽不是保姆,也不是周迅,真相15年前就公布了

陳坤兒子陳尊佑:我媽不是保姆,也不是周迅,真相15年前就公布了

知法而形
2026-04-12 19:45:38
“終身追責(zé)”來了,退休5年、10年仍被查,為何軍人干部要警惕

“終身追責(zé)”來了,退休5年、10年仍被查,為何軍人干部要警惕

李昕言溫度空間
2026-04-12 06:05:03
勝廣廈發(fā)布會(huì)!杜鋒肯定攻守直指籃球精神,奎因點(diǎn)出進(jìn)攻發(fā)揮!

勝廣廈發(fā)布會(huì)!杜鋒肯定攻守直指籃球精神,奎因點(diǎn)出進(jìn)攻發(fā)揮!

籃球資訊達(dá)人
2026-04-12 22:53:22
A股:剛剛,中央一部門發(fā)布,釋放一信號(hào),周一將迎來更大的變化

A股:剛剛,中央一部門發(fā)布,釋放一信號(hào),周一將迎來更大的變化

另子維愛讀史
2026-04-12 18:57:31
人民日報(bào)“點(diǎn)名”董勇,言辭犀利,釋放3大信號(hào),影壇風(fēng)向要變了

人民日報(bào)“點(diǎn)名”董勇,言辭犀利,釋放3大信號(hào),影壇風(fēng)向要變了

做一個(gè)合格的吃瓜群眾
2026-04-10 11:59:37
偽強(qiáng)隊(duì)!廣東吊打廣廈,主場神話破滅,杜鋒振臂歡呼,胡金秋太差

偽強(qiáng)隊(duì)!廣東吊打廣廈,主場神話破滅,杜鋒振臂歡呼,胡金秋太差

余憁搞笑段子
2026-04-12 20:54:18
陳麗華的富華國際集團(tuán)旗下有哪些知名品牌

陳麗華的富華國際集團(tuán)旗下有哪些知名品牌

藍(lán)色海邊
2026-04-10 03:35:13
緊急叫停!提醒:服用瑞舒伐他汀的人,身體出現(xiàn)這5癥狀注意

緊急叫停!提醒:服用瑞舒伐他汀的人,身體出現(xiàn)這5癥狀注意

垚垚分享健康
2026-04-12 08:55:10
出人意料!遭棄用3個(gè)月,卻轟全隊(duì)最高20分,球迷:早該用他了

出人意料!遭棄用3個(gè)月,卻轟全隊(duì)最高20分,球迷:早該用他了

南海浪花
2026-04-12 10:21:17
山東第二個(gè)“青島”正在崛起?臨沂淄博無緣,這三座城市最有潛力

山東第二個(gè)“青島”正在崛起?臨沂淄博無緣,這三座城市最有潛力

聞識(shí)
2026-04-12 11:52:57
過午不食?55歲男子堅(jiān)持2年不吃晚飯,去體檢后,他的胃怎樣了?

過午不食?55歲男子堅(jiān)持2年不吃晚飯,去體檢后,他的胃怎樣了?

白話電影院
2026-04-09 14:36:58
醫(yī)生告誡:每天睡前玩手機(jī)的人,不用半年時(shí)間,睡眠或有這6變化

醫(yī)生告誡:每天睡前玩手機(jī)的人,不用半年時(shí)間,睡眠或有這6變化

白話電影院
2026-04-05 15:34:47
廣東91-85戰(zhàn)勝廣廈 球員評價(jià):3人優(yōu)秀,4人及格,2人低迷

廣東91-85戰(zhàn)勝廣廈 球員評價(jià):3人優(yōu)秀,4人及格,2人低迷

籃球資訊達(dá)人
2026-04-12 21:41:29
蔣方良晚年:連喪三子,兩次任性爆發(fā),皆為丈夫蔣經(jīng)國,結(jié)果如何

蔣方良晚年:連喪三子,兩次任性爆發(fā),皆為丈夫蔣經(jīng)國,結(jié)果如何

老范談史
2026-04-11 14:38:10
現(xiàn)場大打出手!委內(nèi)瑞拉爆發(fā)大示威,民眾怒吼:我們已經(jīng)忍了四年

現(xiàn)場大打出手!委內(nèi)瑞拉爆發(fā)大示威,民眾怒吼:我們已經(jīng)忍了四年

金哥說新能源車
2026-04-12 13:24:18
賭王60歲女兒何超蕸去世,何超瓊發(fā)訃告,死因曝光,一生未婚育

賭王60歲女兒何超蕸去世,何超瓊發(fā)訃告,死因曝光,一生未婚育

叨嘮
2026-04-12 18:18:28
78歲王剛探班71歲張國立,鐵三角老友同框滿臉滄桑,歲月終究沒饒過誰?

78歲王剛探班71歲張國立,鐵三角老友同框滿臉滄桑,歲月終究沒饒過誰?

老吳教育課堂
2026-04-11 16:06:01
白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
首談二胎兒子4個(gè)月后,胡歌突迎噩耗,患肺癌住院傳聞早真相大白

首談二胎兒子4個(gè)月后,胡歌突迎噩耗,患肺癌住院傳聞早真相大白

仙味少女心
2026-04-11 21:57:01
2026-04-12 23:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
本地
教育
公開課

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026海口樓市,格局大變!

數(shù)碼要聞

2026年最新AMD/Intel桌面CPU排名:多線程、單線程、游戲性能誰才是第一

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

教育要聞

高中地理必會(huì)知識(shí)點(diǎn)115條全梳理

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版