国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國內(nèi)量化圈的第二個AI選手來了,開源模型代碼跑分超 GPT-5.1

0
分享至

2026 年開年,國內(nèi)量化私募九坤投資創(chuàng)始團隊旗下的至知研究院(IQuest Research)發(fā)布了首代開源代碼大模型系列 IQuest-Coder-V1。

這家研究機構(gòu)聲稱,其 40B 參數(shù)的旗艦模型在 SWE-bench Verified 基準測試中拿下了 81.4%的成績,超越了 Claude Sonnet 4.5 的 77.2%和 GPT-5.1 的 76.3%。模型已在 GitHub 和 Hugging Face 上全面開源,涵蓋 7B、14B、40B 三種參數(shù)規(guī)模,以及標準版和 Loop 變體。


圖丨IQuest-Coder-V1的架構(gòu)(來源:GitHub)

至知研究院由九坤投資創(chuàng)始團隊發(fā)起設立,定位為獨立于量化投研體系的 AI 研究平臺。

九坤本身是國內(nèi)最早將深度學習大規(guī)模應用于量化投資的機構(gòu)之一,2020 年投資過億建成 AI 超算集群“北溟”,旗下三大實驗室長期從事數(shù)據(jù)、算法和交易執(zhí)行研究。繼幻方量化孵化出 DeepSeek 之后,這是又一家從量化圈走出來的 AI 研究力量。

IQuest-Coder-V1 技術(shù)報告中最值得關(guān)注的是 Code-Flow 訓練范式對 commit 演化數(shù)據(jù)的利用。傳統(tǒng)代碼模型基于靜態(tài)代碼文件訓練,相當于讓模型看一堆代碼快照。IQuest-Coder 的做法不同:它試圖讓模型學習代碼倉庫的演化軌跡——不只是代碼長什么樣,還要學習代碼是怎么一步步改出來的。

具體來說,他們?yōu)槊總€代碼倉庫構(gòu)建了形如(R_old, P, R_new)的三元組訓練數(shù)據(jù)。R_old 代表項目在某個穩(wěn)定開發(fā)階段的代碼狀態(tài),P 是捕捉兩個狀態(tài)差異的 Patch 信息(即 commit 變更),R_new 則是迭代后的新狀態(tài)。

選取起點時有個講究:他們避開了項目早期不穩(wěn)定的探索性代碼和后期碎片化的維護性修改,專門聚焦于項目生命周期 40%到 80%區(qū)間的“成熟期”。理由是這個階段的代碼庫相對穩(wěn)定,變更模式更能反映真實的軟件開發(fā)邏輯。

這個思路有一定道理。程序員在修 bug 或加新功能時,腦子里轉(zhuǎn)的不是“這段代碼是什么”,而是“這段代碼要從什么狀態(tài)變成什么狀態(tài)”。

Commit 記錄天然包含了這種“變更意圖”——為什么改、改了哪里、改完之后整體結(jié)構(gòu)如何調(diào)整。如果模型能從大量 commit 歷史中學到這種模式,理論上應該比只看靜態(tài)代碼更擅長理解“怎么改代碼”。

這也解釋了為什么 IQuest-Coder 在 SWE-bench 這類需要生成 patch 修復 issue 的任務上表現(xiàn)突出——任務形式本身就和訓練數(shù)據(jù)的結(jié)構(gòu)高度吻合。技術(shù)報告中提到的一個發(fā)現(xiàn)印證了這點:倉庫演化數(shù)據(jù)(repository transition data)在任務規(guī)劃能力上提供了比靜態(tài)快照更好的訓練信號。


圖丨研究團隊展示的太陽系模擬示例(來源:IQuest Lab)

預訓練階段,IQuest-Coder 先用通用數(shù)據(jù)和代碼數(shù)據(jù)打底,隨后用高質(zhì)量代碼語料進行退火(Annealing)。這部分比較常規(guī)。中間訓練階段則分兩期進行:他們在 32K 上下文長度下注入了推理數(shù)據(jù)、Agent 軌跡和代碼數(shù)據(jù)的混合,隨后將上下文擴展到 128K,加入倉庫級的長序列樣本。

Agent 軌跡數(shù)據(jù)包含完整的“行動-觀察-修正”循環(huán)——命令執(zhí)行、日志輸出、錯誤信息、測試結(jié)果等環(huán)境反饋。技術(shù)報告的說法是,推理數(shù)據(jù)提供符號層面的邏輯腳手架,Agent 軌跡則提供“閉環(huán)智能”,讓模型學會根據(jù)環(huán)境反饋調(diào)整行為。他們聲稱在高質(zhì)量代碼退火之后、后訓練之前注入這類數(shù)據(jù),能在分布偏移下穩(wěn)定模型性能。

后訓練階段分成兩條路徑:Thinking 路徑先用包含顯式推理軌跡的數(shù)據(jù)做監(jiān)督微調(diào),再用強化學習優(yōu)化推理能力;Instruct 路徑則用通用和代碼指令數(shù)據(jù)做監(jiān)督微調(diào),再用 RL 增強指令遵循能力。

技術(shù)報告聲稱,Thinking 版本在長程任務中展現(xiàn)出了自主錯誤恢復(error-recovery)能力,而這種能力在標準 Instruct SFT 路徑中幾乎觀察不到。換言之,RL 可能是解鎖代碼模型“自主調(diào)試”能力的關(guān)鍵。


圖丨訓練流程(來源:GitHub)

架構(gòu)方面,Loop 變體的設計比較有意思。LoopCoder 采用循環(huán) Transformer 架構(gòu),讓參數(shù)共享的 Transformer 塊執(zhí)行兩次固定迭代。第一次迭代正常處理輸入嵌入,第二次迭代同時計算兩種注意力:全局注意力(iteration 2 的 queries attend to iteration 1 的所有 key-value 對)和局部注意力(維持因果性的常規(guī)自注意力)。

兩種注意力的輸出通過一個基于 query 表示的學習門控機制加權(quán)混合。這種設計的目的是在有限參數(shù)規(guī)模下獲得更高的有效計算深度,即用參數(shù)共享換取更多計算步驟,在部署效率和模型能力之間找平衡。

后訓練的 Thinking 路徑也值得一提。技術(shù)報告聲稱,通過強化學習訓練的 Thinking 版本在長程任務中展現(xiàn)出了自主錯誤恢復(error-recovery)能力,而這種能力在標準 Instruct SFT 路徑中幾乎觀察不到。如果屬實,這意味著 RL 可能是解鎖代碼模型“自主調(diào)試”能力的關(guān)鍵,模型不只是生成代碼,還能在出錯后自我修正。

根據(jù)技術(shù)報告,IQuest-Coder-V1-40B-Loop-Instruct 在 SWE-bench Verified 上取得了 81.4% 的解決率,在 BigCodeBench 上拿下 49.9%,在 BFCL(Berkeley Function Calling Leaderboard,伯克利函數(shù)調(diào)用排行榜)V3 上達到 73.8%,在 Mind2Web 上取得 62.5%,在 Terminal-Bench v1.0 上達到 51.3%。而 Thinking 版本在 LiveCodeBench v6 上的成績是 81.1%,在 CRUXEval 的 Input-COT 和 Output-COT 上分別達到 98.5%和 99.4%。


圖丨基準測試結(jié)果(來源:IQuest-Coder-V1)

當然,SWE-bench Verified 只覆蓋 Python 且僅含 500 個樣本,社區(qū)對“針對榜單優(yōu)化”的擔憂一直存在。其在實際使用中的表現(xiàn)如何,有待社區(qū)的進一步測試反饋。

從技術(shù)貢獻看,IQuest-Coder-V1 最有價值的部分可能是對 commit 演化數(shù)據(jù)的系統(tǒng)性利用。這個方向此前在學術(shù)界有過探索,但在開源模型的大規(guī)模訓練中應用得并不多。技術(shù)報告承諾會開源完整訓練流程和中間檢查點,這對研究代碼模型如何學習軟件工程能力將是有價值的參考。至于跑分能否轉(zhuǎn)化為實際生產(chǎn)力,要等更多開發(fā)者上手實測才能下結(jié)論。

參考資料:

1. https://iquestlab.github.io/#/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
為什么英國仍然被認為是世界強國?

為什么英國仍然被認為是世界強國?

霹靂炮
2026-01-06 22:38:17
流亡一年后,阿薩德已成“透明人”,連約普京吃頓飯都做不到

流亡一年后,阿薩德已成“透明人”,連約普京吃頓飯都做不到

朔方瞭望
2026-01-06 11:11:51
上海這項老年人補貼,取消了?回應:各區(qū)有所不同!你家那里是啥情況?

上海這項老年人補貼,取消了?回應:各區(qū)有所不同!你家那里是啥情況?

新民晚報
2026-01-08 15:29:53
一旦開戰(zhàn)中國必???我國著名院士批主戰(zhàn)派,要懂得甲午戰(zhàn)爭的慘敗

一旦開戰(zhàn)中國必???我國著名院士批主戰(zhàn)派,要懂得甲午戰(zhàn)爭的慘敗

文史旺旺旺
2025-11-14 20:30:09
知名女星性感營業(yè),深V驚艷

知名女星性感營業(yè),深V驚艷

吃瓜黨二號頭目
2026-01-07 11:19:22
遠華集團老總賴昌星,在獄中對董文華的回憶,讓無數(shù)人咋舌

遠華集團老總賴昌星,在獄中對董文華的回憶,讓無數(shù)人咋舌

曉艾故事匯
2025-01-09 22:01:49
這家境怎么破局?女子失業(yè)后回到一貧如洗的家,自責無助很痛苦

這家境怎么破局?女子失業(yè)后回到一貧如洗的家,自責無助很痛苦

唐小糖說情感
2026-01-06 15:30:09
全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國資一把

全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國資一把

文史旺旺旺
2025-12-27 18:22:03
狗都嘆氣,社保利息公布了...

狗都嘆氣,社保利息公布了...

越女事務所
2026-01-07 21:49:04
血管堵塞的真兇是肉?是糖?都不是,而是它,比肥肉傷 10 倍!

血管堵塞的真兇是肉?是糖?都不是,而是它,比肥肉傷 10 倍!

神奇故事
2025-12-18 22:10:05
中美日26年GDP預測出爐:美31萬億,日跌破4.5萬億,中國令人意外

中美日26年GDP預測出爐:美31萬億,日跌破4.5萬億,中國令人意外

億通電子游戲
2026-01-08 05:56:41
上海這家知名商場要關(guān)了?曾是亞洲最大!許多人都在這里逛吃購物過

上海這家知名商場要關(guān)了?曾是亞洲最大!許多人都在這里逛吃購物過

新民晚報
2026-01-07 17:29:36
博主帶女兒赴富親戚家吃飯,菜品遭吐槽引發(fā)熱議!

博主帶女兒赴富親戚家吃飯,菜品遭吐槽引發(fā)熱議!

特約前排觀眾
2026-01-08 00:05:06
布倫森26+7尼克斯擊沉快船結(jié)束4連敗,唐斯20+11+7小卡25分

布倫森26+7尼克斯擊沉快船結(jié)束4連敗,唐斯20+11+7小卡25分

湖人崛起
2026-01-08 10:53:40
今晚打響!U23亞洲杯首輪:中國vs伊拉克 近10年最強中國隊能否旗開得勝?

今晚打響!U23亞洲杯首輪:中國vs伊拉克 近10年最強中國隊能否旗開得勝?

新英體育
2026-01-08 10:39:54
白宮發(fā)出軍事威脅,丹麥希望“澄清誤解”,“美國需要格陵蘭島”令歐洲為難

白宮發(fā)出軍事威脅,丹麥希望“澄清誤解”,“美國需要格陵蘭島”令歐洲為難

環(huán)球網(wǎng)資訊
2026-01-08 07:11:06
深夜大消息!腦機接口,或要超級大周期?這5家訂單大漲(附邏輯

深夜大消息!腦機接口,或要超級大周期?這5家訂單大漲(附邏輯

Thurman在昆明
2026-01-08 02:49:50
聯(lián)合國還有什么意義?安理會無視中方發(fā)言后,中國記者靈魂提問

聯(lián)合國還有什么意義?安理會無視中方發(fā)言后,中國記者靈魂提問

來科點譜
2026-01-08 09:06:03
親密接觸中的罕見身體鎖死現(xiàn)象

親密接觸中的罕見身體鎖死現(xiàn)象

特約前排觀眾
2025-12-27 00:05:08
向太曝馬伊琍已再婚:當年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
2026-01-08 22:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16097文章數(shù) 514462關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

19歲小伙在柬疑被16萬轉(zhuǎn)賣 與母親視頻時按"酒窩"求救

頭條要聞

19歲小伙在柬疑被16萬轉(zhuǎn)賣 與母親視頻時按"酒窩"求救

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

手機
藝術(shù)
旅游
數(shù)碼
公開課

手機要聞

一加手機2025年銷量增速位居行業(yè)第一:一加15/Ace 6銷量創(chuàng)新高

藝術(shù)要聞

頤和園金光穿洞

旅游要聞

大道之行 | 滬蘇浙交界處的“共享客廳”:一院跨三地,一眼長三角

數(shù)碼要聞

華碩推V400 AiO:全球首款高通驍龍X平臺Copilot+一體機電腦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版