国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

硬剛OpenAI!中國團隊殺入Agentic AI全球前二,一戰(zhàn)封神

0
分享至


新智元報道

編輯:犀牛

【新智元導(dǎo)讀】Feeling AI憑借CodeBrain-1在權(quán)威榜單Terminal-Bench 2.0中強勢突圍,僅次于OpenAI最新旗艦,位居全球第二。不僅打破了美系巨頭的絕對壟斷,更標(biāo)志著中國AI在 Agentic AI(智能體)復(fù)雜任務(wù)規(guī)劃與自主編碼領(lǐng)域的工程化能力已達(dá)到世界頂尖水平。

在中國農(nóng)歷春節(jié)的前夜,全球科技界的空氣中不僅彌漫著辭舊迎新的氣息,更夾雜著一股前所未有的硝煙味。

Anthropic祭出了Claude Opus 4.6,OpenAI則以GPT-5.3-Codex強勢回應(yīng)。

雙方在技術(shù)之巔的對決看似是老生常談的「王座之爭」,但在平靜的水面之下,競爭的底層邏輯已然悄然改寫。

全球大模型競賽已正式從實驗室里的參數(shù)博弈」突變?yōu)闅埧岬?/strong>實戰(zhàn)進(jìn)化」。

這一次,巨頭們不再沉迷于跑分?jǐn)?shù)據(jù)的虛幻繁榮,而是將目光死死鎖定了架構(gòu)的嚴(yán)謹(jǐn)性與自主工作流的長效續(xù)航——

能否在真實商業(yè)世界中「破局」,成為了唯一的度量衡。

在硬核指標(biāo)的正面交鋒中,OpenAI和Anthropic兩家巨頭均選擇Terminal-Bench 2.0作為實力背書:Opus 4.6在Agentic Terminal Coding Task上以 65.4%的勝率展現(xiàn)了卓越的智能體編碼能力;而Sam Altman憑借5.3-Codex+ Simple Codex的組合創(chuàng)下的 77.3%(75.1%)高分,宣稱其登頂全球編碼性能之巔。

正如NVIDIA首席科學(xué)家Jim Fan所言:真實的終端環(huán)境是AI的「魔鬼訓(xùn)練場」。

在閉環(huán)環(huán)境中自我進(jìn)化,已成為衡量模型工程能力的終極標(biāo)尺。

令人振奮的是,在這一權(quán)威賽道上,中國的AI初創(chuàng)團隊Feeling AI異軍突起——其自研的CodeBrain-1在GPT-5.3-Codex底座模型的加持下,以 72.9%(70.3%)的驚艷戰(zhàn)績躍升全球榜單第二,成為前十強中唯一的中國新銳。




剛拿下Agentic Memory SOTA

Feeling AI又上大分

5天前,F(xiàn)eeling AI團隊在深夜發(fā)布MemBrain1.0,LoCoMo / LongMemEval / PersonaMem-v2等多項主流記憶基準(zhǔn)評測中拿下全新SOTA,反超MemOS、Zep和EverMemOS等記憶系統(tǒng)和全上下文模型。

在KnowMeBench Level III兩個難度等級最高的評測中更是比現(xiàn)有評測結(jié)果大幅提升超300%。

在AI技術(shù)圈和資本押注的新風(fēng)口——Agentic Memory方向先打出了第一張牌。

強大的記憶能力以及適配模型原生的層級化記憶系統(tǒng),意味著AgenticAI正從模型能力逐步走向用戶體驗層面的范式躍遷。

緊隨MemBrain 1.0的余熱,F(xiàn)eeling AI昨晚又打出了第二張牌——CodeBrain。

作為具備動態(tài)規(guī)劃與策略調(diào)整能力的「進(jìn)化大腦」,CodeBrain-1迅速躋身權(quán)威基準(zhǔn)Terminal-Bench2.0榜單全球第二,僅次于OpenAI 5.3-Codex的官配Simple Codex。

在Feeling AI的官方媒體中,其一直在強調(diào)動態(tài)交互是世界模型通向AGI的終極拼圖。

其原創(chuàng)的跨模態(tài)分層架構(gòu)提出了三層核心能力——負(fù)責(zé)理解、記憶與規(guī)劃的InteractBrain,負(fù)責(zé)能力執(zhí)行的InteractSkill,以及負(fù)責(zé)渲染呈現(xiàn)的InteractRender,共同構(gòu)成了其技術(shù)護(hù)城河。

目前已經(jīng)亮劍的MemBrain與CodeBrain 都屬于InteractBrain核心層,精準(zhǔn)定位在復(fù)雜動態(tài)交互場景下的深度理解與長程規(guī)劃。

如此看來,這兩項在全球拿下極具說服力成績的工作應(yīng)該并非偶然,而是早有布局。

這也進(jìn)一步解釋了無論是用于Agentic Memory的MemBrain1.0還是用于確保模型任務(wù)規(guī)劃和執(zhí)行成功率的CodeBrain-1,其算法核心關(guān)注點也集中在服務(wù)于在復(fù)雜「動態(tài)交互」場景下的能力。

OpenAI在其官網(wǎng)技術(shù)博客中明確將Simple Codex 定義為 「針對長程軟件工程任務(wù)的最優(yōu)解」。

模型和Agent 框架的良好組合也許將成為未來大模型商業(yè)落地的標(biāo)準(zhǔn)形態(tài)。

Agentic Memory的記憶能力未來也許會成為Agent 框架的一部分,就像是一個外掛的記憶大腦,通過系統(tǒng)化的能力讓模型更強。

一個能駕馭全球頂尖模型的中國框架,正是AI時代最核心的智能中樞。

對頂尖模型的深度驅(qū)動能力,意味著中國團隊已在 AI 時代的「戰(zhàn)術(shù)調(diào)度中心」占據(jù)高點,正在參與定義未來大模型的工程標(biāo)準(zhǔn)。

CodeBrain-1

會動態(tài)調(diào)整計劃與策略的「大腦」

在Terminal-Bench官方評測網(wǎng)站的最新排名顯示,CodeBrain-1僅次于Open AI的Simple Codex(GPT-5.3-Codex),F(xiàn)actory的Droid使用Anthropic最新基模Claude Opus 4.6排名第三。

榜單上還有一些大家熟悉的Agent或機構(gòu),如Warp、Coder、Google、Princeton等。


(官網(wǎng)截圖)

Terminal Bench覆蓋的任務(wù)類型非常廣泛,其中既包括復(fù)雜的系統(tǒng)操作,也包含大量需要在真實終端環(huán)境中完成的編碼任務(wù)。

CodeBrain-1的核心關(guān)注點,是「代碼能否被正確寫出并運行」。

在技術(shù)實現(xiàn)上,CodeBrain-1 專注打磨了兩個直接影響「能否成功且高效地完成任務(wù)」的環(huán)節(jié)。

  • Useful Context Searching:只用「真正有用」的上下文。在復(fù)雜任務(wù)中,信息不是越多越好,而是是否相關(guān),減少噪音可以有效避免LLM的幻覺問題CodeBrain-1會根據(jù)當(dāng)前任務(wù)需求和已有Code Base索引,充分利用LSP (Language Server Protocol) 的功能,提高關(guān)聯(lián)信息的檢索效率,有效輔助Code Generation的過程。比如當(dāng)我們需要為一個游戲Bot規(guī)劃任務(wù)時,需要先了解如何使用該Bot的API。CodeBrain-1在Coding過程中,借助LSP Search準(zhǔn)確獲取了move_to(target)、do(action)等相關(guān)方法的簽名、文檔和已有Code Base內(nèi)的使用實例等信息,有效降低了關(guān)聯(lián)信息檢索的損耗和上下文干擾。

  • Validation Feedback:讓失敗真正變成信息。CodeBrain-1可以從LSP Diagnostics當(dāng)中高效定位,并補充錯誤相關(guān)的代碼和文檔,有效縮減Generate -> Validate的循環(huán)過程。比如CodeBrain-1編寫的代碼中出現(xiàn)了調(diào)用on(observation, exec)(一個定義Bot Reaction的方法)時,出現(xiàn)了參數(shù)exec類型錯誤的問題,這時,LSP除報錯argument type mismatch之外,還會額外提供該方法的caller示例、錯誤參數(shù)相關(guān)文檔、以及exec這個參數(shù)在實現(xiàn)中如何被使用等輔助信息。

  • 團隊從Terminal Bench中篩選出了一個更聚焦的子集,共47條任務(wù),均可以使用單一程序語言(Python)完成。在這一子集中,CodeBrain-1也表現(xiàn)出了穩(wěn)定而一致的完成能力:關(guān)聯(lián)代碼和文檔檢索更高效;在代碼檢查和驗證失敗時,能更快定位問題。

Rank  Agent                Model                Py Tasks     Coding Tasks   All Tasks   -----------------------------------------------------------------------------------------------1     Simple Codex         GPT-5.3-Codex        73.9%        72.7%          74.9%       2     CodeBrain-1          GPT-5.3-Codex        72.3%        70.2%          70.3%       3     Droid                Claude Opus 4.6      70.2%        66.8%          69.9%       4     Mux                  GPT-5.3-Codex        71.9%        69.2%          68.5%       5     Droid                GPT-5.2              66.0%        61.6%          65.1%       6     Ante                 Gemini 3 Pro         66.8%        62.7%          64.9%       7     Terminus 2           GPT-5.3-Codex        64.7%        61.4%          64.7%       8     Junie CLI            Gemini 3 Flash       68.9%        62.7%          64.3%       9     Droid                Claude Opus 4.5      62.1%        58.3%          63.1%       10    Terminus 2           Claude Opus 4.6      67.2%        63.1%          62.9%

此外,在Token的消耗方面,CodeBrain-1也展現(xiàn)出了不俗的表現(xiàn),可持續(xù)降低用戶成本。

對比Anthropic發(fā)布的技術(shù)文檔,當(dāng)基模均使用claude opus 4.6時,使用CodeBrain-1和Claude Code在兩者均成功的Py Tasks子任務(wù)上所消耗的總Token大幅縮減了超15%。

CodeBrain-1在Terminal-Bench 2.0上的強勢表現(xiàn)還不僅僅體現(xiàn)在真實命令行終端(CLI)環(huán)境下的端到端任務(wù)執(zhí)行能力。

更重要的,團隊進(jìn)一步的賦予了它更高階的能力——會動態(tài)調(diào)整計劃與策略的「大腦」,它通過優(yōu)化任務(wù)的執(zhí)行邏輯和錯誤反饋機制,顯著提升了模型在真實終端環(huán)境下的操作成功率。

CodeBrain-1提出了一種不同的解決方式。并非讓 AI 直接「隨意發(fā)揮」,而是反過來調(diào)整分工方式。

CodeBrain-1 負(fù)責(zé)在這些約束條件內(nèi),動態(tài)生成「智能」所對應(yīng)的可執(zhí)行程序,并根據(jù)實際反饋不斷調(diào)整。

這里的「計劃和策略」既可以作用在個體層面,也可以作用在群體層面。

對個體而言,它意味著角色可以根據(jù)自身目標(biāo)、記憶和觀察結(jié)果,持續(xù)調(diào)整日程、行為選擇和對他人的態(tài)度對群體而言,它意味著一個組織可以形成共享記憶,并基于外部條件變化,調(diào)整整體規(guī)劃和響應(yīng)規(guī)則。

為了更直觀地展示CodeBrain-1的能力,團隊將它放入游戲場景中,作為一種行為與策略生成引擎。

#Case1:游戲bot的實時驅(qū)動

在一些開放世界游戲中,它可以承擔(dān)游戲伙伴的角色。玩家可以用自然語言表達(dá)意圖,讓bot執(zhí)行。從理解自然語言中的需求——「幫我建個房子」、「造一把鎬子」,到規(guī)劃行動方案——「收集資源」、「清理工作環(huán)境」、「建造/制作」,最終生成并執(zhí)行完整的行動腳本以實現(xiàn)目標(biāo),他可以有條不紊地應(yīng)對任務(wù),豐富玩家的游戲體驗。

#Case2:群體記憶驅(qū)動的戰(zhàn)術(shù)演化

在「搜打撤」類游戲中,如果玩家長期走一條習(xí)慣性路線,并被多次觀察到,敵對群體可以逐步強化這一「群體記憶」。

在后續(xù)地圖構(gòu)建與部署階段,系統(tǒng)會據(jù)此調(diào)整整體策略,例如:

distribute  in area = { calculate_area_by_player_hotspots }  with count = { 70% of total }

同時,還可以疊加行為表達(dá)規(guī)則,增強沉浸感,在熱點區(qū)域成功發(fā)現(xiàn)玩家時高喊「抓到你了!」或者是在非預(yù)期區(qū)域遭遇時高喊「預(yù)判失誤!」更進(jìn)一步,可以配置簡單的小隊作戰(zhàn)策略,比如前排沖鋒,后排掩護(hù)。

這類行為并非單點腳本,而是由群體策略動態(tài)生成的結(jié)果。

為什么AI巨頭都在

Terminal-Bench 2.0 上較量?

Terminal-Bench 是由斯坦福大學(xué)與 Laude Institute 聯(lián)合打造的開源基準(zhǔn),被公認(rèn)為 AI 智能體在真實命令行(CLI)環(huán)境下端到端執(zhí)行能力的「金標(biāo)準(zhǔn)」。

與紙上談兵的代碼生成測試不同,它的嚴(yán)苛在于:

  • 閉環(huán)實戰(zhàn)環(huán)境:在隔離的 Docker 容器中,AI 必須像人類專家一樣,在真實的 Linux 生態(tài)中完成編譯、調(diào)試、訓(xùn)練及部署。

  • 高壓長程任務(wù):89 個深度場景橫跨軟件工程與科學(xué)計算,不僅要求極高的邏輯跨度,更徹底杜絕了簡單的「模式匹配」。

  • 零容忍驗證:采用 0/1 判定準(zhǔn)則,唯有產(chǎn)出符合預(yù)期的交付物(如修復(fù)的代碼或運行的服務(wù))才算通關(guān),沒有任何「模糊分」。

  • 2.0 的「天花板」效應(yīng):升級后的 2.0 版本大幅拉高了門檻。目前全球頂尖模型的解決率普遍難以突破 65%,這已成為大模型處理系統(tǒng)級復(fù)雜任務(wù)的「深水區(qū)」。

CodeBrain-1首次亮相便一舉奪得全球第二,其含金量不言而喻。

以GPT系列為例,頂尖模型雖具備極強的邏輯推理鏈(Reasoning Chain),但常因「過度思考」導(dǎo)致執(zhí)行鏈路冗長。

CodeBrain-1并不是一個「更會說話」的AI,而是一個由Code組成、能夠持續(xù)調(diào)整計劃與策略的執(zhí)行型大腦,它巧妙地扮演了「調(diào)度中樞」與「效率校準(zhǔn)器」的角色:它引導(dǎo)模型在常規(guī)操作中保持極速響應(yīng),僅在遭遇關(guān)鍵報錯時激活深層思考。

這種對底座模型的精準(zhǔn)駕馭,正是拉開商業(yè)化落地差距的核心變量。

魯棒的閉環(huán)糾錯(Error Recovery),高效的任務(wù)分解(Sub-goal Decomposition)和對環(huán)境感知的精確理解,在AGI的商業(yè)版圖中,強大的Agent依然是「模型落地的必經(jīng)之路」。

它不僅關(guān)乎任務(wù)分解的精度,更關(guān)乎在閉環(huán)環(huán)境中糾錯與生存的韌性。

Sam Altman在GPT-5.3-Codex發(fā)布后的宣言也佐證了這一趨勢:Codex已從單一的代碼審查工具,蛻變?yōu)槟軝M跨全生命周期、執(zhí)行專業(yè)人士所有計算機操作的「全能代理」。

在OpenAI的藍(lán)圖中,模型與框架正進(jìn)化為深度綁定的「智能全家桶」。

即便巨頭環(huán)伺,垂直行業(yè)的深水區(qū)依然為優(yōu)秀的工程框架留下了巨大的商業(yè)紅利。

無論是系統(tǒng)級的Agent框架,還是精悍的開發(fā)者效能工具,這些「離用戶更近」的觸點都潛藏著爆發(fā)式增長的可能。

作為一家中國初創(chuàng)團隊,F(xiàn)eeling AI能在OpenAI尖端模型發(fā)布的瞬間完成深度整合,并跑出全球領(lǐng)先的戰(zhàn)績,這不僅是工程響應(yīng)速度的勝利,更是中國AI團隊在全球工程化協(xié)同中占據(jù)制高點的有力證明。

在Terminal-Bench 2.0這種以「真實環(huán)境、長程進(jìn)化」著稱的硬核賽道上,緊隨OpenAI之后摘得全球榜眼,其標(biāo)志性意義不言而喻:中國創(chuàng)業(yè)團隊已率先跨越了Agent從「對話玩具」到「生產(chǎn)力工具」的鴻溝,在「重塑工作流」這一戰(zhàn)略高地上占據(jù)了領(lǐng)先身位。

在OpenAI與Anthropic構(gòu)建的巨頭生態(tài)中,中國團隊選擇以「框架定義者」的角色切入,展現(xiàn)了中國AI創(chuàng)新路徑的獨特性與韌性。

在全球底座模型的上半場較量之余,面向模型商業(yè)落地的下半場的競爭只會更加殘酷。

這注定是一條沒有捷徑的拓荒之路,每一寸領(lǐng)地的攻克都需實打?qū)嵉墓こ逃补?,但這正是中國創(chuàng)業(yè)者在AI時代必須回答的「硬核命題」:不走捷徑,方能定義未來。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
城事 | 老外來上海的“第一站”逛輕紡市場?不只是“塌便宜貨”

城事 | 老外來上海的“第一站”逛輕紡市場?不只是“塌便宜貨”

上觀新聞
2026-02-26 13:29:12
橙子再次被發(fā)現(xiàn)!醫(yī)生發(fā)現(xiàn):高血壓患者常吃橙子,或出現(xiàn)4種變化

橙子再次被發(fā)現(xiàn)!醫(yī)生發(fā)現(xiàn):高血壓患者常吃橙子,或出現(xiàn)4種變化

小胡軍事愛好
2026-02-08 22:34:31
身中4彈不松手!為抓捕馬杜羅他駕重傷直升機完成絕密突襲

身中4彈不松手!為抓捕馬杜羅他駕重傷直升機完成絕密突襲

老馬拉車莫少裝
2026-02-26 14:56:46
8打5?日本主場裁判逆天明著黑 讓人想起韓日世界杯 楊毅:無法無天

8打5?日本主場裁判逆天明著黑 讓人想起韓日世界杯 楊毅:無法無天

風(fēng)過鄉(xiāng)
2026-02-26 21:38:22
傅彪兒子近照曝光!過年和張一山聚餐,生活奢華難掩35歲滿頭白發(fā)

傅彪兒子近照曝光!過年和張一山聚餐,生活奢華難掩35歲滿頭白發(fā)

叨嘮
2026-02-24 21:53:09
英偉達(dá),漲不動了

英偉達(dá),漲不動了

虎嗅APP
2026-02-27 06:46:08
WTT新加坡大滿貫:2月27賽程公布!國乒再戰(zhàn)早田、橋本、雨果

WTT新加坡大滿貫:2月27賽程公布!國乒再戰(zhàn)早田、橋本、雨果

全言作品
2026-02-27 06:40:03
世界第一女巨人來自中國安徽,穿78碼的鞋子,一頓飯吃六碗炒面

世界第一女巨人來自中國安徽,穿78碼的鞋子,一頓飯吃六碗炒面

不寫散文詩
2026-02-25 21:02:18
47歲清華書記溘然長逝,誰在為“英年早逝”的中青年學(xué)者買單?

47歲清華書記溘然長逝,誰在為“英年早逝”的中青年學(xué)者買單?

教師吧
2026-02-26 21:21:30
“00后”陳某某被押赴刑場 執(zhí)行死刑

“00后”陳某某被押赴刑場 執(zhí)行死刑

閃電新聞
2026-02-07 16:53:35
封神!騰訊大廈保潔阿姨,56萬買騰訊持有12年,狂賺近千萬

封神!騰訊大廈保潔阿姨,56萬買騰訊持有12年,狂賺近千萬

真實人物采訪
2026-02-27 08:35:03
個稅年度匯算開始,這些坑你可別跳進(jìn)去

個稅年度匯算開始,這些坑你可別跳進(jìn)去

賈話連篇
2026-02-26 17:55:13
一種戴久了可能致癌的首飾,很多人家里都有!

一種戴久了可能致癌的首飾,很多人家里都有!

距離距離
2026-02-26 13:18:17
廖三寧砍16+5令球迷懷念一人:要是他在,肯定不會是現(xiàn)在這個局面

廖三寧砍16+5令球迷懷念一人:要是他在,肯定不會是現(xiàn)在這個局面

弄月公子
2026-02-26 21:07:44
創(chuàng)造歷史!克努佩爾打破新秀單賽季三分命中數(shù)紀(jì)錄

創(chuàng)造歷史!克努佩爾打破新秀單賽季三分命中數(shù)紀(jì)錄

北青網(wǎng)-北京青年報
2026-02-27 10:17:03
“太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

“太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

都市快報橙柿互動
2026-02-25 11:28:41
“兒子下肢已壞了,你還讓他跳繩!”低認(rèn)知的殘忍,只有自我感動

“兒子下肢已壞了,你還讓他跳繩!”低認(rèn)知的殘忍,只有自我感動

蝴蝶花雨話教育
2026-02-24 15:29:04
吉林一女子救下毒蛇,賴著不走12年,怪事不斷,至今無法解釋

吉林一女子救下毒蛇,賴著不走12年,怪事不斷,至今無法解釋

燦爛夏天
2025-02-23 23:30:44
NBA官宣兩張罰單:華子貝恩用力把球扔向觀眾席 各罰25000美元

NBA官宣兩張罰單:華子貝恩用力把球扔向觀眾席 各罰25000美元

羅說NBA
2026-02-27 06:05:09
WOC!哈登!麻了,騎士心碎了...

WOC!哈登!麻了,騎士心碎了...

技巧君侃球
2026-02-26 15:18:22
2026-02-27 12:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14600文章數(shù) 66644關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)業(yè)績亮眼仍跌5% 兩大因素成核心隱憂

頭條要聞

特朗普在白宮"宴請"奪金的美國男子冰球隊:吃麥當(dāng)勞

頭條要聞

特朗普在白宮"宴請"奪金的美國男子冰球隊:吃麥當(dāng)勞

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

繼網(wǎng)暴谷愛凌后 美國欲沒收其全部收入

財經(jīng)要聞

魅族手機,終成棄子?

汽車要聞

寶馬X5傳承版發(fā)布:給經(jīng)典G05的一場體面謝幕?

態(tài)度原創(chuàng)

教育
房產(chǎn)
數(shù)碼
游戲
公開課

教育要聞

湖北12歲小學(xué)生春節(jié)做一桌14道菜,父母稱萬里挑一,網(wǎng)友表示擔(dān)憂

房產(chǎn)要聞

巨虧160億后,這家房企巨頭,轉(zhuǎn)戰(zhàn)海南做貿(mào)易!

數(shù)碼要聞

Pwnage Symm 3鼠標(biāo)上市:外殼、微動等均可DIY,國行699元

《FF7重制版》第三部順利開發(fā)因仍然使用虛幻4

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版