国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)發(fā)力了,新模型在 OpenClaw 成功率排行榜殺進(jìn)前五,目前免費(fèi)用

0
分享至

我之前的文章,測(cè)試 N 多開(kāi)源模型,尤其是本地部署系列,評(píng)論區(qū)永遠(yuǎn)有一個(gè)高頻問(wèn)題:能不能接入 OpenClaw(小龍蝦)?

大多數(shù)其實(shí)都不行,理由也很簡(jiǎn)單——模型能力不足是最核心、最致命的短板。Agent 的自動(dòng)化、工具調(diào)用、多步驟任務(wù)執(zhí)行能力,全都建立在大模型的基礎(chǔ)能力之上。模型不行,Agent 就是個(gè)花瓶。

打開(kāi) PinchBench 排行榜()就知道了,排在前面的清一色是旗艦閉源模型。你用一個(gè)小模型跑 Agent,和用筷子喝湯差不多,工具不對(duì)。

最近英偉達(dá)有個(gè)開(kāi)源模型 Nemotron-3-Super 殺進(jìn) PinchBench 前五

直接看排行榜:


**85.6% 的成功率超越了 Claude Opus 4.5(85.4%),只比 GPT-5.4 低了 0.4 個(gè)百分點(diǎn)。

最關(guān)鍵的一點(diǎn):前五里面,它是唯一的開(kāi)源模型。另外四個(gè)全是 Anthropic 和 OpenAI 的閉源旗艦,都是拿錢(qián)砸出來(lái)的。

而且,它這個(gè)數(shù)據(jù)還是被CREATIVE脫了后腿的,它沒(méi)有文生圖的能力



  • Basic、Calendar、Coding、File Ops都是100%

  • Data Analysis到了98%

  • Research90%

  • Comprehension91%

  • Organization89%

  • Creativity只有18%

  • Memory甚至只有0%

  • Context這一項(xiàng)也只有70%

這模型的強(qiáng)項(xiàng)非常像一個(gè)“干活型” Agent 大腦:寫(xiě)腳本、改文件、跑流程、處理任務(wù),確實(shí)強(qiáng);但你要它靠長(zhǎng)期上下文記憶、或者靠創(chuàng)意型表達(dá)去吃分,它就沒(méi)那么驚艷。

換句話說(shuō),它更像一個(gè)靠譜的工程經(jīng)理加執(zhí)行助手,不太像一個(gè)文藝青年。

PinchBench 測(cè)的是什么?

可能有同學(xué)不了解這個(gè)榜單。

簡(jiǎn)單說(shuō),PinchBench 測(cè)的是模型驅(qū)動(dòng) AI Coding Agent 執(zhí)行真實(shí)編碼任務(wù)的能力。不是做選擇題,不是寫(xiě)作文,而是:

  • 文件讀寫(xiě)操作

  • 代碼修改和重構(gòu)

  • 工具調(diào)用和 API 交互

  • 多步驟復(fù)雜任務(wù)

  • 出錯(cuò)后的自我修復(fù)

這些恰恰是 OpenClaw 這類 AI Coding Agent 的核心能力。所以 PinchBench 的排名非常實(shí)在——它基本決定了模型驅(qū)動(dòng) Agent 的實(shí)際表現(xiàn)。

這也是為什么我之前一直說(shuō):與小龍蝦最搭配的大模型,大多都是旗艦?zāi)P汀?/p>

這貨憑什么這么強(qiáng)?

先上硬參數(shù):

指標(biāo)

數(shù)值

總參數(shù)量

120B

激活參數(shù)量

僅 12B

架構(gòu)

LatentMoE(Mamba-2 + MoE + Attention 混合)

上下文窗口

1M tokens

最低 GPU 需求

1× B200-80GB 或 1× DGX Spark

推理模式

支持推理開(kāi)/關(guān)(enable_thinking=True/False

量化精度

NVFP4(訓(xùn)練即量化,不是后量化)

Nemotron 3 Super 120B A12B 不是“窮人版 Opus”,它更像是 NVIDIA 親自下場(chǎng),給 Agent 賽道遞了一張旗艦級(jí)入場(chǎng)券。

架構(gòu)設(shè)計(jì)有點(diǎn)東西

Nemotron-3-Super 不是傳統(tǒng)的純 Transformer,而是一個(gè)三合一混合體:

Mamba-2(狀態(tài)空間模型):擅長(zhǎng)處理長(zhǎng)序列,線性復(fù)雜度。這也是它能支持 1M 上下文的關(guān)鍵——傳統(tǒng) Transformer 的注意力機(jī)制在超長(zhǎng)序列上會(huì)被二次復(fù)雜度卡死。

MoE(混合專家):120B 參數(shù)里每次只激活 12B。用的是 LatentMoE,先把 token 投射到更小的潛在維度做路由,精度更高、開(kāi)銷更低。

Attention 層:在關(guān)鍵位置保留注意力機(jī)制,保證關(guān)鍵信息不丟。

三者配合,NVIDIA 管這叫 LatentMoE 架構(gòu)。又快又準(zhǔn)。

還有一個(gè)彩蛋:Multi-Token Prediction(MTP)。模型訓(xùn)練時(shí)不只預(yù)測(cè)下一個(gè) token,而是同時(shí)預(yù)測(cè)后面好幾個(gè) token。推理的時(shí)候可以做 speculative decoding,生成速度直接起飛。

NVFP4 量化,幾乎零損失,畢竟就是英偉達(dá)獨(dú)創(chuàng)的

下面這張圖是官方的基準(zhǔn)對(duì)比:


Nemotron-3-Super 基準(zhǔn)精度對(duì)比圖

基準(zhǔn)

BF16 原版

FP8

NVFP4

MMLU-Pro

HMMT Feb25(含工具)

GPQA(無(wú)工具)

LiveCodeBench v6

IFBench

Arena-Hard-V2

RULER-500 @128k

有意思吧?NVFP4 版本在 HMMT、GPQA、IFBench 上甚至反超了 BF16 原版。這不是傳統(tǒng)的"訓(xùn)完再量化",而是訓(xùn)練的時(shí)候就在 FP4 精度下跑,模型天然適配低精度推理。

這才是真正的實(shí)用主義工程——精度不丟,顯存還省。

訓(xùn)練方法論:這次是真開(kāi)源

NVIDIA 這次把"開(kāi)源"兩個(gè)字做到了實(shí)處:

  • 預(yù)訓(xùn)練數(shù)據(jù):25T+ tokens,全部公開(kāi)(Nemotron Pre-Training Datasets)

  • 后訓(xùn)練數(shù)據(jù):SFT + RL 數(shù)據(jù)集,全部公開(kāi)(Nemotron Post-Training v3)

  • 訓(xùn)練配方:完整訓(xùn)練腳本在 GitHub 上

  • 評(píng)估工具:NeMo Evaluator SDK,可以復(fù)現(xiàn)所有 benchmark 結(jié)果

  • RL 環(huán)境:NeMo Gym,異步 GRPO 多環(huán)境強(qiáng)化學(xué)習(xí)

訓(xùn)練三大階段:預(yù)訓(xùn)練 → SFT(合成代碼、工具調(diào)用、指令跟隨等) → RL(數(shù)學(xué)、代碼、科學(xué)、工具使用等多環(huán)境 GRPO)。

怎么體驗(yàn)?

方式一:NVIDIA API(最快上手)

直接去build.nvidia.com注冊(cè),免費(fèi)額度直接用。

在線對(duì)話體驗(yàn),零門(mén)檻。



方式二:OpenRouter 等第三方 API

很多 API 平臺(tái)已經(jīng)上架了。但是要注意:PinchBench 上免費(fèi)版nemotron-3-super-120b-a12b:free只拿了 75.0%,和付費(fèi)版 85.6% 差了超過(guò) 10 個(gè)百分點(diǎn)。省錢(qián)和效果之間,得想清楚。

方式三:本地部署(硬核玩家)

支持 vLLM 和 SGLang,單卡 B200-80GB 即可運(yùn)行:

# vLLM 部署
vllm serve $MODEL_CKPT \
--async-scheduling \
--served-model-name nvidia/nemotron-3-super \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-parallel-size 1 \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin "./super_v3_reasoning_parser.py" \
--reasoning-parser super_v3

推理參數(shù)官方建議:temperature=1.0,top_p=0.95,所有場(chǎng)景通用。

部署后暴露的是 OpenAI 兼容 API,可以直接接入 OpenCode 等終端 Agent:

{
"model": "local/nvidia-nemotron-3-super",
"provider": {
"local": {
"npm": "@ai-sdk/openai-compatible",
"options": {
"baseURL": "http://localhost:8000/v1",
"apiKey": "EMPTY"
}
}
}
}
HuggingFace 模型頁(yè)(含完整部署指南):https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

說(shuō)完好的,說(shuō)說(shuō)現(xiàn)實(shí)問(wèn)題:

GPU 門(mén)檻還是高。B200-80GB 不是消費(fèi)級(jí)顯卡,你的 4090 跑不了,或許可以等等Unsloth對(duì)極致量化版。DGX Spark 是 NVIDIA 推的桌面方案,但價(jià)格也不便宜。對(duì)大多數(shù)個(gè)人開(kāi)發(fā)者來(lái)說(shuō),API 調(diào)用更現(xiàn)實(shí)。

Benchmark ≠ 實(shí)戰(zhàn)。PinchBench 85.6% 很好看,但實(shí)際項(xiàng)目中的復(fù)雜度、特定語(yǔ)言框架支持、長(zhǎng)時(shí)間多輪對(duì)話的穩(wěn)定性,都得實(shí)測(cè)才知道。

開(kāi)源 Agent 模型的格局正在變

Qwen 3.5-122B-A10B 也值得關(guān)注——同樣是 MoE 架構(gòu),122B 總參數(shù) / 10B 激活,和 Nemotron 思路非常接近。兩家不約而同選了 100B+ 總參數(shù)、10B 級(jí)別激活的 MoE 路線,這不是巧合。

MoE + 混合架構(gòu)正在成為開(kāi)源 Agent 模型的主流技術(shù)路線。用小激活量撬動(dòng)大參數(shù)量,在效率和能力之間找到一個(gè)甜點(diǎn)。

制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
羽毛球女神淪為“生育工具”!韓景楓官宣二胎,距離1胎僅隔5個(gè)月

羽毛球女神淪為“生育工具”!韓景楓官宣二胎,距離1胎僅隔5個(gè)月

科學(xué)發(fā)掘
2026-04-21 00:01:33
全球公認(rèn)最懶國(guó)家,當(dāng)?shù)厝藞?jiān)決反對(duì)獨(dú)立,每天好吃懶做全靠援助

全球公認(rèn)最懶國(guó)家,當(dāng)?shù)厝藞?jiān)決反對(duì)獨(dú)立,每天好吃懶做全靠援助

心中的麥田
2026-04-17 18:03:56
最新消息:盤(pán)龍城永旺,日本方面不愿意合資建設(shè),基本沒(méi)戲了

最新消息:盤(pán)龍城永旺,日本方面不愿意合資建設(shè),基本沒(méi)戲了

黃陂民間觀察
2026-04-20 20:06:46
空姐的圈子真的亂嗎?我做了7年空姐,告訴大家最真實(shí)的行業(yè)現(xiàn)狀

空姐的圈子真的亂嗎?我做了7年空姐,告訴大家最真實(shí)的行業(yè)現(xiàn)狀

千秋文化
2026-04-17 20:01:45
谷雨后,這菜使勁吃,一清熱解毒,二健胃消食,三祛濕,鮮嫩營(yíng)養(yǎng)

谷雨后,這菜使勁吃,一清熱解毒,二健胃消食,三祛濕,鮮嫩營(yíng)養(yǎng)

阿龍美食記
2026-04-20 15:29:14
徹底涼了!李雨桐硬剛薛之謙被行拘 10 天,謝娜下場(chǎng)發(fā)文求道歉

徹底涼了!李雨桐硬剛薛之謙被行拘 10 天,謝娜下場(chǎng)發(fā)文求道歉

橙星文娛
2026-04-20 13:11:34
問(wèn)界“神話”破滅?M7跌出前三,M9王座旁落,M6開(kāi)局遇冷

問(wèn)界“神話”破滅?M7跌出前三,M9王座旁落,M6開(kāi)局遇冷

趣味萌寵的日常
2026-04-19 17:28:36
張馨予眼光不錯(cuò)!何捷出席學(xué)?;顒?dòng),顏值爆表!當(dāng)過(guò)兵就是不一樣

張馨予眼光不錯(cuò)!何捷出席學(xué)?;顒?dòng),顏值爆表!當(dāng)過(guò)兵就是不一樣

娛樂(lè)團(tuán)長(zhǎng)
2026-04-20 19:08:47
三方重磅交易!歐文奔赴森林狼聯(lián)手華子 獨(dú)行俠血賺 快船補(bǔ)強(qiáng)內(nèi)線

三方重磅交易!歐文奔赴森林狼聯(lián)手華子 獨(dú)行俠血賺 快船補(bǔ)強(qiáng)內(nèi)線

錢(qián)說(shuō)體育
2026-04-21 06:36:36
頂流的日常,太正點(diǎn)了

頂流的日常,太正點(diǎn)了

陳意小可愛(ài)
2026-04-21 00:29:48
李想怒噴日產(chǎn)的背后,藏著“增程帝國(guó)”崩塌的無(wú)能為力

李想怒噴日產(chǎn)的背后,藏著“增程帝國(guó)”崩塌的無(wú)能為力

少數(shù)派報(bào)告Report
2026-04-19 09:17:16
醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

芹姐說(shuō)生活
2026-04-19 15:52:53
足壇一夜動(dòng)態(tài):英超中資隊(duì)提前5輪降級(jí)!巴黎亞馬爾榮獲勞倫斯獎(jiǎng)

足壇一夜動(dòng)態(tài):英超中資隊(duì)提前5輪降級(jí)!巴黎亞馬爾榮獲勞倫斯獎(jiǎng)

念洲
2026-04-21 06:35:07
ASML現(xiàn)任CEO:中國(guó)一旦自主開(kāi)發(fā)設(shè)備,放棄我們的光刻機(jī),就有可能用稀土卡我們脖子

ASML現(xiàn)任CEO:中國(guó)一旦自主開(kāi)發(fā)設(shè)備,放棄我們的光刻機(jī),就有可能用稀土卡我們脖子

芯火相承
2026-04-20 19:29:49
被害男童生母哭訴最后施暴細(xì)節(jié):現(xiàn)場(chǎng)情緒失控 憤怒難掩 “我就想讓她死!”

被害男童生母哭訴最后施暴細(xì)節(jié):現(xiàn)場(chǎng)情緒失控 憤怒難掩 “我就想讓她死!”

閃電新聞
2026-04-20 22:37:26
原來(lái)我們錯(cuò)怪高市早苗了

原來(lái)我們錯(cuò)怪高市早苗了

智先生
2026-04-20 21:07:48
太可怕了!繼注射藥物、熱巴事件后,王陽(yáng)再揭?jiàn)蕵?lè)圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽(yáng)再揭?jiàn)蕵?lè)圈最臟的一面

橙星文娛
2026-04-17 13:19:56
悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

火山詩(shī)話
2026-04-19 07:13:36
“浩浩媽”新作被捆綁!表情嬌羞 身材太難頂

“浩浩媽”新作被捆綁!表情嬌羞 身材太難頂

游民星空
2026-04-19 11:03:24
“莫氏雞煲”老板一個(gè)月唯一休息日去上海了!老莫曾稱可以和餐廳合作,讓上海也吃得到

“莫氏雞煲”老板一個(gè)月唯一休息日去上海了!老莫曾稱可以和餐廳合作,讓上海也吃得到

大象新聞
2026-04-20 23:43:34
2026-04-21 08:00:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫(kù)克卸任,特努斯接任蘋(píng)果CEO

頭條要聞

特朗普兩天三次反轉(zhuǎn) 伊朗學(xué)習(xí)特朗普玩起"極限施壓"

頭條要聞

特朗普兩天三次反轉(zhuǎn) 伊朗學(xué)習(xí)特朗普玩起"極限施壓"

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂(lè)要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車(chē)要聞

把天門(mén)山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

藝術(shù)
健康
家居
房產(chǎn)
手機(jī)

藝術(shù)要聞

春天最適合小住三五天的地方

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

自然慢調(diào) 慢享時(shí)光

房產(chǎn)要聞

大規(guī)模商改住!??谖骱0?,這波項(xiàng)目要贏麻了!

手機(jī)要聞

蘋(píng)果被曝下調(diào) iPhone 18 規(guī)格以壓縮成本

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版