国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

神秘模型排名超 Gemma 4 31B:不跟 Qwen 硬剛,主打“快”和“省 token”

0
分享至


整理 | 褚杏娟

這兩天,OpenRouter 一個名為“Elephant”(大象)的模型,Trending 榜排名突然超過 Gemma 4 31B,位列排行榜第二名。


根據(jù) Kilo 的說法,這款模型來自一家知名開源模型實驗室,主打“智能效率”,在盡量減少 token 消耗的同時,提供接近同規(guī)模 SOTA 性能表現(xiàn)。

Elephant 是一款 100B 參數(shù)隱身模型(stealth model),支持 256K token 上下文窗口,可以一次性加載整個代碼倉庫或大型依賴樹;最大輸出長度為 32K token,適合單次生成完整模塊或整套測試代碼。與此同時,這款模型還支持提示緩存、函數(shù)調(diào)用和結(jié)構(gòu)化輸出,明顯面向企業(yè)級開發(fā)和智能體工具鏈接入場景。

據(jù) Kilo 介紹,Elephant 不是一款單純追求規(guī)模的“大模型”,更強調(diào)速度、響應和實際開發(fā)效率。Elephant 主要針對快速代碼補全與調(diào)試、大規(guī)模文檔處理以及輕量級智能體交互等場景進行了優(yōu)化,適合需要高頻調(diào)用、低延遲反饋的開發(fā)工作流。相比那些更重、更慢的模型,Elephant 希望成為開發(fā)者日常使用中的“高響應主力模型”。

具體地,我們將同是 100B 級別的 NVIDIA Nemotron 3 Super、Qwen3.5-122B-A10B,以及 OpenAI 的 gpt-oss-120b 進行了直接對比。

在速度方面,Elephant 最快,平均響應時間約 1.27 秒;Qwen3.5-122B-A10B 最慢,平均約 31.38 秒。Elephant 在數(shù)據(jù)解析與提取平均響應時間只花了 979 毫秒,綜合項目也只用了 3.70 秒。

相比之下,Qwen3.5-122B-A10B 的表現(xiàn)是靠更高的推理投入換來的,比如編程項目平均響應時間高達 70.98 秒,綜合項目平均響應時間更是達到 107.79 秒,數(shù)據(jù)解析與提取這類任務也用了 16,558 推理 token。


而在 token 消耗方面,Qwen3.5-122B-A10B 是這組里最“燒 token”的模型,推理 token 遠高于另外三個;gpt-oss-120b 和 Nemotron-3 Super 120B 屬于中間檔;Elephant 基本不消耗。


在指令遵循上,Elephant 在穩(wěn)定性上表現(xiàn)最突出。其一致性得分達到 9.6,說明它在重復運行中的結(jié)果波動最小,是這組模型里最穩(wěn)定的一款。但 Qwen3.5-122B-A10B 在正確率和通過能力上依然領(lǐng)先,Nemotron-3 Super 120B A12B 表現(xiàn)較為均衡,而 gpt-oss-120b 則暴露出更明顯的波動性。


Elephant 的問題是綜合項目上只有 3.0,在數(shù)據(jù)解析與提取上是 6.5,側(cè)面說明其目前追求的是高頻、低成本、先求有結(jié)果再說的場景,而非復雜 agent 工作流或者關(guān)鍵判斷任務場景。

因此,如果將各個維度綜合起來打分的話,Qwen3.5-122B-A10B 綜合分 8.1,排第一,NVIDIA Nemotron-3 Super 120B A12B 6.7 分排第二,OpenAI gpt-oss-120b 第三,Elephant Alpha 第四。

與 Elephant Alpha 類似,Nemotron-3 Super 120B A12B 在綜合項目上拿到 10.0,在工具調(diào)用上也是 10.0,在數(shù)據(jù)解析與提取上同樣是 10.0。從結(jié)果看,它很適合那種流程清晰、任務邊界明確、強調(diào)執(zhí)行鏈條和調(diào)用能力的場景。但它在領(lǐng)域?qū)m椛现挥?2.9,在通用智能上是 3.8,在謎題求解上只有 3.5,說明一旦任務從“結(jié)構(gòu)化執(zhí)行”轉(zhuǎn)向“開放復雜推理”,其掉隊就很明顯。gpt-oss-120b 則在編程項目上只有 4.3,還出現(xiàn)了未遵循指令的問題。

可以看出,雖然同為 100B 級別模型,但大家的研發(fā)重點并不相同。

Qwen3.5-122B-A10B 代表了重推理、重完成度路線,有更高的分數(shù)和通過率,但需要付出更多延遲和更高推理開銷。而 Nemotron-3 Super 120B A12B 是工作流型路線,它不一定最適合復雜開放問題,但在結(jié)構(gòu)化抽取、工具調(diào)用、執(zhí)行鏈條這類任務上表現(xiàn)突出。新上榜的 Elephant 則代表了極致輕量路線,把“快”和“低成本”做成了核心賣點。

https://aibenchy.com/zh/compare/nvidia-nemotron-3-super-120b-a12b-medium/qwen-qwen3-5-122b-a10b-medium/openrouter-elephant-alpha-medium/openai-gpt-oss-120b-medium/

https://blog.kilo.ai/p/introducing-elephant-a-new-stealth

會議推薦

QCon 全球軟件開發(fā)大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來自阿里、騰訊、字節(jié)跳動、小米、百度等一線科技企業(yè)與創(chuàng)新團隊的技術(shù)專家,圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進展開深入探討。更多詳情可掃碼或聯(lián)系票務經(jīng)理 18514549229 進行咨詢。

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
130萬皇馬球迷請愿離隊!姆巴佩心碎發(fā)聲:等我走了你們才會后悔

130萬皇馬球迷請愿離隊!姆巴佩心碎發(fā)聲:等我走了你們才會后悔

體育閑話說
2026-05-07 08:05:06
吳宜澤奪冠后首度現(xiàn)身國內(nèi),在西安機場受球迷接機送花,之后還將舉行見面會,此前他曾表示想回國吃美食、見朋友

吳宜澤奪冠后首度現(xiàn)身國內(nèi),在西安機場受球迷接機送花,之后還將舉行見面會,此前他曾表示想回國吃美食、見朋友

極目新聞
2026-05-07 07:12:51
“我要去中國了” 51歲老馬退出斯諾克元老賽 火箭:為錢我會參加

“我要去中國了” 51歲老馬退出斯諾克元老賽 火箭:為錢我會參加

風過鄉(xiāng)
2026-05-07 07:56:33
行業(yè)第一瘋!張雪直播10萬+連線讓用戶公開罵,“真誠殺”太狠了

行業(yè)第一瘋!張雪直播10萬+連線讓用戶公開罵,“真誠殺”太狠了

商悟社
2026-05-07 00:07:04
740萬觀眾的選擇:這部英劇為何讓刻薄女人成了主角

740萬觀眾的選擇:這部英劇為何讓刻薄女人成了主角

娛圈觀察員
2026-05-06 15:15:55
同濟大學教師王某團隊一年兩登《自然》的論文被指造假,本人曾稱“十年磨一劍” 學校正調(diào)查

同濟大學教師王某團隊一年兩登《自然》的論文被指造假,本人曾稱“十年磨一劍” 學校正調(diào)查

紅星新聞
2026-04-16 21:08:20
豆包搜索黎元洪跳出演員范偉圖片,官方回應:系媒體大量報道

豆包搜索黎元洪跳出演員范偉圖片,官方回應:系媒體大量報道

PChome電腦之家
2026-05-06 10:22:59
丟了7年的手機突然發(fā)回定位 還自動拍下了使用者的照片 失主:已經(jīng)成功要回了手機

丟了7年的手機突然發(fā)回定位 還自動拍下了使用者的照片 失主:已經(jīng)成功要回了手機

閃電新聞
2026-05-06 12:58:59
GPT-5.5 Instant 突然全員免費了!

GPT-5.5 Instant 突然全員免費了!

新浪財經(jīng)
2026-05-07 04:41:37
罪有應得!以色列,正被全世界集體孤立!

罪有應得!以色列,正被全世界集體孤立!

毛豆論道
2026-05-05 17:35:52
日本部署消耗性超廉價紙板無人機:售價2000美元 可在5到10分鐘內(nèi)組裝完成

日本部署消耗性超廉價紙板無人機:售價2000美元 可在5到10分鐘內(nèi)組裝完成

快科技
2026-05-05 10:29:05
黑龍江兩名11歲女孩已遇害:網(wǎng)傳被先奸后殺,兇手身份被曝光

黑龍江兩名11歲女孩已遇害:網(wǎng)傳被先奸后殺,兇手身份被曝光

魔都姐姐雜談
2026-05-07 15:17:15
國乒男團VS韓國隊,比賽時間公布,王皓是否換人,央視解說引爭議

國乒男團VS韓國隊,比賽時間公布,王皓是否換人,央視解說引爭議

體育大學僧
2026-05-07 10:52:38
高校畢業(yè)生創(chuàng)新高 上海打出組合拳護航就業(yè)

高校畢業(yè)生創(chuàng)新高 上海打出組合拳護航就業(yè)

看看新聞Knews
2026-05-06 19:32:02
1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

史海孤雁
2026-05-05 17:07:19
問題果然出現(xiàn)了,比亞迪銷量暴跌26%,撕開新能源車最后的遮羞布

問題果然出現(xiàn)了,比亞迪銷量暴跌26%,撕開新能源車最后的遮羞布

混沌錄
2026-05-06 23:01:06
江蘇跨江大橋命名暗戰(zhàn),誰在掌握絕對話語權(quán)?

江蘇跨江大橋命名暗戰(zhàn),誰在掌握絕對話語權(quán)?

觀察眼看世界
2026-05-07 11:02:46
馬刺用104歲三塔慶祝!創(chuàng)9紀錄晉級概率升75% 文班:反彈意料之中

馬刺用104歲三塔慶祝!創(chuàng)9紀錄晉級概率升75% 文班:反彈意料之中

顏小白的籃球夢
2026-05-07 18:13:57
普京不想再打了,俄軍打下來的領(lǐng)土,足夠給1億俄羅斯人一個交待

普京不想再打了,俄軍打下來的領(lǐng)土,足夠給1億俄羅斯人一個交待

混沌錄
2026-05-05 13:50:21
1933年希特勒接見中國青年潘德明,說了一句話令在場德國軍官震驚

1933年希特勒接見中國青年潘德明,說了一句話令在場德國軍官震驚

超人強動物俱樂部
2026-05-07 15:07:42
2026-05-07 18:48:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領(lǐng)域技術(shù)資訊。
1477文章數(shù) 149關(guān)注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

媒體:不是中國離不開世界杯 是世界杯更需要中國

頭條要聞

媒體:不是中國離不開世界杯 是世界杯更需要中國

體育要聞

巴黎再進歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

孫楊強迫拉張豆豆手那一幕,我看笑了,也看怒了

財經(jīng)要聞

金融“風暴”,AI制造

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
家居
本地
手機

數(shù)碼要聞

華為MatePad Pro Max平板海外首發(fā),預裝HarmonyOS 4.3系統(tǒng)

房產(chǎn)要聞

負債23億,抵押482畝地!海南這家巨頭,慘遭拍賣!

家居要聞

破繭成蝶 土味精裝房爆改

本地新聞

用青花瓷的方式,打開西溪濕地

手機要聞

消息稱某子系迭代旗艦工程機配備6.6英寸中屏+8500mAh電池

無障礙瀏覽 進入關(guān)懷版