国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

Qwen3.5 系列,最優(yōu)選擇 27B,最優(yōu)精度 Q6

0
分享至

我之前也寫過

工具調用(Tool Calling / Function Calling)是大模型從"能聊天"進化到"能干活"的關鍵能力,沒有這個能力,Agent 就是空中樓閣

問題來了:Qwen3.5 系列這么多模型,從 0.8B 一路到 397B,到底哪個尺寸真的能可靠地調用工具?

ToolCall-15:15 道題,照出模型真面目

這個ToolCall-15開源基準測試框架(github.com/stevibe/ToolCall-15),專門測試 LLM 的工具調用能力:

  • 15 個場景,覆蓋 5 大類能力(每類 3 個)

  • 12 個工具,模型每次都能看到全部工具

  • 模擬響應,確保結果確定性、可復現

  • Temperature 設為 0,排除隨機性干擾

  • 不挑測試,全部跑完,沒有選擇性地只跑好看的

下面是 ToolCall-15 的測試看板:


ToolCall-15 測試看板 五大考核維度,全是實戰(zhàn)場景

ToolCall-15 測的不是什么花里胡哨的學術指標,全是真實場景下模型會遇到的問題:

類別

測試內容

舉例

工具選擇

能不能選對工具?

問柏林天氣,該用get_weather還是web_search?

參數精度

參數傳對了嗎?

用戶要華氏溫度,你傳了fahrenheit沒?

多步鏈式

能不能串聯多個工具?

搜文件 → 讀內容 → 查聯系人 → 發(fā)郵件

克制與拒絕

不該用工具時能忍住嗎?

"二戰(zhàn)哪年結束?" 你別去web_search

? 錯誤恢復

工具報錯了怎么辦?

搜索沒結果,是放棄還是換個關鍵詞重試?

每個場景評分:? 滿分(2分)、?? 半分(1分)、? 零分

Qwen3.5 全家桶測試結果:27B 獨占鰲頭

原作者 stevibe 把 Qwen3.5 全系列模型都拉出來溜了一遍——從 0.8B 到 397B,甚至還包括了 Jackrong 的蒸餾版本

結果出來,我直接震驚了,397B 的巨無霸打不過 27B:

模型

通過數

Qwen3.5-27B15/15

唯一滿分的原版模型

Qwen3.5-27B 蒸餾版15/15

蒸餾也滿分,工具調用能力保留完整

Qwen3.5-397B

13/15

兩個測試未通過

Qwen3.5-122B

14/15

一個測試未通過

Qwen3.5-35B

13/15

兩個測試未通過

小參數模型(0.8B~14B)

大量超時

陷入工具調用死循環(huán)


最暴露模型的一道題

15 個場景里,最有意思的是第 15 題(TC-15):

"搜索冰島的人口數量,然后計算其 2% "

看起來簡單吧?先搜索,拿到數據,再算個乘法。但就這道題,暴露了不同尺寸模型的致命弱點

  • 小模型(0.8B~14B):直接編數據,連搜索都不做,或者陷入死循環(huán)反復調用同一個工具,直到 30 秒超時

  • 大模型(35B、122B、397B):明明搜索結果返回了精確數字 372,520,它們偏偏用自己腦子里的"大約 370,000"去算。搜了,但不信

  • ?27B:老老實實搜索,拿到 372,520,傳給計算器算372520 * 0.02 = 7450.4,完美

一句話總結:

小模型會憑空捏造數據,大模型會忽略數據,27B 直接串行處理了。

這其實揭示了一個深層問題:大參數模型因為"見多識廣",反而更傾向于依賴自己的記憶,對工具返回的實際數據產生了某種"不信任"

量化測試:Q6 是最佳選擇

確定了 27B 是最能打的模型后,下一個問題來了:該用哪個量化版本?

stevibe 繼續(xù)測試了 Unsloth 提供的所有量化版本,從 Q2_K_XL 到 Q8_K_XL:


Qwen3.5-27B 量化版本

量化級別

通過數

Q8

15/15 ?

Q615/15

Q5

14/15

Q4

14/15

Q3

14/15

Q2

13/15

結論很清晰:Q6 是最佳甜蜜點

跟 Q8 拿到了一模一樣的滿分,但占用空間更小,推理速度更快

Q5 往下就開始丟分了,說明量化到一定程度確實會損失工具調用的精確性

更有意思的是,測試結果幾乎呈線性下降,這說明 ToolCall-15 這個基準測試確實在測量一些真實的東西,分數變化不是隨機噪聲

下面是量化版本的詳細對比圖:


量化版本測試結果對比

有人質疑:用 Temperature 0 測試是否公平,日常使用不都是 Temp 1 嗎?

stevibe 解釋:Temp 1 確實是通用場景下的默認設置,但對于工具調用而言,Temperature 0 表現更好。Databricks 的研究發(fā)現,在函數調用任務中,Temp 0 和 0.7 之間的準確率可能相差高達 10%。

這很好理解——工具調用本質上是結構化輸出:選對工具、傳對參數、按對格式。你需要的是確定性,而不是創(chuàng)造性。這跟你用低 Temperature 生成 JSON 或代碼是一個道理。

伯克利大學的 BFCL和 Databricks 的評估中,都使用較低的溫度來測試函數調用能力,可重復性基本上要求這樣做。當然,如果你的使用場景包含創(chuàng)意元素,0.7+ 完全合理,目標不同。

總結:"Qwen3.5-27B 它緊湊、推理能力強、工具調用出色,Q6 精度 YYDS"

加上更是如有神助了!

ToolCall-15 這個開源項目本身也值得一玩,如果你想評估自己本地部署的模型在工具調用上到底行不行,直接拿來用就好。

.5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“愛奇藝瘋了”沖上熱搜第一,CEO獨家回應

“愛奇藝瘋了”沖上熱搜第一,CEO獨家回應

第一財經資訊
2026-04-20 17:24:18
將對決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進16強

將對決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進16強

風過鄉(xiāng)
2026-04-20 19:41:28
達州雙龍鎮(zhèn)遭暴雨襲擊,街道被淹多輛車被沖走 鎮(zhèn)政府:已全力進入清淤階段

達州雙龍鎮(zhèn)遭暴雨襲擊,街道被淹多輛車被沖走 鎮(zhèn)政府:已全力進入清淤階段

紅星新聞
2026-04-21 00:00:30
賈躍亭發(fā)財了,到賬230億

賈躍亭發(fā)財了,到賬230億

新浪財經
2026-04-20 18:59:10
“上海的夜晚,怎么這么熱鬧!”舊金山市市長到訪大豫園

“上海的夜晚,怎么這么熱鬧!”舊金山市市長到訪大豫園

上觀新聞
2026-04-20 22:48:05
別再尬演情婦了!一臉疲態(tài)、五大三粗,這是迷倒男人該有的皮囊?

別再尬演情婦了!一臉疲態(tài)、五大三粗,這是迷倒男人該有的皮囊?

白面書誏
2026-04-14 14:09:53
無數身價過億的大佬,都在想方設法把國內的錢偷偷轉移到海外

無數身價過億的大佬,都在想方設法把國內的錢偷偷轉移到海外

流蘇晚晴
2026-04-14 19:58:25
特朗普稱伊朗將進行談判

特朗普稱伊朗將進行談判

界面新聞
2026-04-21 07:41:12
為什么說印度的海岸線,遠看是老天爺賞飯,近看是逗你玩兒?

為什么說印度的海岸線,遠看是老天爺賞飯,近看是逗你玩兒?

半解智士
2026-04-16 17:10:39
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
亞洲身價之王!烏茲別克斯坦后衛(wèi)在曼城閃耀,完封阿森納鋒線

亞洲身價之王!烏茲別克斯坦后衛(wèi)在曼城閃耀,完封阿森納鋒線

星耀國際足壇
2026-04-20 23:51:03
坐擁北京一條街,丈夫是京劇名家,如今身價過億32歲兒子卻成心病

坐擁北京一條街,丈夫是京劇名家,如今身價過億32歲兒子卻成心病

不似少年游
2026-04-07 22:24:49
價格大跳水,部分車型直降27萬!豪華汽車品牌溢價已經開始松動了

價格大跳水,部分車型直降27萬!豪華汽車品牌溢價已經開始松動了

財經八卦
2026-04-19 16:32:12
山西偷情女子已社死,丈夫扒出賬號,不止一次出軌,酒店也受牽連

山西偷情女子已社死,丈夫扒出賬號,不止一次出軌,酒店也受牽連

劉哥談體育
2026-04-20 19:01:24
德國法院判了:AI二創(chuàng)漫畫不侵權,但有個前提

德國法院判了:AI二創(chuàng)漫畫不侵權,但有個前提

賽博蘭博
2026-04-19 22:21:28
2028美國總統(tǒng)大選預演!70%民主黨人力挺黑馬,紐森要失寵了?

2028美國總統(tǒng)大選預演!70%民主黨人力挺黑馬,紐森要失寵了?

牛鍋巴小釩
2026-04-20 13:20:21
別人上浪姐是逆天改命,她們上浪姐是現出原形,這5位姐姐太慘了

別人上浪姐是逆天改命,她們上浪姐是現出原形,這5位姐姐太慘了

娛樂圈十三太保
2026-04-20 15:41:41
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

十點讀書
2026-04-18 18:36:15
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
新黨副主席李勝峰:臺灣人對統(tǒng)一的民意變化過去難想象

新黨副主席李勝峰:臺灣人對統(tǒng)一的民意變化過去難想象

海峽導報社
2026-04-21 07:12:05
2026-04-21 09:35:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3339文章數 11138關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

減速機訂單已排到明年!

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

數碼
教育
游戲
親子
軍事航空

數碼要聞

16GB能當20GB用!華為超空間內存技術適配計劃公布:Mate X7系列6月推送

教育要聞

26年強基計劃專業(yè)大調整,你是否準備報考強基計劃

《星際爭霸》射擊新作細節(jié)曝光 游戲是逼真寫實風格

親子要聞

大體重孩子家長要關注孩子運動足部壓力是否正常

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版