国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Opus 蒸餾 Qwen3.5,V3 來了

0
分享至

大家好,我是 Ai 學(xué)習(xí)的老章

Claude Opus 蒸餾 Qwen3.5 這條線,我從 v1 一路追到現(xiàn)在,算是全網(wǎng)跟得最緊的了:

Now,v3 來了

這一版改動(dòng)很大,大到連名字都換了——從原來拗口的Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,改名為Qwopus3.5(Qwen + Opus 的合體)

名字更短了,野心更大了

一句話說清 v3 的核心變化

v1 是"讓 Qwen 學(xué)會(huì) Opus 的推理",v2 是"讓它想得更少答得更快",**v3 是"讓它學(xué)會(huì)用工具干活"**。

這是一個(gè)質(zhì)的飛躍——從"會(huì)思考"到"會(huì)行動(dòng)"

先看下載量:大家用腳投票

在聊技術(shù)細(xì)節(jié)之前,先看一組數(shù)據(jù)

Jackrong 這次 v3 同時(shí)發(fā)布了 4B、9B、27B 三個(gè)尺寸,加上各種量化和 MLX 版本,一共 9 個(gè)模型

大家猜猜哪個(gè)最火?

模型

參數(shù)量

下載量

Qwopus3.5-9B-v3-GGUF9B10.9k

112

Qwopus3.5-4B-v3-GGUF

4B

699

7

Qwopus3.5-9B-v3

10B

603

47

MLX-Qwopus3.5-9B-v3-4bit

1B

435

13

MLX-Qwopus3.5-9B-v3-8bit

9B

232

6

MLX-Qwopus3.5-9B-v3-bf16

9B

166

1

MLX-Qwopus3.5-9B-v3-6bit

9B

170

2

Qwopus3.5-4B-v3

5B

72

4

Qwopus3.5-27B-v3-GGUF

27B

39

39

Qwopus3.5-27B-v3

27B

13

39

9B GGUF 版本以 10.9k 的下載量斷崖式領(lǐng)先,是第二名的 15 倍。

這說明什么?大家心里門兒清——9B 是甜蜜點(diǎn)

16GB 內(nèi)存的 MacBook 就能跑,Windows 上普通顯卡也沒壓力

27B 雖然能力更強(qiáng),但門檻也更高;4B 太小,容易翻車

9B 剛好在"能用"和"能跑"之間找到了最佳平衡

所以今天這篇文章,我重點(diǎn)實(shí)測(cè)的就是Qwopus3.5-9B-v3

v3 到底改了什么?從"想好再做"到"做了再改"

v3 最大的理念轉(zhuǎn)變,用一句話概括:

從 "reason-then-act"(想好再做)到 "act-then-refine"(做了再改)

這個(gè)思路來自兩篇重要的研究:

  1. Reflexion論文證明,Agent 通過"試錯(cuò) + 反思"的方式,比純靠?jī)?nèi)心推理更有效

  2. 另一項(xiàng)研究發(fā)現(xiàn),失敗后反思再重試能帶來巨大提升:數(shù)學(xué)推理任務(wù) **+34.7%**,函數(shù)調(diào)用任務(wù)+18.1%

說人話就是:與其讓模型在腦子里反復(fù)推演(v2 的路線),不如讓它先動(dòng)手試,試錯(cuò)了再修正。這對(duì)做 Agent、用工具的場(chǎng)景特別管用——畢竟現(xiàn)實(shí)世界的反饋比模型自己的想象靠譜得多

v3 三大核心升級(jí)

1?? 結(jié)構(gòu)化推理優(yōu)化

v2 靠蒸餾 Claude 的思維鏈(CoT),但 Jackrong 在 v3 里坦誠地指出了一個(gè)問題:v2 用的第三方蒸餾數(shù)據(jù),有些思維鏈可能是"偽造"的——看起來像是 Claude 生成的,實(shí)際上未必是

Anthropic 自己也發(fā)表過研究,說推理模型的思維鏈有時(shí)候只是"事后合理化",并非真正的逐步推理

學(xué)生模型去模仿這種"假推理",學(xué)到的可能只是表面的模式匹配,而非真正的問題解決能力

v3 的做法是:用更高質(zhì)量、可驗(yàn)證的推理鏈做訓(xùn)練,讓模型學(xué)的是過程級(jí)推理,而非簡(jiǎn)單模仿答案

對(duì)比項(xiàng)

v2(蒸餾)

v3(結(jié)構(gòu)對(duì)齊)

思維鏈來源

第三方蒸餾數(shù)據(jù)

精選可驗(yàn)證推理鏈

學(xué)習(xí)目標(biāo)

模仿教師輸出

學(xué)習(xí)過程級(jí)推理

推理風(fēng)格

壓縮式

顯式、逐步、可驗(yàn)證

泛化能力

較弱

更強(qiáng)

2?? 工具調(diào)用強(qiáng)化訓(xùn)練

這是 v3 最重要的新增能力

v3專門做了針對(duì)工具調(diào)用的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,為 Agent 框架(如 OpenClaw)優(yōu)化了工具調(diào)用的穩(wěn)定性和準(zhǔn)確性

這意味著 v3 在 Agent 場(chǎng)景下——比如自動(dòng)搜索、調(diào)用 API、操作文件——應(yīng)該比 v1/v2 強(qiáng)得多

3?? "做了再改" 范式

整個(gè)模型的設(shè)計(jì)理念從"一次推理到位"轉(zhuǎn)向"迭代交互糾正"

這對(duì)多步驟任務(wù)特別友好——不要求第一步就完美,允許在執(zhí)行中不斷修正

HumanEval 跑分:9B 打出了新高度

Jackrong 在相同條件下測(cè)了三個(gè) 9B 級(jí)別的模型:

模型

Base pass@1

Plus pass@1

相比 Qwen3.5-9B

Qwopus3.5-9B-v387.80% (144/164)82.93% (136/164)

+4.87 / +5.49

Qwen3.5-9B

82.93% (136/164)

77.44% (127/164)

基線

Claude-Distilled-v2

82.32% (135/164)

78.66% (129/164)

-0.61 / +1.22

幾個(gè)關(guān)鍵發(fā)現(xiàn):

  • v3 在 HumanEval 上比原版 Qwen3.5-9B 高了將近 5 個(gè)百分點(diǎn),這個(gè)差距在 9B 級(jí)別已經(jīng)非常顯著

  • v2 在 9B 上其實(shí)沒怎么提升(甚至 base 還略降了),但v3 一下子拉開了差距

  • 在更嚴(yán)格的 Plus 評(píng)估中,v3 領(lǐng)先原版超過 5.49 個(gè)百分點(diǎn)

MMLU-Pro 跑分:這次知識(shí)能力也沒掉

還記得 v2 的一個(gè)代價(jià)嗎?

MMLU-Pro(通用知識(shí)推理)掉了 7.2%。當(dāng)時(shí)我說這是"專精 vs 通用"的權(quán)衡

v3 把這個(gè)問題修復(fù)了:

模型

正確數(shù)

總數(shù)

準(zhǔn)確率

Qwen3.5-9B

225

280

80.36%

Qwopus3.5-9B-v322928081.79%

v3 在 MMLU-Pro 上反超原版 1.43 個(gè)百分點(diǎn)!

代碼能力提升的同時(shí),通用知識(shí)也沒丟——這是 v2 做不到的

推理效率:用更少的 Token 辦更多的事

指標(biāo)

Qwen3.5-9B

Qwopus3.5-9B-v3

平均思維鏈長(zhǎng)度

7116 字符

5313 字符

每萬字符通過數(shù)

1.26

1.66

每個(gè)正確答案的字符成本

7938

6032

三組數(shù)據(jù)總結(jié):

  • 思維鏈縮短 25.3%

  • 推理效率提升 31.7%

  • 每個(gè)正確答案的 Token 成本降低 24.0%

跟 v2 的 27B 版本效率提升幾乎一致,但這次是在 9B 上做到的,意義完全不同——9B 模型本來就是為資源受限場(chǎng)景設(shè)計(jì)的,效率提升的價(jià)值在這里被放大了。

v1 → v2 → v3 全家族進(jìn)化圖譜

v1

v2

v3

名字

Claude-4.6-Opus-Reasoning-Distilled

同上

Qwopus3.5核心思路

蒸餾 Claude 推理能力

優(yōu)化推理效率

工具調(diào)用 + 結(jié)構(gòu)對(duì)齊

訓(xùn)練方法

SFT + LoRA

SFT + LoRA

SFT + LoRA +RL(工具調(diào)用)

HumanEval(9B)

~82%

~82%

87.80%MMLU-Pro

基準(zhǔn)

-7.2%

+1.43%思維鏈長(zhǎng)度

短(-24%)

短(-25.3%)

工具調(diào)用

未優(yōu)化

未優(yōu)化

專項(xiàng) RL 訓(xùn)練理念

模仿 Claude

更快更省

做了再改

一路看下來,v3 是一次全面的升級(jí):代碼更準(zhǔn)、知識(shí)不丟、效率更高、還新增了工具調(diào)用能力

這在蒸餾模型里相當(dāng)少見——通常每一代都要在某個(gè)維度做取舍,v3 居然做到了"全都要"

怎么跑?

老規(guī)矩,GGUF 格式用 LM Studio、Ollama、llama.cpp 都行:

模型地址:Jackrong/Qwopus3.5-9B-v3-GGUF

硬件需求:

  • Mac:16GB 內(nèi)存即可流暢運(yùn)行(推薦 MLX 版本)

  • Windows/Linux:8GB 顯存的顯卡即可(如 RTX 3060/4060)

  • 量化推薦:根據(jù)之前的 ToolCall-15 測(cè)試經(jīng)驗(yàn),Q6 是工具調(diào)用場(chǎng)景的最優(yōu)量化精度

快速上手(以 Ollama 為例):

# 下載并運(yùn)行
ollama run hf.co/Jackrong/Qwopus3.5-9B-v3-GGUF:Q6_K

,支持 Gemma 4,支持 Anthropic 的 1/messages(low,medium,high,max)


用 ToolCall-15 實(shí)測(cè) 9B-v3 的工具調(diào)用能力

說到工具調(diào)用,我之前在寫 這篇文章時(shí),介紹過一個(gè)很好用的開源測(cè)試工具——ToolCall-15

簡(jiǎn)單回顧一下:ToolCall-15(github.com/stevibe/ToolCall-15)是一個(gè)專門測(cè)大模型工具調(diào)用能力的基準(zhǔn)測(cè)試框架:

  • 15 個(gè)場(chǎng)景,覆蓋 5 大類能力

  • 12 個(gè)工具,模型每次都能看到全部工具

  • 模擬響應(yīng),確保結(jié)果確定可復(fù)現(xiàn)

  • Temperature 設(shè)為 0,排除隨機(jī)性

五大考核維度:

類別

測(cè)試內(nèi)容

舉例

工具選擇

能不能選對(duì)工具?

問天氣,該用get_weather還是web_search?

參數(shù)精度

參數(shù)傳對(duì)了嗎?

用戶要華氏溫度,你傳了fahrenheit沒?

多步鏈?zhǔn)?/p>

能不能串聯(lián)多個(gè)工具?

搜文件 → 讀內(nèi)容 → 查聯(lián)系人 → 發(fā)郵件

克制與拒絕

不該用工具時(shí)能忍住嗎?

"二戰(zhàn)哪年結(jié)束?" 你別去搜啊

? 錯(cuò)誤恢復(fù)

工具報(bào)錯(cuò)了怎么辦?

搜索沒結(jié)果,是放棄還是換關(guān)鍵詞?

之前測(cè) v2 的 27B 版本拿了15/15 滿分

這次 v3 專門做了工具調(diào)用的 RL 訓(xùn)練,還是在更小的 9B 上——到底行不行?



自然很行!

  • Qwen3.5:9b Q8 (官方)

  • Jackrong 的 Qwopus v3 Q8

ToolCall-15: Qwopus v3 完美通過全部 15 題

ToolCall-15 實(shí)測(cè)

大家也可以用這個(gè)工具自行測(cè)試已經(jīng)本地部署的模型

環(huán)境搭建:

git clone https://github.com/stevibe/ToolCall-15.git
cd ToolCall-15
npm install
cp .env.example .env

配置 .env:

# 如果用 LM Studio
LMSTUDIO_HOST=http://localhost:1234
LLM_MODELS=lmstudio:qwopus3.5-9b-v3


# 如果你用的是 Ollama
OLLAMA_HOST=http://localhost:11434
LLM_MODELS=ollama:qwopus3.5-9b-v3

啟動(dòng)測(cè)試:

npm run dev
# 打開 http://localhost:3000,點(diǎn)擊 Run 開始測(cè)試
總結(jié):v3 是這個(gè)系列真正成熟的一代

從 v1 到 v3,Jackrong 的這個(gè)蒸餾系列走過了三個(gè)階段:

  • v1:證明了"小模型也能學(xué)到大模型的推理能力"

  • v2:證明了"推理效率可以大幅優(yōu)化,用更少的 Token 辦同樣的事"

  • v3:證明了"蒸餾模型也能做 Agent,工具調(diào)用不再是大模型的專利"

v3 的數(shù)據(jù)也確實(shí)支撐了這個(gè)結(jié)論:

  • HumanEval 87.80%,比原版 Qwen3.5-9B 高了近 5 個(gè)百分點(diǎn)

  • MMLU-Pro 81.79%,通用知識(shí)也反超了基線

  • 推理效率提升 31.7%,成本降低 24%

  • 新增工具調(diào)用 RL 訓(xùn)練,專為 Agent 場(chǎng)景優(yōu)化

對(duì)于想在本地跑一個(gè)"能寫代碼、能調(diào)工具、還不太吃資源"的模型來說,Qwopus3.5-9B-v3 可能是目前最值得一試的選擇

下載量已經(jīng)說明了一切——10.9k,社區(qū)用腳投票的結(jié)果。

.5

制作不易,如果這篇文章覺得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
離異美少婦偷偷生下孩子,走投無路找前夫復(fù)合,要求前夫?qū)λ?fù)責(zé)

離異美少婦偷偷生下孩子,走投無路找前夫復(fù)合,要求前夫?qū)λ?fù)責(zé)

小米拉
2026-04-21 08:31:37
CBA|廣東輸給山西,北汽“自動(dòng)”獲得前四,繼續(xù)爭(zhēng)第三

CBA|廣東輸給山西,北汽“自動(dòng)”獲得前四,繼續(xù)爭(zhēng)第三

北青網(wǎng)-北京青年報(bào)
2026-04-21 09:04:15
王平河系列:江湖無前輩(9/10)

王平河系列:江湖無前輩(9/10)

金昔說故事
2026-04-21 08:47:43
國(guó)米意杯惡戰(zhàn)遇德比落敗時(shí)兩大裁判 法布雷加斯將放出變陣大招

國(guó)米意杯惡戰(zhàn)遇德比落敗時(shí)兩大裁判 法布雷加斯將放出變陣大招

國(guó)際足球冷雪
2026-04-21 06:29:31
兵敗如山倒!國(guó)產(chǎn)新能源,撕下了二線豪華品牌最后的“遮羞布”

兵敗如山倒!國(guó)產(chǎn)新能源,撕下了二線豪華品牌最后的“遮羞布”

斷翼的鳥兒
2026-04-18 23:13:17
賽季打完,5位小角色打出身價(jià):阿夫頂薪了,小里拒絕肥約賭對(duì)了

賽季打完,5位小角色打出身價(jià):阿夫頂薪了,小里拒絕肥約賭對(duì)了

大西體育
2026-04-20 23:32:49
日本挑釁引發(fā)爭(zhēng)議,網(wǎng)友懷疑地震背后藏核試驗(yàn)!中國(guó)迅速反擊,意圖何在?

日本挑釁引發(fā)爭(zhēng)議,網(wǎng)友懷疑地震背后藏核試驗(yàn)!中國(guó)迅速反擊,意圖何在?

林子說事
2026-04-21 08:31:45
臉沒恢復(fù)就別出來拍劇了,頂著腫脹臉、笨重假發(fā)套,太讓人出戲了

臉沒恢復(fù)就別出來拍劇了,頂著腫脹臉、笨重假發(fā)套,太讓人出戲了

白面書誏
2026-04-14 18:34:11
從“熱情接機(jī)”到“惡意造謠”:雷軍京滬續(xù)航挑戰(zhàn)遭黑產(chǎn)碰瓷,小米強(qiáng)硬表態(tài)

從“熱情接機(jī)”到“惡意造謠”:雷軍京滬續(xù)航挑戰(zhàn)遭黑產(chǎn)碰瓷,小米強(qiáng)硬表態(tài)

TechWeb
2026-04-20 10:35:06
馬英九基金會(huì)風(fēng)暴,李德維怒了,向馬英九開火,蕭旭岑回應(yīng)亮了

馬英九基金會(huì)風(fēng)暴,李德維怒了,向馬英九開火,蕭旭岑回應(yīng)亮了

DS北風(fēng)
2026-04-20 16:48:04
丈夫半夜捉奸妻子,妻子給他下安眠藥,2008年叫情夫?qū)⑺麣⑺罀伿?>
    </a>
        <h3>
      <a href=漢史趣聞
2026-04-19 18:02:48
關(guān)注丨剛剛,全線跳水!伊朗,突然宣布

關(guān)注丨剛剛,全線跳水!伊朗,突然宣布

錢眼
2026-04-20 20:12:47
小寶與王某雷,誰探訪花的數(shù)量更多?

小寶與王某雷,誰探訪花的數(shù)量更多?

挪威森林
2026-01-31 12:15:26
遭同行排擠打壓?張雪:所有品牌都不做我們的售后 只能自己直播

遭同行排擠打壓?張雪:所有品牌都不做我們的售后 只能自己直播

念洲
2026-04-21 08:52:33
美國(guó)人終于清醒了,質(zhì)問:特朗普女婿庫什納有什么資格去談判?

美國(guó)人終于清醒了,質(zhì)問:特朗普女婿庫什納有什么資格去談判?

光電科技君
2026-04-20 10:19:30
伊朗做出重大讓步,同意開放一半海峽,交出濃縮鈾也可以談

伊朗做出重大讓步,同意開放一半海峽,交出濃縮鈾也可以談

第一軍情
2026-04-20 12:55:03
武大楊景媛被投訴辭職后續(xù):已考公進(jìn)復(fù)試!筆試成績(jī)還挺高

武大楊景媛被投訴辭職后續(xù):已考公進(jìn)復(fù)試!筆試成績(jī)還挺高

林大師熱點(diǎn)
2026-04-20 20:18:56
為什么說印度的海岸線,遠(yuǎn)看是老天爺賞飯,近看是逗你玩兒?

為什么說印度的海岸線,遠(yuǎn)看是老天爺賞飯,近看是逗你玩兒?

半解智士
2026-04-16 17:10:39
1.7萬兵力集結(jié),距臺(tái)灣僅96公里!專家擔(dān)心:日本可能要軍事暴走

1.7萬兵力集結(jié),距臺(tái)灣僅96公里!專家擔(dān)心:日本可能要軍事暴走

消失的電波
2026-04-20 10:21:40
終究還是離了!姐姐賣燒餅掙了幾百萬,全給弟弟買車房,后悔嗎?

終究還是離了!姐姐賣燒餅掙了幾百萬,全給弟弟買車房,后悔嗎?

許三歲
2026-04-11 16:36:44
2026-04-21 09:40:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

媒體:馬克龍和梅洛尼臉貼臉吻上了 特朗普要吃醋了

頭條要聞

媒體:馬克龍和梅洛尼臉貼臉吻上了 特朗普要吃醋了

體育要聞

“被優(yōu)化”8年后,國(guó)乒方博決定換一條路重新上場(chǎng)

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

減速機(jī)訂單已排到明年!

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

房產(chǎn)
親子
時(shí)尚
旅游
教育

房產(chǎn)要聞

大規(guī)模商改?。『?谖骱0叮@波項(xiàng)目要贏麻了!

親子要聞

女兒洗完貼身衣物不晾,爸爸好心幫忙,反被罵手欠

“爆冷”又如何?陳法拉的人生本就是一場(chǎng)逆襲大戲

旅游要聞

河北吳橋:讓村民在家門口吃上“文旅飯”

教育要聞

怎樣讓高考地理大題無限接近滿分?

無障礙瀏覽 進(jìn)入關(guān)懷版