国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude-Opus-4.6 蒸餾 Qwen3.5 V2 來了

0
分享至

大家好,我是Ai學(xué)習(xí)的老章

Claude-Opus-4.6 蒸餾 Qwen3.5 我一直很關(guān)注:


現(xiàn)在 v2 來了,這次的升級重點(diǎn)不是"更準(zhǔn)",而是"更快更省"——同樣的準(zhǔn)確率,思維鏈縮短了 24%,每個(gè) Token 產(chǎn)出的正確答案多了 31.6%。


部署條件沒變,Qwen3.5-27B 4bit 單張 4090 即可本地跑起


v2 到底改了啥?

先看核心數(shù)據(jù):

指標(biāo)

v1

v2

變化

HumanEval pass@1

96.95%

96.91%

基本持平

思維鏈長度

基準(zhǔn)

縮短 ~24%

顯著減少

每 Token 正確率

基準(zhǔn)

+31.6%

大幅提升

HumanEval+

基準(zhǔn)

-1.24%

微降

MMLU-Pro

基準(zhǔn)

-7.2%

有所下降

簡單說就是:代碼能力幾乎沒掉,但思考效率提升了三成。

這意味著什么?同樣一道編程題,v2 想的更少、答得更快,但正確率一樣。對于跑本地模型的人來說,生成速度本來就是瓶頸,少生成 24% 的 Token 就等于快了 24%——還不用加任何硬件。




怎么做到的?

v2 的訓(xùn)練數(shù)據(jù)是關(guān)鍵。作者 Jackrong 用了14,000 條 Claude 4.6 Opus 風(fēng)格的通用推理樣本,注意是"通用推理"——數(shù)學(xué)題、邏輯推理、文字題,不是代碼題

這個(gè)設(shè)計(jì)思路很有意思:不針對代碼刷分,而是讓模型學(xué)會一種更高效的"思考腳手架"。結(jié)果在 HumanEval(代碼測試)上照樣拿了 96.91%,說明底層推理能力的提升是可以跨任務(wù)遷移的

具體來說,v2 學(xué)到的推理模式長這樣:

Let me analyze this request carefully:


1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.

對比 v1 的長篇大論式思考,v2 更像一個(gè)有經(jīng)驗(yàn)的工程師——先列大綱再下手,不會在簡單問題上反復(fù)糾結(jié)。這就是 Claude Opus 的推理風(fēng)格:結(jié)構(gòu)化、有條理、不廢話。


訓(xùn)練細(xì)節(jié)

技術(shù)棧和 v1 一脈相承:

  • 基座模型:Qwen3.5-27B

  • 訓(xùn)練框架:Unsloth + LoRA SFT

  • 訓(xùn)練方式:Response-Only Training,只對 assistant 的思考部分做監(jiān)督

  • 數(shù)據(jù)量:~14,000 條篩選后的高質(zhì)量推理軌跡

Base Model (Qwen3.5-27B)


Qwen3.5-27B fine-tuned with Unsloth


Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n " )


Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

數(shù)據(jù)來源包括幾個(gè)公開的 Claude 4.6 Opus 蒸餾數(shù)據(jù)集:

數(shù)據(jù)集

用途

Opus-4.6-Reasoning-3000x-filtered

Claude 4.6 Opus 推理軌跡

claude-opus-4.6-10000x

大規(guī)模通用推理遷移

claude-4.5-opus-high-reasoning-250x

高強(qiáng)度結(jié)構(gòu)化推理

Qwen3.5-reasoning-700x

補(bǔ)充多樣性推理樣本


代價(jià)是什么?

說完優(yōu)點(diǎn),也得說缺點(diǎn)。

v2 在 **MMLU-Pro 上掉了 7.2%**,也就是通用知識推理能力有所下降。Jackrong也很坦誠地說了,由于 SFT 數(shù)據(jù)主要是通用推理類,對長上下文理解和復(fù)雜多步推理場景可能不如原版 Qwen3.5。

我的理解是:這是一個(gè)典型的"專精 vs 通用"的權(quán)衡。如果你主要用來寫代碼、做邏輯推理、解數(shù)學(xué)題,v2 毫無疑問更好——又快又準(zhǔn)。但如果你需要一個(gè)什么都能聊的通用模型,原版 Qwen3.5 或者 v1 可能更穩(wěn)。


怎么跑?

跟之前一樣,GGUF 格式直接用 LM Studio、llama.cpp、Ollama 這些工具跑就行。HuggingFace 上提供了多種量化版本:

模型地址:Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF

之前我用 4090 跑 v1 的 27B 能到 46 Token/s,v2 思維鏈短了 24%,等效推理速度還能再快不少。

總結(jié)

v2 的核心價(jià)值就一句話:用更少的 Token 辦同樣的事。

  • 代碼準(zhǔn)確率不掉:HumanEval 96.91%

  • 思維鏈縮短 24%:生成更快,成本更低

  • 每 Token 正確率 +31.6%:推理效率質(zhì)的飛躍

  • 代價(jià):通用知識推理(MMLU-Pro)下降 7.2%

對于本地部署場景,這種"推理效率優(yōu)化"比單純提升準(zhǔn)確率更有實(shí)際價(jià)值——畢竟我們的瓶頸往往不是模型不夠聰明,而是它想得太慢。

.5

制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
華潤置地轉(zhuǎn)讓華潤萬象城

華潤置地轉(zhuǎn)讓華潤萬象城

地產(chǎn)微資訊
2026-04-20 17:44:48
罕見!7.7級地震把半個(gè)日本都震醒了,日網(wǎng)民:快請發(fā)達(dá)中國救我

罕見!7.7級地震把半個(gè)日本都震醒了,日網(wǎng)民:快請發(fā)達(dá)中國救我

社會日日鮮
2026-04-21 05:24:33
年僅48歲!中科院才女博導(dǎo)海外離世遺體從埃及運(yùn)回,結(jié)局太心酸

年僅48歲!中科院才女博導(dǎo)海外離世遺體從埃及運(yùn)回,結(jié)局太心酸

哄動一時(shí)啊
2026-04-20 22:11:49
姆巴佩宣布“加盟”東鵬補(bǔ)水啦,擔(dān)任品牌代言人

姆巴佩宣布“加盟”東鵬補(bǔ)水啦,擔(dān)任品牌代言人

懂球帝
2026-04-20 17:11:05
我國科學(xué)家發(fā)現(xiàn)人有兩個(gè)“斷崖式衰老”節(jié)點(diǎn),分別是50歲和63歲

我國科學(xué)家發(fā)現(xiàn)人有兩個(gè)“斷崖式衰老”節(jié)點(diǎn),分別是50歲和63歲

科普大世界
2026-04-20 10:15:11
馬筱梅當(dāng)著幾十萬人的面質(zhì)問網(wǎng)友,張?zhí)m看這三句話不知道作何感想

馬筱梅當(dāng)著幾十萬人的面質(zhì)問網(wǎng)友,張?zhí)m看這三句話不知道作何感想

放開他讓wo來
2026-04-21 00:40:05
你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

夜深愛雜談
2026-04-09 19:39:13
四野資深旅長,得知授少校軍銜,苦笑道:太丟臉了,請?jiān)试S我轉(zhuǎn)業(yè)

四野資深旅長,得知授少校軍銜,苦笑道:太丟臉了,請?jiān)试S我轉(zhuǎn)業(yè)

歷史的煙火
2026-03-21 01:12:32
男人想長壽,離不開這兩個(gè)愛好,全和女人有關(guān)

男人想長壽,離不開這兩個(gè)愛好,全和女人有關(guān)

周哥一影視
2026-04-20 18:16:26
老婆和她閨蜜為了不讓我看美女短視頻居然使出這招!大家看看我該如何應(yīng)對?

老婆和她閨蜜為了不讓我看美女短視頻居然使出這招!大家看看我該如何應(yīng)對?

經(jīng)典段子
2026-04-20 22:32:43
曾坐擁百億身家!昔日男裝巨頭CEO陷債務(wù)泥潭,遭強(qiáng)行減持!80年代畢業(yè)于深大

曾坐擁百億身家!昔日男裝巨頭CEO陷債務(wù)泥潭,遭強(qiáng)行減持!80年代畢業(yè)于深大

南方都市報(bào)
2026-04-20 20:21:37
北京樓市:瘋了

北京樓市:瘋了

墜入二次元的海洋
2026-04-20 18:04:47
亞洲身價(jià)之王!烏茲別克斯坦后衛(wèi)在曼城閃耀,完封阿森納鋒線

亞洲身價(jià)之王!烏茲別克斯坦后衛(wèi)在曼城閃耀,完封阿森納鋒線

星耀國際足壇
2026-04-20 23:51:03
CBA最新排名!廣東鎖定第五,北京鎖定四強(qiáng),寧波首次打入季后賽

CBA最新排名!廣東鎖定第五,北京鎖定四強(qiáng),寧波首次打入季后賽

呀古銅
2026-04-21 00:12:10
男星查理·辛嗜性成癮,曾一天與五人發(fā)生關(guān)系,連男人他也不放過

男星查理·辛嗜性成癮,曾一天與五人發(fā)生關(guān)系,連男人他也不放過

七阿姨愛八卦
2026-04-12 17:14:49
折戟伊朗,戰(zhàn)爭機(jī)器失靈,屬于美國的時(shí)代即將終結(jié)

折戟伊朗,戰(zhàn)爭機(jī)器失靈,屬于美國的時(shí)代即將終結(jié)

兵國大事
2026-04-21 00:40:03
新華時(shí)評·首季經(jīng)濟(jì)觀察|新職業(yè)拓展就業(yè)市場新空間

新華時(shí)評·首季經(jīng)濟(jì)觀察|新職業(yè)拓展就業(yè)市場新空間

新華社
2026-04-20 17:42:02
中方全面斷供引發(fā)國際關(guān)注,岸田文雄復(fù)出多國代表訪日

中方全面斷供引發(fā)國際關(guān)注,岸田文雄復(fù)出多國代表訪日

寂寞染指悲傷
2026-04-20 22:20:07
女騎手兩年暴漲35%,女司機(jī)猛增75%,中年女人為何搶著跑車?

女騎手兩年暴漲35%,女司機(jī)猛增75%,中年女人為何搶著跑車?

老特有話說
2026-04-17 17:19:57
遼寧警方通報(bào):楊某軍為首的犯罪組織,以民間借貸為幌子,實(shí)施詐騙勒索等,已抓獲楊某軍(綽號“大軍”)、周某羽(綽號“柏羽”)等成員

遼寧警方通報(bào):楊某軍為首的犯罪組織,以民間借貸為幌子,實(shí)施詐騙勒索等,已抓獲楊某軍(綽號“大軍”)、周某羽(綽號“柏羽”)等成員

揚(yáng)子晚報(bào)
2026-04-19 17:33:19
2026-04-21 06:15:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

旅游
時(shí)尚
數(shù)碼
房產(chǎn)
公開課

旅游要聞

以“Fun”為名,深圳布吉將發(fā)布全域旅游品牌IP

春天衣服不用準(zhǔn)備太多!這幾大單品提前備好,百搭實(shí)用又不過時(shí)

數(shù)碼要聞

REDMI 顯示器 G Pro 27U 2026輕體驗(yàn):電競利器 桌面上的“小鋼炮”

房產(chǎn)要聞

大規(guī)模商改??!??谖骱0?,這波項(xiàng)目要贏麻了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版