国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenClaw太貴?QuantClaw幫你挑精度,成本砍掉21%,還能提速15%

0
分享至



華為聯(lián)合新加坡國立大學和中國科學技術(shù)大學研究人員提出 QuantClaw。

這是一款面向 OpenClaw 的即插即用動態(tài)模型精度路由插件,基于大規(guī)模低精度量化實證研究,讓模型精度成為可動態(tài)分配的資源,實現(xiàn)服務(wù)質(zhì)量不降反升、成本下降、延遲降低的三重收益。



項目主頁:https://sparkengineai.github.io/QuantClaw/

GitHub 倉庫:https://github.com/SparkEngineAI/QuantClaw-plugin

arXiv 論文:https://arxiv.org/abs/2604.22577

OpenClaw 很強大,但成本讓人頭疼

2026 年,OpenClaw 已經(jīng)成長為最火爆的開源 AI Agent 框架之一。它不只是「聊天機器人」,而是能操控瀏覽器、執(zhí)行 Shell 命令、讀寫文件、管理記憶的全功能數(shù)字助手。但真正用過 OpenClaw 的開發(fā)者和用戶都知道一個痛點:Token 消耗太猛了。

一個看似簡單的查詢,可累積消耗超 23 萬 Token,你付的錢不只是為了那個最終答案,而是在為整個 Agent 系統(tǒng)的「運行開銷」買單。更糟的是,目前這些系統(tǒng)通常以固定精度運行。無論任務(wù)是簡單查個資料,還是寫一段復(fù)雜代碼,模型都在全力輸出,導致不同任務(wù)復(fù)雜度與計算資源之間缺乏匹配機制。該策略同時帶來不必要的計算開銷、推理延遲增加以及整體成本上升。

破局思路:不是每個任務(wù)都需要「超算級」精度

量化(Quantization)是業(yè)界常用的降本手段。把模型的數(shù)值精度從 32 位浮點壓縮到 4 位甚至 2 位,能顯著減少內(nèi)存占用和計算量。但問題是:量化對復(fù)雜 Agent 任務(wù)的影響到底有多大?所有任務(wù)都適合壓低精度嗎?目前仍缺乏系統(tǒng)性的研究來回答這一問題。

華為聯(lián)合新加坡國立大學、中國科學技術(shù)大學,對 OpenClaw 工作負載進行了系統(tǒng)性的量化研究,基于 ClawEval 評測集(release v0.0.0),覆蓋 24 類任務(wù)、104 個實例、6 個主流大模型(9B–744B),系統(tǒng)揭示了 OpenClaw 框架下 Agent 量化的核心規(guī)律:

(1)Scaling Effect:模型越大,量化容忍度越高



在 OpenClaw 量化評測結(jié)果上,研究團隊發(fā)現(xiàn)了一個清晰的模型規(guī)模和性能下降之間的關(guān)系:

  • 小模型(<30B):量化后性能下降 3-5%。
  • 中等模型(30B-70B):下降通常在 2% 以內(nèi)。
  • 大模型(200B+):下降不到 2%,部分模型(如 GLM-5、MiniMax-M2.5)量化后反而有輕微性能提升(+0.9% 到 +1.4%)。

實驗結(jié)果顯示,模型規(guī)模與量化誤差容忍度呈正相關(guān),這可能源于更大參數(shù)量的模型擁有更高的表征冗余,從而削弱了量化噪聲的影響。

(2)量化對 Agent 的影響,顯著依賴任務(wù)類型

研究團隊對所有測試模型的結(jié)果取平均值并進行任務(wù)敏感度分析,根據(jù)敏感度將 OpenClaw 任務(wù)分為三類:高、中、低。



  • 高精度敏感區(qū)(推薦 16bit/8bit):涉及代碼生成、安全關(guān)鍵決策和復(fù)雜操作工作流的任務(wù)對量化高度敏感。這些領(lǐng)域的共同特征是需要精確的邊界判斷,模型輸出的微小擾動都可能導致性質(zhì)完全錯誤的行為,例如錯誤的工具調(diào)用、策略違規(guī)或代碼邏輯錯誤。
  • 低精度友好區(qū)(推薦 4bit):知識檢索、分析類與問答類任務(wù)對量化具有較強容忍度,有的甚至還能小幅提升。這可能是因為量化充當了隱式正則化器的角色,從而促進更具泛化性的表示。

(3)如何實現(xiàn)得分、速度與成本的平衡?



真正決定是否應(yīng)該對某個任務(wù)使用低精度,不能只看分數(shù)變化,必須把速度和成本一起納入考量?;谌蝿?wù)敏感性分析,研究團隊給出了兩種實用的優(yōu)化視角:

  • 得分 vs 速度(更快):在不犧牲質(zhì)量的前提下降低推理時延,優(yōu)先選擇速度收益大于分數(shù)邊際變化的任務(wù)。
  • 得分 vs 成本(更便宜):在質(zhì)量基本持平的情況下壓低推理成本,重點關(guān)注成本降低時仍能保持或提升質(zhì)量的任務(wù)。

QuantClaw:開箱即用的精度調(diào)度引擎

基于以上發(fā)現(xiàn),研究團隊推出了 QuantClaw,一個為 OpenClaw 設(shè)計的即插即用的任務(wù)路由量化插件。



(1)QuantClaw 的工作邏輯非常清晰:

  • 任務(wù)識別:用戶發(fā)來請求,QuantClaw 首先判斷它屬于哪種任務(wù)類型。
  • 精度路由:根據(jù)預(yù)設(shè)的「任務(wù)-精度敏感度檔案」,自動將請求分配給 4bit、8bit 或 16bit 的模型實例。
  • 透明執(zhí)行:用戶無感知,不用手動選擇精度,系統(tǒng)在后臺完成一切。

(2)QuantClaw 的架構(gòu)設(shè)計兼顧了實用性和靈活性:





實測效果:省錢、提速、分數(shù)還漲了

研究團隊在 PinchBench 上進行端到端評估。結(jié)果表明,QuantClaw 在省錢提速的同時,任務(wù)完成質(zhì)量反而更高。低敏感任務(wù)用低精度高效執(zhí)行,高敏感任務(wù)保留高精度確??煽?,實現(xiàn)整體上更好的質(zhì)量、成本和時延平衡。

(1)GLM-4.7-Flash(PinchBench v1.2.0):相比 BF16 基線,得分 +2.85,成本 -21.6%,延遲 -8.4%



(2)GLM-5(PinchBench v2.0.0):相比 FP8 基線,得分 +2.09,成本 -21.4%,延遲 -15.7%



展望

QuantClaw 不止是一個插件,更提供了一種將精度納入系統(tǒng)調(diào)度的實現(xiàn)路徑:把精度當作像算力、內(nèi)存一樣的動態(tài)調(diào)度資源;輕任務(wù)跑低成本配置,重任務(wù)保留高精度。

當精度成為可動態(tài)調(diào)配的資源,Agent 系統(tǒng)才能真正從演示場景走向生產(chǎn)級應(yīng)用。未來,個人 AI 助手不再是「單模型滿負荷跑」,而是多精度、多能力協(xié)同的智能系統(tǒng)。QuantClaw 正是這一方向的關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“190元榴蓮僅退款”的買家曝光了!

“190元榴蓮僅退款”的買家曝光了!

梳子姐
2026-05-09 14:18:24
悲哀!舉報自己吃空餉的柳某逼進死胡同,網(wǎng)友:成“三無”人員了

悲哀!舉報自己吃空餉的柳某逼進死胡同,網(wǎng)友:成“三無”人員了

火山詩話
2026-05-09 19:07:52
中國移動迎來史上最年輕的總經(jīng)理!

中國移動迎來史上最年輕的總經(jīng)理!

ICT解讀者
2026-05-08 19:50:41
侯友宜正式向大陸攤牌:將統(tǒng)一模式強加于臺灣人,主流民意不接受

侯友宜正式向大陸攤牌:將統(tǒng)一模式強加于臺灣人,主流民意不接受

杰絲聊古今
2026-05-06 14:10:21
77歲曹查理自曝在東莞養(yǎng)老,住35平米房月租1300元,在香港沒房產(chǎn)

77歲曹查理自曝在東莞養(yǎng)老,住35平米房月租1300元,在香港沒房產(chǎn)

一盅情懷
2026-05-09 15:28:11
美股要崩了嗎?復(fù)盤一下2000年互聯(lián)網(wǎng)泡沫破滅

美股要崩了嗎?復(fù)盤一下2000年互聯(lián)網(wǎng)泡沫破滅

公子豹
2026-05-09 11:51:17
演過頭了!賓利車主高速救助被棄新人系擺拍 抖音通報:賬號禁言并取消營利權(quán)限

演過頭了!賓利車主高速救助被棄新人系擺拍 抖音通報:賬號禁言并取消營利權(quán)限

快科技
2026-05-09 18:20:06
34歲肖戰(zhàn)高調(diào)官宣喜訊,官方發(fā)文全網(wǎng)恭喜,終于等到

34歲肖戰(zhàn)高調(diào)官宣喜訊,官方發(fā)文全網(wǎng)恭喜,終于等到

豬小艷吖
2026-05-07 11:21:34
又被搶先一步?外交部官宣,一國總統(tǒng)將要訪華,特朗普還得再等等

又被搶先一步?外交部官宣,一國總統(tǒng)將要訪華,特朗普還得再等等

知法而形
2026-05-09 11:40:54
國乒美女錢天一:26歲退役,不選編制選安置費,嫁世界冠軍很幸福

國乒美女錢天一:26歲退役,不選編制選安置費,嫁世界冠軍很幸福

以茶帶書
2026-05-08 15:40:11
清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內(nèi)不能站人

清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內(nèi)不能站人

云霄紀史觀
2026-05-07 20:06:19
謝霆鋒這張合照,把所有當?shù)亩冀o整不會了

謝霆鋒這張合照,把所有當?shù)亩冀o整不會了

老吳教育課堂
2026-05-08 13:57:48
他幾乎熬死了所有對手

他幾乎熬死了所有對手

晏凌羊
2026-05-07 21:13:05
懶熊體育:FIFA與央視對談判前景樂觀,簽約可能5月中下旬公布

懶熊體育:FIFA與央視對談判前景樂觀,簽約可能5月中下旬公布

懂球帝
2026-05-09 18:42:06
這兩位大體格子模特的打扮,誰看了不迷糊啊

這兩位大體格子模特的打扮,誰看了不迷糊啊

牛彈琴123456
2026-05-09 15:18:36
蘋果和英特爾,分手六年后,又「在一起」了

蘋果和英特爾,分手六年后,又「在一起」了

極客公園
2026-05-09 10:51:05
電力設(shè)備訂單猛增,誰在受益誰在陪跑?

電力設(shè)備訂單猛增,誰在受益誰在陪跑?

界面新聞
2026-05-09 19:35:05
蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
女上司處處針對刁難我,忍無可忍選擇辭職!誰知次日天她找上門

女上司處處針對刁難我,忍無可忍選擇辭職!誰知次日天她找上門

百曉史
2025-10-16 09:13:26
5月8日俄烏最新:以牙還牙

5月8日俄烏最新:以牙還牙

西樓飲月
2026-05-08 18:40:39
2026-05-09 20:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12957文章數(shù) 142646關(guān)注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協(xié)議

頭條要聞

王菲出新歌首用陜西話唱戲腔 時隔24年與張藝謀再合作

頭條要聞

王菲出新歌首用陜西話唱戲腔 時隔24年與張藝謀再合作

體育要聞

成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經(jīng)要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

家居
藝術(shù)
旅游
手機
房產(chǎn)

家居要聞

菁英人居 全能豪宅

藝術(shù)要聞

齊白石 紫藤蜜蜂

旅游要聞

告別“打卡式”旅游 境外游客來杭15分鐘即可換證自駕

手機要聞

OPPO Reno16系列配置曝光:全系2億像素+金屬中框,5月亮相

房產(chǎn)要聞

低價甩賣!??谶@個地標商業(yè),無人接盤!

無障礙瀏覽 進入關(guān)懷版