拒絕「降智、減配、亂收費(fèi)」：面向LLM API的可信驗(yàn)證框架

2026-03-23 18:07:00　來源: 機(jī)器之心Pro

河北舉報

分享至

本文作者分別來自新加坡國立大學(xué)和加州大學(xué)伯克利分校。第一作者郭衍培來自新加坡國立大學(xué)，長期關(guān)注大語言模型基礎(chǔ)設(shè)施中的可信性與安全性問題，特別是云端 LLM 服務(wù)的可驗(yàn)證性與經(jīng)濟(jì)激勵風(fēng)險。指導(dǎo)教師為新加坡國立大學(xué)校長青年教授張嘉恒和加州大學(xué)伯克利分校 Dawn Song 教授。

大語言模型（LLM）已經(jīng)成為各類 AI 應(yīng)用的基礎(chǔ)設(shè)施，然而，在通過云端 API 便捷接入這些強(qiáng)大模型的同時，此類黑盒服務(wù)模式也引發(fā)了一個現(xiàn)實(shí)的信任危機(jī)：如何確保大模型服務(wù)提供商真的運(yùn)行了所承諾的模型，并如實(shí)報告實(shí)際使用了 Token 數(shù)量，以防止?jié)撛诘?LLM 服務(wù) “降智、減配、亂收費(fèi)”？

事實(shí)上，圍繞 LLM 服務(wù) “降智” 的討論，已經(jīng)在國內(nèi)外多個開發(fā)者社區(qū)中反復(fù)出現(xiàn)，不少用戶都報告過模型在使用一段時間后表現(xiàn)明顯下滑的現(xiàn)象 [1,2]。與此同時，若服務(wù)商出于競爭或策略原因，對特定用戶群體提供差異化甚至低質(zhì)量服務(wù) [3]，則會進(jìn)一步加劇黑盒 AI 服務(wù)的信任危機(jī)。

針對這一系列問題，研究者們最近提出了一種新的利用可驗(yàn)證計算（Verifiable Computation）來證明推理過程正確性的 LLM 服務(wù)審計框架 ——IMMACULATE。借助該框架，用戶能夠在完全不暴露模型內(nèi)部信息的情況下，僅需 1% 的額外開銷，就能輕松驗(yàn)證黑盒 LLM API 的執(zhí)行完整性，以有效檢測模型替換、過度量化以及 Token 虛報計費(fèi)等 LLM 服務(wù)違規(guī)行為。相關(guān)論文與代碼已公開。

論文題目：IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation
論文鏈接：https://arxiv.org/pdf/2602.22700
代碼鏈接：https://github.com/guo-yanpei/Immaculate

本研究提出了一種面向黑盒 LLM API 的全新審計框架 IMMACULATE。該框架無需訪問模型內(nèi)部結(jié)構(gòu)，也不依賴專用可信硬件，即可檢測云服務(wù)商是否真實(shí)執(zhí)行了其聲稱的模型推理過程，并是否如實(shí)報告 token 使用量。通過引入 Logit Distance Distribution (LDD) 這一新的統(tǒng)計度量，并結(jié)合隨機(jī)化審計與可驗(yàn)證計算技術(shù)，IMMACULATE 在真實(shí)模型上實(shí)現(xiàn)了低于 1% 的系統(tǒng)開銷，同時能夠可靠檢測模型替換、過度量化以及 token 過度計費(fèi)等經(jīng)濟(jì)動機(jī)型違規(guī)行為。

00 背景：當(dāng) LLM 成為 API 服務(wù)

近年來，大語言模型（LLMs）逐漸成為 AI 應(yīng)用的重要基礎(chǔ)設(shè)施。絕大多數(shù)用戶并不會直接運(yùn)行模型，而是通過云端 API 服務(wù)調(diào)用模型能力。例如 OpenAI、Anthropic 和 Google 等公司提供的模型服務(wù)，都采用這種模式。

然而，這種黑盒服務(wù)模式帶來了一個根本性的信任問題：用戶無法驗(yàn)證服務(wù)提供商是否真正執(zhí)行了其聲稱的模型。

從經(jīng)濟(jì)角度看，服務(wù)商存在動機(jī)通過各種方式降低計算成本或增加收費(fèi)，例如：

模型替換（Model Substitution）

使用更小、更便宜的模型替代宣稱的模型

過度量化（Aggressive Quantization）

使用低精度計算降低成本

Token 過度計費(fèi)（Token Overreporting）

報告比實(shí)際更多的 token 使用量

這些行為往往仍會產(chǎn)生語義上正確但整體質(zhì)量較低的結(jié)果，因此用戶很難通過輸出直接檢測到異常。事實(shí)上，在國內(nèi)外多個開發(fā)者社區(qū)中，已有大量用戶分享關(guān)于 LLM 服務(wù)“降智”的經(jīng)驗(yàn) [1, 2]：即在訂閱服務(wù)一段時間后，模型表現(xiàn)明顯不如初期。這類現(xiàn)象在技術(shù)社區(qū)中引發(fā)了廣泛討論。

此外，出于競爭或策略性考慮，一些服務(wù)提供商還可能對特定用戶群體（例如被識別為潛在競爭對手的調(diào)用者）提供差異化或低質(zhì)量服務(wù) [3]。這一行為嚴(yán)重破壞了模型服務(wù)的公平性與可信度，并進(jìn)一步加劇了黑盒 AI 服務(wù)的信任問題。

因此，一個關(guān)鍵問題出現(xiàn)了：

如何在不訪問模型內(nèi)部的情況下，驗(yàn)證 LLM API 是否被誠實(shí)執(zhí)行？

01 方法概覽：IMMACULATE 審計框架

IMMACULATE 的核心技術(shù)基礎(chǔ)之一是可驗(yàn)證計算（Verifiable Computation）?？沈?yàn)證計算是一類密碼學(xué)技術(shù)，使服務(wù)器能夠在不泄露內(nèi)部計算過程或模型參數(shù)的情況下證明計算結(jié)果的正確性，從而讓用戶無需重新執(zhí)行計算即可驗(yàn)證遠(yuǎn)程計算。然而，對每一次請求都生成證明的開銷非常高。為此，研究團(tuán)隊(duì)提出了 IMMACULATE 審計框架，其核心思想是：

無需驗(yàn)證所有請求，只需隨機(jī)審計少量請求即可檢測系統(tǒng)是否存在大規(guī)模違規(guī)行為。

圖 1 IMMACULATE 工作流程：審計單位偽裝成普通用戶發(fā)送隨機(jī)的請求，并在收到回復(fù)后要求提供證明

具體而言，IMMACULATE 的工作流程包括以下步驟：

用戶正常向 LLM API 發(fā)送請求
服務(wù)端返回回答與 token 使用量
審計者隨機(jī)選擇部分請求進(jìn)行審計
服務(wù)端提供可驗(yàn)證計算證明
審計者根據(jù)統(tǒng)計指標(biāo)判斷執(zhí)行是否可信

這種設(shè)計利用了一個簡單但關(guān)鍵的經(jīng)濟(jì)事實(shí)：

如果服務(wù)商希望通過違規(guī)行為獲取經(jīng)濟(jì)收益，就必須在相當(dāng)比例的請求上進(jìn)行違規(guī)執(zhí)行。因此，通過隨機(jī)審計少量請求即可檢測系統(tǒng)是否存在違規(guī)行為。

02 關(guān)鍵技術(shù)：Logit Distance Distribution (LDD)

圖 2 在固定所有離散步驟的結(jié)果后，整個推理過程完全是連續(xù)函數(shù)。輸出的距離可以衡量模型的準(zhǔn)確度

在實(shí)際系統(tǒng)中，驗(yàn)證 LLM 推理過程面臨一個重要挑戰(zhàn)：GPU 推理存在數(shù)值非確定性。即使在完全相同的模型和輸入下，不同運(yùn)行之間的浮點(diǎn)誤差也可能導(dǎo)致輸出略有不同。因此，傳統(tǒng)的 “逐位驗(yàn)證計算” 的方法難以直接應(yīng)用。

更進(jìn)一步地，大語言模型的推理過程本身包含兩類不同的計算步驟：一類是連續(xù)計算（continuous computation），例如注意力計算、MLP 和歸一化等神經(jīng)網(wǎng)絡(luò)算子；另一類是離散決策（discrete decision），例如 token 選擇或?qū)＜衣酚伞?/p>

連續(xù)計算在 GPU 上執(zhí)行時會受到浮點(diǎn)誤差與并行調(diào)度的影響，因此具有一定的數(shù)值非確定性；而離散決策一旦輸入確定，其輸出是完全確定的。由于生成過程是自回歸的，即使連續(xù)計算中極小的數(shù)值偏差，也可能導(dǎo)致后續(xù)離散決策發(fā)生變化，從而使整個推理路徑發(fā)生分叉。這使得傳統(tǒng)需要逐步復(fù)現(xiàn)完整推理過程的驗(yàn)證方法難以直接應(yīng)用。

為此，IMMACULATE 利用了這一結(jié)構(gòu)特性：固定離散決策路徑，僅比較連續(xù)計算的偏差。具體而言，在給定相同離散決策序列的情況下，我們比較部署模型與參考模型在每一步產(chǎn)生的logits 向量之間的距離分布。這一分布被稱為Logit Distance Distribution (LDD)。

其核心思想是：不直接驗(yàn)證每一步推理是否完全一致，而是衡量實(shí)際執(zhí)行模型與參考模型之間的 logit 偏差分布。

如果系統(tǒng)正常運(yùn)行：

logit 偏差只來自數(shù)值誤差
偏差分布穩(wěn)定且集中

如果系統(tǒng)存在違規(guī)行為，偏差分布會明顯擴(kuò)大或偏移。因此，通過統(tǒng)計LDD 的尾部概率，系統(tǒng)即可識別異常執(zhí)行行為。

03 實(shí)驗(yàn)結(jié)果：低成本檢測違規(guī)行為

圖 3 LLaMA3-70B 模型的 TV 距離分布?？梢钥闯?，不同推理方式在尾部有十分明顯的概率差異

研究團(tuán)隊(duì)在多個模型和數(shù)據(jù)集上評估了 IMMACULATE 的效果。實(shí)驗(yàn)結(jié)果表明，對單個請求：

模型替換攻擊檢測率最高超過 90%
量化攻擊檢測率可達(dá) 1%–10%

在隨機(jī)審計機(jī)制下：僅需約3000 次審計請求，即可在高概率下檢測到違規(guī)行為。

同時，IMMACULATE 的系統(tǒng)開銷極低：

在 vLLM 推理引擎下，吞吐影響 < 1%
計算證明僅在極少請求上觸發(fā)

這表明該框架具備現(xiàn)實(shí)部署可行性。

04 總結(jié)

IMMACULATE 提出了一種面向黑盒 LLM API 的可驗(yàn)證審計框架。通過結(jié)合隨機(jī)化審計、可驗(yàn)證計算以及新的 Logit Distance Distribution 指標(biāo)，該方法能夠在不訪問模型內(nèi)部、無需可信硬件的情況下檢測云端 LLM 服務(wù)的執(zhí)行完整性。

該研究表明，大規(guī)模 LLM 服務(wù)的透明性與可信度可以通過輕量級審計機(jī)制得到顯著提升，為未來 AI 基礎(chǔ)設(shè)施的可信運(yùn)行提供了一條可行路徑。

參考資料：

[1] https://mp.weixin.qq.com/s/cHhdltxUJ3fDka7oR8I06Q

[2] https://mp.weixin.qq.com/s/6JZrbE16k4qmF0pK-kpGRA

[3] https://www.zhihu.com/question/2009482926241382805/answer/2009814668114428352

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.