国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

真錢買假模型?187篇論文被「套殼API」坑慘,準(zhǔn)確率暴跌

0
分享至



編輯|Panda

近段時(shí)間,時(shí)不時(shí)就有用戶抱怨如今的大模型 API 越來(lái)越像「薛定諤的貓」:有時(shí)候調(diào)用 GPT-5 顯得極其聰明,有時(shí)候卻像個(gè)智障。我們不禁懷疑大模型到底有沒(méi)有在后臺(tái)偷偷降智。

現(xiàn)在,一篇來(lái)自 CISPA 亥姆霍茲信息安全中心的最新論文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》為我們揭開(kāi)了一點(diǎn)謎底:那些你花真金白銀購(gòu)買的「第三方 API」,有可能偷偷把前沿大模型換成了廉價(jià)的替代品



螞蟻集團(tuán)工程師陳成的總結(jié)推文截圖

該論文在社交網(wǎng)絡(luò)上引發(fā)了廣泛討論:







來(lái)自 X 評(píng)論,Credit: @frxiaobei、@DeepSky0605、@AgiRay1015、@Tk206_



  • 論文標(biāo)題:Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
  • 論文地址:https://arxiv.org/abs/2603.01919

大模型 API 的灰色江湖

眾所周知,受限于高昂的定價(jià)、支付壁壘以及特定區(qū)域的限制,直接訪問(wèn) GPT-5 或 Gemini 2.5 等前沿大模型往往困難重重。這種限制催生了一個(gè)龐大的第三方代理服務(wù)市場(chǎng)。這些服務(wù)在學(xué)術(shù)界被稱為「影子 API(Shadow API)」,它們聲稱可以通過(guò)間接訪問(wèn),提供不受區(qū)域限制的官方模型服務(wù)。

在這個(gè)充滿各種「鏡像站」和「代理池」的灰色江湖中,大模型套殼現(xiàn)象早有先例。

回顧過(guò)去,無(wú)論是某斯坦福 AI 團(tuán)隊(duì)挪用清華系開(kāi)源大模型 MiniCPM 的風(fēng)波(參閱報(bào)道《斯坦福爆火 Llama3-V 竟抄襲國(guó)內(nèi)開(kāi)源項(xiàng)目,作者火速刪庫(kù)》),還是市面上各種打著 GPT-4 旗號(hào)實(shí)際卻調(diào)用廉價(jià)小模型的山寨網(wǎng)站,都讓開(kāi)發(fā)者防不勝防。

針對(duì)這些 API 進(jìn)行的系統(tǒng)性審計(jì),徹底暴露了這一灰色產(chǎn)業(yè)鏈對(duì)嚴(yán)肅科學(xué)研究的破壞力。

CISPA 的研究人員詳細(xì)追蹤了17個(gè)影子 API 服務(wù),發(fā)現(xiàn)它們已經(jīng)被引用進(jìn)了187篇學(xué)術(shù)論文中,并對(duì)一部分具有代表性的 API 進(jìn)行了針對(duì)性審計(jì)。

這些論文里約有 62% 已經(jīng)被 ACL 、 CVPR 和 ICLR 等頂級(jí)會(huì)議錄用。其中最受歡迎的一個(gè)影子 API 已經(jīng)積累了 5966 次論文引用,與其相關(guān)的一個(gè) GitHub 項(xiàng)目更是獲得了將近 6 萬(wàn)個(gè)星標(biāo)。

深入調(diào)查這些服務(wù)的合規(guī)性時(shí),情況更加令人擔(dān)憂。在這 17 個(gè)服務(wù)中,多達(dá) 11 個(gè)是基于 OneAPI 或 NewAPI 等開(kāi)源 API 分發(fā)系統(tǒng)搭建的。離譜的是,這 17 個(gè)提供商中只有一家擁有正規(guī)的 ICP 備案,其余絕大多數(shù)都是個(gè)人運(yùn)營(yíng)的黑盒,毫無(wú)透明度可言



Shadow API 在學(xué)術(shù)界使用情況

能力雪崩:當(dāng)醫(yī)學(xué)專家變成赤腳醫(yī)生

科研結(jié)論如果建立在虛假的底層模型上,整個(gè)實(shí)驗(yàn)的地基就會(huì)隨之坍塌。為了弄清楚這些影子 API 到底摻了多少水分,研究團(tuán)隊(duì)在科學(xué)推理領(lǐng)域(如 AIME 2025、GPQA )和極其敏感的高風(fēng)險(xiǎn)領(lǐng)域(如醫(yī)療 MedQA、法律 LegalBench)對(duì)具有代表性的API進(jìn)行了多維度的基準(zhǔn)測(cè)試。

測(cè)試結(jié)果令人觸目驚心。

以高風(fēng)險(xiǎn)的醫(yī)療基準(zhǔn) MedQA 為例,官方的 Gemini-2.5-flash 模型準(zhǔn)確率高達(dá) 83.82%。

當(dāng)研究人員通過(guò)這些號(hào)稱「完全一致」的影子 API 進(jìn)行測(cè)試時(shí),準(zhǔn)確率直接斷崖式下跌到了平均 36.95%。高達(dá) 47% 的性能缺口,意味著在一半以上的醫(yī)療診斷問(wèn)題上,該模型可能給出致命的錯(cuò)誤建議。

在法律基準(zhǔn)測(cè)試 LegalBench 中,情況同樣糟糕,所有接受評(píng)估的影子 API 表現(xiàn)均落后于官方端點(diǎn) 40.10% 到 42.73%。



影子 API 在醫(yī)療和法律領(lǐng)域性能下降

下表展示了兩個(gè)示例:



高難度的邏輯推理任務(wù)往往是假模型的重災(zāi)區(qū)。在包含競(jìng)賽級(jí)數(shù)學(xué)題的 AIME 2025 測(cè)試中,某熱門影子 API 遭遇了嚴(yán)重的精度滑鐵盧,其提供的 Gemini-2.5-pro 準(zhǔn)確率暴跌 40.00% ,而 DeepSeek-Reasoner 的準(zhǔn)確率也急降了 38.89%。



影子 API 在數(shù)學(xué)和邏輯推理領(lǐng)域性能下降

除了智商大打折扣,它們的安全性也處于一種高度不可控的狀態(tài)。在面臨各種代碼混淆或惡意提示詞的越獄攻擊測(cè)試中,影子 API 的表現(xiàn)毫無(wú)規(guī)律可言。它們有時(shí)會(huì)嚴(yán)重低估有害內(nèi)容的風(fēng)險(xiǎn),給出的有害性評(píng)分比官方模型低 0.23 ,有時(shí)又會(huì)把有害性放大近一倍。



影子 API 與官方 API 在 JailbreakBench 數(shù)據(jù)集上的安全性能比較

指紋識(shí)別 & 提供商的三種套路

為了拿到這些黑盒 API 造假的確鑿證據(jù),研究人員動(dòng)用了大模型指紋識(shí)別框架 LLMmap以及模型相等性測(cè)試(MET)來(lái)直接驗(yàn)證模型的真實(shí)身份。LLMmap 能夠通過(guò)分析模型對(duì)特定查詢的響應(yīng),計(jì)算出輸出結(jié)果與參考數(shù)據(jù)庫(kù)之間的余弦距離,從而判斷它到底是個(gè)什么模型。

在所有被評(píng)估的 24 個(gè)具體模型端點(diǎn)中,有 45.83% 的端點(diǎn)直接未能通過(guò)指紋驗(yàn)證,另外還有 12.50% 的端點(diǎn)表現(xiàn)出與官方模型存在巨大的余弦距離偏差。這兩個(gè)數(shù)據(jù)加起來(lái),意味著超過(guò)半數(shù)的服務(wù)在底層悄悄替換了模型



通過(guò)進(jìn)一步對(duì)生成的 token 數(shù)量方差以及推理延遲時(shí)間進(jìn)行分析,研究人員發(fā)現(xiàn)官方 API 總是呈現(xiàn)出穩(wěn)定規(guī)律的延遲,而影子 API 的延遲經(jīng)常出現(xiàn)劇烈的抖動(dòng),其波動(dòng)率甚至?xí)^(guò)官方基準(zhǔn)的 2 倍以上。

論文揭露了影子 API 供應(yīng)商常見(jiàn)的三種經(jīng)濟(jì)欺騙手段:

  • 信息溢價(jià): 收取高昂的旗艦版費(fèi)用,卻在后臺(tái)用能力相似但更便宜的模型進(jìn)行替換。例如某 API 標(biāo)榜提供 Gemini 2.0 的早期版本,實(shí)際卻以 7 倍以上的驚人差價(jià)提供 2.5 版本。
  • 折扣替換: 以官方原價(jià)收費(fèi),但把高端的閉源大模型替換成低成本的開(kāi)源模型。比如用戶高價(jià)點(diǎn)名要 GPT-5 ,指紋識(shí)別卻無(wú)情地揭露后臺(tái)默默運(yùn)行的其實(shí)是 GLM-4-9B。
  • 加價(jià)倒賣: 在官方價(jià)格基礎(chǔ)上加收服務(wù)費(fèi),同時(shí)依舊在后臺(tái)替換底層模型以賺取多重差價(jià)。



三種經(jīng)濟(jì)欺騙機(jī)制

經(jīng)過(guò)計(jì)算,雖然用戶是按照官方標(biāo)準(zhǔn)費(fèi)率(例如 1000 次請(qǐng)求約 14.84 美元)支付的費(fèi)用,但實(shí)際上得到的有效 token 價(jià)值只有 5.70 美元到 7.77 美元。這種做法讓供應(yīng)商僅僅在少量查詢中就能賺取過(guò)半的暴利利潤(rùn)。



科研大廈底層受創(chuàng)

如果普通開(kāi)發(fā)者在構(gòu)建娛樂(lè)機(jī)器人時(shí)買到了假模型,頂多是帶來(lái)了糟糕的用戶體驗(yàn)。一旦學(xué)術(shù)界大規(guī)模將這些摻水接口用于嚴(yán)肅的數(shù)據(jù)標(biāo)注、算法評(píng)估或文獻(xiàn)總結(jié),整個(gè) AI 研究大廈的公信力都會(huì)被嚴(yán)重動(dòng)搖。

自 2025 年初 DeepSeek 等前沿大模型相繼發(fā)布并迅速迭代以來(lái),學(xué)術(shù)界對(duì)調(diào)用最新強(qiáng)大模型的需求與日俱增。由于正規(guī)渠道受限,大量亟待發(fā)表論文的研究人員被迫轉(zhuǎn)向這些缺乏監(jiān)管的影子 API 。

研究者進(jìn)行了一個(gè)保守的估算,即便只有 30% 的受影響論文需要重新運(yùn)行實(shí)驗(yàn),僅為了修復(fù)這 187 篇已知論文中由模型替換帶來(lái)的數(shù)據(jù)污染,就需要花費(fèi)高達(dá) 11.5 萬(wàn)至 14 萬(wàn)美元的計(jì)算和人工成本。這筆賬還沒(méi)有算上那些引用了這些問(wèn)題論文的 5966 項(xiàng)后續(xù)研究,這些后來(lái)者極可能已經(jīng)在不知不覺(jué)中繼承并放大了這些底層錯(cuò)誤。



Shadow API 生產(chǎn)和交易的生動(dòng)圖解

論文作者給出的最終建議直白且強(qiáng)硬:應(yīng)當(dāng)完全避免在嚴(yán)肅的研究工作流中使用任何未經(jīng)嚴(yán)格驗(yàn)證的影子 API

如果迫于客觀條件不得不使用,研究團(tuán)隊(duì)在正式收集數(shù)據(jù)前,必須引入強(qiáng)制性的審核協(xié)議。這包括運(yùn)行至少 24 次指紋探測(cè)、進(jìn)行 500 個(gè)樣本分布測(cè)試以比對(duì) p 值,以及通過(guò)多次獨(dú)立會(huì)話來(lái)檢查延遲和方差是否異常

在這個(gè)真假難辨的 AI 時(shí)代,技術(shù)永遠(yuǎn)在狂飆突進(jìn),而商業(yè)的陰暗面也同樣在瘋狂滋長(zhǎng)。對(duì)于每一位追求嚴(yán)謹(jǐn)?shù)膹臉I(yè)者和研究員來(lái)說(shuō),保持懷疑態(tài)度是我們面對(duì)黑盒大模型服務(wù)時(shí)的最后一道防線。

你被坑過(guò)嗎?

https://x.com/chenchengpro/status/2029586877800686056

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
男籃3喜訊:徐杰打破新紀(jì)錄,郭士強(qiáng)看好3人,雙中鋒有望沖冠軍

男籃3喜訊:徐杰打破新紀(jì)錄,郭士強(qiáng)看好3人,雙中鋒有望沖冠軍

阿信點(diǎn)評(píng)
2026-03-10 00:06:14
從網(wǎng)絡(luò)中的伊朗,到人性下限的徹骨惡寒!

從網(wǎng)絡(luò)中的伊朗,到人性下限的徹骨惡寒!

胖胖說(shuō)他不胖
2026-03-08 12:05:08
魯迅家是如何衰敗的?魯迅肯定不會(huì)告訴你,因?yàn)閷?shí)在“太丟人”

魯迅家是如何衰敗的?魯迅肯定不會(huì)告訴你,因?yàn)閷?shí)在“太丟人”

顧史
2026-03-02 10:46:01
14分完勝!騎士6人上雙復(fù)蘇:全場(chǎng)開(kāi)心歡呼,哈登21+5迎里程碑

14分完勝!騎士6人上雙復(fù)蘇:全場(chǎng)開(kāi)心歡呼,哈登21+5迎里程碑

體壇小李
2026-03-10 09:29:35
凱迪拉克凱威德預(yù)計(jì)4月底上市!網(wǎng)友:價(jià)格合適必火

凱迪拉克凱威德預(yù)計(jì)4月底上市!網(wǎng)友:價(jià)格合適必火

汽車網(wǎng)評(píng)
2026-03-09 21:34:33
繁華后的凄涼:耗資近34億的鳥(niǎo)巢,如今被用來(lái)干嘛了?回本了嗎?

繁華后的凄涼:耗資近34億的鳥(niǎo)巢,如今被用來(lái)干嘛了?回本了嗎?

小李子體育
2026-03-09 20:33:29
特朗普終于攤牌了:?;饡r(shí)間我和內(nèi)塔尼亞胡商量著辦但我最后拍板

特朗普終于攤牌了:?;饡r(shí)間我和內(nèi)塔尼亞胡商量著辦但我最后拍板

浯江孤舟
2026-03-10 09:40:22
羅永浩評(píng)三星S26 Ultra防窺屏:手機(jī)行業(yè)久違的創(chuàng)新

羅永浩評(píng)三星S26 Ultra防窺屏:手機(jī)行業(yè)久違的創(chuàng)新

CNMO科技
2026-03-09 13:37:17
G7會(huì)后稱暫不釋放油儲(chǔ),但“隨時(shí)準(zhǔn)備”采取必要措施支持全球能源供應(yīng)

G7會(huì)后稱暫不釋放油儲(chǔ),但“隨時(shí)準(zhǔn)備”采取必要措施支持全球能源供應(yīng)

華爾街見(jiàn)聞官方
2026-03-10 01:12:33
文身執(zhí)槍,為弟出征:三個(gè)孩子的母親,把悲痛活成鎧甲

文身執(zhí)槍,為弟出征:三個(gè)孩子的母親,把悲痛活成鎧甲

老馬拉車莫少裝
2026-03-09 13:23:02
大風(fēng)+降溫+降雨!冷空氣已到廣西,局地最低氣溫跌至個(gè)位數(shù)!陰冷持續(xù)多久?

大風(fēng)+降溫+降雨!冷空氣已到廣西,局地最低氣溫跌至個(gè)位數(shù)!陰冷持續(xù)多久?

南國(guó)今報(bào)
2026-03-09 17:52:05
國(guó)際油價(jià)反彈,WTI原油期貨漲幅擴(kuò)大至4%

國(guó)際油價(jià)反彈,WTI原油期貨漲幅擴(kuò)大至4%

每日經(jīng)濟(jì)新聞
2026-03-10 06:25:17
41萬(wàn)ModelY新款上市,特斯拉嚇了車圈一跳!

41萬(wàn)ModelY新款上市,特斯拉嚇了車圈一跳!

財(cái)經(jīng)三分鐘pro
2026-03-09 12:52:24
足總杯8強(qiáng)抽簽:軍城大戰(zhàn)!阿森納曼城預(yù)熱四線爭(zhēng)霸

足總杯8強(qiáng)抽簽:軍城大戰(zhàn)!阿森納曼城預(yù)熱四線爭(zhēng)霸

體壇周報(bào)
2026-03-10 07:31:17
哈梅內(nèi)伊兒子接班最高領(lǐng)袖,三種可能走勢(shì),被斬首概率不高

哈梅內(nèi)伊兒子接班最高領(lǐng)袖,三種可能走勢(shì),被斬首概率不高

黔有虎
2026-03-09 10:47:30
湯鎮(zhèn)業(yè)現(xiàn)狀:住青島20年,直言比香港好太多,如今一家8口很幸福

湯鎮(zhèn)業(yè)現(xiàn)狀:住青島20年,直言比香港好太多,如今一家8口很幸福

卷史
2026-03-09 16:20:22
韓國(guó)宣布實(shí)施“石油價(jià)格上限制度”

韓國(guó)宣布實(shí)施“石油價(jià)格上限制度”

界面新聞
2026-03-09 20:49:09
伊各方誓言贏得戰(zhàn)爭(zhēng),美總統(tǒng)發(fā)出矛盾信息,哈梅內(nèi)伊次子當(dāng)選伊朗最高領(lǐng)袖

伊各方誓言贏得戰(zhàn)爭(zhēng),美總統(tǒng)發(fā)出矛盾信息,哈梅內(nèi)伊次子當(dāng)選伊朗最高領(lǐng)袖

環(huán)球網(wǎng)資訊
2026-03-10 06:43:10
新疆昌吉州呼圖壁縣發(fā)生3.8級(jí)地震,震源深度19千米

新疆昌吉州呼圖壁縣發(fā)生3.8級(jí)地震,震源深度19千米

界面新聞
2026-03-10 08:16:42
伊朗網(wǎng)紅吐槽中國(guó)網(wǎng)民,他們都太好戰(zhàn)了,根本不懂戰(zhàn)爭(zhēng)的殘酷

伊朗網(wǎng)紅吐槽中國(guó)網(wǎng)民,他們都太好戰(zhàn)了,根本不懂戰(zhàn)爭(zhēng)的殘酷

世界圈
2026-03-08 10:20:26
2026-03-10 10:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12455文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

“龍蝦”狂歡,賣“飼料”的先掙錢了

頭條要聞

業(yè)主舉報(bào)違建次日接"鄰居"電話:連我媽在哪打拳都知道

頭條要聞

業(yè)主舉報(bào)違建次日接"鄰居"電話:連我媽在哪打拳都知道

體育要聞

韓國(guó)女足羨慕的奢侈品,為何選擇中國(guó)女足

娛樂(lè)要聞

薛之謙老婆懷二胎,現(xiàn)身產(chǎn)檢心情愉快

財(cái)經(jīng)要聞

全民"養(yǎng)龍蝦"背后 第一批受害者浮出水面

汽車要聞

對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

游戲
數(shù)碼
旅游
本地
公開(kāi)課

《怪物獵人物語(yǔ)3:命運(yùn)雙龍》評(píng)測(cè)9分:融為一體

數(shù)碼要聞

三星Odyssey 3D Hub年底將支持120款游戲

旅游要聞

中國(guó)入境游活力迸發(fā)

本地新聞

食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版