国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

頻繁降智的AI產(chǎn)品們,就是新時(shí)代最離譜的盲盒

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

最近,打開(kāi) X 或者任何一個(gè)開(kāi)發(fā)者社區(qū),你都會(huì)看到類(lèi)似的聲音:“Opus 已經(jīng)被徹底變成了植物人?!薄ⅰ巴瑯拥?prompt,兩周前還完美,現(xiàn)在輸出直接砍半。”、“最諷刺的是按時(shí)段分配智商。下午五點(diǎn)是重災(zāi)區(qū),深夜反而好用得多。”


用戶(hù)們?cè)谕瑫r(shí)抱怨同一件事,還有人制作了各種meme來(lái)形容這種體驗(yàn)。

吐槽之外,一個(gè)更深的焦慮正在蔓延。當(dāng)你覺(jué)得 AI 變差了,你甚至很難判斷,到底是模型本身變了,還是你看不見(jiàn)的某一層變了,還是你自己的使用方式變了。

1

“降智“從體感變成了事件

Claude是這輪風(fēng)暴的中心。

4月初,AMD AI部門(mén)高級(jí)總監(jiān)Stella Laurenzo在GitHub上提交了一份基于近7000個(gè)Claude Code session的量化分析。結(jié)論是模型在編輯文件前的閱讀次數(shù)從6.6次降到了2.0次,三分之一的代碼修改是“盲改”。


Laurenzo隨后表示,AMD團(tuán)隊(duì)已經(jīng)切換到了另一家供應(yīng)商,因?yàn)閷?duì)方“工作質(zhì)量更好”,具體是哪家因NDA無(wú)法透露。Anthropic方面則回應(yīng)稱(chēng),Opus 4.6在2月切換到了adaptive thinking,3月又將默認(rèn)effort降到了medium,但否認(rèn)模型本身被降級(jí)。而根據(jù)Claude Code的產(chǎn)品更新日志,4月7日默認(rèn)effort已被調(diào)回high。

AMD的分析引爆了社區(qū)情緒,但類(lèi)似的觀(guān)察早已遍地都是。

有交易員據(jù)稱(chēng)用同一套1200行交易策略文檔做了對(duì)比測(cè)試?!敖抵恰鼻暗腛pus能完整執(zhí)行所有規(guī)則,覆蓋完整的場(chǎng)景分支和決策樹(shù)。“降智”后,同樣的數(shù)據(jù)和指令,Opus跳過(guò)了兩個(gè)完整的策略清單,場(chǎng)景分支幾乎消失,輸出縮了將近一半。更意外的是,他用更便宜的Sonnet跑同一套測(cè)試,規(guī)則覆蓋率反而到了85%,高于Opus的70%。


他的判斷是“Opus沒(méi)有丟失知識(shí),它丟失的是深度。就像給一個(gè)國(guó)際象棋大師每步只留30秒,他不會(huì)忘記怎么下棋,但會(huì)放棄計(jì)算更深的線(xiàn)路?!?/p>

與此同時(shí),F(xiàn)ortune報(bào)道引述OpenAI內(nèi)部備忘錄的說(shuō)法,稱(chēng)Anthropic在算力規(guī)劃上犯了“戰(zhàn)略失誤”。Anthropic最近也發(fā)布了下一代模型Opus 4.7。社區(qū)里很多人把這兩條消息和“降智”聯(lián)系在一起,認(rèn)為這是在為新模型發(fā)布騰出算力和制造對(duì)比。


1

“降智”可能同時(shí)發(fā)生在好幾層

Claude是這一輪最顯眼的主角,但如果拉遠(yuǎn)看,“AI變笨”的原因遠(yuǎn)不止一種。至少有四層問(wèn)題在同時(shí)發(fā)生。

模型沒(méi)換,但“思考預(yù)算”變了。 這是Claude爭(zhēng)議的核心。同一個(gè)模型名,背后可能對(duì)應(yīng)完全不同的effort檔位、adaptive thinking策略和thinking展示規(guī)則。Anthropic文檔寫(xiě)明,Claude 4系列現(xiàn)在默認(rèn)返回summarized thinking,某些情況下甚至直接omitted,但計(jì)費(fèi)仍然按完整thinking tokens走。你看到的推理過(guò)程,和模型實(shí)際消耗的推理資源,已經(jīng)不是同一個(gè)東西。跑分測(cè)的是模型在特定配置下的能力上限,用戶(hù)每天碰到的,是一個(gè)會(huì)動(dòng)態(tài)調(diào)整預(yù)算和服務(wù)路徑的產(chǎn)品。


你看到的是產(chǎn)品名,平臺(tái)控制的是真實(shí)路徑。 OpenAI官方幫助文檔明確寫(xiě)著:GPT-5.4 Thinking在觸發(fā)rate limit后,會(huì)自動(dòng)fallback到GPT-5.4 mini,而mini不會(huì)出現(xiàn)在模型選擇器里。GPT-5.1退役后,使用舊模型的歷史對(duì)話(huà)會(huì)自動(dòng)續(xù)接到當(dāng)前版本。Anthropic從3月底開(kāi)始在高峰時(shí)段調(diào)整session限制,部分重度Pro用戶(hù)因此比以前更容易觸發(fā)額度上限。今天的AI不是沒(méi)有版本號(hào),而是版本號(hào)只對(duì)平臺(tái)可見(jiàn)。

以上說(shuō)的還只是原廠(chǎng)服務(wù)本身的變化。更麻煩的情況是,你連自己是不是在用原廠(chǎng)服務(wù)都未必能確認(rèn)。

這一層對(duì)中國(guó)用戶(hù)尤其切身。因?yàn)榈乩硐拗坪椭Ц侗趬?,大量開(kāi)發(fā)者和研究者通過(guò)API中轉(zhuǎn)站使用海外模型。今年3月,德國(guó)CISPA亥姆霍茲信息安全中心發(fā)布了一項(xiàng)審計(jì)研究,發(fā)現(xiàn)在其調(diào)查的17家中轉(zhuǎn)站中,近半數(shù)存在模型替換行為,性能偏差最高達(dá)47%。你付的是Claude的錢(qián),跑的可能是參數(shù)量小得多的開(kāi)源模型。當(dāng)你覺(jué)得AI變差了,連“是不是同一個(gè)模型在回答你”都未必成立。

有些“降智”,可能是別的問(wèn)題被算到了模型頭上。 長(zhǎng)上下文導(dǎo)致的質(zhì)量退化、agent框架和工具鏈的變化、用戶(hù)自身workflow的調(diào)整,都可能制造“模型變笨了”的體感。有開(kāi)發(fā)者直接指出:“覺(jué)得Opus降智的人,大部分是把Agent框架的問(wèn)題歸咎到模型上了。Anthropic在做動(dòng)態(tài)算力分配,簡(jiǎn)單問(wèn)題少轉(zhuǎn)幾圈,難題多轉(zhuǎn)幾圈。不是模型變差了,是你為每次對(duì)話(huà)付的算力變少了?!边@個(gè)判斷未必完全公允,但它指向了一個(gè)真實(shí)的困難,用戶(hù)的體感未必錯(cuò),但體感未必能直接定位到問(wèn)題根源。

四層原因同時(shí)存在,互相疊加,用戶(hù)面對(duì)的不是一個(gè)可以定位的bug。

1

普通用戶(hù)幾乎無(wú)法歸因

AMD總監(jiān)能發(fā)現(xiàn)問(wèn)題,是因?yàn)樗幸粋€(gè)工程團(tuán)隊(duì)和近7000份session log。普通用戶(hù)只有一個(gè)聊天框。

更麻煩的是,“看看模型在想什么”這條路也在收窄。Anthropic現(xiàn)在默認(rèn)對(duì)thinking內(nèi)容做摘要甚至省略,用戶(hù)界面上展示的推理痕跡已經(jīng)不等同于模型實(shí)際的推理過(guò)程。你沒(méi)有辦法通過(guò)觀(guān)察輸出來(lái)反推模型到底“想”了多久、多深。


部署中的模型表現(xiàn)會(huì)隨時(shí)間變化,而且變化軌跡不一樣

今年2月發(fā)表在PLOS One上的一項(xiàng)縱向研究,用固定prompt連續(xù)10周追蹤了多個(gè)主流模型,得出了一個(gè)很克制也很扎心的結(jié)論,部署中的大語(yǔ)言模型確實(shí)會(huì)發(fā)生可測(cè)量的行為漂移,但因?yàn)閺S(chǎng)商不公開(kāi)更新日志和訓(xùn)練細(xì)節(jié),對(duì)觀(guān)察到的退化做任何歸因都純屬推測(cè)。

這才是“AI降智”這個(gè)話(huà)題真正讓人難受的地方。你付了錢(qián),你有體感,但你拿不出證據(jù)。平臺(tái)知道真實(shí)模型版本、fallback路徑、reasoning檔位、thinking是否被壓縮,你什么都看不見(jiàn)。

1

被逼急的用戶(hù),各顯神通

面對(duì)歸因困難,用戶(hù)開(kāi)始自救。社區(qū)里流傳的方法五花八門(mén),有些像偏方,比如用“市長(zhǎng)的女兒應(yīng)該叫市長(zhǎng)什么”、“我想洗車(chē)。洗車(chē)店就在50米外。我該開(kāi)車(chē)去還是走路去?”這類(lèi)問(wèn)題去測(cè)試。



另外有些確實(shí)有一定道理。最樸素的對(duì)照實(shí)驗(yàn)。 新對(duì)話(huà)和長(zhǎng)對(duì)話(huà)做一次對(duì)照,如果新對(duì)話(huà)明顯正常,先懷疑上下文壓縮機(jī)制。官方入口和第三方入口做一次對(duì)照,先排除中間商這一層。社區(qū)已經(jīng)有針對(duì)性的指紋驗(yàn)證工具,可以檢測(cè)返回的模型是否與聲稱(chēng)的一致。

環(huán)境變量的“手動(dòng)搶救”。 在程序員社區(qū)里,一組Claude Code配置正在被廣泛傳播,關(guān)閉adaptive thinking、把effort設(shè)為max、調(diào)高自動(dòng)壓縮閾值。有開(kāi)發(fā)者說(shuō),調(diào)完之后“相對(duì)感覺(jué)不降智”。這些配置本質(zhì)上是用戶(hù)在手動(dòng)接管本該由平臺(tái)自動(dòng)管理的推理預(yù)算分配。


甚至有人發(fā)現(xiàn),只有反復(fù)大喊“THINK HARD”才能拿到正確答案。 有用戶(hù)做了一組測(cè)試,同一道題用不同強(qiáng)度的思考指令去prompt,只有連續(xù)重復(fù)“THINK HARD”多次的版本才通過(guò)了。這已經(jīng)不是提示詞工程,更像是在和自己付費(fèi)的產(chǎn)品討價(jià)還價(jià)。


觀(guān)察它是“不會(huì)了”還是“沒(méi)想夠”。 這個(gè)區(qū)分比具體的trick更重要。如果同一個(gè)任務(wù)在調(diào)高配置后恢復(fù)正常,那問(wèn)題大概率不在模型本身,而在默認(rèn)配置。如果怎么調(diào)都不行,那可能真的是模型能力或中間層出了問(wèn)題。

這些方法都很粗糙。但它們的存在本身就說(shuō)明了用戶(hù)正在用本不該由他們承擔(dān)的成本,去做本該由平臺(tái)提供的透明度。

1

AI產(chǎn)品至少該有一張配料表

訂閱制AI正在出現(xiàn)一種類(lèi)似縮水式通脹(shrinkflation)的體驗(yàn),你付的錢(qián)沒(méi)變,產(chǎn)品名沒(méi)變,但實(shí)際拿到的推理深度、穩(wěn)定性和完成效率可能在悄悄變化。Anthropic剛剛和Broadcom、Google簽下了3.5吉瓦的長(zhǎng)期算力合同,收入增長(zhǎng)極快,但多方信息顯示其算力供給仍然緊張,訓(xùn)練和推理的支出壓力很大。

每次新模型發(fā)布前,舊模型都會(huì)被故意弄傻,這個(gè)在社區(qū)廣泛流傳的敘事,在Opus 4.7即將發(fā)布的當(dāng)下尤其有市場(chǎng)。它未必完全準(zhǔn)確,但廠(chǎng)商至今也沒(méi)有給出足夠的解釋來(lái)打消這種懷疑。


一些行業(yè)分析師指出,所有前沿模型公司其實(shí)都面對(duì)相似的算力和成本壓力,當(dāng)使用規(guī)模繼續(xù)擴(kuò)大,節(jié)流、分層、權(quán)衡幾乎是結(jié)構(gòu)性不可避免的?!八懔Σ粔颉笨梢岳斫狻5八懔Σ粔蛩造o默降配,同時(shí)不告訴任何人”就很難讓人接受了。平臺(tái)享受了服務(wù)化AI的靈活性,卻沒(méi)有承擔(dān)相應(yīng)的透明義務(wù)。

食品有配料表,軟件有版本號(hào)。AI產(chǎn)品至少也該告訴用戶(hù)你現(xiàn)在到底在用什么。當(dāng)前真實(shí)模型版本、是否發(fā)生了fallback、推理檔位、thinking是否被壓縮。這些不是技術(shù)細(xì)節(jié),而是最基本的知情權(quán)。


有用戶(hù)在X上寫(xiě)道,“When you pay for a model, you should get that model.” 有中國(guó)開(kāi)發(fā)者說(shuō)得更直白,“這個(gè)行業(yè)模式到最后沒(méi)有人敢訂閱年費(fèi)會(huì)員。”


一個(gè)用戶(hù)為了確認(rèn)自己買(mǎi)到的東西是不是真貨,要去學(xué)指紋驗(yàn)證、背環(huán)境變量、在prompt里連喊三遍“給我認(rèn)真想”。這個(gè)產(chǎn)品關(guān)系已經(jīng)出了問(wèn)題。如果行業(yè)不能主動(dòng)補(bǔ)上這張配料表,用戶(hù)要求的就不會(huì)只是更強(qiáng)的模型,而是監(jiān)管和消費(fèi)者保護(hù)。


點(diǎn)個(gè)愛(ài)心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
貝克漢姆迎51歲生日,貝嫂大方曬老公腹肌泳裝,長(zhǎng)子沉默令人心寒

貝克漢姆迎51歲生日,貝嫂大方曬老公腹肌泳裝,長(zhǎng)子沉默令人心寒

譯言
2026-05-03 08:10:06
世乒賽爆冷+丑聞日:張本智和、松島翻車(chē),中國(guó)臺(tái)北教練發(fā)文炮轟

世乒賽爆冷+丑聞日:張本智和、松島翻車(chē),中國(guó)臺(tái)北教練發(fā)文炮轟

大秦壁虎白話(huà)體育
2026-05-02 23:54:47
別再跟風(fēng)了!五一最堵五大景點(diǎn),第5名擠到勸退,第1名直接崩潰

別再跟風(fēng)了!五一最堵五大景點(diǎn),第5名擠到勸退,第1名直接崩潰

吃青菜長(zhǎng)高
2026-05-03 08:12:17
張雪這張嘴,正在給品牌埋雷

張雪這張嘴,正在給品牌埋雷

全棧遛狗員
2026-04-30 17:12:13
我懷疑,男人更喜歡左邊這一款

我懷疑,男人更喜歡左邊這一款

娛你同歡
2026-05-02 21:44:54
演員陳學(xué)冬:2年4次手術(shù),11部作品被下架,如今生活無(wú)法自理

演員陳學(xué)冬:2年4次手術(shù),11部作品被下架,如今生活無(wú)法自理

悅君兮君不知
2026-05-02 11:55:33
退休后才懂:為啥多數(shù)老人不旅游_真正滿(mǎn)世界跑的,竟是這兩類(lèi)人

退休后才懂:為啥多數(shù)老人不旅游_真正滿(mǎn)世界跑的,竟是這兩類(lèi)人

心理觀(guān)察局
2026-05-03 09:12:14
繼亨德利后,世錦賽六冠王戴維斯也痛批艾倫:這讓斯諾克蒙羞

繼亨德利后,世錦賽六冠王戴維斯也痛批艾倫:這讓斯諾克蒙羞

觀(guān)察鑒娛
2026-05-02 15:26:23
人不會(huì)無(wú)緣無(wú)故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開(kāi)這5點(diǎn)

人不會(huì)無(wú)緣無(wú)故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開(kāi)這5點(diǎn)

岐黃傳人孫大夫
2026-05-01 14:35:03
歷史第8次黑七!76人掀翻綠軍創(chuàng)造歷史 前7支球隊(duì)走了多遠(yuǎn)?

歷史第8次黑七!76人掀翻綠軍創(chuàng)造歷史 前7支球隊(duì)走了多遠(yuǎn)?

羅說(shuō)NBA
2026-05-03 10:43:20
失蹤的17歲女生遺體已經(jīng)找到,那天她穿上了最好看的裙子和假發(fā)

失蹤的17歲女生遺體已經(jīng)找到,那天她穿上了最好看的裙子和假發(fā)

映射生活的身影
2026-05-02 20:13:26
委內(nèi)瑞拉代總統(tǒng)干了什么,換下馬杜羅后整個(gè)國(guó)家蒸蒸日上?

委內(nèi)瑞拉代總統(tǒng)干了什么,換下馬杜羅后整個(gè)國(guó)家蒸蒸日上?

錯(cuò)過(guò)美好
2026-05-02 14:40:24
太離譜!華西醫(yī)院五一放假引爭(zhēng)議,被罵想休息別當(dāng)醫(yī)生,網(wǎng)友吵翻

太離譜!華西醫(yī)院五一放假引爭(zhēng)議,被罵想休息別當(dāng)醫(yī)生,網(wǎng)友吵翻

譚談社會(huì)
2026-05-02 14:27:21
皇馬悔青腸子!死保姆巴佩的同時(shí),當(dāng)初錯(cuò)過(guò)的神鋒正在持續(xù)封神

皇馬悔青腸子!死保姆巴佩的同時(shí),當(dāng)初錯(cuò)過(guò)的神鋒正在持續(xù)封神

奶蓋熊本熊
2026-05-03 02:07:54
又行了?阿森納完勝6分領(lǐng)跑!記者:槍手調(diào)查后決定簽阿爾瓦雷斯

又行了?阿森納完勝6分領(lǐng)跑!記者:槍手調(diào)查后決定簽阿爾瓦雷斯

足球偵探
2026-05-03 08:30:16
哈佛研究生大罷工:你們有五百億美元,發(fā)薪水給你的學(xué)術(shù)勞動(dòng)者

哈佛研究生大罷工:你們有五百億美元,發(fā)薪水給你的學(xué)術(shù)勞動(dòng)者

知識(shí)分子
2026-05-02 22:16:41
南昌一樂(lè)園過(guò)山車(chē)空中發(fā)生故障,多名游客被困空中從軌道走下來(lái),文旅局:已督促景區(qū)整改;樂(lè)園:有游客的手被倒刺扎傷,已賠償

南昌一樂(lè)園過(guò)山車(chē)空中發(fā)生故障,多名游客被困空中從軌道走下來(lái),文旅局:已督促景區(qū)整改;樂(lè)園:有游客的手被倒刺扎傷,已賠償

極目新聞
2026-05-03 10:40:39
搶七轟34+12+6率隊(duì)黑七,大帝成NBA歷史首人!三巨頭1-3絕境翻盤(pán)

搶七轟34+12+6率隊(duì)黑七,大帝成NBA歷史首人!三巨頭1-3絕境翻盤(pán)

鍋?zhàn)踊@球
2026-05-03 11:33:14
退役3年 38歲前皇馬巨星形象全毀:發(fā)福大肚腩 如同60歲

退役3年 38歲前皇馬巨星形象全毀:發(fā)福大肚腩 如同60歲

葉青足球世界
2026-05-02 15:22:52
足壇瘋狂一夜:阿森納橫掃富勒姆,大巴黎爆冷丟分,巴薩2-1險(xiǎn)勝

足壇瘋狂一夜:阿森納橫掃富勒姆,大巴黎爆冷丟分,巴薩2-1險(xiǎn)勝

足球狗說(shuō)
2026-05-03 05:19:37
2026-05-03 12:52:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
3054文章數(shù) 10493關(guān)注度
往期回顧 全部

科技要聞

庫(kù)克罕見(jiàn)"拒答"!蘋(píng)果正被AI供應(yīng)鏈卡脖子

頭條要聞

上??萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世 年僅39歲

頭條要聞

上??萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世 年僅39歲

體育要聞

裁判準(zhǔn)備下班,結(jié)果吳宜澤進(jìn)了決賽

娛樂(lè)要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財(cái)經(jīng)要聞

后巴菲特時(shí)代,首場(chǎng)股東會(huì)透露了啥

汽車(chē)要聞

同比大漲190% 方程豹4月銷(xiāo)量29138臺(tái)

態(tài)度原創(chuàng)

房產(chǎn)
親子
本地
公開(kāi)課
軍事航空

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉(cāng)凱旋新世界

親子要聞

勞動(dòng)小能手節(jié)日快樂(lè)

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗公布伊方最新談判方案

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版