国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Code可靠性遭質(zhì)疑,開(kāi)發(fā)者反映復(fù)雜工程任務(wù)推理能力下滑

0
分享至


當(dāng)一款編程助手開(kāi)始顯現(xiàn)出敷衍了事的跡象時(shí),開(kāi)發(fā)者很快便會(huì)察覺(jué)。AMD AI集團(tuán)的一位高級(jí)總監(jiān)公開(kāi)批評(píng)Anthropic旗下的Claude Code,稱其在處理復(fù)雜問(wèn)題時(shí)存在"跳過(guò)難點(diǎn)"的傾向——給出的答案表面上說(shuō)得過(guò)去,實(shí)則經(jīng)不起推敲。

這一問(wèn)題的核心并非工具徹底失效,而是其嚴(yán)謹(jǐn)性的逐步退化。復(fù)雜問(wèn)題所引發(fā)的回復(fù)往往更快、更輕描淡寫(xiě),急于"交差了事"。這迫使這位高級(jí)主管及其團(tuán)隊(duì)不得不停止將該工具用于調(diào)試硬件和內(nèi)核級(jí)問(wèn)題等復(fù)雜工程任務(wù)。

上述問(wèn)題由Stella Laurenzo在一份GitHub Issues提單中詳細(xì)記錄。她在其中指出,該工具在今年2月的一次更新之后,可能在復(fù)雜任務(wù)推理能力方面出現(xiàn)了質(zhì)量回退問(wèn)題。

這份提單源于她對(duì)6,852個(gè)會(huì)話文件中17,871個(gè)思考?jí)K及234,760次工具調(diào)用所做的定量分析,時(shí)間跨度為今年1月至3月,涵蓋更新前后兩個(gè)時(shí)段,以便進(jìn)行對(duì)比。

Laurenzo在分析中指出,由于推理能力下降,模型在修改代碼之前逐漸不再完整閱讀代碼。

她在提單中寫(xiě)道:"當(dāng)思考流于表面時(shí),模型會(huì)默認(rèn)采取成本最低的操作:不讀代碼直接修改、未完成任務(wù)便停下、對(duì)失敗推卸責(zé)任、選擇最簡(jiǎn)單而非最正確的修復(fù)方案。"

Laurenzo補(bǔ)充道,推理能力的退化對(duì)她的團(tuán)隊(duì)而言是一大障礙,因?yàn)檫@直接影響到超過(guò)50個(gè)并發(fā)智能體會(huì)話——這些會(huì)話涉及C語(yǔ)言和GPU驅(qū)動(dòng)程序的系統(tǒng)編程,以及歷時(shí)30分鐘以上、包含復(fù)雜多文件改動(dòng)的自主運(yùn)行任務(wù)。

提出類似問(wèn)題的并非只有Laurenzo一人。多名用戶在該提單下留言,表示遭遇了與她及其團(tuán)隊(duì)相似的情況。另有用戶指出,多個(gè)Reddit子版塊也出現(xiàn)了類似的性能退化討論,該評(píng)論在GitHub上同樣獲得了眾多開(kāi)發(fā)者的點(diǎn)贊支持。

這一日益高漲的投訴聲浪引起了分析師的關(guān)注,他們將問(wèn)題歸因于Anthropic尚處發(fā)展階段的算力瓶頸。

Avasant研究總監(jiān)Chandrika Dutt表示:"這本質(zhì)上是算力和成本問(wèn)題。復(fù)雜的工程任務(wù)需要消耗大量計(jì)算資源,包括中間推理步驟。隨著使用量的攀升,系統(tǒng)已無(wú)法為每一個(gè)請(qǐng)求維持如此高強(qiáng)度的算力投入。"

她進(jìn)一步解釋:"因此,系統(tǒng)開(kāi)始限制任務(wù)的運(yùn)行時(shí)長(zhǎng)、推理深度以及可同時(shí)處理的任務(wù)數(shù)量。"

這并非Anthropic首次面臨Claude Code的算力瓶頸問(wèn)題。上個(gè)月,Anthropic已開(kāi)始限制旗下Claude各訂閱套餐的使用量,以應(yīng)對(duì)持續(xù)增長(zhǎng)的需求對(duì)算力的壓榨。當(dāng)時(shí)的邏輯是:通過(guò)加快用戶在時(shí)間窗口內(nèi)觸達(dá)會(huì)話上限的速度,Anthropic能夠有效重新分配訪問(wèn)資源,防止系統(tǒng)過(guò)載,同時(shí)維持整體的周度使用配額。

與推理能力回退問(wèn)題如出一轍,開(kāi)發(fā)者對(duì)Claude Code施加的速率限制措施同樣反應(yīng)強(qiáng)烈,認(rèn)為這些限制嚴(yán)重削弱了工具的實(shí)用價(jià)值。

分析師指出,速率限制與推理能力回退這兩大問(wèn)題疊加,可能會(huì)動(dòng)搖開(kāi)發(fā)者對(duì)該平臺(tái)的信心。這不會(huì)導(dǎo)致用戶大規(guī)模出走,但會(huì)悄然消耗其勢(shì)頭,并促使企業(yè)用戶尋求其他替代方案以分散風(fēng)險(xiǎn)。

Greyhound Research首席分析師Sanchit Vir Gogia表示:"這不是那種用戶一夜之間轉(zhuǎn)身離去的時(shí)刻,它比那種情況更隱蔽,也更危險(xiǎn)。真正發(fā)生的是一種悄然轉(zhuǎn)變——開(kāi)發(fā)者在面臨高風(fēng)險(xiǎn)任務(wù)時(shí),對(duì)系統(tǒng)的信任度正在降低。抱怨最為強(qiáng)烈的,恰恰是那些已開(kāi)始依賴該系統(tǒng)處理嚴(yán)肅、多步驟、長(zhǎng)會(huì)話工程工作的團(tuán)隊(duì)。"

Gogia進(jìn)一步指出:"發(fā)生變化的不僅是輸出質(zhì)量,還有系統(tǒng)在生成輸出過(guò)程中的行為方式。從審慎的逐步推理到更快速、更被動(dòng)的執(zhí)行——這種漂移清晰可見(jiàn)。這會(huì)形成一種惡性循環(huán):工程師不得不更頻繁地介入和打斷,最終親自承擔(dān)本應(yīng)由系統(tǒng)處理的思考工作。"

他認(rèn)為,上述變化將迫使團(tuán)隊(duì)將復(fù)雜或關(guān)鍵任務(wù)轉(zhuǎn)移至其他工具,僅將簡(jiǎn)單任務(wù)留給Claude處理。久而久之,該平臺(tái)的定位將從主力工具淪落為備選工具。

正如Laurenzo在GitHub提單中所透露的,她本人也正走上Gogia所預(yù)言的這條路——暫時(shí)放棄Claude Code,等待Anthropic修復(fù)問(wèn)題,轉(zhuǎn)而使用一款未透露名稱的競(jìng)品。

不過(guò),Avasant的Dutt對(duì)Laurenzo這一抉擇在長(zhǎng)遠(yuǎn)效果上并不樂(lè)觀。她指出,競(jìng)品可能同樣面臨與Anthropic相似的算力約束:"所有前沿模型都在相同的GPU和成本限制下運(yùn)作。隨著使用規(guī)模的擴(kuò)大,所有服務(wù)提供商都將不得不引入限流機(jī)制、分級(jí)訪問(wèn)模式,并在速度、成本與推理深度之間做出取舍。這在結(jié)構(gòu)上是必然趨勢(shì)。"

推理能力回退問(wèn)題尤為如此。該分析師認(rèn)為,在大規(guī)模場(chǎng)景下維持深度推理是一項(xiàng)艱巨挑戰(zhàn),并援引近期SWE-EVO 2025關(guān)于AI編程智能體的基準(zhǔn)測(cè)試加以佐證——數(shù)據(jù)顯示,在多步驟任務(wù)中,成功率急劇下滑,失敗率通常在60%至80%之間,在執(zhí)行密集型場(chǎng)景中尤為突出。

不過(guò),作為一項(xiàng)補(bǔ)救建議,Laurenzo對(duì)Anthropic能夠自我糾偏持樂(lè)觀態(tài)度,她甚至在提單中建議該公司推出高級(jí)付費(fèi)層級(jí),允許用戶為更強(qiáng)的推理算力買(mǎi)單。

Dutt和Gogia均表示,這一方向可能很快成真,因?yàn)檎麄€(gè)行業(yè)正朝著消費(fèi)模式演進(jìn)——基礎(chǔ)使用與高強(qiáng)度、推理密集型工作負(fù)載將被區(qū)別對(duì)待。

分析師們同樣支持Laurenzo向Anthropic提出的另一項(xiàng)建議——提高Token分配機(jī)制的透明度。

Gogia表示:"用戶需要了解系統(tǒng)在底層究竟做了什么。不必事無(wú)巨細(xì),但至少要足以判斷系統(tǒng)是真正推理了一個(gè)問(wèn)題,還是僅僅給出了一個(gè)快速答案。如今,用戶只能從結(jié)果中推斷,這正是為什么會(huì)有用戶去分析日志和行為模式。這本不應(yīng)該是用戶的負(fù)擔(dān)。"

目前,Anthropic尚未回應(yīng)Laurenzo的GitHub提單,也未將其分配給任何處理人。

而對(duì)于那些期待快速解決算力問(wèn)題的人來(lái)說(shuō),可能需要調(diào)低預(yù)期——至少要等到2027年。屆時(shí),由博通代工的谷歌TPU芯片將加入Anthropic的服務(wù)器集群。在更多GPU到位、或公司決定以更高定價(jià)確定使用權(quán)歸屬之前,開(kāi)發(fā)者或許只能一邊刷新討論帖,一邊眼看著Token被配給,靜待推理能力的回歸。

Q&A

Q1:Claude Code推理能力回退問(wèn)題是如何被發(fā)現(xiàn)的?

A:AMD AI集團(tuán)高級(jí)總監(jiān)Stella Laurenzo通過(guò)對(duì)6,852個(gè)會(huì)話文件中17,871個(gè)思考?jí)K及234,760次工具調(diào)用進(jìn)行定量分析,覆蓋今年1月至3月(含更新前后兩個(gè)時(shí)段),發(fā)現(xiàn)Claude Code在2月更新后出現(xiàn)推理能力下滑跡象,具體表現(xiàn)為模型在修改代碼前不再完整閱讀代碼,傾向于給出更快、更淺顯的答案,而非經(jīng)過(guò)深度推理的準(zhǔn)確解答。

Q2:為什么Claude Code會(huì)出現(xiàn)推理能力下滑?

A:分析師認(rèn)為根本原因在于算力和成本壓力。隨著用戶規(guī)模擴(kuò)大,復(fù)雜工程任務(wù)所需的大量算力(包括中間推理步驟)難以為每個(gè)請(qǐng)求持續(xù)提供。為避免系統(tǒng)過(guò)載,系統(tǒng)會(huì)限制任務(wù)運(yùn)行時(shí)長(zhǎng)、推理深度以及并發(fā)任務(wù)數(shù)量,導(dǎo)致輸出質(zhì)量出現(xiàn)退化。

Q3:開(kāi)發(fā)者面對(duì)Claude Code的限制,有哪些應(yīng)對(duì)建議?

A:分析師和用戶均提出了幾點(diǎn)建議:一是Anthropic應(yīng)推出高級(jí)付費(fèi)層級(jí),讓有需求的用戶為更強(qiáng)推理算力付費(fèi);二是提高Token分配機(jī)制的透明度,讓用戶了解系統(tǒng)在底層的推理情況;三是在Anthropic修復(fù)問(wèn)題期間,可將復(fù)雜工程任務(wù)轉(zhuǎn)移至其他工具處理,以降低對(duì)單一平臺(tái)的依賴風(fēng)險(xiǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女教師群聊“八卦”被拘,起訴公安局再被駁回

女教師群聊“八卦”被拘,起訴公安局再被駁回

中國(guó)新聞周刊
2026-04-16 09:02:37
張雪峰接班人自曝只睡三小時(shí),壓力很大,但公司穩(wěn)定!網(wǎng)友:現(xiàn)代版諸葛亮...

張雪峰接班人自曝只睡三小時(shí),壓力很大,但公司穩(wěn)定!網(wǎng)友:現(xiàn)代版諸葛亮...

品牌新
2026-04-16 20:03:27
開(kāi)拓者約談楊瀚森,引發(fā)震動(dòng)!老板勃然大怒,全員整頓!

開(kāi)拓者約談楊瀚森,引發(fā)震動(dòng)!老板勃然大怒,全員整頓!

劉哥談體育
2026-04-16 11:30:39
汪峰真是不懂珍惜,這么高級(jí)的美人不應(yīng)該拱手讓出去。

汪峰真是不懂珍惜,這么高級(jí)的美人不應(yīng)該拱手讓出去。

手工制作阿殲
2026-04-16 20:06:01
16分大勝!拒23分逆轉(zhuǎn)!CBA最新排名:黑馬力壓廣東+北京穩(wěn)居第3

16分大勝!拒23分逆轉(zhuǎn)!CBA最新排名:黑馬力壓廣東+北京穩(wěn)居第3

大秦壁虎白話體育
2026-04-16 22:44:20
兩名外籍乘客在網(wǎng)約車(chē)上對(duì)著部隊(duì)大門(mén)連續(xù)拍照,接下來(lái)又要去訓(xùn)練場(chǎng)方向,司機(jī)覺(jué)得可疑,直接開(kāi)車(chē)把他們交給了部隊(duì)

兩名外籍乘客在網(wǎng)約車(chē)上對(duì)著部隊(duì)大門(mén)連續(xù)拍照,接下來(lái)又要去訓(xùn)練場(chǎng)方向,司機(jī)覺(jué)得可疑,直接開(kāi)車(chē)把他們交給了部隊(duì)

極目新聞
2026-04-16 08:59:25
山東某女子與閨蜜及丈夫同住十年,這三人組合可謂天作之合

山東某女子與閨蜜及丈夫同住十年,這三人組合可謂天作之合

科學(xué)發(fā)掘
2026-04-16 17:27:32
港獨(dú)、罵中國(guó)人,如今卻還想來(lái)內(nèi)地?fù)平?,這3位香港明星令人作嘔

港獨(dú)、罵中國(guó)人,如今卻還想來(lái)內(nèi)地?fù)平?,這3位香港明星令人作嘔

驕陽(yáng)之夏明
2026-04-15 16:44:42
萬(wàn)萬(wàn)沒(méi)有想到,女神居然也接小商演,看來(lái)這樣比較賺錢(qián)??!

萬(wàn)萬(wàn)沒(méi)有想到,女神居然也接小商演,看來(lái)這樣比較賺錢(qián)啊!

東方不敗然多多
2026-04-16 16:27:04
中國(guó)女籃集訓(xùn)第1天尷尬了!19人只有1人參加:宮魯鳴看后該懵了?

中國(guó)女籃集訓(xùn)第1天尷尬了!19人只有1人參加:宮魯鳴看后該懵了?

籃球快餐車(chē)
2026-04-17 02:11:49
云南白藥在國(guó)內(nèi)配方保密,卻在美國(guó)公布成分,被規(guī)定為寵物用藥

云南白藥在國(guó)內(nèi)配方保密,卻在美國(guó)公布成分,被規(guī)定為寵物用藥

深度報(bào)
2026-04-16 22:55:43
伊朗教育部:自本月21日起,全國(guó)各級(jí)學(xué)校統(tǒng)一轉(zhuǎn)為線上教學(xué),直至另行通知

伊朗教育部:自本月21日起,全國(guó)各級(jí)學(xué)校統(tǒng)一轉(zhuǎn)為線上教學(xué),直至另行通知

大象新聞
2026-04-16 17:57:03
牛肉頂多注個(gè)水豬肉頂多催個(gè)肥,唯有三文魚(yú)全程cosplay

牛肉頂多注個(gè)水豬肉頂多催個(gè)肥,唯有三文魚(yú)全程cosplay

富貴說(shuō)
2026-04-14 23:15:09
確認(rèn)了!兩人系間諜

確認(rèn)了!兩人系間諜

浙江之聲
2026-04-16 22:16:31
涉嫌嚴(yán)重違紀(jì)違法,洪小勤被查!

涉嫌嚴(yán)重違紀(jì)違法,洪小勤被查!

中國(guó)基金報(bào)
2026-04-16 21:40:34
斯諾克世錦賽抽簽解讀!趙心童運(yùn)氣爆棚,丁俊暉避免一輪游對(duì)手弱

斯諾克世錦賽抽簽解讀!趙心童運(yùn)氣爆棚,丁俊暉避免一輪游對(duì)手弱

曹說(shuō)體育
2026-04-16 19:22:51
總比分2-1,英超第16掀翻葡超第1,昂首晉級(jí)歐聯(lián)杯4強(qiáng)

總比分2-1,英超第16掀翻葡超第1,昂首晉級(jí)歐聯(lián)杯4強(qiáng)

側(cè)身凌空斬
2026-04-17 04:59:09
投訴公交提前發(fā)車(chē),竟丟了工作?松原男子稱個(gè)人信息遭泄露,單位被施壓后將其解雇

投訴公交提前發(fā)車(chē),竟丟了工作?松原男子稱個(gè)人信息遭泄露,單位被施壓后將其解雇

大風(fēng)新聞
2026-04-16 16:07:03
4年戰(zhàn)爭(zhēng),烏克蘭殺瘋了!海陸空無(wú)人武器全面進(jìn)化,打到莫斯科已成現(xiàn)實(shí)

4年戰(zhàn)爭(zhēng),烏克蘭殺瘋了!海陸空無(wú)人武器全面進(jìn)化,打到莫斯科已成現(xiàn)實(shí)

網(wǎng)易新聞出品
2026-04-16 13:47:19
匈牙利撤軍:人還沒(méi)走,茶就涼了

匈牙利撤軍:人還沒(méi)走,茶就涼了

寰宇大觀察
2026-04-16 17:20:43
2026-04-17 06:59:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動(dòng)數(shù)字化創(chuàng)新
17749文章數(shù) 49699關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰(shuí)在大模型上更高效

頭條要聞

特朗普:伊朗已同意幾乎所有要求

頭條要聞

特朗普:伊朗已同意幾乎所有要求

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂(lè)要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰(shuí)的生意?

汽車(chē)要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

旅游
家居
健康
本地
游戲

旅游要聞

社評(píng):讀懂“China Travel”持續(xù)圈粉的邏輯

家居要聞

智能舒適 簡(jiǎn)約風(fēng)尚

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

可愛(ài)又兇狠!卡牌新游《小熊牌屋》中文上線特惠開(kāi)啟

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版