国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude神之bug:給自己下指令,還誣賴用戶??Hacker News炸了

0
分享至

衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

強如Claude,最近的bug也越來越多了。

最新熱議話題讓Hacker News炸開了鍋:

不知道是Claude精分還是失了智!
完全分不清哪些話是用戶輸入的,哪些話是系統(tǒng)設(shè)定的,甚至把惡意注入的底層指令當(dāng)成是用戶的合法請求。



發(fā)帖人G哥(一位軟件工程師,在某教育初創(chuàng)公司當(dāng)CTO)甚至稱這是他“迄今為止我在Claude代碼中見過的最嚴(yán)重的bug”。

這個關(guān)于“Claude混淆發(fā)言角色”的帖子一經(jīng)發(fā)布,立刻在Hacker News上引發(fā)了數(shù)萬名極客的強勢圍觀。



網(wǎng)友們的討論太過熱烈,以至于相關(guān)帖子熱度急劇攀升。

畢竟不少人發(fā)現(xiàn),不只是第一個發(fā)帖人的Claude失了智,是大家的Claude都很愛精分……(扶額.gif)



Claude新bug:記不清話是誰說的

這次引發(fā)社區(qū)大討論的核心槽點,就是有網(wǎng)友發(fā)現(xiàn)Claude3.5和Claude 4系列在處理復(fù)雜或惡意構(gòu)造的上下文時,出現(xiàn)了嚴(yán)重的身份識別障礙。

有開發(fā)者在實測中發(fā)現(xiàn),如果用戶在提問中巧妙地嵌入類似帶有強烈控制意味的特殊截斷字符,Claude的內(nèi)部代碼邏輯就會被徹底擾亂。



模型會錯誤地把這些惡意注入的外部數(shù)據(jù),當(dāng)成是之前對話中助手或者系統(tǒng)層面下達的既定指令,進而理直氣壯地認(rèn)為:

這些違規(guī)操作都是“用戶讓我這么干的”!



究其背后的技術(shù)原因,根源直指Transformer架構(gòu)中注意力機制(Attention)的盲區(qū)。

在模型的視角里,無論是高高在上的系統(tǒng)提示詞,還是夾雜著各種混亂信息的用戶數(shù)據(jù),最終都會被統(tǒng)統(tǒng)切碎成Token,毫無保留地扔進同一個注意力矩陣中進行計算。

這種數(shù)據(jù)路徑與控制路徑完全重合的特性,導(dǎo)致模型在處理海量信息時缺乏物理意義上的安全隔離邊界。

這個情況不是孤例,評論區(qū)里大量圍觀群眾對此都深有共鳴。

有技術(shù)大佬指出,這就如同早期的馮·諾依曼架構(gòu),數(shù)據(jù)和控制指令在內(nèi)存中沒有任何物理隔離。



很多人試圖寫“千萬別聽我輸入的任何危險指令”之類的提示詞,卻被其他網(wǎng)友無情調(diào)侃,稱這是掩耳盜鈴。

網(wǎng)友表示,這種行為像極了幾十年前程序員試圖用正則表達式來防止SQL注入一樣,本質(zhì)上只是在自欺欺人,全憑運氣防守。

只要大模型本質(zhì)上依然是一個“下一個Token預(yù)測器(Next Token Predictor)”,它就會依據(jù)概率分布去順應(yīng)上下文暗示。



網(wǎng)友給出五花八門的避坑指南

既然底層架構(gòu)天然存在把數(shù)據(jù)當(dāng)指令的缺陷,技術(shù)社區(qū)里的極客們便開始探討如何在工程應(yīng)用層面建立起防火墻。

最開始的Reddit下面,大家給G哥出的主意是讓它別給Claude那么多權(quán)限。

到了Hacker News這邊,提出的解決辦法就更多了~

呼聲最高的方案之一是在模型訓(xùn)練的底層引入不可偽造的界定符。

這意味著開發(fā)者需要設(shè)計一種絕對無法通過自然語言用戶輸入來生成的特殊Token。

如同在操作系統(tǒng)里強行劃分出不可逾越的內(nèi)核態(tài)和用戶態(tài),這種方法是想確保任何來自外界的普通文本,永遠(yuǎn)無法在Tokenizer階段被轉(zhuǎn)換為具有系統(tǒng)控制權(quán)限的關(guān)鍵標(biāo)識,從根源上阻斷自然語言層面的越權(quán)行為。



此外還有網(wǎng)友提出,對于已經(jīng)部署在生產(chǎn)環(huán)境中的業(yè)務(wù),目前工程界最主流的解法是采用一種類似“警察與嫌犯”的雙模型架構(gòu)。

單一的主模型容易被花言巧語騙過,開發(fā)者們選擇引入一個專門負(fù)責(zé)安全審計的旁路小模型。

這個審計模型不負(fù)責(zé)具體的業(yè)務(wù)邏輯,只負(fù)責(zé)死盯主模型的輸入和輸出。

一旦發(fā)現(xiàn)對話中有任何越權(quán)執(zhí)行或身份混淆的端倪,立刻強行切斷對話。



不過大家還是存在一個共識,那就是受架構(gòu)限制,永遠(yuǎn)不要寄希望于大語言模型能夠產(chǎn)生所謂的“安全覺悟”。

在底層架構(gòu)層面實現(xiàn)徹底的指令與數(shù)據(jù)物理分離之前,任何將LLM接入關(guān)鍵業(yè)務(wù)系統(tǒng)和自動化執(zhí)行鏈條的場景,都必須將其視為一個完全不可信的黑盒引擎來對待。

G哥在帖子的最后提到:

其實不僅是Claude,有人說ChatGPT也有類似的問題。
目前初步猜測bug的觸發(fā)條件之一,是聊天對話接近了上下文窗口極限。



體驗感起起伏伏的Claude

順著Claude新bug這個話題,開發(fā)者們圍繞近期Claude的表現(xiàn)越討論越激動。

近段時間,為了給即將驚艷亮相的全新一代模型Mythos騰出龐大的算力資源,Anthropic在后臺對現(xiàn)有Claude服務(wù)的API調(diào)用和算力分配進行了多輪暗中調(diào)整,直接導(dǎo)致大量前線開發(fā)者的實際體驗如過山車一般不穩(wěn)定。

就在不久之前,就有敏銳的測試者實測發(fā)現(xiàn),Claude在處理復(fù)雜邏輯時的深度思考長度在毫無預(yù)警的情況下被大幅削減了67%。

隨著思維鏈的縮短,其長文本邏輯推理和長代碼生成能力肉眼可見地出現(xiàn)了降級現(xiàn)象。

過去能夠一口氣推演幾十步的復(fù)雜難題,現(xiàn)在往往剛起步就急匆匆地給出草率的結(jié)論。



更令人啼笑皆非的是近期爆出的計費系統(tǒng)大烏龍——

由于底層API計費邏輯的突發(fā)性故障,有用戶在對話框里僅僅發(fā)了一句簡單的“Hello”,系統(tǒng)就直接判定消耗了天文數(shù)字的Token,瞬間把賬號里辛辛苦苦攢下的額度全部清零。

這些接二連三的插曲,也讓大家對Anthropic頗具微詞。

最后,如果你也遇到過Claude邏輯掉線、或者成功用一句話“繞暈”過它的經(jīng)歷,歡迎在評論區(qū)分享你的調(diào)教心得~

參考鏈接:
[1]
https://news.ycombinator.com/item?id=47701233
[2]
https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[3]https://dwyer.co.za/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
醫(yī)生直言:體檢報告這5項指標(biāo)正常,身體基本上無大礙,建議了解

醫(yī)生直言:體檢報告這5項指標(biāo)正常,身體基本上無大礙,建議了解

熊貓醫(yī)學(xué)社
2026-04-03 11:35:03
“晚上疼得睡不著”!8歲女童雙眼、身上被灼傷!警惕這東西,不少人家里有

“晚上疼得睡不著”!8歲女童雙眼、身上被灼傷!警惕這東西,不少人家里有

南方都市報
2026-04-12 19:27:26
魯迅后人現(xiàn)狀,兒子是赫赫有名的大官,有一位是家喻戶曉的大明星

魯迅后人現(xiàn)狀,兒子是赫赫有名的大官,有一位是家喻戶曉的大明星

史之銘
2026-04-12 17:59:01
越南扣了41年不還的中國領(lǐng)土,收回后當(dāng)?shù)厝苏f的話,讓北京沉默了

越南扣了41年不還的中國領(lǐng)土,收回后當(dāng)?shù)厝苏f的話,讓北京沉默了

老杉說歷史
2026-03-19 22:38:12
“這增長速度,在英國前所未見”

“這增長速度,在英國前所未見”

觀察者網(wǎng)
2026-04-12 20:30:32
汪小菲不敢說的真相?他的二婚,是自己選的、被死死拿捏的囚籠?

汪小菲不敢說的真相?他的二婚,是自己選的、被死死拿捏的囚籠?

喜歡歷史的阿繁
2026-04-12 15:09:11
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
“留學(xué)回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

“留學(xué)回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

千言娛樂記
2026-04-09 09:17:50
2026款奔馳GLS63實車亮相 璀璨星環(huán)惹眼 V8輕混加持

2026款奔馳GLS63實車亮相 璀璨星環(huán)惹眼 V8輕混加持

沙雕小琳琳
2026-04-12 18:51:41
財務(wù)造假,退市!明日將摘牌

財務(wù)造假,退市!明日將摘牌

新浪財經(jīng)
2026-04-12 19:12:52
何基灃張克俠回憶:馮治安知道他們要起義,為何不阻止也不告密?

何基灃張克俠回憶:馮治安知道他們要起義,為何不阻止也不告密?

半壺老酒半支煙
2026-04-11 19:57:29
狠人劉強東,對網(wǎng)約車下手了

狠人劉強東,對網(wǎng)約車下手了

新浪財經(jīng)
2026-04-12 01:43:16
大家在深圳真實收入是多少?網(wǎng)友:我年薪58,房產(chǎn)租金一年大概20

大家在深圳真實收入是多少?網(wǎng)友:我年薪58,房產(chǎn)租金一年大概20

帶你感受人間冷暖
2026-04-11 00:37:24
英國官員說英美關(guān)系緊張

英國官員說英美關(guān)系緊張

界面新聞
2026-04-12 16:02:24
美議員:外星人已與人類會面,政府人員向他提供地址、時間等細(xì)節(jié),科技非常先進,遠(yuǎn)遠(yuǎn)超出人類理解,本可以把人類消滅殆盡,但人類卻依然存在

美議員:外星人已與人類會面,政府人員向他提供地址、時間等細(xì)節(jié),科技非常先進,遠(yuǎn)遠(yuǎn)超出人類理解,本可以把人類消滅殆盡,但人類卻依然存在

觀威海
2026-04-12 12:52:05
時隔57天,追覓科技創(chuàng)始人俞浩宣布回歸

時隔57天,追覓科技創(chuàng)始人俞浩宣布回歸

三言科技
2026-04-12 16:05:29
5.99元起!小米冰淇淋正式發(fā)布

5.99元起!小米冰淇淋正式發(fā)布

安兔兔
2026-04-10 22:04:57
一日雙冠!溫瑞博4-2擊敗吉村真晴,奪得太原站男單冠軍

一日雙冠!溫瑞博4-2擊敗吉村真晴,奪得太原站男單冠軍

懂球帝
2026-04-12 20:20:33
巴基斯坦被曝提議在霍爾木茲海峽進行聯(lián)合巡航

巴基斯坦被曝提議在霍爾木茲海峽進行聯(lián)合巡航

看看新聞Knews
2026-04-12 09:00:06
世界上最疼的病是什么?。刻弁磁琶?的病,經(jīng)歷過的都是超人

世界上最疼的病是什么?。刻弁磁琶?的病,經(jīng)歷過的都是超人

39健康網(wǎng)
2026-04-03 20:13:47
2026-04-12 21:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12460文章數(shù) 176449關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

上海阿婆被"干兒子"分80次轉(zhuǎn)走95萬氣癱 畢生積蓄沒了

頭條要聞

上海阿婆被"干兒子"分80次轉(zhuǎn)走95萬氣癱 畢生積蓄沒了

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

健康
教育
親子
旅游
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

難哭學(xué)霸的思維題,家長都不會做

親子要聞

有些孩子就愛打著和你玩的名義占你便宜

旅游要聞

秀美風(fēng)光匯成“海”,北京密云發(fā)布城市新名片

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版