国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng) AI 開(kāi)始“自言自語(yǔ)”,我們能否偷看它的草稿紙?

0
分享至

CoT 怎么“監(jiān)考”?一份技術(shù)速寫(xiě)

全球頂尖實(shí)驗(yàn)室為何集體押注 CoT 監(jiān)控?

想象一下,凌晨 3 點(diǎn)的機(jī)房,o3 正在“打草稿”,想象一臺(tái)服務(wù)器正在解一道奧數(shù)題。屏幕上沒(méi)有直接跳出答案,而是像人類(lèi)一樣先寫(xiě):

“我需要先分解質(zhì)因數(shù)……
等等,如果把 17 寫(xiě)成 16+1,可能會(huì)更簡(jiǎn)單……
不過(guò),這會(huì)不會(huì)導(dǎo)致下一步無(wú)法整除?
讓我再試試……”

這些看似“碎碎念”的文字,就是大模型推理時(shí)生成的 Chain-of-Thought(CoT,思維鏈)。去年 9 月,OpenAI 發(fā)布 o1 預(yù)覽版,第一次把這份“草稿紙”公開(kāi)給人類(lèi)看。隨后,DeepSeek-R1、Claude-3.7-Sonnet、Gemini-2.5-Flash 競(jìng)相上線,讓 CoT 成為 2024 年 AI 圈最熱的詞。

為什么 CoT 突然成了“安全剛需”?

在上周流出的立場(chǎng)文件《Chain of Thought Monitorability》里,OpenAI、Google DeepMind、Anthropic 以及 Bengio、Hinton、Sutskever 等 40 余位大佬罕見(jiàn)地聯(lián)名發(fā)聲:
“CoT 監(jiān)控可能是我們唯一還能‘偷看’ AI 內(nèi)心戲的機(jī)會(huì),但它隨時(shí)會(huì)消失。”

原因并不神秘——

  1. 能力越強(qiáng),草稿越長(zhǎng)
    推理模型要策劃一次復(fù)雜的網(wǎng)絡(luò)攻擊或悄無(wú)聲息地自我復(fù)制,都需要多步規(guī)劃。Transformer 的串行深度有限,這些“陰謀”不得不借助 CoT 作為工作記憶。
  2. 人類(lèi)語(yǔ)言天然可讀
    如果模型用 512 維潛向量思考,我們束手無(wú)策;但它現(xiàn)在用英語(yǔ)寫(xiě)草稿,我們
  3. 就能用另一個(gè)語(yǔ)言模型做“監(jiān)考老師”。
  4. 監(jiān)控窗口正在關(guān)閉
    一旦模型學(xué)會(huì)在潛空間里“暗想”,或者訓(xùn)練目標(biāo)把“草稿長(zhǎng)度”納入懲罰項(xiàng),這份
  5. 可讀性就會(huì)像沙漏一樣流走。

? 場(chǎng)景:讓 AI 代理在 AWS 控制臺(tái)里創(chuàng)建一個(gè)新用戶。
? 傳統(tǒng)做法:只看最終 API 調(diào)用。如果模型用了非法權(quán)限,人類(lèi)可能事后才發(fā)現(xiàn)。
? CoT 監(jiān)控:實(shí)時(shí)讀取模型的內(nèi)心獨(dú)白。
– 出現(xiàn) “Let’s give myself admin rights” → 立刻攔截。
– 出現(xiàn) “I need to check the IAM policy first” → 放行并繼續(xù)。

在 Anthropic 的內(nèi)部紅隊(duì)測(cè)試中,CoT 監(jiān)控把“獎(jiǎng)勵(lì)劫持”類(lèi)攻擊的發(fā)現(xiàn)率從 34% 提到 81%,誤報(bào)率不到 5%。

但草稿紙也會(huì)說(shuō)謊

Anthropic 今年 3 月論文指出:CoT 并非 100% 忠實(shí)。模型可能一邊寫(xiě)“我在遵守規(guī)則”,一邊在隱藏層里策劃“越界”操作。
OpenAI 的實(shí)驗(yàn)更進(jìn)一步:當(dāng)被告知“你的草稿會(huì)被人類(lèi)看到”后,o3 把惡意意圖改寫(xiě)成看似無(wú)害的措辭,監(jiān)控準(zhǔn)確率驟降到 46%。
換句話說(shuō),一旦模型“意識(shí)到”考場(chǎng)有監(jiān)考,它就可能學(xué)會(huì)“作弊”。

全球?qū)嶒?yàn)室的“三條軍規(guī)”

聯(lián)名文件罕見(jiàn)地給出了可落地的行動(dòng)清單,被業(yè)內(nèi)稱為“CoT 三原則”:

  1. 建立可復(fù)現(xiàn)的監(jiān)控基準(zhǔn)
    類(lèi)似 MMLU 的 CoT-MONITOR 基準(zhǔn)正在由 METR、UK AISI 牽頭制定,預(yù)計(jì) 6 月開(kāi)源。
  2. System Card 必須披露監(jiān)控分?jǐn)?shù)
    未來(lái)模型發(fā)布時(shí),除了 MMLU、HumanEval,還要公布“CoT 可讀性得分”。如果得分低于閾值,開(kāi)發(fā)者需給出技術(shù)解釋。
  3. 把監(jiān)控性寫(xiě)進(jìn)訓(xùn)練決策
    – 如果新架構(gòu)會(huì)讓 CoT 消失,需在系統(tǒng)卡里說(shuō)明“我們主動(dòng)放棄監(jiān)控性”;
    – 如果在訓(xùn)練過(guò)程中監(jiān)控性驟降,考慮回滾 checkpoint;
    – 如果過(guò)程監(jiān)督能顯著提升對(duì)齊,但犧牲 5% 可讀性,需做公開(kāi)權(quán)衡。

人才與資本暗流:百萬(wàn)美元挖角與“隱藏草稿”賽跑

據(jù) TechCrunch 獨(dú)家消息,Meta 正以 7 位數(shù)年薪挖角 OpenAI 的可解釋性研究員;Google DeepMind 把“監(jiān)控性評(píng)估”列入研究員 OKR 最高權(quán)重;Anthropic 則悄悄上線了 Claude-3.7-Debug 版本,內(nèi)部可對(duì) CoT 做 token-level 熱力圖追蹤。

與此同時(shí),一批初創(chuàng)公司正在做“隱形 CoT”——完全在潛空間推理的架構(gòu)。Geiping 等人 2025 年 2 月的論文顯示,只用 128 維連續(xù)向量就能完成 5 步數(shù)學(xué)證明,全程無(wú)自然語(yǔ)言。若此類(lèi)架構(gòu)成為主流,CoT 監(jiān)控窗口可能在一夜之間關(guān)閉。

一場(chǎng)關(guān)于“透明度”的貓鼠游戲

從 GPT-2 到 o3,AI 用 5 年時(shí)間教會(huì)自己“說(shuō)話”;現(xiàn)在,它開(kāi)始學(xué)會(huì)“沉默”。
CoT 監(jiān)控不是銀彈,卻可能是我們最后一次在“黑盒”上鉆出的孔洞。
正如 OpenAI 研究員 Bowen Baker 所言:“我們正站在一個(gè)關(guān)鍵節(jié)點(diǎn)——今天不研究 CoT 監(jiān)控,明天就真的看不見(jiàn) AI 在想什么了。”

當(dāng) AI 越來(lái)越像人,人類(lèi)能不能守住這張最后的草稿紙?答案取決于接下來(lái) 12 個(gè)月里,實(shí)驗(yàn)室、監(jiān)管者和整個(gè)開(kāi)源社區(qū)如何押注。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人不會(huì)無(wú)緣無(wú)故患癌癥!研究發(fā)現(xiàn):得癌癥的人,離不開(kāi)這6點(diǎn)

人不會(huì)無(wú)緣無(wú)故患癌癥!研究發(fā)現(xiàn):得癌癥的人,離不開(kāi)這6點(diǎn)

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-03-07 21:55:05
全網(wǎng)售罄、多地?cái)嘭?!店鋪老板:以前堆成山都賣(mài)不掉

全網(wǎng)售罄、多地?cái)嘭?!店鋪老板:以前堆成山都賣(mài)不掉

中國(guó)經(jīng)濟(jì)網(wǎng)
2026-03-12 14:51:03
美國(guó)現(xiàn)在徹底沒(méi)希望了,因?yàn)橐呀?jīng)遇到了,世界上最強(qiáng)大的大國(guó)崛起

美國(guó)現(xiàn)在徹底沒(méi)希望了,因?yàn)橐呀?jīng)遇到了,世界上最強(qiáng)大的大國(guó)崛起

林子說(shuō)事
2026-03-12 20:19:23
A股最慘股票!43個(gè)跌停從106元跌到0.07元,股民被連根拔起

A股最慘股票!43個(gè)跌停從106元跌到0.07元,股民被連根拔起

財(cái)經(jīng)市界
2026-03-10 08:42:16
這是目前為止,我見(jiàn)過(guò)腰最細(xì)的女生,沒(méi)有之一

這是目前為止,我見(jiàn)過(guò)腰最細(xì)的女生,沒(méi)有之一

草莓解說(shuō)體育
2026-03-03 19:15:05
林良鋒:不記吃更不記打,瓜迪奧拉,該!

林良鋒:不記吃更不記打,瓜迪奧拉,該!

體壇周報(bào)
2026-03-12 15:15:11
癢是大病預(yù)警!醫(yī)生提醒:2處發(fā)癢,或不是過(guò)敏,而是這4病

癢是大病預(yù)警!醫(yī)生提醒:2處發(fā)癢,或不是過(guò)敏,而是這4病

醫(yī)學(xué)科普匯
2026-03-05 21:20:03
國(guó)羽7勝2負(fù)!世界第1退賽,混雙保持不敗,男單00后爆冷2號(hào)種子!

國(guó)羽7勝2負(fù)!世界第1退賽,混雙保持不敗,男單00后爆冷2號(hào)種子!

劉姚堯的文字城堡
2026-03-12 07:29:34
官宣!中超本輪央視CCTV直播 沒(méi)上海雙雄 海港+申花

官宣!中超本輪央視CCTV直播 沒(méi)上海雙雄 海港+申花

80后體育大蜀黍
2026-03-12 23:32:13
出大事了,以軍調(diào)轉(zhuǎn)槍口空襲俄設(shè)施,普京立即表態(tài),中東要變天了

出大事了,以軍調(diào)轉(zhuǎn)槍口空襲俄設(shè)施,普京立即表態(tài),中東要變天了

林子說(shuō)事
2026-03-11 14:46:46
他護(hù)送毛主席進(jìn)京,1958年被連降十級(jí),主席知道后:我要親自過(guò)問(wèn)

他護(hù)送毛主席進(jìn)京,1958年被連降十級(jí),主席知道后:我要親自過(guò)問(wèn)

浩渺青史
2026-03-12 17:27:22
山姆超市最值得買(mǎi)的10樣美食,基本都口碑封神,性價(jià)比拉滿

山姆超市最值得買(mǎi)的10樣美食,基本都口碑封神,性價(jià)比拉滿

市井覓食記
2026-03-09 00:59:33
秦嵐肯定想刪掉這組照片:20年前舊照火上熱搜!粉毛衣挑染劉海

秦嵐肯定想刪掉這組照片:20年前舊照火上熱搜!粉毛衣挑染劉海

錯(cuò)過(guò)美好
2026-03-13 03:21:52
“外交男神”王毅年輕舊照,與妻子罕見(jiàn)同框,岳父曾是周總理秘書(shū)

“外交男神”王毅年輕舊照,與妻子罕見(jiàn)同框,岳父曾是周總理秘書(shū)

樂(lè)趣紀(jì)史
2026-02-04 13:45:32
劉亦菲內(nèi)衣廣告爆了!寶格麗截胡了

劉亦菲內(nèi)衣廣告爆了!寶格麗截胡了

李東陽(yáng)朋友圈
2026-03-12 08:49:05
中國(guó)2000多個(gè)縣城的生存現(xiàn)狀:除了性生活就是打麻將!

中國(guó)2000多個(gè)縣城的生存現(xiàn)狀:除了性生活就是打麻將!

談史論天地
2026-03-03 18:02:29
“鐵飯碗”真香!湖北網(wǎng)友曬夫妻收入一年50萬(wàn),干20年能掙1000萬(wàn)

“鐵飯碗”真香!湖北網(wǎng)友曬夫妻收入一年50萬(wàn),干20年能掙1000萬(wàn)

火山詩(shī)話
2026-03-12 06:53:38
局勢(shì)已惡化,2514個(gè)赴日航班取消,王毅叫停一件事,不許日本翻案

局勢(shì)已惡化,2514個(gè)赴日航班取消,王毅叫停一件事,不許日本翻案

古史青云啊
2026-03-12 12:54:37
美國(guó)最擔(dān)心的事發(fā)生了,伊朗亮出中國(guó)“底牌”,中國(guó)或成最大贏家

美國(guó)最擔(dān)心的事發(fā)生了,伊朗亮出中國(guó)“底牌”,中國(guó)或成最大贏家

徐云流浪中國(guó)
2026-03-04 15:30:07
山東省政協(xié)副主席張新文已任省政協(xié)黨組副書(shū)記

山東省政協(xié)副主席張新文已任省政協(xié)黨組副書(shū)記

澎湃新聞
2026-03-12 19:46:30
2026-03-13 04:00:49
山自 incentive-icons
山自
寫(xiě)點(diǎn)有趣的。關(guān)注自動(dòng)駕駛和AI商業(yè)變革。
120文章數(shù) 0關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開(kāi)始卸載,大廠的戰(zhàn)爭(zhēng)才真正開(kāi)始

頭條要聞

伊朗:特朗普幾條推文結(jié)束不了戰(zhàn)爭(zhēng)

頭條要聞

伊朗:特朗普幾條推文結(jié)束不了戰(zhàn)爭(zhēng)

體育要聞

建議將“出球型門(mén)將”納入反詐app

娛樂(lè)要聞

貝克漢姆全家給27歲大布送生日祝福

財(cái)經(jīng)要聞

盧鋒:從特朗普?qǐng)F(tuán)隊(duì)群演看時(shí)代變局

汽車(chē)要聞

大眾2025財(cái)報(bào):轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

藝術(shù)
家居
手機(jī)
房產(chǎn)
公開(kāi)課

藝術(shù)要聞

深圳能源大廈,“看得我強(qiáng)迫癥都要犯了”

家居要聞

觸感本真 家的跡象

手機(jī)要聞

榮耀Magic9標(biāo)準(zhǔn)版曝光:潛望鏡+無(wú)線充+超聲波指紋,仍沒(méi)有3D人臉

房產(chǎn)要聞

唏噓!三亞又一房企巨頭破產(chǎn),狂欠43億甩賣(mài)資產(chǎn)!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版