国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源三代理盲評系統(tǒng):讓AI在行動前先"過安檢"

0
分享至

周末上線了一個有點意思的東西:三代理盲評工作流,MIT協(xié)議開源,任何編碼代理或自主循環(huán)都能通過HTTP端點調(diào)用。核心假設(shè)很直接——模型沒法可靠地自評,所以外部盲評機制是唯一能誠實的解法。代碼倉庫在github.com/ejentum/agent-teams/tree/main/blind-eval-trio。

整個工作流完全開源??蛇x接入Ejentum的harness API做認知引導(免費檔100次調(diào)用,持續(xù)使用需付費檔)。但harness是可拆卸的,不是必需。我用同一組payload測試了四種配置:純MCP、MCP+路由技能、MCP+重量級匹配技能、裸基線。結(jié)果裸基線產(chǎn)出了同等水平的角色約束輸出。結(jié)構(gòu)完整性來自跨實驗室路由+角色約束系統(tǒng)提示+工具鎖定,而非harness層。如果把這工作流叫做"Ejentum驅(qū)動"卻不說明harness只是錦上添花而非承重結(jié)構(gòu),那就是不誠實,所以我 upfront 講清楚。


看看現(xiàn)在的趨勢。Karpathy的autoresearch用Git作為整個控制循環(huán)。Claude Code的GitHub Action接收issue然后開PR。Codex Cloud基于同樣的理念。自主代理越來越傾向于在沒有人工把關(guān)的情況下提交行動。瓶頸不再是"代理該做什么",而是"代理在承諾去做之前該做什么"。

自評填不了這個坑。文獻很明確:Huang等人《Large Language Models Cannot Self-Correct Reasoning Yet》(arxiv 2310.01798)、LLM-as-judge研究顯示同模型評判自己輸出會坍縮為自我偏好、還有更近的CorrectBench結(jié)果。讓同一個模型批判自己的計劃,只會復制原有的盲點。"單個LLM戴三頂評審帽"是提示工程表演,自己給自己蓋章。

GitHub懂這個。他們4月發(fā)布了Copilot CLI的"Rubber Duck":一個聚焦的評審代理,由互補模型家族驅(qū)動,在規(guī)劃完非平凡變更后、實施前進行批判。他們測得Sonnet開啟Rubber Duck后,Sonnet→Opus的性能差距縮小了74.7%。Copilot CLI內(nèi)置免費。他們鎖定了開發(fā)者工具賽道的預承諾跨模型批判表面。

這個工作流是給其他人的:在Claude Agent SDK / LangGraph / AutoGen / CrewAI / heym上構(gòu)建自主循環(huán)的代理運行時開發(fā)者;想要可調(diào)用原語的多代理系統(tǒng)設(shè)計師;Cursor / Cline / Aider用戶;在無Copilot CLI的受限環(huán)境中運行Claude Code的安全團隊;直接用Anthropic或OpenAI API構(gòu)建自定義Python管道的研究者。他們沒人能免費用Rubber Duck;但他們都能自托管這個。

三個代理并行,每個來自不同模型實驗室,每個鎖定一個角色和一個認知操作:

調(diào)用代理提交結(jié)構(gòu)化payload:{ task: string, method: { goal, steps, expected_outcome }, context: { files, dependencies, constraints } }。三個評審代理各自在隔離環(huán)境中接收同一payload,但系統(tǒng)提示不同:

代理A(安全視角):識別風險、邊界條件、失敗模式。代理B(正確性視角):驗證邏輯完整性、步驟順序、資源假設(shè)。代理C(完整性視角):檢查遺漏、隱式假設(shè)、與任務(wù)目標的契合度。

三者互不可見。輸出匯入聚合層,沖突標記為"需人工仲裁",共識標記為"可提交"。整個流程約15-30秒,取決于模型選擇。

關(guān)鍵設(shè)計:工具鎖定。每個評審代理只能調(diào)用特定工具——安全代理可調(diào)威脅建模檢查表,正確性代理可調(diào)測試生成器,完整性代理可調(diào)需求追蹤器。不能調(diào)用執(zhí)行工具、不能調(diào)用文件系統(tǒng)、不能調(diào)用網(wǎng)絡(luò)。認知隔離通過架構(gòu)強制執(zhí)行,而非提示工程請求。

我測試了三種模型組合:GPT-4o + Claude 3.5 Sonnet + Gemini 1.5 Pro;Claude 3 Opus + GPT-4 Turbo + Gemini 1.5 Flash;純開源(Llama 3 70B + Mixtral 8x22B + Qwen 72B)。第一種組合沖突率最低(12%),第三種最高(34%),但第三種在標記為"需仲裁"的案例中,人工復核后發(fā)現(xiàn)實際問題的比例更高(78% vs 61%)。便宜模型更吵,但吵得更值得聽。

HTTP端點設(shè)計為無狀態(tài)。POST /evaluate,payload進,{ consensus: boolean, reviews: [...], arbitration_required: boolean }出。沒有會話,沒有記憶,沒有跨調(diào)用的代理狀態(tài)。這樣調(diào)用方可以把它塞進任何編排邏輯——LangGraph的條件邊、CrewAI的任務(wù)委托、或者直接curl。

有個細節(jié)可能重要:payload里的method字段是調(diào)用代理自己生成的。這意味著評審代理在評判一個同行(可能同模型家族)產(chǎn)出的計劃。但盲評機制切斷了自我偏好的反饋回路——評審代理不知道作者是誰,不能訪問作者的隱藏狀態(tài),只能看到結(jié)構(gòu)化的方法描述。這不夠完美,但比"你批判你自己"誠實。

GitHub的Rubber Duck是閉源的、Copilot綁定的、微軟控制的。這個工作流是開源的、模型無關(guān)的、自托管的。不是競爭,是補位——給那些需要預承諾評審但不在Copilot生態(tài)里的人一個選項。

下一步:把聚合層做成可插拔的(目前硬編碼為簡單多數(shù)決),加時間戳和簽名支持用于審計日志,以及一個可選的"人類在環(huán)"鉤子,在仲裁觸發(fā)時暫停等待輸入。但這些是增量改進。核心結(jié)構(gòu)——跨實驗室、角色鎖定、工具隔離——已經(jīng)跑通了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不裝老好人了?特斯拉,對國產(chǎn)電動車“貼臉開大”,關(guān)鍵沒法反駁

不裝老好人了?特斯拉,對國產(chǎn)電動車“貼臉開大”,關(guān)鍵沒法反駁

小李車評李建紅
2026-05-08 08:00:03
又一狗血新詞!網(wǎng)傳有員工被裁后再遭公司起訴"刻意隱瞞自身價值"

又一狗血新詞!網(wǎng)傳有員工被裁后再遭公司起訴"刻意隱瞞自身價值"

火山詩話
2026-05-08 18:00:57
16歲女孩景區(qū)內(nèi)墜亡,目擊者發(fā)聲,賠償金額曝光,景區(qū)運營僅49天

16歲女孩景區(qū)內(nèi)墜亡,目擊者發(fā)聲,賠償金額曝光,景區(qū)運營僅49天

溫柔看世界
2026-05-06 11:48:44
吳石被押往刑場,毛人鳳嚴令劊子手:用點射!他決不允許發(fā)生奇跡

吳石被押往刑場,毛人鳳嚴令劊子手:用點射!他決不允許發(fā)生奇跡

云霄紀史觀
2026-05-10 18:47:15
退休數(shù)學老教師:如今高中數(shù)學,真不是多數(shù)孩子能學明白的!

退休數(shù)學老教師:如今高中數(shù)學,真不是多數(shù)孩子能學明白的!

金哥說新能源車
2026-05-10 05:51:23
美媒文章:美國面對的是已然闊步前行的中國

美媒文章:美國面對的是已然闊步前行的中國

參考消息
2026-05-10 15:38:08
體育總局人力中心發(fā)文,親宣陳若琳新身份,戀情傳聞早真相大白

體育總局人力中心發(fā)文,親宣陳若琳新身份,戀情傳聞早真相大白

汪鏞的創(chuàng)業(yè)之路
2026-05-09 14:40:02
這么速度?巴將領(lǐng)透露:巴基斯坦今年開始接收40架左右殲-35AE!中國什么態(tài)度?

這么速度?巴將領(lǐng)透露:巴基斯坦今年開始接收40架左右殲-35AE!中國什么態(tài)度?

軍武速遞
2026-05-09 19:07:23
今年山茶油為啥賣不動?曾經(jīng)的“油中黃金”,如今沒人買單了?

今年山茶油為啥賣不動?曾經(jīng)的“油中黃金”,如今沒人買單了?

農(nóng)夫也瘋狂
2026-05-09 17:41:51
補時遭遇爭議點球,青島西海岸1:1武漢三鎮(zhèn),遭遇7連平 !“我們也不想拿到這么多平局……”

補時遭遇爭議點球,青島西海岸1:1武漢三鎮(zhèn),遭遇7連平 !“我們也不想拿到這么多平局……”

新浪財經(jīng)
2026-05-10 21:48:32
搞垮中國交通的罪魁禍首,并非是車太多?這幾座山不移除就白搭了

搞垮中國交通的罪魁禍首,并非是車太多?這幾座山不移除就白搭了

原來仙女不講理
2026-05-07 23:09:21
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
《愛情沒有神話》大結(jié)局:孤煙身敗名裂,范叔破產(chǎn),趙蘭心被棄,林何和解

《愛情沒有神話》大結(jié)局:孤煙身敗名裂,范叔破產(chǎn),趙蘭心被棄,林何和解

TVB的四小花
2026-05-10 12:01:52
廣東隊投資人遭薩林杰強制“撤回” 慶祝:賽后擁抱張皓嘉難掩喜悅

廣東隊投資人遭薩林杰強制“撤回” 慶祝:賽后擁抱張皓嘉難掩喜悅

狼叔評論
2026-05-10 11:54:05
陳翔六點半演員“吳媽”去世!訃告已發(fā),享年68歲,球球留言悼念

陳翔六點半演員“吳媽”去世!訃告已發(fā),享年68歲,球球留言悼念

情感大頭說說
2026-05-10 09:32:54
兩自媒體編造傳播芯片虛假信息遭重罰

兩自媒體編造傳播芯片虛假信息遭重罰

每日經(jīng)濟新聞
2026-05-09 20:17:46
京粵大戰(zhàn)1-1戰(zhàn)平!于嘉賽后犀利點評:差距在氣質(zhì),輸贏看硬核!

京粵大戰(zhàn)1-1戰(zhàn)平!于嘉賽后犀利點評:差距在氣質(zhì),輸贏看硬核!

田先生籃球
2026-05-09 22:37:18
“云南14歲少年殺害同班女同學案”,有新消息

“云南14歲少年殺害同班女同學案”,有新消息

新京報
2026-05-10 14:09:30
倫敦世乒賽女團決賽:孫穎莎兩分救主盡顯世界第一統(tǒng)治力

倫敦世乒賽女團決賽:孫穎莎兩分救主盡顯世界第一統(tǒng)治力

老嗮說體育
2026-05-10 21:45:33
5月10日 廣東隊傳來3大消息 張皓嘉被查尿檢 奎因或離隊 徐昕拒絕

5月10日 廣東隊傳來3大消息 張皓嘉被查尿檢 奎因或離隊 徐昕拒絕

一家說
2026-05-10 09:49:34
2026-05-10 22:44:49
閃存獵手
閃存獵手
全網(wǎng)蹲好價的野生捕手,算力與羊毛都不可辜負。
2393文章數(shù) 22關(guān)注度
往期回顧 全部

科技要聞

DeepSeek融資,改寫所有人的估值

頭條要聞

談判陷僵局 世界杯轉(zhuǎn)播費報價大幅降低央視仍不接招

頭條要聞

談判陷僵局 世界杯轉(zhuǎn)播費報價大幅降低央視仍不接招

體育要聞

那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業(yè)了

娛樂要聞

趙露思老實人豁出去了 沒舞蹈天賦硬跳

財經(jīng)要聞

白酒大逃殺

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

教育
游戲
房產(chǎn)
旅游
時尚

教育要聞

請教會你的孩子有能力分辨和說不!

《流放之路2》有望在5月底獲得Steam Deck認證

房產(chǎn)要聞

低價甩賣!??谶@個地標商業(yè),無人接盤!

旅游要聞

一路向前,自在騎行!田園社騎行驛站成為慶云打卡新地標

真愛大牌|| 用了4年都不舍得換,終于把小貴的價格也磨下來了

無障礙瀏覽 進入關(guān)懷版