国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺反思」能力?

0
分享至



在邁向通用人工智能的道路上,我們一直在思考一個問題:現(xiàn)有的 Image Editing Agent,真的「懂」修圖嗎?

大多數(shù)基于 LLM/VLM 的智能體,本質(zhì)上更像是一個「盲目的指揮官」。它們能流利地寫出修圖代碼或調(diào)用 API,但在按下回車鍵之前,它們看不見畫布上的變化,也無法像人類設(shè)計師那樣,盯著屏幕皺眉說:「這張對比度拉太高了,得往回收到一點。」這種感知與決策的割裂,直接導致了「指令幻覺」,或者說模型在進行盲目的「腦補」。由于缺乏視覺反饋,模型往往憑空想象下一步操作,導致結(jié)果與用戶的初衷南轅北轍。

此外,在傳統(tǒng)強化學習中經(jīng)常依賴于靜態(tài)的獎勵模型。隨著模型的不斷訓練,它很容易學會如何「討好」這個固定的打分器,導致Reward Hacking——即分數(shù)很高,但審美并沒有真正提升。

為了打破這一僵局,JarvisEvo應(yīng)運而生。它不僅僅是一個連接 Adobe Lightroom 的自動化工具使用者,更是一次大膽的探索:探索 Agent 如何通過「內(nèi)省」,真正實現(xiàn)自我進化。



  • 論文標題:JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
  • 論文地址:https://www.arxiv.org/pdf/2511.23002
  • 項目主頁:https://jarvisevo.vercel.app/
  • Github:https://github.com/LYL1015/JarvisEvo
  • Huggingface Daily Paper:https://huggingface.co/papers/2511.23002
  • 作者團隊來自騰訊混元和廈門大學:Yunlong Lin*, Linqing Wang*, Kunjie Lin*, Zixu Lin*, Kaixiong Gong, Wenbo Li, Bin Lin, Zhenxi Li, Shiyi Zhang, Yuyang Peng, Wenxun Dai, Xinghao Ding?, Chunyu Wang?, Qinglin Lu?

核心范式轉(zhuǎn)移:

從「執(zhí)行者」到「思考者」



JarvisEvo 的核心哲學在于模仿人類專家的慢思考模式。一個資深修圖師的工作流永遠是閉環(huán)的:觀察原圖 -> 構(gòu)思 -> 嘗試調(diào)整 -> 觀察結(jié)果 -> 評估/反思 -> 再調(diào)整。我們將這一直覺轉(zhuǎn)化為三大技術(shù)支柱:

iMCoT:讓思維鏈「長出眼睛」

傳統(tǒng)的思維鏈 (CoT) 是純文本的獨角戲。JarvisEvo 引入了iMCoT (Interleaved Multimodal Chain-of-Thought),將視覺反饋強行插入推理循環(huán)。

  • 打破黑盒:每執(zhí)行一步工具(例如調(diào)整色溫),系統(tǒng)立刻生成中間渲染圖。
  • 動態(tài)規(guī)劃:模型不再是一次性生成所有步驟,而是基于當前的視覺狀態(tài)來決定下一步。它能「看到」上一具體操作帶來的過曝或偏色,并即時修正。



SEPO:左手畫圖,右手打分

這是 JarvisEvo 最「性感」的設(shè)計。既然外部獎勵模型容易被 Hack,那為什么不讓 Agent 自己訓練自己的審美?我們提出了SEPO (Synergistic Editor-Evaluator Policy Optimization),讓模型在訓練中分飾兩角:

  • 編輯者 (Editor):負責干活,目標是修出好圖。
  • 評估者 (Evaluator):負責挑刺,目標是精準打分。

這就形成了一種類似 GAN 但更復雜的協(xié)同進化:編輯者為了拿高分,必須提升修圖質(zhì)量;評估者為了不被人類專家「打臉」,必須提升鑒賞能力。為了防止模型「作弊」(即模型發(fā)現(xiàn)只要生成「100 分」的文本就能降低 Loss),我們設(shè)計了SLM (Selective Loss Masking)機制。這相當于老師在改卷時,遮住了學生自己寫的「我給自己打滿分」那一行,迫使學生只能靠前面的解題過程(推理和工具使用)來真正贏得高分。

On-Policy Reflection:從錯誤中提煉智慧

JarvisEvo 的第三個殺手锏是它的反思機制。

在 Stage 2 的訓練中,我們構(gòu)建了一個自動化流水線:當模型偶然修出了一張好圖(高分軌跡),而之前某次嘗試失敗了(低分軌跡),系統(tǒng)會立刻捕捉這組對比。

通過引入「導師模型」(如 Gemini/GPT-4),我們讓系統(tǒng)分析:「剛才那次為什么失???是因為白平衡參數(shù)太激進了嗎?」

這種生成的反思數(shù)據(jù) (Reflection Data)被用于第三階段的微調(diào)。最終,JarvisEvo 習得的不僅是「如何修圖」,更是「當修壞了時如何自救」。



硬核工程:ArtEdit 數(shù)據(jù)集與訓練流水線

為了支撐這套邏輯,我們沒有使用通用的微調(diào)數(shù)據(jù),而是從零構(gòu)建了 ArtEdit:

  • 170K 專業(yè)樣本:覆蓋從風光到人像的 10 大類攝影場景。
  • 全工具鏈覆蓋:完美映射 Adobe Lightroom 的 200+ 個參數(shù)。
  • 雙視角數(shù)據(jù):既有修圖軌跡 (ArtEdit-Lr),也有人類專家的審美評分 (ArtEdit-Eval)。

我們的訓練并非一蹴而就,而是采用了類似人類學習的三階段課程 (Curriculum Learning):

  • 冷啟動 (SFT):先學會工具怎么用,語法怎么寫。
  • 協(xié)同進化 (RL/SEPO):扔掉標準答案,在自我探索中通過「左右互搏」提升上限。
  • 反思微調(diào) (Reflection):針對易錯點進行特訓,學會自我糾錯。



實驗結(jié)果


ArtEdit-Bench 評測結(jié)果







在嚴苛的ArtEdit-Bench評測中,JarvisEvo 展現(xiàn)了統(tǒng)治力:

  • 內(nèi)容保真度:相比商業(yè)模型 Nano-Banana,L1/L2 誤差降低了44.96%。這意味著它在修圖時不會破壞原圖的畫質(zhì)細節(jié)。
  • 人類偏好:在盲測中,JarvisEvo 取得了49%的勝率,遠超 Nano-Banana 的28%。
  • 審美對齊:更有趣的是,作為「裁判」,JarvisEvo 對圖片質(zhì)量的打分與人類專家的相關(guān)性 (SRCC 0.7243) 甚至超過了 Gemini-2.5-Flash。

視覺效果



在視覺效果上,JarvisEvo 專為細粒度專業(yè)調(diào)色而生。得益于其深度的意圖理解、多模態(tài)推理以及獨特的自我反思閉環(huán),JarvisEvo 在處理復雜修圖需求時,展現(xiàn)出了超越當前所有商業(yè)及開源 AIGC 模型的顯著優(yōu)勢。

JarvisEvo vs. OpenAI X Adobe PhotoShop



出于好奇跑了一下 OpenAI 的新功能,雖然能調(diào) PS,但感覺更像是 Workflow 的搭建,缺乏垂直數(shù)據(jù)的 Training。在我們的 Benchmark 上,論指令遵循和修圖審美,目前的 JarvisEvo 表現(xiàn)明顯還是要更好很多。

結(jié)語:

不僅是修圖

JarvisEvo 的意義遠超圖像編輯本身。 它驗證了一種「Actor-Critic 協(xié)同進化」的通用范式。這種讓模型在內(nèi)部建立「自我批評家」,并通過多模態(tài)反饋不斷修正行動路徑的方法,完全可以復用到復雜代碼生成、數(shù)學推理、機器人控制等需要長程規(guī)劃的領(lǐng)域。

我們正在見證 Agent 從「聽話的執(zhí)行者」向「會反思的創(chuàng)作者」的驚險一躍。而 JarvisEvo,剛剛邁出了這一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廣東3消息!徐杰打破紀錄,朱芳雨買斷王少杰,胡明軒戰(zhàn)勝心魔

廣東3消息!徐杰打破紀錄,朱芳雨買斷王少杰,胡明軒戰(zhàn)勝心魔

多特體育說
2025-12-29 00:37:08
影響近萬人的浙金中心200億理財暴雷事件,迎來最新進展

影響近萬人的浙金中心200億理財暴雷事件,迎來最新進展

流蘇晚晴
2025-12-28 17:16:55
300391爆雷!連續(xù)三年財務(wù)造假,證監(jiān)會擬罰4100萬元,中介機構(gòu)將被追責

300391爆雷!連續(xù)三年財務(wù)造假,證監(jiān)會擬罰4100萬元,中介機構(gòu)將被追責

華夏時報
2025-12-27 16:50:09
卸任后敢講真話了,沙利文親口承認,佩洛西竄臺的代價遠大于收益

卸任后敢講真話了,沙利文親口承認,佩洛西竄臺的代價遠大于收益

有牙的兔紙
2025-12-28 21:06:38
紅薯立大功!研究發(fā)現(xiàn):堅持吃紅薯一段時間,或迎來5個好轉(zhuǎn)信號

紅薯立大功!研究發(fā)現(xiàn):堅持吃紅薯一段時間,或迎來5個好轉(zhuǎn)信號

全球軍事記
2025-12-27 17:23:45
曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

裕豐娛間說
2025-12-28 00:07:11
廣東一小伙,因入住毛坯房而走紅,花費僅1萬,卻無一絲窮酸氣!

廣東一小伙,因入住毛坯房而走紅,花費僅1萬,卻無一絲窮酸氣!

阿離家居
2025-12-28 10:19:49
1:0!勞塔羅一劍封喉 國米全身而退 前三相差2分 意甲爭冠白熱化

1:0!勞塔羅一劍封喉 國米全身而退 前三相差2分 意甲爭冠白熱化

阿超他的體育圈
2025-12-29 05:44:35
瘋狂反擊!徐鶯百條連發(fā)怒懟網(wǎng)友、手撕《亞洲周刊》,稱我是真的

瘋狂反擊!徐鶯百條連發(fā)怒懟網(wǎng)友、手撕《亞洲周刊》,稱我是真的

火山詩話
2025-12-28 11:50:47
南博事件又添猛將!封蕾被曝光,在私企離職進入事業(yè)編,無縫對接

南博事件又添猛將!封蕾被曝光,在私企離職進入事業(yè)編,無縫對接

火山詩話
2025-12-28 10:44:39
1-1!英超升班馬對決,利茲聯(lián)逼平最強黑馬,切爾西曼聯(lián)笑了

1-1!英超升班馬對決,利茲聯(lián)逼平最強黑馬,切爾西曼聯(lián)笑了

硬腿子聊個球
2025-12-28 23:59:50
后院起火!澤連斯基訪美之際,烏議會大樓遭突襲

后院起火!澤連斯基訪美之際,烏議會大樓遭突襲

上游新聞
2025-12-28 22:51:04
比特幣,繼續(xù)崩塌!

比特幣,繼續(xù)崩塌!

澳洲財經(jīng)見聞
2025-12-29 03:33:47
2-0!意甲豪強征服客場,曼聯(lián)棄將大爆發(fā):轟入2球,全場最佳

2-0!意甲豪強征服客場,曼聯(lián)棄將大爆發(fā):轟入2球,全場最佳

足球狗說
2025-12-28 23:57:47
美媒:中國在準備持久戰(zhàn),越來越多國家的錢,源源不斷流向中國!

美媒:中國在準備持久戰(zhàn),越來越多國家的錢,源源不斷流向中國!

小莜讀史
2025-12-28 22:15:17
早報 | 國米登頂意甲積分榜;C羅榮膺2025環(huán)足獎年度最佳中東球員!

早報 | 國米登頂意甲積分榜;C羅榮膺2025環(huán)足獎年度最佳中東球員!

足球報
2025-12-29 06:17:09
全國首臺!只殺癌細胞,不傷好細胞,武漢癌癥“大殺器”正式啟用

全國首臺!只殺癌細胞,不傷好細胞,武漢癌癥“大殺器”正式啟用

荷蘭豆愛健康
2025-12-26 07:05:32
規(guī)上工業(yè)企業(yè)利潤累計增速連續(xù)4個月增長

規(guī)上工業(yè)企業(yè)利潤累計增速連續(xù)4個月增長

經(jīng)濟日報
2025-12-28 06:46:17
明年養(yǎng)老金是否能22連漲?人社部表態(tài)了,1955年出生的有福了

明年養(yǎng)老金是否能22連漲?人社部表態(tài)了,1955年出生的有福了

云鵬敘事
2025-12-28 13:55:45
秦嵐的“蜜桃臀”又上熱搜了!網(wǎng)友:“臀”確實美

秦嵐的“蜜桃臀”又上熱搜了!網(wǎng)友:“臀”確實美

馬拉松跑步健身
2025-12-25 06:30:05
2025-12-29 06:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12000文章數(shù) 142523關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

途經(jīng)俄羅斯航班墜機38人身亡 機身或被彈片擊中

頭條要聞

途經(jīng)俄羅斯航班墜機38人身亡 機身或被彈片擊中

體育要聞

MVP概率達82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

家居
親子
游戲
手機
健康

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

親子要聞

2025年最后幾天,這件大事需要所有媽媽一起見證

2025年畫面最好十大游戲 《明末淵虛之羽》上榜

手機要聞

榮耀Power 2詳細參數(shù)曝光,就差價格了

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進入關(guān)懷版