国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺反思」能力?

0
分享至



在邁向通用人工智能的道路上,我們一直在思考一個問題:現(xiàn)有的 Image Editing Agent,真的「懂」修圖嗎?

大多數(shù)基于 LLM/VLM 的智能體,本質(zhì)上更像是一個「盲目的指揮官」。它們能流利地寫出修圖代碼或調(diào)用 API,但在按下回車鍵之前,它們看不見畫布上的變化,也無法像人類設(shè)計師那樣,盯著屏幕皺眉說:「這張對比度拉太高了,得往回收到一點?!惯@種感知與決策的割裂,直接導致了「指令幻覺」,或者說模型在進行盲目的「腦補」。由于缺乏視覺反饋,模型往往憑空想象下一步操作,導致結(jié)果與用戶的初衷南轅北轍。

此外,在傳統(tǒng)強化學習中經(jīng)常依賴于靜態(tài)的獎勵模型。隨著模型的不斷訓練,它很容易學會如何「討好」這個固定的打分器,導致Reward Hacking——即分數(shù)很高,但審美并沒有真正提升。

為了打破這一僵局,JarvisEvo應運而生。它不僅僅是一個連接 Adobe Lightroom 的自動化工具使用者,更是一次大膽的探索:探索 Agent 如何通過「內(nèi)省」,真正實現(xiàn)自我進化。



  • 論文標題:JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
  • 論文地址:https://www.arxiv.org/pdf/2511.23002
  • 項目主頁:https://jarvisevo.vercel.app/
  • Github:https://github.com/LYL1015/JarvisEvo
  • Huggingface Daily Paper:https://huggingface.co/papers/2511.23002
  • 作者團隊來自騰訊混元和廈門大學:Yunlong Lin*, Linqing Wang*, Kunjie Lin*, Zixu Lin*, Kaixiong Gong, Wenbo Li, Bin Lin, Zhenxi Li, Shiyi Zhang, Yuyang Peng, Wenxun Dai, Xinghao Ding?, Chunyu Wang?, Qinglin Lu?

核心范式轉(zhuǎn)移:

從「執(zhí)行者」到「思考者」



JarvisEvo 的核心哲學在于模仿人類專家的慢思考模式。一個資深修圖師的工作流永遠是閉環(huán)的:觀察原圖 -> 構(gòu)思 -> 嘗試調(diào)整 -> 觀察結(jié)果 -> 評估/反思 -> 再調(diào)整。我們將這一直覺轉(zhuǎn)化為三大技術(shù)支柱:

iMCoT:讓思維鏈「長出眼睛」

傳統(tǒng)的思維鏈 (CoT) 是純文本的獨角戲。JarvisEvo 引入了iMCoT (Interleaved Multimodal Chain-of-Thought),將視覺反饋強行插入推理循環(huán)。

  • 打破黑盒:每執(zhí)行一步工具(例如調(diào)整色溫),系統(tǒng)立刻生成中間渲染圖。
  • 動態(tài)規(guī)劃:模型不再是一次性生成所有步驟,而是基于當前的視覺狀態(tài)來決定下一步。它能「看到」上一具體操作帶來的過曝或偏色,并即時修正。



SEPO:左手畫圖,右手打分

這是 JarvisEvo 最「性感」的設(shè)計。既然外部獎勵模型容易被 Hack,那為什么不讓 Agent 自己訓練自己的審美?我們提出了SEPO (Synergistic Editor-Evaluator Policy Optimization),讓模型在訓練中分飾兩角:

  • 編輯者 (Editor):負責干活,目標是修出好圖。
  • 評估者 (Evaluator):負責挑刺,目標是精準打分。

這就形成了一種類似 GAN 但更復雜的協(xié)同進化:編輯者為了拿高分,必須提升修圖質(zhì)量;評估者為了不被人類專家「打臉」,必須提升鑒賞能力。為了防止模型「作弊」(即模型發(fā)現(xiàn)只要生成「100 分」的文本就能降低 Loss),我們設(shè)計了SLM (Selective Loss Masking)機制。這相當于老師在改卷時,遮住了學生自己寫的「我給自己打滿分」那一行,迫使學生只能靠前面的解題過程(推理和工具使用)來真正贏得高分。

On-Policy Reflection:從錯誤中提煉智慧

JarvisEvo 的第三個殺手锏是它的反思機制。

在 Stage 2 的訓練中,我們構(gòu)建了一個自動化流水線:當模型偶然修出了一張好圖(高分軌跡),而之前某次嘗試失敗了(低分軌跡),系統(tǒng)會立刻捕捉這組對比。

通過引入「導師模型」(如 Gemini/GPT-4),我們讓系統(tǒng)分析:「剛才那次為什么失???是因為白平衡參數(shù)太激進了嗎?」

這種生成的反思數(shù)據(jù) (Reflection Data)被用于第三階段的微調(diào)。最終,JarvisEvo 習得的不僅是「如何修圖」,更是「當修壞了時如何自救」。



硬核工程:ArtEdit 數(shù)據(jù)集與訓練流水線

為了支撐這套邏輯,我們沒有使用通用的微調(diào)數(shù)據(jù),而是從零構(gòu)建了 ArtEdit:

  • 170K 專業(yè)樣本:覆蓋從風光到人像的 10 大類攝影場景。
  • 全工具鏈覆蓋:完美映射 Adobe Lightroom 的 200+ 個參數(shù)。
  • 雙視角數(shù)據(jù):既有修圖軌跡 (ArtEdit-Lr),也有人類專家的審美評分 (ArtEdit-Eval)。

我們的訓練并非一蹴而就,而是采用了類似人類學習的三階段課程 (Curriculum Learning):

  • 冷啟動 (SFT):先學會工具怎么用,語法怎么寫。
  • 協(xié)同進化 (RL/SEPO):扔掉標準答案,在自我探索中通過「左右互搏」提升上限。
  • 反思微調(diào) (Reflection):針對易錯點進行特訓,學會自我糾錯。



實驗結(jié)果


ArtEdit-Bench 評測結(jié)果







在嚴苛的ArtEdit-Bench評測中,JarvisEvo 展現(xiàn)了統(tǒng)治力:

  • 內(nèi)容保真度:相比商業(yè)模型 Nano-Banana,L1/L2 誤差降低了44.96%。這意味著它在修圖時不會破壞原圖的畫質(zhì)細節(jié)。
  • 人類偏好:在盲測中,JarvisEvo 取得了49%的勝率,遠超 Nano-Banana 的28%。
  • 審美對齊:更有趣的是,作為「裁判」,JarvisEvo 對圖片質(zhì)量的打分與人類專家的相關(guān)性 (SRCC 0.7243) 甚至超過了 Gemini-2.5-Flash。

視覺效果



在視覺效果上,JarvisEvo 專為細粒度專業(yè)調(diào)色而生。得益于其深度的意圖理解、多模態(tài)推理以及獨特的自我反思閉環(huán),JarvisEvo 在處理復雜修圖需求時,展現(xiàn)出了超越當前所有商業(yè)及開源 AIGC 模型的顯著優(yōu)勢。

JarvisEvo vs. OpenAI X Adobe PhotoShop



出于好奇跑了一下 OpenAI 的新功能,雖然能調(diào) PS,但感覺更像是 Workflow 的搭建,缺乏垂直數(shù)據(jù)的 Training。在我們的 Benchmark 上,論指令遵循和修圖審美,目前的 JarvisEvo 表現(xiàn)明顯還是要更好很多。

結(jié)語:

不僅是修圖

JarvisEvo 的意義遠超圖像編輯本身。 它驗證了一種「Actor-Critic 協(xié)同進化」的通用范式。這種讓模型在內(nèi)部建立「自我批評家」,并通過多模態(tài)反饋不斷修正行動路徑的方法,完全可以復用到復雜代碼生成、數(shù)學推理、機器人控制等需要長程規(guī)劃的領(lǐng)域。

我們正在見證 Agent 從「聽話的執(zhí)行者」向「會反思的創(chuàng)作者」的驚險一躍。而 JarvisEvo,剛剛邁出了這一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
祥鵬航空回應“旅客與地服起沖突”:其行李超規(guī),正配合調(diào)查

祥鵬航空回應“旅客與地服起沖突”:其行李超規(guī),正配合調(diào)查

南方都市報
2026-04-20 17:16:09
姆巴佩宣布“加盟”東鵬補水啦,擔任品牌代言人

姆巴佩宣布“加盟”東鵬補水啦,擔任品牌代言人

懂球帝
2026-04-20 17:11:05
山東省青島市委常委、副市長王波被查

山東省青島市委常委、副市長王波被查

新京報
2026-04-20 11:12:09
中國高鐵出海,迎來真正的“大單”

中國高鐵出海,迎來真正的“大單”

無憂啟程
2026-04-20 11:40:20
4月20日人民幣對美元中間價調(diào)貶26個基點

4月20日人民幣對美元中間價調(diào)貶26個基點

證券時報
2026-04-20 09:33:02
財務造假,3倍牛股突遭ST

財務造假,3倍牛股突遭ST

21世紀經(jīng)濟報道
2026-04-20 13:17:37
王毅通告全世界,53國獲零關(guān)稅特權(quán),唯獨一國沒得到,中方選邊站

王毅通告全世界,53國獲零關(guān)稅特權(quán),唯獨一國沒得到,中方選邊站

觸摸史跡
2026-04-20 03:39:03
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網(wǎng)
2026-04-16 19:42:33
上海偶遇李晨吃包子,看著挺壯實一人,晚飯居然就吃三個包子

上海偶遇李晨吃包子,看著挺壯實一人,晚飯居然就吃三個包子

悅君兮君不知
2026-04-19 13:21:45
太心酸了!36歲程序員自述被裁經(jīng)歷,從年薪四五十萬到被家人嫌棄

太心酸了!36歲程序員自述被裁經(jīng)歷,從年薪四五十萬到被家人嫌棄

火山詩話
2026-04-20 07:13:56
南方電網(wǎng)招了7308人,華南理工485個,這所學校把南網(wǎng)變成了"自家后院"

南方電網(wǎng)招了7308人,華南理工485個,這所學校把南網(wǎng)變成了"自家后院"

老滿說高考
2026-04-20 20:04:56
周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費,他卻給組織賺回個商業(yè)帝國

周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費,他卻給組織賺回個商業(yè)帝國

鶴羽說個事
2026-04-02 23:00:01
央視首次曝光:全球最強光刻機亮相,中國再次打破西方技術(shù)封鎖

央視首次曝光:全球最強光刻機亮相,中國再次打破西方技術(shù)封鎖

混沌錄
2026-04-20 21:04:06
轟2桿破百!丁俊暉10-5躋身世錦賽16強,下輪PK趙心童上演德比戰(zhàn)

轟2桿破百!丁俊暉10-5躋身世錦賽16強,下輪PK趙心童上演德比戰(zhàn)

全景體育V
2026-04-20 19:42:08
丁俊暉趙心童上演中國德比

丁俊暉趙心童上演中國德比

界面新聞
2026-04-20 20:17:40
過午不食?55歲男子堅持2年不吃晚飯,去體檢后,他的胃怎樣了?

過午不食?55歲男子堅持2年不吃晚飯,去體檢后,他的胃怎樣了?

白話電影院
2026-04-09 14:36:58
倒計時1天,賴清德將離臺!鄭麗文已見不到他,國防部下最后通牒

倒計時1天,賴清德將離臺!鄭麗文已見不到他,國防部下最后通牒

阿離家居
2026-04-20 16:16:41
上海樓市回暖信號:拐點初步顯現(xiàn),一二手房置換鏈條正在啟動

上海樓市回暖信號:拐點初步顯現(xiàn),一二手房置換鏈條正在啟動

南方都市報
2026-04-20 20:16:16
??低?026年一季度營收207.15億元,凈利潤增速連續(xù)五季提速,毛利率創(chuàng)2020年來新高

??低?026年一季度營收207.15億元,凈利潤增速連續(xù)五季提速,毛利率創(chuàng)2020年來新高

金融界
2026-04-20 17:25:20
宋子文去世前把日記捐給美國,要求 30 年后公開,里面果然有大瓜

宋子文去世前把日記捐給美國,要求 30 年后公開,里面果然有大瓜

阿器談史
2026-04-20 19:11:56
2026-04-20 22:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12813文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

保價2000元機蓋運輸中損壞 德邦僅愿以1300元回購

頭條要聞

保價2000元機蓋運輸中損壞 德邦僅愿以1300元回購

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

藝術(shù)
本地
時尚
數(shù)碼
公開課

藝術(shù)要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

春天就該這樣穿!裙子選彩色、白色T恤作內(nèi)搭,舒適優(yōu)雅簡約

數(shù)碼要聞

惠普推出2026款HyperX暗影精靈MAX游戲本

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版