国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

文生圖進(jìn)入Agent時(shí)代:港中文聯(lián)合伯克利開源Gen-Searcher

0
分享至



過(guò)去兩年,圖像生成模型在質(zhì)感和審美上一路狂飆,但大多仍是 “直接出圖” 的范式。

一旦 prompt 涉及真實(shí)世界知識(shí)、最新信息、冷門事實(shí),或者需要跨多個(gè)來(lái)源核對(duì)細(xì)節(jié),傳統(tǒng)文生圖模型就很容易翻車。

因?yàn)樯赡P腿狈γ嫦蛘鎸?shí)世界的 Agent 能力,仍然依賴固化的參數(shù)知識(shí),缺少主動(dòng)搜索、驗(yàn)證和整合外部信息的能力。

最近,來(lái)自香港中文大學(xué) MMLab、UC Berkeley 和 UCLA 的研究團(tuán)隊(duì)提出了 Gen-Searcher,首次嘗試為圖像生成任務(wù)訓(xùn)練一個(gè) “深度搜索” 智能體。它讓圖像生成模型能夠像 Agent 一樣進(jìn)行搜索、推理、找圖和瀏覽網(wǎng)頁(yè),從而輸出真正可靠的生成結(jié)果。所有數(shù)據(jù),模型,和代碼,均已開源。



  • 論文標(biāo)題:Gen-Searcher: Reinforcing Agentic Search for Image Generation
  • 論文地址:https://arxiv.org/pdf/2603.28767
  • 項(xiàng)目主頁(yè):https://gen-searcher.vercel.app/

現(xiàn)實(shí)需求:從 “直接生成” 到 Agentic 生成

現(xiàn)實(shí)世界中的圖像生成任務(wù),往往不只是 “按 prompt 作畫”。很多場(chǎng)景會(huì)涉及真實(shí)世界知識(shí)、最新信息、冷門事實(shí),甚至需要跨多個(gè)來(lái)源核對(duì)細(xì)節(jié)。模型不僅要會(huì)生成,還要先判斷哪些信息需要確認(rèn)、哪些視覺細(xì)節(jié)需要參考、哪些內(nèi)容必須依賴外部知識(shí)支撐。

在這種背景下,傳統(tǒng)文生圖模型有兩個(gè)核心問(wèn)題:一是主要依賴預(yù)訓(xùn)練學(xué)到的參數(shù)知識(shí),缺乏主動(dòng)搜索、驗(yàn)證和整合外部信息的能力;二是整體流程仍是 “輸入 prompt,直接出圖”,缺少像 Agent 那樣先搜索、推理、整理證據(jù)的過(guò)程,因此在真實(shí)場(chǎng)景里很容易 “畫得像,卻畫不對(duì)”

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了 Gen-Searcher,希望把文生圖從 “直接生成” 推進(jìn)到 Agentic 生成

數(shù)據(jù)構(gòu)建與 KnowGen 基準(zhǔn)

為了訓(xùn)練這種能力,作者先構(gòu)造了一批真實(shí)世界需要搜索才能完成的生成數(shù)據(jù),覆蓋名人、動(dòng)漫、物理、化學(xué)、藝術(shù)、建筑、新聞等約 20 個(gè)類別。



隨后,作者讓強(qiáng)模型配合搜索工具生成多輪軌跡,收集文本知識(shí)和視覺證據(jù),再用 Nano Banana Pro 合成目標(biāo)圖像,得到約 30k 條原始樣本。經(jīng)過(guò) Seed1.8 篩選后,最終保留約 17k 條高質(zhì)量數(shù)據(jù),并整理成 Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。



在此基礎(chǔ)上,作者還提出了新的 benchmark —— KnowGen。它包含 630 條人工驗(yàn)證樣本,用于圖像生成 Agent 評(píng)測(cè)。

模型訓(xùn)練

Gen-Searcher 的核心,是把生成前的信息獲取過(guò)程做成一個(gè)可訓(xùn)練的 Agent。模型不再拿到 prompt 就直接生成,而是先在多輪交互中決定何時(shí)搜索、搜什么、是否瀏覽網(wǎng)頁(yè)、是否補(bǔ)充視覺參考,最后輸出準(zhǔn)確的 prompt 和參考圖。

它配備了三類工具:文本搜索、圖像搜索和網(wǎng)頁(yè)瀏覽。訓(xùn)練上則分兩階段進(jìn)行:先通過(guò) SFT 訓(xùn)練學(xué)會(huì)工具使用,再通過(guò) agentic RL 優(yōu)化搜索策略和長(zhǎng)程決策。

論文還提出了雙獎(jiǎng)勵(lì)反饋。因?yàn)橹豢醋罱K圖像效果并不穩(wěn)定,作者額外加入了一個(gè)文本獎(jiǎng)勵(lì),用來(lái)評(píng)估輸出的 prompt 是否已經(jīng)包含足夠、正確、與生成相關(guān)的信息,再與圖像獎(jiǎng)勵(lì)結(jié)合起來(lái)共同訓(xùn)練。這樣,模型不僅要 “畫得好”,也要 “搜得對(duì)”



實(shí)驗(yàn)結(jié)果

在 KnowGen 上,原始 Qwen-Image 的 K-Score 為 14.98,接入 Gen-Searcher-8B 后提升到 31.52,提高 16.54 分。而且這種能力還能遷移到其他圖像生成器上:Seedream 4.5 從 31.01 提升到 47.29,Nano Banana Pro 也從 50.38 提升到 53.30。



在 WISE 測(cè)試基準(zhǔn)上,模型同樣帶來(lái)了巨大的提升。



可視化分析表明,Gen-Searcher 能夠真正提高模型生圖的準(zhǔn)確性和質(zhì)量。



Gen-Searcher 的推出,不僅展示了 Agentic 生成在知識(shí)密集型圖像生成任務(wù)上的潛力,也為構(gòu)建真正能夠連接搜索、推理與生成的一體化系統(tǒng)提供了清晰路徑。

它不僅能 “畫”,還能 “查”;不僅能完成傳統(tǒng)的文本到圖像生成,更能在生成之前主動(dòng)搜索信息、核對(duì)事實(shí)、整合證據(jù),展現(xiàn)出面向真實(shí)世界復(fù)雜任務(wù)的生成能力。

在大模型不斷走向多模態(tài)、強(qiáng)推理與 Agent 化的趨勢(shì)下,Gen-Searcher 的工作或許只是一個(gè)起點(diǎn),但它所驗(yàn)證的方向,正在成為生成系統(tǒng)邁向 Agentic 時(shí)代的重要一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大陸說(shuō)到做到,中歐班列鐵軌已拆,立陶宛被打疼,找臺(tái)當(dāng)局要錢

大陸說(shuō)到做到,中歐班列鐵軌已拆,立陶宛被打疼,找臺(tái)當(dāng)局要錢

流史歲月
2026-04-08 09:45:02
賈淺淺被查!清華天才少女蔣方舟還藏得住嗎?

賈淺淺被查!清華天才少女蔣方舟還藏得住嗎?

不正確
2026-04-09 11:42:04
事實(shí)證明,73歲無(wú)兒無(wú)女的遲重瑞,早已被陳麗華“安排”好了后路

事實(shí)證明,73歲無(wú)兒無(wú)女的遲重瑞,早已被陳麗華“安排”好了后路

娛說(shuō)瑜悅
2026-04-08 20:07:18
79年撤軍真相:越南用了十年才想明白中國(guó)拆走的不止是8000噸設(shè)備

79年撤軍真相:越南用了十年才想明白中國(guó)拆走的不止是8000噸設(shè)備

掠影后有感
2026-04-08 10:00:45
甘油三酯從6.27到1.68,我用了一個(gè)月,與大家分享我的經(jīng)歷!

甘油三酯從6.27到1.68,我用了一個(gè)月,與大家分享我的經(jīng)歷!

健康之光
2026-04-08 20:35:05
鄭麗文書法爭(zhēng)議:她的字真的不是自己寫的嗎?

鄭麗文書法爭(zhēng)議:她的字真的不是自己寫的嗎?

書畫相約
2026-04-08 08:19:04
比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

細(xì)說(shuō)職場(chǎng)
2026-04-07 11:32:47
一頓南京宴席,掀開國(guó)民黨遮羞布:路線不敢講,遲早被現(xiàn)實(shí)逼出來(lái)

一頓南京宴席,掀開國(guó)民黨遮羞布:路線不敢講,遲早被現(xiàn)實(shí)逼出來(lái)

混沌錄
2026-04-09 15:01:15
茅臺(tái)提價(jià),市場(chǎng)不認(rèn)

茅臺(tái)提價(jià),市場(chǎng)不認(rèn)

快馬財(cái)媒
2026-04-09 08:11:49
研究表明:性生活越頻繁,射精和勃起問(wèn)題越少!

研究表明:性生活越頻繁,射精和勃起問(wèn)題越少!

黯泉
2026-04-05 20:40:12
為什么WTO很少被提起了?中國(guó)入世談判花了15年,如今幾乎被架空

為什么WTO很少被提起了?中國(guó)入世談判花了15年,如今幾乎被架空

古史青云啊
2026-04-07 14:52:09
深感痛心!深圳市衛(wèi)健委深夜發(fā)布情況說(shuō)明

深感痛心!深圳市衛(wèi)健委深夜發(fā)布情況說(shuō)明

梅斯醫(yī)學(xué)
2026-04-09 09:21:21
難以置信!年入505萬(wàn),個(gè)稅扣203萬(wàn),到手只剩302萬(wàn),在網(wǎng)上刷屏

難以置信!年入505萬(wàn),個(gè)稅扣203萬(wàn),到手只剩302萬(wàn),在網(wǎng)上刷屏

火山詩(shī)話
2026-04-09 13:16:17
為了鄭麗文專機(jī)能順利落地,解放軍果斷亮出底牌,痛擊臺(tái)獨(dú)要害

為了鄭麗文專機(jī)能順利落地,解放軍果斷亮出底牌,痛擊臺(tái)獨(dú)要害

共工之錨
2026-04-08 00:37:29
全紅嬋報(bào)警:記者楊爍被點(diǎn)名,陳芋汐評(píng)論區(qū)被沖,多家媒體發(fā)聲!

全紅嬋報(bào)警:記者楊爍被點(diǎn)名,陳芋汐評(píng)論區(qū)被沖,多家媒體發(fā)聲!

眼光很亮
2026-04-08 15:20:24
比核彈更狠?梅德韋杰夫一語(yǔ)引爆全球:伊朗的核武器根本拆不掉!

比核彈更狠?梅德韋杰夫一語(yǔ)引爆全球:伊朗的核武器根本拆不掉!

菁菁子衿
2026-04-09 11:40:52
全紅蟬遭網(wǎng)暴后續(xù):警方發(fā)現(xiàn)最新線索!體育總局回應(yīng):絕不姑息

全紅蟬遭網(wǎng)暴后續(xù):警方發(fā)現(xiàn)最新線索!體育總局回應(yīng):絕不姑息

影像溫度
2026-04-09 12:45:47
澳大利亞等7國(guó)發(fā)表聯(lián)合聲明:“以最強(qiáng)烈措辭”譴責(zé)造成聯(lián)合國(guó)維和人員死亡等行徑

澳大利亞等7國(guó)發(fā)表聯(lián)合聲明:“以最強(qiáng)烈措辭”譴責(zé)造成聯(lián)合國(guó)維和人員死亡等行徑

環(huán)球網(wǎng)資訊
2026-04-09 14:51:06
為什么全國(guó)有這么多“交大”?一木生四枝,百載共芳華

為什么全國(guó)有這么多“交大”?一木生四枝,百載共芳華

上觀新聞
2026-04-08 18:40:05
央視3次怒批電動(dòng)車解限速,電動(dòng)車限速25km/h,不如給電摩上綠牌

央視3次怒批電動(dòng)車解限速,電動(dòng)車限速25km/h,不如給電摩上綠牌

電動(dòng)車的那些事兒
2026-04-09 07:50:14
2026-04-09 17:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12719文章數(shù) 142621關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

白宮發(fā)言人:特朗普直接把伊朗停戰(zhàn)條款扔進(jìn)了垃圾桶

頭條要聞

白宮發(fā)言人:特朗普直接把伊朗停戰(zhàn)條款扔進(jìn)了垃圾桶

體育要聞

8萬(wàn)人面前心臟驟停 現(xiàn)在他還站在球場(chǎng)上

娛樂(lè)要聞

金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

財(cái)經(jīng)要聞

談判基礎(chǔ)已被破壞!霍爾木茲海峽關(guān)閉

汽車要聞

文飛的回歸 給神行者帶來(lái)什么?

態(tài)度原創(chuàng)

藝術(shù)
健康
數(shù)碼
旅游
手機(jī)

藝術(shù)要聞

龐茂琨 2026油畫寫生新作

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

數(shù)碼要聞

LG電子首次采購(gòu)三星QD-OLED面板 下半年將推多款電競(jìng)顯示器

旅游要聞

杜鵑滿坡 春山如畫

手機(jī)要聞

蘋果發(fā)布iOS 26.4.1更新,修復(fù)多項(xiàng)問(wèn)題并帶來(lái)功能調(diào)整

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版