国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

重磅開源!240億參數(shù)力壓Nano Banana 2

0
分享至


新智元報(bào)道

編輯:KingHZ 犀牛

【新智元導(dǎo)讀】當(dāng)多數(shù)圖像AI還停留在「會(huì)生成、不會(huì)懂空間」的階段,京東開源JoyAI-Image-Edit,把圖像編輯從平面修圖推向空間智能,也讓外界第一次看清:京東的AI布局,從來不是追風(fēng)口,而是死磕自己最有勝算的真實(shí)場(chǎng)景。

這一刻,圖像AI升維了!

過去兩年,我們見過太多「神級(jí)」圖像模型——畫貓比真貓還毛茸茸,畫賽博朋克街道比電影還炫,畫一只手有六根手指也能讓你覺得是藝術(shù)。




Grok生成的AI圖像(上下滑動(dòng))

所有人都以為,圖像AI已經(jīng)快到頭了。

直到你真的上手用它干點(diǎn)正經(jīng)事——想換個(gè)角度看看自家客廳?透視關(guān)系瞬間崩塌,沙發(fā)像在漂浮,落地?zé)舸Χ^。

想把前景的蘋果和后面的書調(diào)一下前后順序?遮擋關(guān)系直接錯(cuò)亂,比例全面失衡,畫面宛如一場(chǎng)災(zāi)難現(xiàn)場(chǎng)。

你氣不氣?你崩不崩潰?

它們會(huì)畫畫,卻不懂空間。

它們能生成驚艷的像素,卻看不懂像素背后那個(gè)立體的、有前后、有深度、有光影邏輯的真實(shí)世界。

它們是熟練的「平面裱糊匠」,卻不是懂事的「空間觀察者」。

這道坎兒,橫在圖像AI面前。

誰(shuí)來邁?

JoyAI-Image-Edit

把「空間智能」刻進(jìn)骨子里的開源模型

4月初,京東探索研究院正式對(duì)外開源自研的JoyAI-Image-Edit圖像模型。

代碼已經(jīng)放在GitHub上,以Apache 2.0協(xié)議釋出,推理代碼全部開放,開發(fā)者可以直接拿去做應(yīng)用。

目前,系統(tǒng)已完成對(duì)ComfyUI的支持,并全面兼容Diffusers格式的模型權(quán)重與推理流程,方便開發(fā)者進(jìn)行靈活部署與二次開發(fā)。


鏈接:https://github.com/jd-opensource/JoyAI-Image

體驗(yàn)地址:https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space

開源權(quán)重:https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit

這是一件大事。

因?yàn)樗皇怯忠粋€(gè)「更好用的AI修圖工具」,而是業(yè)內(nèi)首個(gè)把「空間智能」寫進(jìn)模型架構(gòu)底層的開源一體化圖像模型,讓模型真正「理解空間,編輯空間」。


野心就寫在標(biāo)題上——《JoyAI-Image:Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation》,直譯過來就是「在統(tǒng)一的多模態(tài)理解與生成中,喚醒空間智能」。

技術(shù)上,JoyAI-Image把一個(gè)80億參數(shù)的多模態(tài)語(yǔ)言模型(MLLM)和一個(gè)160億參數(shù)的多模態(tài)擴(kuò)散Transformer(MMDiT)耦合在一起,形成一個(gè)共享接口,讓空間意圖從指令解析一路貫穿到圖像生成。


更關(guān)鍵的是它背后的數(shù)據(jù)和訓(xùn)練哲學(xué):一條可擴(kuò)展的數(shù)據(jù)流水線,包含空間理解數(shù)據(jù)(OpenSpatial)、長(zhǎng)文本渲染數(shù)據(jù)、編輯數(shù)據(jù)(SpatialEdit),再加上多階段的優(yōu)化策略。

這套架構(gòu)的精髓在哪?

在于「理解」和「生成」第一次形成了真正的閉環(huán)。

過去的圖像模型,理解歸理解、生成歸生成,兩邊各玩各的。

而JoyAI-Image的核心原則是理解、生成、編輯三者之間的閉環(huán)協(xié)作:更強(qiáng)的空間理解讓生成和編輯更可控,而視角變換這類生成操作又反過來為空間推理提供新的證據(jù)。


JoyAI-Image在圖像理解、合成與編輯方面均展現(xiàn)了全面領(lǐng)先的能力

說人話就是:模型一邊「看」一邊「畫」,一邊「畫」又幫它看得更清楚。

這才是真正意義上的空間智能覺醒。

落到具體能力上,JoyAI-Image支持三種空間編輯提示范式:物體移動(dòng)(Object Move)、物體旋轉(zhuǎn)(Object Rotation)和相機(jī)控制(Camera Control)。


第一,相機(jī)控制。你可以用一句大白話告訴它——「把相機(jī)往右偏30度,往下俯15度,再拉近一點(diǎn)」——模型會(huì)在保持場(chǎng)景幾何一致性的前提下,給你生成一張全新視角的圖像,透視關(guān)系、遮擋關(guān)系、光影關(guān)系全都對(duì)得上。




編輯指令:Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°. - Camera zoom: unchanged. - Keep the 3D scene static; only change the viewpoint.



編輯指令:Move the camera.

Camera rotation: Yaw -45.0°, Pitch 22.5°.

Camera zoom: unchanged.

Keep the 3D scene static; only change the viewpoint.

第二,物體旋轉(zhuǎn)與空間漫游。支持連續(xù)的視角移動(dòng),能生成一整串邏輯連貫的多視角圖像序列。

什么意思?就好像你戴著一臺(tái)虛擬相機(jī),真的在這個(gè)三維場(chǎng)景里「走動(dòng)」,每一幀都立得住。



編輯指令:Rotate the sneaker to show the front view.



編輯指令:rotate the girl to show the rear left side view.



編輯指令:rotate the elephant to show the front view.

第三,物體空間關(guān)系操控。挪動(dòng)、旋轉(zhuǎn)、縮放畫面中的任何一個(gè)物體,場(chǎng)景整體結(jié)構(gòu)保持穩(wěn)定,遮擋自然合理,光影過渡順滑,不會(huì)再出現(xiàn)變形、錯(cuò)位、比例失衡那些老毛病。




編輯指令:Move the coffee into the red box



編輯指令:move the red car into the red box, remove the red box, remove the red car

這種空間編輯能力帶來很多有趣的新玩法──

給定第一幀(下圖左)后,你利用空間編輯能力生成視頻的最后一幀(下圖右)。



然后,由視頻生成模型在兩者之間創(chuàng)建平滑的旋轉(zhuǎn)過渡,還能保持背景的一致性。


更硬核的是橫評(píng)。

和Qwen-Image-Edit、Nano Banana Pro相比,JoyAI-Image-Edit能夠忠實(shí)執(zhí)行相機(jī)運(yùn)動(dòng),合成最具診斷性的新視角,這些高保真的新視角有效地消除了復(fù)雜空間關(guān)系的歧義。


同樣讓模型「換個(gè)角度看世界」,別人換出來的畫面或許能看,但JoyAI-Image-Edit換出來的畫面,是真的對(duì),這對(duì)于把模型投入真實(shí)生產(chǎn)和應(yīng)用環(huán)境來說至關(guān)重要。

與此同時(shí),它還全面兼容15類通用編輯能力——替換、刪除、添加、風(fēng)格遷移、細(xì)節(jié)精修、長(zhǎng)文本渲染,樣樣拿得出手;尤其在空間推理、長(zhǎng)文本渲染以及空間可控操作上表現(xiàn)尤為出色。


比如,輸入一行指令就給小貓戴上皇冠。


或者將行人從圖片中移走。


長(zhǎng)文本渲染更是拿手。



頂尖的空間編輯×全面的通用編輯,這是真正的「文武雙全」。

為什么是電商和具身?

一個(gè)模型的價(jià)值,不在跑分,而在用在哪。

JoyAI-Image-Edit最能發(fā)揮威力的兩個(gè)戰(zhàn)場(chǎng),一個(gè)是電商,一個(gè)是具身智能——恰好都是京東的主場(chǎng)。

做電商的品牌客戶,是對(duì)空間編輯最饑渴的用戶。

一件商品拍進(jìn)來,要換背景、換角度、換搭配、換場(chǎng)景、換光線。

過去這些活兒要么靠攝影師重拍,要么靠設(shè)計(jì)師通宵P圖,要么靠AI生成一堆「塑料感」假圖。

有了JoyAI-Image-Edit,一張主圖可以自動(dòng)衍生出幾十種視角和場(chǎng)景,商品還是那個(gè)商品,形象保持一致,細(xì)節(jié)不穿幫,成本直接砍到腳踝。


對(duì)于服務(wù)著數(shù)百萬(wàn)商家的京東來說,這不是錦上添花,這是水和電。

具身智能的場(chǎng)景,則是空間理解最硬的剛需。

機(jī)器人要在真實(shí)世界里干活,第一件事就是「看懂」空間——哪是桌子、哪是椅子、杯子離我多遠(yuǎn)、我伸手能不能夠到。

空間理解能力,就是機(jī)器人「理解世界」的核心底座。

而機(jī)器人行業(yè)的卡脖子問題是「數(shù)據(jù)」,如何能生產(chǎn)海量供機(jī)器人訓(xùn)練的數(shù)據(jù),光靠本體采集、遙操是不夠的,這時(shí)候JoyAI-Image-Edit能派上很大用場(chǎng)。

在具身智能的實(shí)測(cè)演示中,用戶只需輸入一句自然語(yǔ)言提示詞(比如「機(jī)器人左手舉起來」),并用畫框框選目標(biāo)區(qū)域,就能對(duì)指定物體的動(dòng)作、姿態(tài)和旋轉(zhuǎn)角度進(jìn)行精細(xì)化操控.

在機(jī)器人做家務(wù)的實(shí)拍場(chǎng)景里,模型完整保留了背景環(huán)境、物體空間關(guān)系與物理合理性,生成了機(jī)器人抬手的全新姿態(tài)。

這已經(jīng)不是「修圖」,這是機(jī)器人預(yù)演動(dòng)作,也給機(jī)器人走進(jìn)生活提供了大量?jī)?yōu)質(zhì)的數(shù)據(jù)養(yǎng)料。

現(xiàn)在,京東正在將AI能力融入其「超級(jí)供應(yīng)鏈」。

把空間智能的鑰匙交給所有人

這一次,京東選擇了Apache2.0協(xié)議開源,任何開發(fā)者、任何企業(yè)都可以自由地使用、修改、商用這個(gè)模型。

這件事的分量比想象中要重。

因?yàn)榭臻g智能是通往AGI的「最后一公里」——一個(gè)AI如果連物體在空間中的位置關(guān)系都搞不清楚,談何理解世界?

而把這樣一個(gè)在空間一致性上達(dá)到世界一流水準(zhǔn)的模型徹底開源,等于把一把關(guān)鍵鑰匙交到了整個(gè)社區(qū)手里。

對(duì)電商從業(yè)者,它是成本殺手;對(duì)設(shè)計(jì)師,它是隨身的三維助手;對(duì)機(jī)器人團(tuán)隊(duì),它是視覺感知的現(xiàn)成底座;對(duì)學(xué)術(shù)研究者,它是可以站在上面繼續(xù)往前走的巨人肩膀。

更重要的是,它讓空間智能這件事,不再是少數(shù)幾家閉源巨頭的專利。

不追風(fēng)口,只押自己最懂的場(chǎng)景

這兩年大廠卷AI卷得飛起,參數(shù)比大小、榜單比名次、發(fā)布會(huì)比排場(chǎng),每個(gè)人都想成為下一個(gè)OpenAI。

但京東的節(jié)奏一直挺「穩(wěn)」——不湊熱鬧,不跟風(fēng),它的AI布局始終死死咬住一條主線:聚焦自己最懂、最具稟賦的實(shí)體場(chǎng)景,把AI扎到產(chǎn)業(yè)最深處。

過去一段時(shí)間,京東在AI上的動(dòng)作密集得驚人:

  • 開源基礎(chǔ)大模型JoyAI-LLM Flash,用基于「纖維叢」理論的FiberPO強(qiáng)化學(xué)習(xí)方法,在19個(gè)權(quán)威基準(zhǔn)上躋身一梯隊(duì);

  • 京東云「龍蝦」系列產(chǎn)品上線后,一周token調(diào)用量環(huán)比暴漲455%;

  • 數(shù)字人JoyStreamer性能超越國(guó)際SOTA,覆蓋電商直播、文旅講解、新聞主播20多個(gè)場(chǎng)景;

  • JoyInside附身智能已經(jīng)深度接入近百個(gè)家電家居品牌、40多個(gè)機(jī)器人與AI玩具品牌,接入后帶動(dòng)硬件對(duì)話輪次平均提升120%;

更猛的是,京東宣布要建全球規(guī)模最大、場(chǎng)景最全的具身智能數(shù)據(jù)采集中心,兩年內(nèi)攢下超過1000萬(wàn)小時(shí)真實(shí)場(chǎng)景數(shù)據(jù),動(dòng)員數(shù)十萬(wàn)人搞「人類史上最大的數(shù)據(jù)采集行動(dòng)」。

看懂這份清單,你就看懂了京東的AI邏輯:零售、物流、工業(yè)、健康、具身——每一步都踩在自己的供應(yīng)鏈和場(chǎng)景資源上。

別人在云端打參數(shù)戰(zhàn),京東在地上打場(chǎng)景戰(zhàn)。

別人在比誰(shuí)的模型更聰明,京東在比誰(shuí)的AI更能干活、更能賺錢、更能落地。

而這一次開源的JoyAI-Image-Edit,正是這套打法的最新一塊拼圖。

京東的打法也給整個(gè)行業(yè)提了個(gè)醒:AI的競(jìng)爭(zhēng),終究不是參數(shù)的競(jìng)爭(zhēng),而是場(chǎng)景的競(jìng)爭(zhēng)、落地的競(jìng)爭(zhēng)、價(jià)值的競(jìng)爭(zhēng)。

誰(shuí)最懂自己的主場(chǎng),誰(shuí)就能把AI真正用起來。

零售、物流、工業(yè)、具身——京東把AI扎進(jìn)了自己最肥沃的那幾畝地,然后讓種子在產(chǎn)業(yè)的土壤里發(fā)芽。

屬于空間智能的時(shí)代,才剛剛開始。

注:文中部分輸入圖來源于Arena

歡迎點(diǎn)擊下方閱讀原文,給JoyAI-Image-Edit點(diǎn)顆星,我們一起支持開源。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4月12日俄烏最新:轉(zhuǎn)折時(shí)刻

4月12日俄烏最新:轉(zhuǎn)折時(shí)刻

西樓飲月
2026-04-12 16:18:11
中超形勢(shì):蓉城2分領(lǐng)跑 3強(qiáng)不敗1隊(duì)不勝 4隊(duì)仍負(fù)分 下輪3場(chǎng)焦點(diǎn)戰(zhàn)

中超形勢(shì):蓉城2分領(lǐng)跑 3強(qiáng)不敗1隊(duì)不勝 4隊(duì)仍負(fù)分 下輪3場(chǎng)焦點(diǎn)戰(zhàn)

我愛英超
2026-04-12 22:08:44
路人搶著合影!上海街頭驚現(xiàn)高顏值“簪花郎”,網(wǎng)友:美到犯規(guī)了

路人搶著合影!上海街頭驚現(xiàn)高顏值“簪花郎”,網(wǎng)友:美到犯規(guī)了

生活魔術(shù)專家
2026-04-11 17:38:03
我國(guó)肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

我國(guó)肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

岐黃傳人孫大夫
2026-04-12 06:30:03
史上最貴15分鐘!約老師被迫打卡保獎(jiǎng),他怒噴:這規(guī)則就是笑話

史上最貴15分鐘!約老師被迫打卡保獎(jiǎng),他怒噴:這規(guī)則就是笑話

茅塞盾開本尊
2026-04-12 17:51:42
男星查理·辛嗜性成癮,曾一天與五人發(fā)生關(guān)系,連男人他也不放過

男星查理·辛嗜性成癮,曾一天與五人發(fā)生關(guān)系,連男人他也不放過

七阿姨愛八卦
2026-04-12 17:14:49
張敬軒公開認(rèn)錯(cuò):我所心系的國(guó)家,為過去不當(dāng)言論深刻反省及后悔,向公眾致歉...

張敬軒公開認(rèn)錯(cuò):我所心系的國(guó)家,為過去不當(dāng)言論深刻反省及后悔,向公眾致歉...

廣州筍嘢益街坊
2026-04-12 11:09:05
北京主場(chǎng)遭上海雙殺引熱議!媒體吐槽北京男籃豪華內(nèi)線“紙老虎”

北京主場(chǎng)遭上海雙殺引熱議!媒體吐槽北京男籃豪華內(nèi)線“紙老虎”

狼叔評(píng)論
2026-04-12 22:12:11
絕了!嚴(yán)月霞身姿碾壓鄭麗文,中國(guó)女保鏢這才是真正的大女主!

絕了!嚴(yán)月霞身姿碾壓鄭麗文,中國(guó)女保鏢這才是真正的大女主!

TVB的四小花
2026-04-13 00:26:19
江蘇一金店回收46克黃金項(xiàng)鏈,檢測(cè)為999足金,第2天送到總部檢測(cè),純度降為70%!項(xiàng)鏈中摻入了鎢、錸,普通光譜儀測(cè)不出,72家金店被騙

江蘇一金店回收46克黃金項(xiàng)鏈,檢測(cè)為999足金,第2天送到總部檢測(cè),純度降為70%!項(xiàng)鏈中摻入了鎢、錸,普通光譜儀測(cè)不出,72家金店被騙

大風(fēng)新聞
2026-04-12 10:19:04
“半身裙與連衣裙”春日又火出圈了,這么搭配優(yōu)雅顯氣質(zhì)!

“半身裙與連衣裙”春日又火出圈了,這么搭配優(yōu)雅顯氣質(zhì)!

何有強(qiáng)
2026-04-11 23:17:43
“我怕我畢業(yè)走了他會(huì)挨餓”,山東高中生連續(xù)3年給校門口智力缺陷老人送烤腸,臨近畢業(yè)拜托附近女?dāng)傊鲙退?,攤主:很感?dòng),不會(huì)收他的錢

“我怕我畢業(yè)走了他會(huì)挨餓”,山東高中生連續(xù)3年給校門口智力缺陷老人送烤腸,臨近畢業(yè)拜托附近女?dāng)傊鲙退停瑪傊鳎汉芨袆?dòng),不會(huì)收他的錢

瀟湘晨報(bào)
2026-04-12 21:18:21
結(jié)束進(jìn)球荒,多庫(kù)時(shí)隔5個(gè)月再度代表曼城取得進(jìn)球

結(jié)束進(jìn)球荒,多庫(kù)時(shí)隔5個(gè)月再度代表曼城取得進(jìn)球

懂球帝
2026-04-13 01:05:10
霍思燕機(jī)場(chǎng)被偶遇,全素顏氣質(zhì)不如普通人!打扮邋遢,大腿特別粗

霍思燕機(jī)場(chǎng)被偶遇,全素顏氣質(zhì)不如普通人!打扮邋遢,大腿特別粗

小娛樂悠悠
2026-04-12 10:30:30
八一三淞滬會(huì)戰(zhàn),全國(guó)軍隊(duì)都在馳援上海,為什么八路軍沒有來?

八一三淞滬會(huì)戰(zhàn),全國(guó)軍隊(duì)都在馳援上海,為什么八路軍沒有來?

談史論天地
2026-04-11 15:20:03
芒果臺(tái)踩雷!趙子琪被淘汰后直播開撕,她的過往連張朝陽(yáng)都忌憚

芒果臺(tái)踩雷!趙子琪被淘汰后直播開撕,她的過往連張朝陽(yáng)都忌憚

小徐講八卦
2026-04-12 06:23:01
“人養(yǎng)屋,屋養(yǎng)人”真有道理,家里這3個(gè)地方越干凈,人越有福!

“人養(yǎng)屋,屋養(yǎng)人”真有道理,家里這3個(gè)地方越干凈,人越有福!

唯晨說
2026-04-11 08:40:06
網(wǎng)暴全紅嬋長(zhǎng)達(dá)3年,只拘10天?港媒:疑有陳芋汐、陳藝文參與

網(wǎng)暴全紅嬋長(zhǎng)達(dá)3年,只拘10天?港媒:疑有陳芋汐、陳藝文參與

開成運(yùn)動(dòng)會(huì)
2026-04-11 11:43:25
王石最麻煩的事已經(jīng)解釋清楚了

王石最麻煩的事已經(jīng)解釋清楚了

鴻樓夢(mèng)plus
2026-04-12 20:49:23
談崩了!特朗普對(duì)華施壓,禁止中伊簽協(xié)議,話音剛落中國(guó)鄰國(guó)出兵

談崩了!特朗普對(duì)華施壓,禁止中伊簽協(xié)議,話音剛落中國(guó)鄰國(guó)出兵

影孖看世界
2026-04-12 17:10:36
2026-04-13 01:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

房產(chǎn)
旅游
健康
手機(jī)
游戲

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘?,格局大變!

旅游要聞

北京:郁金香迎來盛花期

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

手機(jī)要聞

華為闊折疊設(shè)計(jì)圖曝光!這外觀你喜歡嗎?

《識(shí)質(zhì)存在》發(fā)售/《朋友收集 夢(mèng)想生活》登陸NS| 下周玩什么

無障礙瀏覽 進(jìn)入關(guān)懷版