国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

像生成文字一樣生成圖像?Qwen VLo技術(shù)原理推測(cè)

0
分享至

上一代Qwen的類似產(chǎn)品是Qwen-VL系列,就是Vision-Language,擁有看圖片和文字的能力,這次的模型后面加了一個(gè)o,變成了Qwen-VLo,我猜測(cè)是output的意思,也就是VLo = Vision-Language-Output。

這一點(diǎn)兒很容易理解,VL只能夠理解輸入,而VLo是可以輸出的,也就是圖片輸出功能。


這次的更新最大的亮點(diǎn)就在于這句話:

Qwen VLo 以一種漸進(jìn)式生成方式,從左到右、從上到下逐步清晰地構(gòu)建整幅圖片。

這種方式跟現(xiàn)在主流的圖片生成方式非常不同,比如stable diffusion,Midjourney這類型的工具,它們的生成機(jī)理是Diffusion,也就是擴(kuò)散模型。

就是下面這種生成方式,模型不是從一張白紙開始,而是從一張完全被隨機(jī)噪點(diǎn)(像老電視的雪花屏)覆蓋的圖片開始。


然后把所有的噪點(diǎn)微調(diào)一下,然后讓圖像從“完全混亂”到“稍微有點(diǎn)兒形狀”最后到“成品”,這個(gè)過程會(huì)重復(fù)幾十上百次,每一步都會(huì)離最終作品近一步。


而Qwen VLo的生成方式明顯不同,仔細(xì)看,它是不是從左到右,從上到下,跟寫作文一樣的展現(xiàn)出來的?


換句話說,你有沒有覺得這個(gè)方法跟寫作文是類似的,一行行的寫,最終完成一個(gè)稿子,再想一下,這個(gè)生成邏輯是不是跟ChatGPT一樣的大模型非常的像,也是一行行寫出來的。

你再看這個(gè)生成過程,是不是覺得更像了?


因?yàn)檫@倆的生成邏輯非常的像。

我們先看AI(比如ChatGPT)是怎么寫一句話的。

當(dāng)你讓它寫:“一只可愛的小貓?jiān)赺_”

它會(huì)先預(yù)測(cè)下一個(gè)最可能的詞,比如“睡覺”。它是怎么做到的?它會(huì)回頭看已經(jīng)寫下的“一只可愛的小貓?jiān)凇?,然后根?jù)這些信息,推斷出“睡覺”是合理的。接著,如果要繼續(xù)寫,它會(huì)看“一只可愛的小貓?jiān)谒X”,再推斷下一個(gè)詞。

這個(gè)過程有幾個(gè)關(guān)鍵特點(diǎn):

  • 順序性:一個(gè)詞一個(gè)詞地往后寫,不能顛倒。

  • 依賴性:后面寫的詞,嚴(yán)重依賴于前面已經(jīng)寫好的所有詞。

這種“回頭看,再向前走一步”的機(jī)制,就叫做自回歸(Auto-Regressive)?!癆uto”是“自己”的意思,“Regressive”是“回歸、追溯”的意思,合起來就是“(從)自己過去(的結(jié)果)來推斷未來”。


而Qwen VLo用的方法大概率就是這種,在畫圖上其實(shí)也可以用,實(shí)際上把一張圖片分割成小塊,再排列一下,其實(shí)就把2維->1維,就像下面這樣。

您可以想象把一張圖片切成很多個(gè)小方格(比如4x4像素的圖塊),就像一張馬賽克。


然后,模型把這些小方格按數(shù)字順序拉成一條長(zhǎng)隊(duì):1-2-3-4--16。

這樣,畫畫的任務(wù)就變成了像寫文章一樣,按順序“填寫”這一長(zhǎng)串的小方格。

那么在Qwen VLo創(chuàng)作的時(shí)候,接到指令之后,比如“生成一張可愛的柴犬”。

生成第1格:它看著指令,思考:“這幅畫的左上角(第1格)應(yīng)該是什么樣子的?” 也許是一點(diǎn)藍(lán)天背景。于是它生成了第1格。


生成第2格:現(xiàn)在,它回頭看指令剛剛畫好的第1格,思考:“在這樣的指令和左上角這塊藍(lán)天的旁邊,第2格應(yīng)該是什么?” 也許還是藍(lán)天。于是它生成了第2格。


持續(xù)進(jìn)行:這個(gè)過程一直持續(xù),直到最后一個(gè)小方格(右下角)被填滿。整幅圖像就像一幅十字繡,一針一線、一個(gè)格子一個(gè)格子地被繡了出來。


這就是Qwen VLo“逐步清晰地構(gòu)建整幅圖片”的機(jī)理。它的每一步?jīng)Q策都基于指令和所有“歷史創(chuàng)作”,因此邏輯性很強(qiáng),細(xì)節(jié)也更可控。

換句話說,它更可控,所以我覺得在未來的視頻生成中,它將會(huì)是主流。


當(dāng)然這也是我的猜測(cè),一切的技術(shù)細(xì)節(jié)要等Qwen VLo開源或者公布技術(shù)報(bào)告才能下定論。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來上班

女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來上班

梅子的小情緒
2025-12-19 14:04:18
河南網(wǎng)紅“蹭飯書記”11月中旬卸任,稱將回老家當(dāng)村干部

河南網(wǎng)紅“蹭飯書記”11月中旬卸任,稱將回老家當(dāng)村干部

澎湃新聞
2025-12-27 12:12:27
見證歷史!凌晨,全線大漲!發(fā)生了什么?

見證歷史!凌晨,全線大漲!發(fā)生了什么?

數(shù)據(jù)寶
2025-12-27 12:53:26
中國(guó)經(jīng)濟(jì)的未來,取決于分配制度的改革

中國(guó)經(jīng)濟(jì)的未來,取決于分配制度的改革

生命可以承受之輕
2025-12-27 11:07:22
大家斷崖式衰老都是在多少歲? 網(wǎng)友的回答很扎心了,滿是無奈

大家斷崖式衰老都是在多少歲? 網(wǎng)友的回答很扎心了,滿是無奈

另子維愛讀史
2025-12-26 16:31:13
“早餐這么豐盛,女兒還翻白眼”,2.2w人怒了:讓她餓肚子上學(xué)!

“早餐這么豐盛,女兒還翻白眼”,2.2w人怒了:讓她餓肚子上學(xué)!

卷史
2025-12-26 21:18:25
32師最后一屆領(lǐng)導(dǎo)班子全部止步于正師級(jí),是因?yàn)閹熼L(zhǎng)那句話嗎?

32師最后一屆領(lǐng)導(dǎo)班子全部止步于正師級(jí),是因?yàn)閹熼L(zhǎng)那句話嗎?

丞丞故事匯
2025-12-27 14:40:16
一車企海報(bào)被指“用粵語不雅詞匯”引爭(zhēng)議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭(zhēng)議海報(bào)已被撤換

一車企海報(bào)被指“用粵語不雅詞匯”引爭(zhēng)議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭(zhēng)議海報(bào)已被撤換

揚(yáng)子晚報(bào)
2025-12-25 18:00:21
影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

徐幫陽
2025-12-23 18:33:38
索賠23億元!極氪欣旺達(dá)為何撕破臉了?

索賠23億元!極氪欣旺達(dá)為何撕破臉了?

汽車公社
2025-12-27 08:52:19
美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

羅說NBA
2025-12-28 06:53:32
比肩喬丹!威少轟21+9+5記三分破紀(jì)錄:助攻超魔術(shù)師獨(dú)享歷史第七

比肩喬丹!威少轟21+9+5記三分破紀(jì)錄:助攻超魔術(shù)師獨(dú)享歷史第七

追球者
2025-12-28 08:20:35
人民幣持續(xù)升值,會(huì)引發(fā)全球金融海嘯

人民幣持續(xù)升值,會(huì)引發(fā)全球金融海嘯

何毅商業(yè)財(cái)經(jīng)
2025-12-27 20:10:50
尼日爾賴掉4億美元,驅(qū)逐中企高管,中方暗藏底牌漂亮反擊

尼日爾賴掉4億美元,驅(qū)逐中企高管,中方暗藏底牌漂亮反擊

南冥那只貓
2025-05-11 10:33:43
為延續(xù)政治香火,侯友誼亮出陰險(xiǎn)一招,要把鄭麗文推向萬丈深淵

為延續(xù)政治香火,侯友誼亮出陰險(xiǎn)一招,要把鄭麗文推向萬丈深淵

博覽歷史
2025-12-27 16:56:46
李宗仁歸國(guó)之后,希望能出任人大副委員長(zhǎng)一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

李宗仁歸國(guó)之后,希望能出任人大副委員長(zhǎng)一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

史海孤雁
2025-12-25 16:48:16
錢再多也沒用!70歲世界首富的比爾蓋茨,為戀愛腦小女兒操碎了心

錢再多也沒用!70歲世界首富的比爾蓋茨,為戀愛腦小女兒操碎了心

振華觀史
2025-12-27 14:58:51
我給局長(zhǎng)當(dāng)十年秘書,告別擁抱他躲開,隔天市委叫我見新書記

我給局長(zhǎng)當(dāng)十年秘書,告別擁抱他躲開,隔天市委叫我見新書記

曉艾故事匯
2025-12-15 08:13:39
48小時(shí)驚天逆轉(zhuǎn),高市支持率狂飆至92.4%,日本政壇發(fā)生了什么事?

48小時(shí)驚天逆轉(zhuǎn),高市支持率狂飆至92.4%,日本政壇發(fā)生了什么事?

來科點(diǎn)譜
2025-12-28 08:59:58
巴薩“忠烈”隊(duì)長(zhǎng)拒絕離隊(duì)哪怕無緣世界杯,只想履行合同拿完工資,巴薩高薪養(yǎng)閑人

巴薩“忠烈”隊(duì)長(zhǎng)拒絕離隊(duì)哪怕無緣世界杯,只想履行合同拿完工資,巴薩高薪養(yǎng)閑人

慢歌輕步謠
2025-12-28 08:46:19
2025-12-28 10:03:00
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

新任NASA掌門放話:特朗普任期內(nèi)必將重返月球

頭條要聞

四川原副省長(zhǎng)葉寒冰被通報(bào):長(zhǎng)期出入私人會(huì)所聚餐飲酒

頭條要聞

四川原副省長(zhǎng)葉寒冰被通報(bào):長(zhǎng)期出入私人會(huì)所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

旅游
藝術(shù)
親子
公開課
軍事航空

旅游要聞

來松江,就放松丨連續(xù)4天上演煙花秀!上海歡樂谷閃耀歡禧節(jié)開啟

藝術(shù)要聞

手串種類大盤點(diǎn),全見過的算得上是文玩老手了!

親子要聞

62歲懷二胎真相驚人!醫(yī)生擔(dān)憂的惡心一幕曝光!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進(jìn)入關(guān)懷版