国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別抽卡!全能&高度可控|藏師傅教你用即夢數(shù)字人 1.5

0
分享至

前幾天即夢在 Web 端上線他們的數(shù)字人 Omnihuman 1.5 版本。

今天來做個測試,同時有個教程教大家怎么用圖像模型配合生成名人數(shù)字人視頻。

相較于之前的 Omnihuman 1.0,這次不只是上傳音頻和圖片他幫你生成帶有唇形同步的動態(tài)視頻,1.5 的控制能力大幅提升,你可以定義視頻中的人物表演和運動方式。

幾乎搞定了原來 AI 視頻不好做的人物表現(xiàn)部分內容。


可以看到在設置部分多了一個動作描述的提示詞輸入,極大的拓展了數(shù)字人的使用場景,基本上可以當一個自定義程度極高的 Veo3 來使用了,你可以控制畫面內容、人物、情緒、音色以及運動和運鏡方式。

昨天用這個做了一個比較搞的片子,最近不是模仿名人營銷很火嗎,我做了一個讓喬布斯賣破拖鞋的演講,這種具有熱門視覺標定和反差感的視頻非常容易火。

我們先用幾個基礎測試來看一下 Omnihuman 1.5 的能力。

然后我會教一下大家如何用即夢圖片 4.0 和數(shù)字人 1.5 配合生成這種連貫的數(shù)字人視頻。

這次更新最明顯的一個改動就是數(shù)字人不再死板,我們可以通過動作控制讓鏡頭和人物動起來,包括不只是主角也包括其他人物。

比如上面這個案例,我們就可以讓女子先抬頭,到一個合適可以看到嘴唇的角度,然后再開始說話,同時鏡頭也在旋轉到她的正臉,背后的其他人也在正常行走,這是純粹的唇形同步模型不能做到的。

另外這次的模型升級在多風格化以及非人形生物的唇形同步上效果也變得非常的自然。

這里這種平面插畫的眼睛、嘴部和面部運動都非常自然而且生動,同時依然可以搭配他的動作比如抬手走動等,鏡頭平移的時候新出現(xiàn)的畫面風格也跟原來的很好的保持一致。

這次更新的另一個優(yōu)勢是對表情和表演的響應也更得加的好,上面的提示詞為:

女人先以平靜神情看向鏡頭,眼神柔和輕聲開口;隨即露出諷刺的表情,眉梢微挑、嘴角單側上揚;短促輕笑后肩部微松;轉為溫和講述,目光上揚,右手輕觸前景桌上的紙船;最后前傾半步以低語收束,食指輕抵唇邊作“噓”。

可以看到他響應的很好,先是面無表情的說話,然后變成諷刺的表情,之后非常順暢的在輕笑之后變得溫和,然后人物后撤開始看向紙船,最后噓的動作也做了。

整個視頻長達 16 秒,這個長度和提示詞詞遵循已經(jīng)非常厲害了,市面上可以做到這么穩(wěn)定的保持人像 ID 不變同時精準的提示詞遵循的幾乎沒有。

這次更新還有一個優(yōu)勢就是可以控制同一場景多人的對話和表現(xiàn),我們可以指定聲音是由哪個角色發(fā)出的,這個一下就讓模型的可用性拓展了很多。

比如這里我們就可以做兩人的對唱視頻,多人對話劇情也可以做了,搭配即夢 4 的改圖能力去調整鏡頭的重點很容易就可以最常見的對話劇情,比某些只會一個固定鏡頭的電視劇強多了。

從上面這幾個測試也可以看到,以往類似模型那種夸張的嘴型問題也一定程度上得到了解決,不再是所有角色說話嘴都張的很大了,模型現(xiàn)在會根據(jù)聲音內容和提示詞去調整,表現(xiàn)自然了非常多。

現(xiàn)在來看數(shù)字人教程的部分。

即夢的數(shù)字人 1.5 雖然可控和操作簡單是蹺蹺板的兩個部分,一般來說可控的模型操作就會相對復雜,所以還是需要一些門檻的。

我們可以看到數(shù)字人 1.5 做條視頻需要準備三部分內容,首先是首幀的圖片,然后就是音頻,最后就是對應的動作和情緒提示詞。

如果你需要這個視頻更加的生動,就必然不可能一直用一個視角和背景,所以我們需要更多的分鏡圖片和對音頻進行切分,這樣會讓畫面更生動。

這里我建議你先準備一個表格將每個分鏡的這三個部分寫好,然后我們看怎么去準備。


然后我們來講一下基礎的操作:

圖像這里沒啥問題你直接上傳首幀圖片就可以。


音頻這里說法比較多:

如果你自己沒有準備音頻的話,你需要直接選擇音頻部分,這時候即夢一般會根據(jù)你上傳的角色推薦一個音色,當然你也可以自己選擇,選擇完成后在說話內容這里直接打字寫上要說的話就行。

當然你也可以在音色選擇的彈窗「我的音色」這里去克隆你想用的音色,只需要 5 秒音頻就行。


如果你自己有音頻,這時候你需要點擊下面的「上傳音頻」按鈕,音頻就會回填,這時候角色說這部分就變成你上傳的音頻了不能打字。


另外還有一種情況是,你上傳的畫面里有多個角色,這時候即夢就會自動檢測到,你就可以選擇是圖片中的哪個角色在說話,可以選單個,也可以選全部。

比如他檢測到我這張圖片有兩個人,就會有三個選項,而且會有對應角色的切圖,很直觀。


最后是動作描述,這里可以用他們推薦的提示詞模板,盡量遵循清晰、不矛盾、少否定,多寫具體的內容,少用文學化和形容詞表達。

提示詞模板:

鏡頭運動 + 說話角色情緒 + 說話狀態(tài)(說話/哭泣/唱歌/...) + 具體動作 + (可選)背景事件/其他角色的動作


了解完基礎操作之后我們就需要開始準備素材了,首先我們克隆一下喬布斯的音色,你可以用即夢自帶的克隆功能,也可以自己用更大的數(shù)據(jù)量操作,我這里用的自己克隆的。


然后就是第一張圖片,我上面的分鏡表格這里顯示我們需要一張黑色背景的,提示詞:Black stage medium shot. Steve Jobs facing the camera,The background is a pure black PPT screen.


然后我們還需要一張拖鞋產(chǎn)品圖,哈哈,這里我用即夢生成的,提示詞寫像蘋果 PPT 就行。

蘋果風格發(fā)布會 PPT,一直非常破的破拖鞋,上面產(chǎn)品名字寫著“iFlip One”


只有這兩個畫面太單調了怎么辦,這個時候就得用即夢 4.0 的圖像編輯能力了。

我們直接將原來第一張圖的黑色 PPT 背景變成剛做的拖鞋 PPT。


當然第三個分鏡將會基于第二張圖去修改,直接給我們的拖鞋加上掛鉤,同時改掉 PPT 上的文字。


這樣三張非常模擬喬布斯發(fā)布會場景的圖片就做出來的,是不是已經(jīng)有那個味了。

然后我們將所有臺詞分成三段生成,第一段是提出懸念,然后第二段展示拖鞋,第三段介紹掛鉤和發(fā)售。


然后按照剛才的介紹的基礎操作分別將圖片上傳,然后寫上表格里面的語音和對應的運鏡及動作就行。


等待視頻的完成,之后的事情你們應該都會了,用剪映之類的把三段合成一段視頻就行。

這種方式比單鏡頭的數(shù)字人效果要好非常多,同時通過切分鏡頭避免了超長鏡頭導致的長生成時間和 ID 保持不住的問題,再來看一下我們的結果:

近年來 AI 視頻模型飛速發(fā)展,一直以來視頻模型就是視頻模型,唇形同步模型就是唇形同步模型,這樣正常影視流程中最常見的動作運鏡以及人物表演,被區(qū)分成了兩個部分。

過去我們面對 AI 視頻模型,就像在跟一個才華橫溢但性格古怪的藝術家合作。你給出「一個悲傷的女人在雨中行走」這樣的提示詞,然后祈禱它能理解你心中的「悲傷」是克制的還是崩潰的,「行走」是踉蹌的還是決絕的。每一次生成都像開盲盒,創(chuàng)作者被迫成為賭徒去抽卡。

Omnihuman 1.5 呈現(xiàn)的狀態(tài)更像是一臺精密的導演監(jiān)視器:首幀畫面 = 場景設定、音頻內容 = 臺詞劇本、動作提示 = 分鏡腳本、多角色控制 = 群戲調度。把創(chuàng)作從玄學變成了工程學。

當然 AI 指令精確之后,對于創(chuàng)作者的要求也變高了,那些更懂表演、調度具備「應該讓它執(zhí)行什么指令」的導演思維的人更能發(fā)揮這個模型的價值。

據(jù)悉,新模型9月30日也將同步上線即夢手機端,屆時在軟件商店更新最新版本即夢app,就能體驗。

如果覺得藏師傅的內容對你有幫助的話,可以幫忙點個贊和喜歡,也可以??轉給你具有導演思維的朋友,謝謝各位

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
14億人集體買房,為什么最后買出了一個爛攤子?

14億人集體買房,為什么最后買出了一個爛攤子?

流蘇晚晴
2026-03-25 18:14:02
喪夫僅5個月,49歲翁帆突傳“喜訊”高調露面,狀態(tài)好到出人意料

喪夫僅5個月,49歲翁帆突傳“喜訊”高調露面,狀態(tài)好到出人意料

冷紫葉
2026-03-24 19:12:36
曾經(jīng)搭檔,結局兩重天!柯文哲面臨重罪下午宣判,侯友宜訪澳回臺

曾經(jīng)搭檔,結局兩重天!柯文哲面臨重罪下午宣判,侯友宜訪澳回臺

藍色海邊
2026-03-27 01:54:10
上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒一根血管是好的

上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒一根血管是好的

上觀新聞
2026-03-24 13:32:07
重大轉折!俄羅斯,公開下場了!

重大轉折!俄羅斯,公開下場了!

大嘴說天下
2026-03-26 22:17:57
錢學森的女兒錢永真:80年代赴美留學定居美國,育有一子是美國人

錢學森的女兒錢永真:80年代赴美留學定居美國,育有一子是美國人

浩渺青史
2026-03-09 16:48:52
2025年湖南省常住人口減少47萬人,出生人口連續(xù)九年下降

2025年湖南省常住人口減少47萬人,出生人口連續(xù)九年下降

何亞福
2026-03-26 18:42:00
美伊談崩內幕:伊萬卡是“肉票”,特朗普女婿是“以色列內線”?

美伊談崩內幕:伊萬卡是“肉票”,特朗普女婿是“以色列內線”?

矚望云霄
2026-03-25 18:20:59
誰還敢充長期會員?男子視頻VIP充到2028年,被一紙新規(guī)一夜返貧

誰還敢充長期會員?男子視頻VIP充到2028年,被一紙新規(guī)一夜返貧

溫讀史
2026-03-26 10:41:06
于東來分享胖東來運營體制:管理層每年接受一次員工無記名投票,如果票數(shù)低,直接免職

于東來分享胖東來運營體制:管理層每年接受一次員工無記名投票,如果票數(shù)低,直接免職

瀟湘晨報
2026-03-26 20:51:31
德轉列世預賽附加賽球隊身價排行:意大利8.39億歐居首

德轉列世預賽附加賽球隊身價排行:意大利8.39億歐居首

懂球帝
2026-03-26 15:59:41
風向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

風向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

大衛(wèi)聊科技
2026-03-25 12:22:18
手機放床頭輻射傷身?央視實驗給出答案:這樣放手機,輻射降10倍

手機放床頭輻射傷身?央視實驗給出答案:這樣放手機,輻射降10倍

天氣觀察站
2026-03-24 19:02:53
投資近7億元,沈陽這家醫(yī)院新址就要開工了!

投資近7億元,沈陽這家醫(yī)院新址就要開工了!

沈陽百姓一家親
2026-03-27 00:08:33
多個省級黨委組織部部長調整

多個省級黨委組織部部長調整

上觀新聞
2026-03-26 12:48:05
石油危機一旦爆發(fā),房子、現(xiàn)金、股票、黃金誰最危險?

石油危機一旦爆發(fā),房子、現(xiàn)金、股票、黃金誰最危險?

蜉蝣說
2026-03-26 16:52:10
重磅實錘!瓜帥即將告別曼城,下一站徹底跳出英超

重磅實錘!瓜帥即將告別曼城,下一站徹底跳出英超

瀾歸序
2026-03-26 06:02:38
CBA排名更新:吉林落后遼寧3分

CBA排名更新:吉林落后遼寧3分

格斗江湖人
2026-03-27 03:05:08
全線跳水,超9萬人爆倉!

全線跳水,超9萬人爆倉!

每日經(jīng)濟新聞
2026-03-26 20:29:17
長期靜養(yǎng)與每天鍛煉的人,誰更長壽?調查36383名老人,給出答案

長期靜養(yǎng)與每天鍛煉的人,誰更長壽?調查36383名老人,給出答案

39健康網(wǎng)
2026-03-11 20:11:03
2026-03-27 04:28:49
歸藏的AI工具箱 incentive-icons
歸藏的AI工具箱
關注人工智能、LLM 、 AI 圖像視頻和設計
279文章數(shù) 38關注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
健康
家居
游戲
手機

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅動,支持B70 / B65顯卡

轉頭就暈的耳石癥,能開車上班嗎?

家居要聞

傍海而居 靜觀蝴蝶海

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

手機要聞

1499 iQOO Z11系列發(fā)布丨9020mAh電池 165Hz高刷

無障礙瀏覽 進入關懷版