国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

太猛了!終于有人來管管 AI 視頻的語音和表演了:GAGA AI 實測

0
分享至

提前試了一下曹越(Sand.ai)那邊新發(fā)布的專注于人物對話表演的模型 GAGA-1(gaga.art).

應該是目前涉及到人物細微表演對話的最強模型了,在表演這部分甚至可以超過 Sora2。

本來就是隨便試一下,沒想到他這么猛,先來看一個簡要介紹和我測試的混剪:

  • 聲音和畫面一起生成,即使是側面的唇形同步都非常到位,語音音效都有
  • 面部表情和聲音聲調配合的非常好,表演細膩不夸張,提示遵循也很好
  • 支持雙人的場景演繹,可以很好的理解提示詞中不同人物的語音
  • 支持多語言輸出,我測試完之后發(fā)現(xiàn)甚至可以多語言混合輸出
  • 目前支持免費體驗,支持圖生、單次生成最長 10 秒,分辨率為 720P,但是細節(jié)豐富

首先是一些基礎的測試,比如讓他介紹一下自己。

先平靜微笑,說:“嗨,我在測試 Gaga AI?!痹僬J真一點說:“你覺得它表現(xiàn)怎么樣?!?

可以看到在說后面那句話的時候,女生的面部表情非常的細膩,尤其是看向鏡頭的那個眼神、挑眉和說話時候的點頭動作,太真實了,這種面部細節(jié)我從離開沒有在其他模型上見到過。

本來我沒抱啥希望的,但是跑完這個測試我就發(fā)現(xiàn)不對,這玩意好像有點強,而且這些細微表情你是不太好在提示詞里面寫的,只能靠模型自己的智能。

然后來個我們常見的順口溜來看看嘴型和語音的表現(xiàn)。

清晰口型,節(jié)奏均勻:“八百標兵奔北坡,炮兵并排北邊跑?!保ㄕf完輕呼一口氣)

這里可以看到語音和整個面部的配合是非常好的,同時手部動作也在搖晃他的扇子,讓整個畫面不至于太單調。

后面?zhèn)€嘆氣的處理太好了,再一次體現(xiàn)了這個模型在表演層面已經有了一些泛化的智能,我并沒有說嘆氣的表情,他自己就能推導出來這是表演完了比較輕松的一個狀態(tài),所以就表現(xiàn)出來了。

然后來一下看一下環(huán)境音和語音的配合。

邊說邊輕微抬手:“聽到杯沿的輕碰聲了嗎?”(然后輕觸杯子,出現(xiàn)細微杯碰聲)(停頓)“就像在現(xiàn)場一樣?!?/p>

這里我故意指定了杯子的聲音,以及說話的順序,他也按照這個順序表現(xiàn)了出來。

可以看到人物的表情依然非常細膩,而且在說到“就像在現(xiàn)場一樣”的時候有驚嘆和自豪的表情,這完全是模型自己處理的。

但有個問題是 GAGA-1 是專門為了表演和語音訓練的模型,如果可以的話盡量避免復雜精細的手部運動,比如這里手部就有些問題。

從上面的幾個測試看,基礎的表演和模型智能已經相當好了,然后再試試他多語言的能力。

這塊還得指望中國模型,畢竟海外的模型一般不會對中文進行強化。

要不就是用了一些臺灣人或者中文不標準的人的語音資料導致聽起來和看起來都很別扭 Sora2 有時候就有一些,Veo3 就別說了。GAGA-1 在中文完美的基礎上,其他語言的表現(xiàn)也很頂。

提示詞:

英語:Gentle opening: "At first, I was very optimistic." (smiling, eyes relaxed),(pause 0.5 seconds, slight furrow of the brow) "But the data tells me we need to make decisions calmly." (steady gaze, slight nod)

日語:自然禮貌語氣“こんにちは。大事な発表です。落ち著いて、聞いてください?!保ㄝp點頭)

西班牙語:溫暖自信語氣“Gracias por venir. La verdad es clara: ahora reimaginamos el cine con IA.”

中英混合:淡定語氣:“結論很簡單——we’re ready for production.”(停頓0.3秒)“就現(xiàn)在?!?/p>

這里我分別試了一下英語、日語、西班牙語和多語言混合的情況,可以看到每個都非常標準,而且唇形同步也都是對的,細微的表情也都非常豐富,可以說不同語言之前的表現(xiàn)沒有啥區(qū)別,聽起來和看起來都像是說母語的人的表現(xiàn)。

接下來就到了最重要的情緒甚至復雜情緒的表現(xiàn)。

羞恥與自責的表情,目光回避、壓低聲音說:“我作弊了?!比缓笙骂M收緊,用發(fā)抖的聲音說“對不起,我不該那樣做。”

這個真的跑的太好了,我一直認為極端情緒的表現(xiàn)不是考驗模型表演能力的關鍵,關鍵在于那些不是很極端的場景化的情緒表現(xiàn)。

比如剛開始躲閃的目光、以及與之配合的壓低的聲音,真的你讓我演我真演不出來,GAGA-1 在表演上確實比我們沒學過表演的強太多了。

后面收緊下頜的動作也很自然,先是稍微低了一下頭,然后才徹底把頭低下去,語音上也有一個由弱變強的過程。

絕望與懇求的表情,下大雨的聲音,女生呢喃說到:“別走讓我至少把話說完?!比缓蟠舐曊f:“我會改的,真的?!?/p>

這里這個場景就相對復雜了,女生是站在車外的,而且還是雨天,有車窗隔著,畫面和聲音的情況要考慮的都多一點。

仔細聽的話該有的雨聲也是有的,他很好的考慮了鏡頭在車里的情況,所以雨聲沒有那么大,而且還自己加上了非常應景的鋼琴 BGM,加強了氛圍的渲染。

在表情和語音配合上,可以看到剛開始小聲說話的時候模型給女生加了一點發(fā)抖的情況,這也是人在有劇烈情緒的正常反應,非常形象了。同時先小聲說話然后有個思考的停頓然后大聲說話的時候情緒的轉變也會更自然,它臺東表演了。

單人都這么猛了,我們來試試雙人。

A(微笑):“用一句話概括 GAGA-1?”B(平穩(wěn)):“聲音、口型、表情,同步到位?!盇(點頭):“影視級,直出可用?”B(篤定):“當然?!?/p>

我這里加了點難度直接用的 AB 來表示左右的人,然后還用了兩個側臉。

但沒想到他依然可以 Get 到提示詞的要求,而且在中間的時候把應該 B 一直說的話改成了一人說一句,整個視頻生動了不少。

側臉的唇形同步和面部表情也相當不錯,沒有崩壞的情況,同時也沒有其他模型會出現(xiàn)的音畫不同步的情況,唯一小問題是在讀 GAGA 的時候有點嘴瓢,感覺要避免大段中文加一兩個英文單詞的情況。

再來一個場景化的情緒豐富一點的雙人測試,辦公室吵架。

左邊的男性憤怒的說:“預算是誰改的?”右邊女性心虛的說:“我……是我,但我別無選擇?!弊筮吥行杂昧鑵柕难凵窨粗檀傥鼩庹f:“你有。”

這里的整個情緒非常劇烈,同時模型自己也為了配合情緒加大了人物的動作,知道在質問的時候需要看著對方,同時需要有劇烈的動作,可以看到即使是在非常極限的人臉角度下,面部表情和嘴型也堵維持住了。

這里我還給男性和女性分別指定了情緒和表情,男性是非常強烈的憤怒,女性是相對比較細微的心虛,兩者都表現(xiàn)的不錯,尤其是最后那個短促吸氣說話的感覺,相當到位。

由于時間跟對話有時候不匹配,可能會有一小段時間不動,這個用的時候剪掉就行。

好了這就是這次 GAGA-1 模型測試的主要內容了,這是一個長板很長同時短板很短的模型,Send AI 在訓練的時候目標就非常的明確,就是把語音和表演表現(xiàn)拉滿,他們也確實做到了。

我探索下來,這個模型的幾個使用要點有:

  1. a.提示詞上可以先說情緒變化,然后再說說話的語氣和內容,如果需要停頓的話,可以直接寫,也可以用波折號或者省略號表達。
  2. b.雙人的表現(xiàn)不錯,用左右或者男女去指定說話的人他都能理解,甚至 A、B 都行,但是超過雙人的表現(xiàn)會有一定的下降,優(yōu)先用雙人。
  3. c.如果圖生的話盡量不要有太多的肢體或者全身漏在外面,也需要少些復雜動作提示詞,可能會崩。
  4. d.如果字數少的話比如十個字以內可以選擇 5 秒的生成時長,如果是長對話可以選 10秒。
  5. e.目前只支持 16:9 的橫屏比例,過段時間會支持豎屏的 9:16 比例。

隨著視頻模型的發(fā)展,我們漸漸不太滿足于復雜動態(tài)和物理表現(xiàn)、提示詞遵循這種最基本的要求,因為這些 AI 視頻模型可以生成的內容只占正常內容制作的一小部分。

從 GAGA-1、Sora2、Veo3 等模型我們可以發(fā)現(xiàn),現(xiàn)在的 AI 視頻模型發(fā)展已經到了下一個階段:


  • 我們需要更加關注情緒表達和表演、音效和語音,模型開始朝著端到端的多模態(tài)一體化輸出。
  • 同時需要關注模型本身的世界知識和智能程度,不僅可以理解畫面內容進行視覺推理,同時自己有編排分鏡腳本和剪輯的能力。

原來很多人認為這部分需要 Agent 來完成,現(xiàn)在看來也被模型內化了,Agent 制作的朋友需要將模型的進步考慮的更加激進一些才行。

本來看到 Veo3 和 Sora 2 之后覺得國內的模型有點難了,但看到 GAGA-1 后發(fā)現(xiàn)還是有明白人的。

目前 GAGA-1 可以免費試用,感興趣可以去試試。

如果覺得藏師傅的內容不錯的話,可以幫我點個贊或者喜歡,也可以轉發(fā)??給你需要的朋友,感謝。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

有范又有料
2025-12-17 14:54:06
巴拿馬后悔了,主動找上中國,愿中方不計前嫌,兩國還是好伙伴

巴拿馬后悔了,主動找上中國,愿中方不計前嫌,兩國還是好伙伴

比利
2026-03-26 23:13:58
公主嫁給權臣為小妾,她前夫卻找上門來,憑半面破鏡把人帶走了!

公主嫁給權臣為小妾,她前夫卻找上門來,憑半面破鏡把人帶走了!

野史日記
2026-03-25 19:30:08
隱身的名字:水泥藏尸案被揭開,任小名拋棄何宇穹嫁劉瀟然的真相

隱身的名字:水泥藏尸案被揭開,任小名拋棄何宇穹嫁劉瀟然的真相

慢半拍sir
2026-03-27 00:06:26
破防!馬英九專訪20分鐘緊急叫停,“失智疑云”背后藏著更大棋局

破防!馬英九專訪20分鐘緊急叫停,“失智疑云”背后藏著更大棋局

戧詞奪理
2026-03-26 11:13:50
人生五十歲才是真正關鍵,這三件事碰都不要碰

人生五十歲才是真正關鍵,這三件事碰都不要碰

阿鄭的讀書日常
2025-07-03 15:14:16
放牛老漢在山上發(fā)現(xiàn)一個女子,不顧女子的反抗,將女子拖回了家

放牛老漢在山上發(fā)現(xiàn)一個女子,不顧女子的反抗,將女子拖回了家

喬生桂
2025-12-05 10:47:42
對標何潤東趙麗穎!張凌赫被嘲粉底液將軍!評論區(qū)慘不忍睹

對標何潤東趙麗穎!張凌赫被嘲粉底液將軍!評論區(qū)慘不忍睹

小邵說劇
2026-03-25 19:50:11
國際奧委會:奧運女子組賽事將僅限生理女性參加,需做基因檢測

國際奧委會:奧運女子組賽事將僅限生理女性參加,需做基因檢測

界面新聞
2026-03-26 21:27:52
國乒世乒賽選拔:王藝迪奪冠成候選!9人已獲名額,陳熠等人落榜

國乒世乒賽選拔:王藝迪奪冠成候選!9人已獲名額,陳熠等人落榜

全言作品
2026-03-26 19:26:38
你見過最離譜的網購是什么?網友:倉庫是不會承認自己發(fā)錯了的

你見過最離譜的網購是什么?網友:倉庫是不會承認自己發(fā)錯了的

另子維愛讀史
2026-02-16 20:35:50
紅棗被點名!醫(yī)生提醒:常吃紅棗的高血脂患者,或可收獲這幾變化

紅棗被點名!醫(yī)生提醒:常吃紅棗的高血脂患者,或可收獲這幾變化

健康科普365
2026-03-19 18:45:03
近半年來,多家工廠密集發(fā)布停工放假通知!

近半年來,多家工廠密集發(fā)布停工放假通知!

黯泉
2026-03-26 18:48:20
張雪峰老師因心臟病離世,直播中曾坦言書法是“天坑”專業(yè),出路太窄,沒錯

張雪峰老師因心臟病離世,直播中曾坦言書法是“天坑”專業(yè),出路太窄,沒錯

云隱南山
2026-03-26 16:19:11
法國前總理若斯潘去世

法國前總理若斯潘去世

參考消息
2026-03-26 21:17:12
中方堅決扣留船只,美方及時干預 取消中企投標資格,巴拿馬難挽

中方堅決扣留船只,美方及時干預 取消中企投標資格,巴拿馬難挽

南宗歷史
2026-03-25 16:04:15
美國這次要栽了,特朗普犯下致命誤判,奧巴馬8年前警告或成真

美國這次要栽了,特朗普犯下致命誤判,奧巴馬8年前警告或成真

陌初寒上只
2026-03-27 02:10:00
國產頂級神劇,只可惜,央視播完就禁了

國產頂級神劇,只可惜,央視播完就禁了

獨立魚
2026-03-23 21:22:17
日本諾貝爾獎得主大江健三郎表示:很遺憾,日本很可能將重復歷史

日本諾貝爾獎得主大江健三郎表示:很遺憾,日本很可能將重復歷史

議紀史
2025-11-27 14:35:03
原“一汽”總設計師:不管我們怎么改!卡車質量就比不上“二汽”

原“一汽”總設計師:不管我們怎么改!卡車質量就比不上“二汽”

福建平子
2026-03-20 13:58:05
2026-03-27 03:59:00
歸藏的AI工具箱 incentive-icons
歸藏的AI工具箱
關注人工智能、LLM 、 AI 圖像視頻和設計
279文章數 38關注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

藝術
家居
房產
健康
數碼

藝術要聞

北京大興機場和青島膠東機場“撞臉”,長得像就是抄襲?

家居要聞

傍海而居 靜觀蝴蝶海

房產要聞

突發(fā),三亞又有大批征遷補償方案出爐!

轉頭就暈的耳石癥,能開車上班嗎?

數碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅動,支持B70 / B65顯卡

無障礙瀏覽 進入關懷版