国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)時(shí)交互 AI 技術(shù)基建,Soul 打出了王牌

0
分享至


布局 AI 生態(tài),讓社交回歸情感本質(zhì)。

作者|十九

編輯|鄭玄

從2025年到2026年,Soul 的開源動(dòng)作幾乎沒有停歇。

3 月 16 日,Soul AI 團(tuán)隊(duì)(Soul AI Lab) 發(fā)布了新的開源模型 SoulX-LiveAct,技術(shù)報(bào)告中具體提到,該工作能夠在 2 張 H100/H200 條件下,達(dá)到 20 FPS 的實(shí)時(shí)流式推理能力,且支持輸入圖像、音頻和指令驅(qū)動(dòng),即可生成表情生動(dòng)、情緒可控、擁有豐富全身動(dòng)作的實(shí)時(shí)數(shù)字人視頻。

在此之前,這個(gè)團(tuán)隊(duì)已先后開源了多個(gè)模型,包括了實(shí)時(shí)數(shù)字人生成方向(SoulX-FlashHead、SoulX-FlashTalk),歌聲合成方向(SoulX-Singer),播客語(yǔ)音合成方向(SoulX-Podcast)等,覆蓋圍繞交互的多個(gè)維度。

傳統(tǒng)印象中,Soul 一直被視為「應(yīng)用平臺(tái)」,如今選擇開源本身便充滿了討論點(diǎn)。這不僅意味著平臺(tái)攜手開源社區(qū)構(gòu)建起豐富 AI 應(yīng)用生態(tài)的新可能,更重要的是,這些工作圍繞的核心點(diǎn)是「多模態(tài)實(shí)時(shí)交互」與「真實(shí)場(chǎng)景可用」,指向了「AI 社交」時(shí)代核心技術(shù)標(biāo)準(zhǔn)的重新定義。

01

實(shí)時(shí)數(shù)字人:從能用到好用

關(guān)注到「Soul AI Lab」這個(gè)標(biāo)簽,是因?yàn)榻鼇?,它高頻出現(xiàn)在 AI 社區(qū)分享交流群中。

近期,這個(gè)團(tuán)隊(duì)最新發(fā)布的 SoulX-LiveAct 面向?qū)崟r(shí)數(shù)字人生成領(lǐng)域。

年初,字節(jié)旗下音視頻生成模型 Seedance 展現(xiàn)出驚艷的運(yùn)鏡能力和細(xì)膩的視頻效果,讓大眾意識(shí)到了 AI 在影視、內(nèi)容創(chuàng)作的巨大潛力,也再次反映出在「落地」成為 AI 領(lǐng)域共識(shí)的當(dāng)下,行業(yè)對(duì)于大模型的需求已經(jīng)不再是「能不能用」而是「好不好用」。

實(shí)時(shí)數(shù)字人領(lǐng)域,高畫質(zhì)、長(zhǎng)時(shí)穩(wěn)定性、低部署成本長(zhǎng)期被視為「不可能三角」。行業(yè)在具體落地技術(shù)時(shí),其實(shí)長(zhǎng)期面臨一個(gè)問題:視頻生成時(shí)長(zhǎng)一旦拉長(zhǎng),畫面穩(wěn)定性與人物一致性會(huì)明顯下降,常見的 Bug 包括身份漂移、細(xì)節(jié)丟失、畫面閃爍,以及實(shí)時(shí)推理成本隨時(shí)長(zhǎng)上升等等。通過底層算法的重構(gòu),SoulX-LiveAct 想要嘗試解決這些問題。

不同于傳統(tǒng)的 AR diffusion 對(duì)歷史記憶的無節(jié)制依賴,SoulX-LiveAct 在「條件傳播方式」和「歷史記憶管理」兩個(gè)維度實(shí)現(xiàn)了技術(shù)閉環(huán),拋棄了隨時(shí)長(zhǎng)線性增長(zhǎng)的沉重緩存機(jī)制,通過全局特征鎖定極致,既能精準(zhǔn)「帶得動(dòng)」超長(zhǎng)時(shí)段的歷史上下文,又不會(huì)因緩存膨脹拖累推理效率。這意味著,數(shù)字人具備了在小時(shí)級(jí)甚至全天候長(zhǎng)直播中的實(shí)戰(zhàn)能力。

通常情況下,長(zhǎng)視頻最容易「翻車」的不是第一分鐘,而是第十分鐘、第三十分鐘:可能是臉漂、發(fā)型/衣紋漂移,也可能是飾品忽隱忽現(xiàn),甚至口型逐步失配。SoulX-LiveAct 能在更長(zhǎng)時(shí)間窗口內(nèi)保持身份一致性與關(guān)鍵細(xì)節(jié)持續(xù)穩(wěn)定。

商業(yè)落地層面,SoulX-LiveAct 展現(xiàn)了極強(qiáng)的工程化能力與成本控制優(yōu)勢(shì)。僅需 2 張 H100/H200 即可達(dá)到 20 FPS 的實(shí)時(shí)流式推理能力,端到端延遲被壓縮至約 0.94s。通過單幀計(jì)算成本降低到 27.2 TFLOPs / frame,SoulX-LiveAct 顯著減輕了算力壓力,讓原本專屬于頂級(jí)服務(wù)器的高品質(zhì)實(shí)時(shí)交互,具備了向消費(fèi)級(jí)硬件下放的可能。

視頻由 SoulX-LiveAct 生成,人聲由 Soul 開源的另一個(gè)工作 SoulX-Podcast 生成

事實(shí)上,面對(duì)實(shí)時(shí)數(shù)字人方向的「能用」到「好用」,Soul 已經(jīng)推出了多個(gè)解決方案。

春節(jié)前,Soul AI Lab 發(fā)布的 SoulX-FlashTalk——行業(yè)中首個(gè)能夠?qū)崿F(xiàn) 0.87s 亞秒級(jí)超低延時(shí)、32fps 高幀率,并支持超長(zhǎng)視頻穩(wěn)定生成的 14B 數(shù)字人模型。在開源后,快速?zèng)_入全球最大 AI 開源社區(qū) Hugging Face I2V(Image To Video)趨勢(shì)榜 TOP5,目前在 Github 已積累了 1.1k+Star。

而另一個(gè)同樣是春節(jié)前推出的 1.3B 參數(shù)輕量化模型 SoulX-FlashHead,Lite 版本在單張消費(fèi)級(jí)顯卡(RTX 4090)上跑出 96FPS 的工業(yè)級(jí)速度,同時(shí)能夠?qū)崿F(xiàn)高質(zhì)量畫質(zhì),在發(fā)布后也快速進(jìn)入 HuggingFace I2V 趨勢(shì)榜 TOP4。

02

實(shí)時(shí)交互:AI 時(shí)代的技術(shù)基建

為什么 Soul 在持續(xù)死磕「實(shí)時(shí)交互」方向?

舉個(gè)簡(jiǎn)單的例子,大模型爆火后,或許是 ChatGPT 定義了面向 C 端的基本形態(tài),后續(xù)所有的產(chǎn)品基本均采用了類似的交互模式——用文字或語(yǔ)音,人與 AI 交互過程中,完成信息的獲取和內(nèi)容的處理、創(chuàng)作。

而實(shí)時(shí)數(shù)字人生成技術(shù)則意味著這種交互升維到視覺層面。ta 擁有一個(gè)完整的,可互動(dòng)的視覺形象,且這個(gè)視頻互動(dòng)的過程是「雙向」的,ta 不只是會(huì)回應(yīng)你的問題和指令,還會(huì)自動(dòng)根據(jù)語(yǔ)境,判斷互動(dòng)時(shí)機(jī)、節(jié)奏。是一種再自然不過,類似現(xiàn)實(shí)交流的場(chǎng)景。

此前,極客公園張鵬曾有一個(gè)判斷,Location(位置)作為一條技術(shù)棧,最終成為了整個(gè)移動(dòng)互聯(lián)網(wǎng)時(shí)代最不可或缺的底層基礎(chǔ)設(shè)施之一。而「有效的主動(dòng)性」將成為 AI 時(shí)代至關(guān)重要的技術(shù)棧?!杆屇阍械漠a(chǎn)品,突破了純工具的被動(dòng),擁有了主動(dòng)對(duì)用戶一次次滿足預(yù)期,甚至超預(yù)期中建立信任的可能。在此過程中形成的「關(guān)系」,正是 AI 產(chǎn)品獨(dú)有的延伸資產(chǎn),是你突破用戶 LTV(life time value,生命周期總價(jià)值)天花板、構(gòu)筑真正護(hù)城河的關(guān)鍵。」

如今,實(shí)時(shí)交互,同樣創(chuàng)造了一種超預(yù)期的體驗(yàn),這也是 AI 在社交場(chǎng)景的核心技術(shù)難點(diǎn)之一。

因此,聚焦實(shí)時(shí)交互,Soul 在多模態(tài)方向均有探索,除了實(shí)時(shí)數(shù)字人方向,此前,Soul 還先后開源了語(yǔ)音合成模型 SoulX-Podcast、歌聲合成模型 SoulX-Singer、全雙工語(yǔ)音對(duì)話控制模塊 SoulX-Duplug。

其中,SoulX-Podcast 是一款專為多人、多輪對(duì)話場(chǎng)景打造的語(yǔ)音生成模型,支持中、英、川、粵等多語(yǔ)種/方言與副語(yǔ)言風(fēng)格,能穩(wěn)定輸出超 60 分鐘、自然流暢、角色切換準(zhǔn)確、韻律起伏豐富的多輪語(yǔ)音對(duì)話。在去年10月底發(fā)布后快速登頂 Hugging Face TTS 趨勢(shì)榜,Github Star 數(shù)目前超過 3.2K。

實(shí)時(shí)數(shù)字人、語(yǔ)音、歌聲...... 基于這些能力,AI 能實(shí)現(xiàn)更多的互動(dòng)可能,例如社交場(chǎng)景中 AI 不會(huì)「把天聊死」,即便面對(duì)那些相對(duì)內(nèi)向,社交能力較弱的「I 人」,也能拉長(zhǎng)整個(gè)互動(dòng)的周期,并且具備豐富的演繹(如能歌會(huì)唱)能力,帶來不一樣的交流體驗(yàn)。

這一整套的大模型能力,讓 AI 從「應(yīng)答式」交互,變成了「陪伴」,產(chǎn)品定義也從簡(jiǎn)單的工具使用,到真正的「伙伴」和數(shù)字交互「入口」。


03

AI社交還有什么新可能?

一直以來,Soul 在大眾層面的標(biāo)簽,更多是與 Z 世代、年輕人高度綁定的社交產(chǎn)品。

目前的開源動(dòng)作,成為觀察其 AI 布局的新切入口。這種「反直覺」布局的背后并非單純的炫技,而是其深刻的產(chǎn)品洞察:通用的服務(wù)無法交付差異化的社交體驗(yàn)。

Soul 的 AI 基因并非始于大模型熱潮。其早期的智能推薦系統(tǒng)已在嘗試用 AI 解決人與人的匹配效率和質(zhì)量問題。進(jìn)入大模型時(shí)代,Soul 發(fā)現(xiàn)通用模型雖能「對(duì)答如流」,卻無法交付具有情感溫差和極致在場(chǎng)感的社交體驗(yàn),自研了 SoulX 大模型。


與此同時(shí),社交場(chǎng)景對(duì)響應(yīng)延遲有著極高要求,為實(shí)現(xiàn)亞秒級(jí)反饋,Soul 必須在全雙工通信、低延遲傳輸、多模態(tài)交互等底層技術(shù)上「死磕」。這些為解決社交核心痛點(diǎn)打磨的工業(yè)級(jí)模型,也天然具備了對(duì)外技術(shù)輸出的價(jià)值。

不同于實(shí)驗(yàn)室里的 Demo,Soul 的模型已經(jīng)經(jīng)過真實(shí)、高并發(fā)、復(fù)雜社交場(chǎng)景的驗(yàn)證,這意味著開發(fā)者可以「拿來即用」,極大地降低了技術(shù)落地門檻。

相較于電影、小說等傳統(tǒng)內(nèi)容產(chǎn)品所呈現(xiàn)的封裝化、靜態(tài)化特征,Soul 認(rèn)為未來內(nèi)容、數(shù)字娛樂產(chǎn)品、社交等或?qū)⒆呦蛄鲃?dòng)交互、實(shí)時(shí)介入的全新形態(tài)。這種對(duì)未來形態(tài)的預(yù)判,促使其必須掌握并共享底層工具。

作為一個(gè)興趣社交社區(qū),Soul 的底層產(chǎn)品一直建立在真人互動(dòng)的基礎(chǔ)上,所以在 AI 社交的探索過程中,一直保持著謹(jǐn)慎。

Soul 的目標(biāo)也很明確——AI 社交最終要促進(jìn)的,還是人與人的溝通。因此,AI 在該平臺(tái)的應(yīng)用路徑清晰,AI 幫助用戶交朋友,增強(qiáng)現(xiàn)實(shí)社交網(wǎng)絡(luò),構(gòu)建有力、多元的社會(huì)支持體系:通過聊天輔助、推薦匹配等功能,提升連接效率和質(zhì)量,如協(xié)助用戶發(fā)起對(duì)話、創(chuàng)作內(nèi)容、打破社交壁壘、提升自信,交到興趣相投的好友。


對(duì)于 Soul 自身而言,開源是將其從單一 App 進(jìn)化為生態(tài)系統(tǒng)的關(guān)鍵一步:一方面在 AI 社交標(biāo)準(zhǔn)尚未確立之際,率先開源即可掌握優(yōu)質(zhì)實(shí)時(shí)交互的定義權(quán);另一方面開發(fā)者基于其技術(shù)基建創(chuàng)造的新玩法,也將反向反哺社區(qū),持續(xù)豐富 Soul 的 AI 社交生態(tài)體驗(yàn)。

接下來,Soul 的 AI 生態(tài)價(jià)值,或許將能夠外溢到社交之外的更多交互領(lǐng)域。比如在電商直播中,數(shù)字人主播常常存在「假人感」嚴(yán)重、互動(dòng)有延遲等問題。利用 SoulX-FlashTalk 0.87 秒的超低延時(shí)和 32fps 的高幀率,數(shù)字人能實(shí)現(xiàn)如同真人般的秒級(jí)回復(fù)反饋;在 AI 客服場(chǎng)景中,機(jī)械式問答一直被詬病,SoulX-LiveAct不僅能讓數(shù)字人擁有生動(dòng)的表情,甚至可以控制情緒,用具有「在場(chǎng)感」的數(shù)字人服務(wù)改變枯燥的售后咨詢。在線教育場(chǎng)景中,最稀缺的是陪伴感,SoulX-Podcast 等技術(shù),能支持能穩(wěn)定輸出 60 分鐘以上的連貫對(duì)話,覆蓋完整周期的教學(xué)內(nèi)容、講解,AI 教師可以與學(xué)生開展長(zhǎng)時(shí)間深度交流。

在 AI 領(lǐng)域熱議「Agent 替代人類」的當(dāng)下,Soul 的立場(chǎng)顯得格外清醒:AI 不是替代人,而是鏈接人。AI 社交也不是簡(jiǎn)單的信息交換,而是跨越時(shí)空的、具備「在場(chǎng)感」的情感共振。AI 的角色應(yīng)該是幫助用戶優(yōu)化表達(dá)、打破僵局、建立同頻。因此,Soul 選擇開源,本質(zhì)上是在為 AI 時(shí)代的社交「修路」。

從一個(gè)社交平臺(tái),到一家輸出底層能力的 AI 科技公司,Soul 正在用開源證明:AI 時(shí)代,最好的防守是開放,最深的護(hù)城河是生態(tài)。隨著技術(shù)門檻逐漸降低,交互體驗(yàn)不斷升級(jí),社交也將逐漸回歸情感鏈接的本質(zhì)。

*頭圖來源:視覺中國(guó)

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問

你如何看待 SoulX-LiveAct ?


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三級(jí)歐戰(zhàn)4強(qiáng)全出爐:英超4隊(duì)成大贏家!意甲全軍覆沒,創(chuàng)7年恥辱

三級(jí)歐戰(zhàn)4強(qiáng)全出爐:英超4隊(duì)成大贏家!意甲全軍覆沒,創(chuàng)7年恥辱

我愛英超
2026-04-17 06:35:13
許家印認(rèn)罪未滿24小時(shí),王健林傳來了“噩耗”,馬化騰當(dāng)年沒說錯(cuò)

許家印認(rèn)罪未滿24小時(shí),王健林傳來了“噩耗”,馬化騰當(dāng)年沒說錯(cuò)

大魚簡(jiǎn)科
2026-04-16 14:43:44
李楠正式結(jié)束3年禁賽期:可回場(chǎng)邊輔佐許利民 本季北京主帥不會(huì)變

李楠正式結(jié)束3年禁賽期:可回場(chǎng)邊輔佐許利民 本季北京主帥不會(huì)變

醉臥浮生
2026-04-16 22:27:06
首日訂單破2千萬美元!張雪機(jī)車首次亮相廣交會(huì):老外追著下單數(shù)千臺(tái)

首日訂單破2千萬美元!張雪機(jī)車首次亮相廣交會(huì):老外追著下單數(shù)千臺(tái)

快科技
2026-04-17 12:19:13
靈隱寺的事,沒那么簡(jiǎn)單!

靈隱寺的事,沒那么簡(jiǎn)單!

新動(dòng)察
2026-04-17 10:18:37
許家印多出的兩個(gè)私生子!跟誰(shuí)生的?再扒恒大歌舞團(tuán)

許家印多出的兩個(gè)私生子!跟誰(shuí)生的?再扒恒大歌舞團(tuán)

大江看潮
2026-04-16 22:20:58
緬甸前總統(tǒng)溫敏被特赦

緬甸前總統(tǒng)溫敏被特赦

界面新聞
2026-04-17 14:32:33
?華為“最美接待團(tuán)”:招聘現(xiàn)役空姐負(fù)責(zé)高端接待!

?華為“最美接待團(tuán)”:招聘現(xiàn)役空姐負(fù)責(zé)高端接待!

虔青
2026-04-16 08:49:36
“靈隱寺僧人是日本人、間諜”?抖音通報(bào)

“靈隱寺僧人是日本人、間諜”?抖音通報(bào)

觀察者網(wǎng)
2026-04-16 17:58:07
大料!許家印的背后金主,也栽了!

大料!許家印的背后金主,也栽了!

財(cái)經(jīng)要參
2026-04-16 13:31:31
秒空、售罄!深圳有門店大排長(zhǎng)隊(duì)!網(wǎng)友:根本搶不到

秒空、售罄!深圳有門店大排長(zhǎng)隊(duì)!網(wǎng)友:根本搶不到

深圳晚報(bào)
2026-04-16 23:21:27
廣州公布一起4死2傷爆燃事故調(diào)查報(bào)告:審計(jì)發(fā)現(xiàn)謊報(bào),提出處理建議

廣州公布一起4死2傷爆燃事故調(diào)查報(bào)告:審計(jì)發(fā)現(xiàn)謊報(bào),提出處理建議

上游新聞
2026-04-17 12:02:03
這車的空間真大!

這車的空間真大!

貴圈真亂
2026-04-17 12:17:09
鴻山寺61歲方丈法云身亡!事前毫無征兆,死因曝光,弟子再曝猛料

鴻山寺61歲方丈法云身亡!事前毫無征兆,死因曝光,弟子再曝猛料

青橘罐頭
2026-04-17 07:19:47
牛肉頂多注個(gè)水豬肉頂多催個(gè)肥,唯有三文魚全程cosplay

牛肉頂多注個(gè)水豬肉頂多催個(gè)肥,唯有三文魚全程cosplay

富貴說
2026-04-14 23:15:09
汪峰真是不懂珍惜,這么高級(jí)的美人不應(yīng)該拱手讓出去。

汪峰真是不懂珍惜,這么高級(jí)的美人不應(yīng)該拱手讓出去。

手工制作阿殲
2026-04-16 20:06:01
武大楊某媛曬工作照被認(rèn)出!改名換姓被揭穿,品牌連夜切割跑路

武大楊某媛曬工作照被認(rèn)出!改名換姓被揭穿,品牌連夜切割跑路

奇思妙想草葉君
2026-04-17 01:45:38
莫蘭德與張鎮(zhèn)麟打趣:你為了和老婆在大城市上海選擇了拋棄我

莫蘭德與張鎮(zhèn)麟打趣:你為了和老婆在大城市上海選擇了拋棄我

懂球帝
2026-04-17 13:02:04
24歲博主“徐平安”因黑色素瘤去世:妹妹白血病、媽媽胃癌相繼離世,曾多次復(fù)盤確診前被忽略的身體信號(hào)

24歲博主“徐平安”因黑色素瘤去世:妹妹白血病、媽媽胃癌相繼離世,曾多次復(fù)盤確診前被忽略的身體信號(hào)

極目新聞
2026-04-17 13:25:30
紫牛頭條|男子轉(zhuǎn)讓自己買的自行車坐墊被廠家告了,說是假貨索賠2萬

紫牛頭條|男子轉(zhuǎn)讓自己買的自行車坐墊被廠家告了,說是假貨索賠2萬

揚(yáng)子晚報(bào)
2026-04-16 17:30:22
2026-04-17 15:00:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11958文章數(shù) 78872關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

78歲畫家每天畫800張1場(chǎng)直播賣100萬元:不共情普通人

頭條要聞

78歲畫家每天畫800張1場(chǎng)直播賣100萬元:不共情普通人

體育要聞

贏下快船,這場(chǎng)很庫(kù)里,很格林,很科爾

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰(shuí)的生意?

汽車要聞

又快又穩(wěn)的開掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

旅游
手機(jī)
本地
親子
公開課

旅游要聞

湘江文脈遇浦江春潮!長(zhǎng)沙赴滬發(fā)出文旅邀約,要做入境游“第二站”

手機(jī)要聞

小米首款萬級(jí)超大電池手機(jī)曝光:100W閃充、2億大底主攝

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

親子要聞

a2中文標(biāo)簽?zāi)谭鄞竺娣e缺貨,發(fā)生了什么?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版