国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

融資1050萬美金,世界上首個(gè)交互式語音AI視頻模型

0
分享至


AI 聊天機(jī)器人一直有個(gè)問題:它們沒有臉。你可能已經(jīng)習(xí)慣了和文字框?qū)υ?,在各種應(yīng)用里打字提問、等待回復(fù)。這種交互方式確實(shí)高效,但總覺得少了點(diǎn)什么。人類天生就是視覺動(dòng)物,我們更喜歡和真實(shí)的臉對(duì)話,而不是盯著冰冷的文字。這也是為什么即使在通訊軟件如此發(fā)達(dá)的今天,視頻通話依然無法被取代。當(dāng)你需要深入交流、建立信任或解決復(fù)雜問題時(shí),看到對(duì)方的表情和肢體語言會(huì)讓整個(gè)對(duì)話變得完全不同。

這個(gè)觀察讓我對(duì)剛剛獲得 1050 萬美元融資的 Lemon Slice 產(chǎn)生了濃厚興趣。這家由 Y Combinator 和 Matrix Partners 領(lǐng)投的創(chuàng)業(yè)公司,正在做一件聽起來有點(diǎn)瘋狂但又極具前瞻性的事:他們開發(fā)了一個(gè)叫做 Lemon Slice-2 的 AI 模型,可以把任何一張靜態(tài)圖片——無論是公司員工照、卡通角色、還是文藝復(fù)興時(shí)期的油畫——瞬間變成一個(gè)能實(shí)時(shí)對(duì)話的視頻頭像。不需要上傳訓(xùn)練視頻,不需要復(fù)雜的預(yù)處理,甚至不需要是真人照片。只需要一張圖,你就能和這個(gè)角色進(jìn)行面對(duì)面的視頻對(duì)話。

我知道這聽起來像是科幻片的情節(jié),但當(dāng) Y Combinator 的合伙人 Jared Friedman 說"這是自 ChatGPT 首次發(fā)布以來,我第一次試用一個(gè)產(chǎn)品時(shí)想到'啊,這就是未來人們與計(jì)算機(jī)對(duì)話的方式'"時(shí),我意識(shí)到這可能真的是一個(gè)重要的轉(zhuǎn)折點(diǎn)。我們正處在一個(gè)關(guān)鍵時(shí)刻:AI 不再只是回答問題,而是開始以更人性化的方式與我們互動(dòng)。

為什么現(xiàn)有的 AI 頭像都不夠好

說實(shí)話,AI 頭像這個(gè)概念并不新鮮。過去幾年里,我見過不少公司嘗試做這件事,比如 D-ID、HeyGen、Synthesia 這些比較知名的玩家,還有 Genies、Soul Machine、Praktika 和 AvatarOS 等專注于數(shù)字頭像的公司。但坦白說,我每次體驗(yàn)這些產(chǎn)品時(shí)都會(huì)感到一種說不出的不適感。


Lemon Slice 的聯(lián)合創(chuàng)始人兼 CEO Lina Colucci 對(duì)這個(gè)問題的描述非常精準(zhǔn):"我迄今為止看到的現(xiàn)有頭像解決方案都給產(chǎn)品帶來了負(fù)面價(jià)值。它們看起來很詭異,動(dòng)作僵硬。前幾秒可能還不錯(cuò),但一旦你開始與它們互動(dòng),就會(huì)感到非常不自然,完全無法讓人放松。真正阻礙頭像技術(shù)普及的原因,就是它們還不夠好。"這話說得太對(duì)了。我之前試用過一些 AI 客服頭像,表面上看確實(shí)是個(gè)人臉在說話,但那種機(jī)械的表情變化、不自然的眼神移動(dòng)、以及完全對(duì)不上節(jié)奏的嘴型,反而讓整個(gè)體驗(yàn)比純文字聊天還要糟糕。

這種"恐怖谷效應(yīng)"在 AI 頭像領(lǐng)域特別明顯。所謂恐怖谷,指的是當(dāng)機(jī)器人或虛擬角色看起來幾乎像真人但又不夠逼真時(shí),人們會(huì)產(chǎn)生強(qiáng)烈的不適感。很多現(xiàn)有的 AI 頭像恰好落在這個(gè)恐怖谷里——它們努力想要看起來像真人,但各種細(xì)節(jié)的不自然反而讓人感到毛骨悚然。我認(rèn)為這也是為什么盡管技術(shù)已經(jīng)存在多年,但 AI 頭像始終沒有真正普及的核心原因。


另一個(gè)問題是現(xiàn)有解決方案的局限性。大多數(shù) AI 頭像工具都需要你上傳訓(xùn)練視頻,或者只能處理寫實(shí)風(fēng)格的人臉,又或者需要針對(duì)特定角色訓(xùn)練定制模型。這意味著如果你想創(chuàng)建一個(gè)卡通角色的 AI 頭像,或者想讓一個(gè)歷史人物的畫像開口說話,基本上是做不到的。這種限制極大地縮小了應(yīng)用場(chǎng)景,也讓很多有創(chuàng)意的想法無法實(shí)現(xiàn)。

Lemon Slice-2 的技術(shù)突破在哪里

Lemon Slice-2 之所以引起我的關(guān)注,是因?yàn)樗鼜募夹g(shù)路徑上就走了一條完全不同的道路。這是一個(gè) 200 億參數(shù)的視頻擴(kuò)散 transformer 模型,和 OpenAI 的 Sora 或 Google 的 Veo3 屬于同一類技術(shù),但專門針對(duì)會(huì)說話的角色進(jìn)行了優(yōu)化,并且特別強(qiáng)化了實(shí)時(shí)性能。

我特別欣賞的一點(diǎn)是,Lemon Slice-2 采用了"零樣本"學(xué)習(xí)方式。什么意思呢?就是你只需要提供一張圖片,不需要任何訓(xùn)練數(shù)據(jù)、不需要視頻素材、也不需要提前告訴系統(tǒng)這是什么風(fēng)格,AI 就能立即生成一個(gè)可以實(shí)時(shí)對(duì)話的視頻頭像。這意味著你可以上傳一張公司員工的證件照、一個(gè)你喜歡的卡通小動(dòng)物、甚至是蒙娜麗莎的肖像,然后馬上開始和它進(jìn)行視頻對(duì)話。這種靈活性是現(xiàn)有技術(shù)根本做不到的。


更厲害的是它的性能表現(xiàn)。Lemon Slice-2 可以在單個(gè) GPU 上以每秒 20 幀的速度實(shí)時(shí)生成視頻流。你可能對(duì)這個(gè)數(shù)字沒什么感覺,但我來解釋一下:大多數(shù)視頻內(nèi)容每秒播放 24-30 幀才會(huì)顯得流暢,而 Lemon Slice-2 能夠在單 GPU 上達(dá)到 20 幀/秒,意味著生成視頻的速度比你觀看的速度還要快。這種性能讓真正的實(shí)時(shí)互動(dòng)成為可能,而不是那種延遲幾秒鐘、看起來卡頓的互動(dòng)體驗(yàn)。

從技術(shù)細(xì)節(jié)來看,Lemon Slice 采用了多種創(chuàng)新策略來實(shí)現(xiàn)這種實(shí)時(shí)性能。包括因果注意力機(jī)制、一種新穎的分布匹配蒸餾訓(xùn)練范式、高效緩存、CUDA 圖加速以及量化技術(shù)。這些聽起來很技術(shù)化的名詞,實(shí)際上都是為了解決同一個(gè)問題:如何讓 AI 頭像的響應(yīng)速度足夠快,快到用戶感覺就像在和真人對(duì)話。根據(jù) Lemon Slice 公布的數(shù)據(jù),用戶體驗(yàn)到的平均響應(yīng)時(shí)間只有 2.8 秒,而其中視頻生成部分只占了 730 毫秒,也就是不到一秒。剩下的時(shí)間主要花在語音識(shí)別和語言理解上。這個(gè)速度已經(jīng)接近人類對(duì)話的自然節(jié)奏了。

我認(rèn)為 Lemon Slice-2 最大的技術(shù)優(yōu)勢(shì)在于它是一個(gè)通用的端到端模型。什么意思?就是它從頭到尾生成每一個(gè)像素,而不是基于預(yù)錄制的動(dòng)作或模板進(jìn)行拼接。這種方法雖然計(jì)算成本更高,但帶來的好處是質(zhì)量上限幾乎沒有限制。Y Combinator 的 Jared Friedman 對(duì)此評(píng)價(jià)說:"Lemon Slice 采用的是我認(rèn)為唯一能夠最終克服恐怖谷并通過頭像圖靈測(cè)試的基礎(chǔ)機(jī)器學(xué)習(xí)方法。他們訓(xùn)練的模型類型與 Veo3 或 Sora 相同:視頻擴(kuò)散 transformer。因?yàn)檫@是一個(gè)通用模型,采用端到端的方式處理整個(gè)過程,所以它的質(zhì)量提升沒有上限;而其他方案的質(zhì)量上限都達(dá)不到照片級(jí)真實(shí)感。它還能同時(shí)處理人類和非人類面孔,并且只需要一張圖片就能添加新面孔。"


這里有個(gè)很關(guān)鍵的點(diǎn):Lemon Slice-2 支持完整的身體動(dòng)畫,包括面部表情、手勢(shì)和全身動(dòng)作。這不是那種只有嘴巴在動(dòng)、身體僵硬的粗糙頭像,而是可以做出自然手勢(shì)、點(diǎn)頭、搖頭、甚至改變坐姿的生動(dòng)角色。這種細(xì)節(jié)上的豐富性,正是讓 AI 頭像跨越恐怖谷的關(guān)鍵。當(dāng)一個(gè)角色在解釋復(fù)雜概念時(shí)能夠配合手勢(shì),在表達(dá)同情時(shí)能夠微微前傾身體,在思考時(shí)能夠眼神飄移,這些微妙的非語言信號(hào)會(huì)讓整個(gè)交互體驗(yàn)完全不同。

另一個(gè)讓我印象深刻的技術(shù)特性是無限長(zhǎng)度視頻生成能力。作為一個(gè)自回歸模型,Lemon Slice-2 理論上可以生成任意長(zhǎng)度的視頻。更重要的是,它不會(huì)出現(xiàn)誤差累積的問題。什么是誤差累積?在很多自回歸模型中,每生成一幀新的內(nèi)容,都會(huì)基于前面生成的內(nèi)容,這樣一來,任何微小的錯(cuò)誤都會(huì)在后續(xù)生成中被放大,導(dǎo)致視頻質(zhì)量隨著時(shí)間推移而下降。但 Lemon Slice-2 通過特殊的技術(shù)設(shè)計(jì)避免了這個(gè)問題,這意味著即使是長(zhǎng)時(shí)間的對(duì)話,頭像的質(zhì)量也能始終保持穩(wěn)定。


這項(xiàng)技術(shù)能用來做什么

當(dāng)我深入了解 Lemon Slice 的應(yīng)用場(chǎng)景時(shí),我發(fā)現(xiàn)這項(xiàng)技術(shù)的想象空間比我最初想的要大得多。它不僅僅是給聊天機(jī)器人加個(gè)臉那么簡(jiǎn)單,而是在重新定義很多領(lǐng)域的用戶體驗(yàn)。

拿教育來說。想象一下,一個(gè)正在學(xué)數(shù)學(xué)的小學(xué)生,不是面對(duì)枯燥的練習(xí)題和文字解釋,而是有一個(gè)可愛的外星人角色作為他的數(shù)學(xué)老師。這個(gè)外星人會(huì)用生動(dòng)的表情和手勢(shì)講解數(shù)學(xué)概念,能夠回答孩子的任何問題,還能出題測(cè)驗(yàn)并根據(jù)孩子的反應(yīng)調(diào)整難度。當(dāng)孩子答對(duì)題目時(shí),外星人會(huì)開心地豎起大拇指;當(dāng)孩子遇到困難時(shí),它會(huì)耐心地?fù)Q個(gè)方式再講一遍。這種互動(dòng)式的學(xué)習(xí)體驗(yàn),比傳統(tǒng)的在線教育視頻或文字課程要吸引人得多,尤其是對(duì)注意力容易分散的兒童來說。

電商領(lǐng)域的應(yīng)用也讓我很感興趣?,F(xiàn)在的在線購(gòu)物體驗(yàn)雖然方便,但缺少了實(shí)體店導(dǎo)購(gòu)的人性化服務(wù)。有了 Lemon Slice 的技術(shù),網(wǎng)站可以部署一個(gè)虛擬造型師,不僅能夠回答關(guān)于退換貨政策的問題,還能幫你瀏覽整個(gè)網(wǎng)站、推薦搭配、甚至"試穿"不同的服裝讓你看效果。這種體驗(yàn)比簡(jiǎn)單的聊天機(jī)器人要豐富得多,也比靜態(tài)的產(chǎn)品圖片更有說服力。用戶可以問"這件外套配什么褲子好看",虛擬造型師會(huì)展示幾種搭配方案,用戶可以繼續(xù)追問細(xì)節(jié),整個(gè)過程就像在實(shí)體店里和真實(shí)導(dǎo)購(gòu)對(duì)話一樣自然。


醫(yī)療領(lǐng)域的潛力也很大。去醫(yī)院看病時(shí),在候診室填寫各種表格是一個(gè)讓人頭疼的環(huán)節(jié)。有了 AI 頭像,這個(gè)過程可以變成一次輕松的對(duì)話。虛擬助理會(huì)用親切的語氣引導(dǎo)患者回答問題,解釋為什么需要這些信息,甚至在察覺到患者緊張時(shí)給予安慰。對(duì)于一些初步的醫(yī)療咨詢,比如解釋某個(gè)手術(shù)流程或注意事項(xiàng),有個(gè)看得見的"醫(yī)護(hù)人員"來講解,會(huì)比閱讀長(zhǎng)篇文字說明要容易理解得多,也能減輕患者的焦慮感。

企業(yè)培訓(xùn)是另一個(gè)我認(rèn)為會(huì)被這項(xiàng)技術(shù)深刻改變的領(lǐng)域。新員工入職培訓(xùn)、產(chǎn)品知識(shí)學(xué)習(xí)、合規(guī)培訓(xùn)等等,傳統(tǒng)上都是通過錄播視頻或在線文檔來完成的。這種單向的信息傳遞效率很低,員工常常走神或者對(duì)某些內(nèi)容一知半解。但如果培訓(xùn)內(nèi)容是通過一個(gè)互動(dòng)式的 AI 頭像來傳遞,員工可以隨時(shí)提問、要求重復(fù)講解某個(gè)部分、或者通過問答來檢驗(yàn)自己的理解,這種主動(dòng)學(xué)習(xí)的效果會(huì)比被動(dòng)觀看視頻好得多。


Lemon Slice 為開發(fā)者提供了兩種接入方式:一個(gè)是 API,供那些想要將交互式頭像深度集成到自己產(chǎn)品中的開發(fā)者使用;另一個(gè)是可嵌入的 widget,只需要一行代碼就能在任何網(wǎng)站上添加一個(gè)"視頻聊天氣泡"。這種低門檻的接入方式,我認(rèn)為會(huì)大大加速這項(xiàng)技術(shù)的普及。即使是沒有深厚技術(shù)背景的中小企業(yè),也能輕松為自己的網(wǎng)站添加一個(gè) AI 客服頭像,讓客戶體驗(yàn)到面對(duì)面服務(wù)的感覺。

為什么是現(xiàn)在

我一直在思考一個(gè)問題:為什么實(shí)時(shí)交互式 AI 頭像技術(shù)是在現(xiàn)在這個(gè)時(shí)間點(diǎn)突破的?畢竟,視頻生成、人臉動(dòng)畫、語音合成這些技術(shù)單獨(dú)來看都已經(jīng)存在多年了。我認(rèn)為有幾個(gè)關(guān)鍵因素的匯聚,讓現(xiàn)在成為了這項(xiàng)技術(shù)爆發(fā)的完美時(shí)刻。

首先是大語言模型的成熟。ChatGPT 的出現(xiàn)讓大眾真正體驗(yàn)到了 AI 對(duì)話的魅力,但也暴露出純文字交互的局限性。人們開始期待更豐富、更自然的 AI 交互方式。Lemon Slice 的聯(lián)合創(chuàng)始人 Lina Colucci 提到,在生成式 AI 的早期階段,他們就開始嘗試不同的視頻模型,當(dāng)時(shí)就意識(shí)到視頻必然會(huì)變得可交互。"像 ChatGPT 這樣的工具之所以引人注目,就是因?yàn)樗鼈兪强山换サ?我們希望視頻也能擁有這種交互層。"這個(gè)洞察非常關(guān)鍵——交互性才是 AI 應(yīng)用的核心價(jià)值。


其次是計(jì)算能力的提升。200 億參數(shù)的模型能夠在單個(gè) GPU 上實(shí)時(shí)運(yùn)行,這在幾年前是不可想象的。GPU 性能的持續(xù)提升、模型優(yōu)化技術(shù)的進(jìn)步、以及各種加速框架的成熟,共同讓實(shí)時(shí)視頻生成從理論可能變成了現(xiàn)實(shí)可行。Lemon Slice 使用的因果注意力、高效緩存、CUDA 圖加速等技術(shù),都是近年來才發(fā)展成熟的。

第三是市場(chǎng)需求的明確。疫情期間,視頻通話成為了人們工作和生活的常態(tài),這培養(yǎng)了用戶對(duì)"面對(duì)面"交流的習(xí)慣和期待。即使疫情過去,這種習(xí)慣也保留了下來。人們已經(jīng)習(xí)慣了在屏幕上看到對(duì)方的臉,而不僅僅是打字聊天。這為 AI 頭像技術(shù)創(chuàng)造了接受度的土壤。

Matrix 的合伙人 Ilya Sukhar 對(duì)此有個(gè)很有意思的觀點(diǎn):"人們與臉產(chǎn)生連接,而不是文字框。"他還提到,人們更喜歡從 YouTube 學(xué)習(xí)而不是閱讀長(zhǎng)篇文字。這說明視覺媒介本身就更符合人類的認(rèn)知習(xí)慣。當(dāng) AI 交互也能借助視覺渠道時(shí),自然會(huì)帶來更好的用戶體驗(yàn)。


從投資角度看,Lemon Slice 獲得的 1050 萬美元融資也說明了資本市場(chǎng)對(duì)這個(gè)方向的認(rèn)可。投資者不僅包括專業(yè)的風(fēng)險(xiǎn)投資機(jī)構(gòu)如 Matrix Partners 和 Y Combinator,還有 Dropbox 的 CTO Arash Ferdowsi、Twitch 的 CEO Emmett Shear 這樣的行業(yè)領(lǐng)袖,甚至包括音樂組合 The Chainsmokers。這種多元化的投資者組合,反映出這項(xiàng)技術(shù)的應(yīng)用潛力被不同領(lǐng)域的專業(yè)人士所認(rèn)可。

競(jìng)爭(zhēng)格局與差異化

在深入研究 Lemon Slice 時(shí),我也關(guān)注了這個(gè)領(lǐng)域的競(jìng)爭(zhēng)格局。AI 頭像和視頻生成已經(jīng)是一個(gè)相當(dāng)擁擠的賽道,有不少玩家在不同的細(xì)分方向發(fā)力。

D-ID、HeyGen 和 Synthesia 主要專注于從文本或音頻生成講話視頻,常用于營(yíng)銷內(nèi)容制作、企業(yè)培訓(xùn)視頻等場(chǎng)景。它們的優(yōu)勢(shì)在于能夠快速批量生成高質(zhì)量的視頻內(nèi)容,但交互性相對(duì)較弱。Genies 專注于游戲化的個(gè)人頭像,Soul Machine 則主打超寫實(shí)的數(shù)字人,Praktika 聚焦于語言學(xué)習(xí)場(chǎng)景,AvatarOS 則在構(gòu)建頭像操作系統(tǒng)。每家公司都在自己的細(xì)分領(lǐng)域深耕。

Lemon Slice 的差異化在哪里?我認(rèn)為有幾個(gè)關(guān)鍵點(diǎn)。一是技術(shù)路徑的根本性不同。大多數(shù)競(jìng)爭(zhēng)對(duì)手使用的是針對(duì)特定場(chǎng)景或垂直領(lǐng)域優(yōu)化的定制方案,而 Lemon Slice 采用的是通用的"苦澀教訓(xùn)"擴(kuò)展方法——通過更多數(shù)據(jù)和更大算力來提升模型能力,這是在其他 AI 模態(tài)中已被證明有效的路徑。Matrix 的 Ilya Sukhar 特別強(qiáng)調(diào)了這一點(diǎn):"這是一個(gè)技術(shù)深度很強(qiáng)的團(tuán)隊(duì),有交付機(jī)器學(xué)習(xí)產(chǎn)品的歷史記錄,而不僅僅是演示和研究。其他許多玩家都是針對(duì)特定場(chǎng)景或垂直領(lǐng)域定制的,而 Lemon Slice 采用的是通用的'苦澀教訓(xùn)'擴(kuò)展方法(數(shù)據(jù)和算力),這在其他 AI 模態(tài)中已經(jīng)奏效。"

二是實(shí)時(shí)性能的突破。Lemon Slice 強(qiáng)調(diào)他們是第一家真正實(shí)現(xiàn)生產(chǎn)就緒的實(shí)時(shí)交互視頻的公司,而不僅僅是技術(shù)演示。雖然其他一些實(shí)驗(yàn)室也有實(shí)時(shí) AI 視頻的技術(shù)演示,但 Lemon Slice 是唯一一家發(fā)布了可用 API 或產(chǎn)品的公司。這種從研究到產(chǎn)品的轉(zhuǎn)化能力,在技術(shù)創(chuàng)業(yè)中往往比純粹的技術(shù)先進(jìn)性更重要。

三是風(fēng)格的靈活性。不同于那些只能處理寫實(shí)人臉或只能生成游戲角色的競(jìng)爭(zhēng)對(duì)手,Lemon Slice-2 的擴(kuò)散模型方法讓它能夠生成任何風(fēng)格的頭像。你可以用它創(chuàng)建一個(gè)超寫實(shí)的企業(yè)代言人,也可以創(chuàng)建一個(gè)卡通風(fēng)格的兒童教育角色,或者是一個(gè)抽象藝術(shù)風(fēng)格的創(chuàng)意角色。這種靈活性大大拓寬了應(yīng)用場(chǎng)景。

我特別認(rèn)同 Y Combinator 的 Jared Friedman 的判斷。他認(rèn)為 Lemon Slice 采用的視頻擴(kuò)散 transformer 方法是唯一能夠最終克服恐怖谷的技術(shù)路徑。其他基于模板、拼接或者特定場(chǎng)景優(yōu)化的方案,質(zhì)量上限都達(dá)不到照片級(jí)真實(shí)感,而通用的端到端模型理論上沒有質(zhì)量天花板,只要有足夠的數(shù)據(jù)和算力,就能不斷提升。

創(chuàng)始團(tuán)隊(duì)的獨(dú)特性

在分析一家技術(shù)創(chuàng)業(yè)公司時(shí),我總是會(huì)特別關(guān)注創(chuàng)始團(tuán)隊(duì)。Lemon Slice 的三位聯(lián)合創(chuàng)始人——Lina Colucci、Sidney Primas 和 Andrew Weitz——的背景讓我印象深刻,不僅因?yàn)樗麄兊膶W(xué)術(shù)資歷,更因?yàn)樗麄兊亩嘣?jīng)歷。

三位創(chuàng)始人都擁有博士學(xué)位,分別來自 MIT、Harvard、Stanford 和 Duke 等頂尖學(xué)府,在 AI 領(lǐng)域有深厚的專業(yè)積累。但讓他們與眾不同的是,他們同時(shí)也是終身創(chuàng)作者。Colucci 是芭蕾舞者、音樂家和視頻博主,而 Primas 和 Weitz 則從 YouTube 早期就開始制作家庭視頻。這種對(duì)視覺敘事的熱愛和理解,我認(rèn)為正是驅(qū)動(dòng)這家公司愿景的核心動(dòng)力。

這種技術(shù)能力與創(chuàng)意感知的結(jié)合非常罕見但又極其重要。純技術(shù)背景的團(tuán)隊(duì)可能會(huì)過度關(guān)注技術(shù)指標(biāo),而忽略了用戶體驗(yàn)的細(xì)微之處。而純創(chuàng)意背景的團(tuán)隊(duì)則可能有好的想法但缺乏實(shí)現(xiàn)能力。Lemon Slice 的團(tuán)隊(duì)兼具兩者,既能夠開發(fā)出技術(shù)上領(lǐng)先的模型,又能夠理解什么樣的頭像表現(xiàn)會(huì)讓用戶感到舒適和愉悅,而不是不安和抗拒。


Colucci 在采訪中說的一句話讓我很有共鳴:"人們與臉產(chǎn)生連接,而不是文字框。"這句話看似簡(jiǎn)單,但背后體現(xiàn)的是對(duì)人類交流本質(zhì)的深刻理解。這不是一個(gè)純粹的技術(shù)洞察,而是一個(gè)關(guān)于人性的觀察。我相信正是這種對(duì)人類情感和交流方式的敏感度,讓 Lemon Slice 團(tuán)隊(duì)能夠設(shè)計(jì)出真正讓人感到自然和舒適的 AI 頭像。

目前團(tuán)隊(duì)只有 8 人,但他們計(jì)劃用這筆融資來招聘工程和市場(chǎng)團(tuán)隊(duì),同時(shí)支付訓(xùn)練模型所需的計(jì)算成本。在 AI 領(lǐng)域,計(jì)算成本是一個(gè)非?,F(xiàn)實(shí)的考量因素。訓(xùn)練一個(gè) 200 億參數(shù)的模型,需要大量的 GPU 資源和時(shí)間,這也是為什么充足的資金支持對(duì)這類技術(shù)公司如此重要。

我對(duì)未來的思考

站在 2025 年底這個(gè)時(shí)間點(diǎn),我對(duì)交互式視頻技術(shù)的未來有一些思考。Lemon Slice 的愿景是"所有視頻最終都將是交互式的——即時(shí)生成并個(gè)性化給觀看者"。這個(gè)愿景聽起來有些激進(jìn),但我認(rèn)為它指向了一個(gè)很可能實(shí)現(xiàn)的未來。

想象一下,未來的在線教育不再是錄播課程,而是每個(gè)學(xué)生都有一個(gè)專屬的 AI 教師頭像,根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、理解能力和興趣愛好來個(gè)性化調(diào)整教學(xué)內(nèi)容和方式??蛻舴?wù)不再是千篇一律的回答,而是根據(jù)每個(gè)客戶的歷史、偏好和當(dāng)前情緒來定制交流風(fēng)格。新聞播報(bào)不再是單向傳播,而是觀眾可以隨時(shí)打斷提問、要求深入解釋某個(gè)細(xì)節(jié)的雙向?qū)υ挕?/p>

這種轉(zhuǎn)變不僅會(huì)改變內(nèi)容的呈現(xiàn)方式,還會(huì)從根本上改變內(nèi)容的生產(chǎn)和消費(fèi)模式。當(dāng)視頻可以實(shí)時(shí)生成和個(gè)性化時(shí),傳統(tǒng)的"制作-分發(fā)-消費(fèi)"模式將被"對(duì)話-生成-互動(dòng)"模式所取代。內(nèi)容創(chuàng)作者的角色也會(huì)改變,從制作具體的視頻內(nèi)容,轉(zhuǎn)變?yōu)樵O(shè)計(jì)知識(shí)庫(kù)、個(gè)性和交互規(guī)則,讓 AI 基于這些元素來生成無限多樣的交互體驗(yàn)。

我也看到一些潛在的挑戰(zhàn)。技術(shù)上,要實(shí)現(xiàn)真正自然流暢的長(zhǎng)時(shí)間交互,還有不少細(xì)節(jié)需要打磨。比如如何讓 AI 頭像在長(zhǎng)對(duì)話中保持表情和動(dòng)作的多樣性而不顯得重復(fù)?如何處理復(fù)雜的多輪對(duì)話中的情緒變化和氛圍轉(zhuǎn)換?如何在保證實(shí)時(shí)性的同時(shí)進(jìn)一步提升視頻質(zhì)量?

從商業(yè)角度看,計(jì)算成本仍然是一個(gè)需要關(guān)注的問題。雖然 Lemon Slice 已經(jīng)優(yōu)化到可以在單 GPU 上實(shí)時(shí)運(yùn)行,但大規(guī)模部署時(shí)的成本仍然不低。如何在保證質(zhì)量的前提下進(jìn)一步降低成本,讓更多中小企業(yè)也能用得起這項(xiàng)技術(shù),是一個(gè)需要解決的問題。

社會(huì)層面上,我們需要思考 AI 頭像普及后對(duì)人際交流的影響。當(dāng)人們習(xí)慣了與 AI 頭像對(duì)話,這會(huì)不會(huì)影響他們與真人交流的能力和意愿?如何確保技術(shù)增強(qiáng)而不是替代人與人之間的真實(shí)連接?這些都是值得深思的問題。

但總體而言,我對(duì)這個(gè)方向充滿樂觀。Lemon Slice 正在做的事情,不僅僅是開發(fā)一個(gè)新產(chǎn)品,而是在探索人機(jī)交互的新范式。就像觸摸屏改變了我們與手機(jī)的交互方式,語音助手改變了我們與智能音箱的交互方式,交互式視頻可能會(huì)改變我們與各種數(shù)字服務(wù)的交互方式。從文字到語音,從語音到視頻,從單向到雙向,從靜態(tài)到動(dòng)態(tài),每一次交互方式的演進(jìn)都讓技術(shù)更加人性化,更加貼近人類自然的交流習(xí)慣。

Lemon Slice-2 的發(fā)布,或許只是這場(chǎng)變革的開始。我期待看到更多創(chuàng)新的應(yīng)用場(chǎng)景涌現(xiàn),也期待看到這項(xiàng)技術(shù)如何與其他 AI 能力結(jié)合,創(chuàng)造出我們現(xiàn)在還無法想象的體驗(yàn)。未來的數(shù)字世界,可能真的會(huì)像 Lemon Slice 團(tuán)隊(duì)所設(shè)想的那樣,充滿了生動(dòng)的、可交互的、個(gè)性化的視頻體驗(yàn)。而這一切,都始于一個(gè)簡(jiǎn)單但深刻的洞察:人們與臉產(chǎn)生連接,而不是文字框。

結(jié)尾

也歡迎大家留言討論,分享你的觀點(diǎn)!

覺得內(nèi)容不錯(cuò)的朋友能夠幫忙右下角點(diǎn)個(gè)贊,分享一下。您的每次分享,都是在激勵(lì)我不斷產(chǎn)出更好的內(nèi)容。

歡迎關(guān)注深思圈,一起探索更大的世界。




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
聯(lián)合國(guó)前主席稱:中國(guó)人的風(fēng)俗,世界上沒有一個(gè)國(guó)家能夠?qū)W得來

聯(lián)合國(guó)前主席稱:中國(guó)人的風(fēng)俗,世界上沒有一個(gè)國(guó)家能夠?qū)W得來

原來仙女不講理
2026-02-13 17:31:20
俄上萬億高鐵項(xiàng)目:不用中國(guó)高鐵技術(shù),采用錫納拉集團(tuán),現(xiàn)在這樣

俄上萬億高鐵項(xiàng)目:不用中國(guó)高鐵技術(shù),采用錫納拉集團(tuán),現(xiàn)在這樣

凡知
2026-04-05 17:48:29
材料學(xué)家、中山大學(xué)教授陳振興逝世,享年60歲

材料學(xué)家、中山大學(xué)教授陳振興逝世,享年60歲

澎湃新聞
2026-04-05 19:02:27
戰(zhàn)爭(zhēng)有多燒錢,網(wǎng)友說我講一下我家里的局部戰(zhàn)爭(zhēng)你就明白

戰(zhàn)爭(zhēng)有多燒錢,網(wǎng)友說我講一下我家里的局部戰(zhàn)爭(zhēng)你就明白

侃神評(píng)故事
2026-04-06 11:45:08
谷愛凌和何超欣穿比基尼度假!何超欣有小肚腩,谷愛凌馬甲線真美

谷愛凌和何超欣穿比基尼度假!何超欣有小肚腩,谷愛凌馬甲線真美

小娛樂悠悠
2026-04-06 08:22:56
中國(guó)首席科學(xué)家表示:超大型無人潛艇不針對(duì)美國(guó)西海岸

中國(guó)首席科學(xué)家表示:超大型無人潛艇不針對(duì)美國(guó)西海岸

Ck的蜜糖
2026-04-06 10:23:14
4噸冰毒、一本法國(guó)護(hù)照,死刑,法國(guó)想救人,中國(guó)的回應(yīng)很干脆

4噸冰毒、一本法國(guó)護(hù)照,死刑,法國(guó)想救人,中國(guó)的回應(yīng)很干脆

潮鹿逐夢(mèng)
2026-04-06 11:08:21
活久見!浙江兩阿姨在墓地?fù)焓八思榔罚罀哒邉傋?,便滿載而歸

活久見!浙江兩阿姨在墓地?fù)焓八思榔罚罀哒邉傋?,便滿載而歸

火山詩(shī)話
2026-04-05 13:12:37
8500億美債無人接盤!中方明確表態(tài):已徹底告別“救美時(shí)代”

8500億美債無人接盤!中方明確表態(tài):已徹底告別“救美時(shí)代”

傲傲講歷史
2026-04-05 20:55:19
盧卡申科吐槽以色列:巴掌大的國(guó)家妄想征服世界

盧卡申科吐槽以色列:巴掌大的國(guó)家妄想征服世界

看看新聞Knews
2026-04-05 12:11:04
過了7天!人民日?qǐng)?bào)發(fā)文狠批單依純,狠狠地為李榮浩出了一口惡氣

過了7天!人民日?qǐng)?bào)發(fā)文狠批單依純,狠狠地為李榮浩出了一口惡氣

娛樂故事
2026-04-05 22:44:16
趙心童7進(jìn)決賽全奪冠,狂賺1371萬獎(jiǎng)金!世錦賽今日開打,附賽程

趙心童7進(jìn)決賽全奪冠,狂賺1371萬獎(jiǎng)金!世錦賽今日開打,附賽程

球場(chǎng)沒跑道
2026-04-06 07:03:27
滄州殺妻案兇手金昊被執(zhí)行死刑:多張內(nèi)部照曝光,第三者被扒!

滄州殺妻案兇手金昊被執(zhí)行死刑:多張內(nèi)部照曝光,第三者被扒!

眼光很亮
2026-04-05 09:16:48
淚崩!王楚欽首奪世界杯冠軍,躺地怒吼,沒想到松島是這樣的反應(yīng)

淚崩!王楚欽首奪世界杯冠軍,躺地怒吼,沒想到松島是這樣的反應(yīng)

阿纂看事
2026-04-06 10:45:45
隨著西漢姆聯(lián)4-6出局,英格蘭足總杯4強(qiáng)全部出爐:2大豪門在列

隨著西漢姆聯(lián)4-6出局,英格蘭足總杯4強(qiáng)全部出爐:2大豪門在列

側(cè)身凌空斬
2026-04-06 05:12:22
安徽6歲女童已丟4天,親屬發(fā)聲曝猛料,難怪搜救犬聞不到氣味

安徽6歲女童已丟4天,親屬發(fā)聲曝猛料,難怪搜救犬聞不到氣味

奇思妙想草葉君
2026-04-04 23:58:32
馮鞏在人民日?qǐng)?bào)公開發(fā)文, 撕了郭德綱的遮羞布, 也點(diǎn)破小岳岳的處境

馮鞏在人民日?qǐng)?bào)公開發(fā)文, 撕了郭德綱的遮羞布, 也點(diǎn)破小岳岳的處境

科學(xué)發(fā)掘
2026-04-05 21:49:59
張雪與凱越老總私下會(huì)面,對(duì)方主動(dòng)祝賀,張雪順勢(shì)澄清辭職原因

張雪與凱越老總私下會(huì)面,對(duì)方主動(dòng)祝賀,張雪順勢(shì)澄清辭職原因

潮鹿逐夢(mèng)
2026-04-04 23:43:09
郭艾倫被熟人騙千萬過程+細(xì)節(jié),資產(chǎn)大洗牌亂成一團(tuán),家屬情緒崩潰

郭艾倫被熟人騙千萬過程+細(xì)節(jié),資產(chǎn)大洗牌亂成一團(tuán),家屬情緒崩潰

林子說事
2026-04-06 07:20:34
老詹轟30+9+15無緣今日最佳!對(duì)不起,你碰到創(chuàng)紀(jì)錄的弗拉格了

老詹轟30+9+15無緣今日最佳!對(duì)不起,你碰到創(chuàng)紀(jì)錄的弗拉格了

世界體育圈
2026-04-06 12:48:21
2026-04-06 13:12:49
深思圈
深思圈
挖掘和深度分析海外最新AI產(chǎn)品,分享實(shí)用出海戰(zhàn)略
212文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

前同事被蒸餾成Token,AI能否偷走職場(chǎng)經(jīng)驗(yàn)

頭條要聞

美以被指欲借庫(kù)爾德人攻入伊朗 庫(kù)區(qū)官員:絕不會(huì)介入

頭條要聞

美以被指欲借庫(kù)爾德人攻入伊朗 庫(kù)區(qū)官員:絕不會(huì)介入

體育要聞

球員系列賽大滿貫!趙心童10-3世界第一 加冕賽季第4冠

娛樂要聞

喬任梁離世10年 父母曝舞臺(tái)光鮮的背后

財(cái)經(jīng)要聞

118噸!這家央行,大幅拋售黃金!

汽車要聞

家用SUV沒駕駛樂趣?極氪8X第一個(gè)不同意

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
本地
數(shù)碼
軍事航空

房產(chǎn)要聞

小陽(yáng)春全面啟動(dòng)!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

伊姐清明熱推:電視劇《暴鋒雨》;電影《我,許可》......

本地新聞

跟著歌聲游安徽,聽古村回響

數(shù)碼要聞

微星2026款泰坦18 Max游戲本國(guó)行上市:7熱管散熱雙烤260W

軍事要聞

美飛行員獲救細(xì)節(jié):美伊發(fā)生激烈交火 至少4死1傷

無障礙瀏覽 進(jìn)入關(guān)懷版