網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

當(dāng)硅谷轉(zhuǎn)向「世界模型」，中國視頻公司選擇先把錢賺了丨對話 Sand.ai

2026-04-10 14:10:26　來源: 極客公園

北京舉報

分享至

這家兩個月達(dá)成千萬美金 ARR 的團(tuán)隊，認(rèn)為音樂才是 AI 視頻的入口。

整理｜曹思頎

采訪｜張鵬曹思頎

2026 年，在以 OpenClaw 為代表的 Agentic AI 成為整個 AI 圈「超級共識」的同時，視頻模型卻開始走向另一種分化。

在美國，OpenAI 已關(guān)閉 Sora 的獨立產(chǎn)品形態(tài)，視頻生成在其當(dāng)前優(yōu)先級里明顯后撤；Runway、Luma AI 等創(chuàng)業(yè)公司也開始把敘事的中心轉(zhuǎn)向「世界模型」。

而國內(nèi)則呈現(xiàn)另一番景象：視頻模型正在成為大廠下一階段必爭的多模態(tài)能力。無論是字節(jié)旗下的即夢，還是快手旗下的可靈，這類視頻生成產(chǎn)品正在從大眾娛樂場景，進(jìn)一步滲透進(jìn)付費意愿更強的專業(yè)創(chuàng)作者群體。

Sand.ai 是這輪分化里一個值得觀察的創(chuàng)業(yè)樣本。他們的核心產(chǎn)品 VidMuse 主打「Music in，Video Out」的產(chǎn)品形態(tài)，把音頻放到產(chǎn)品最核心的輸入位置。據(jù)了解，VidMuse 自年初上線以來，ARR（年度經(jīng)常性收入）已超千萬美金。

近期，Sand.ai 宣布完成了新一輪約 5000 萬美元的融資，極客公園也和 Sand.ai 創(chuàng)始人曹越、VidMuse 產(chǎn)品負(fù)責(zé)人張子賀 Zake 進(jìn)行了當(dāng)面溝通。在 Sand.ai 看來，音樂的重要性并不因為它對應(yīng)某一類內(nèi)容或用戶，而在于它可能成為 AI 時代視頻創(chuàng)作更底層的輸入起點，也天然連接著更強的創(chuàng)作意愿。

與此同時，Sand.ai 還堅定地選擇了既做產(chǎn)品又做模型的「雙輪驅(qū)動」路徑：先用市場上效果最好的模型為產(chǎn)品找到 PMF，再用自家的模型回到關(guān)鍵節(jié)點換效果、換成本、換毛利。無論從精力、能力還是資源上看，這都不是一條輕松的路。但在曹越看來，這恰恰是創(chuàng)業(yè)公司相對巨頭的一種優(yōu)勢：在這里，模型和產(chǎn)品更容易服務(wù)于同一個目標(biāo)，而不會彼此分裂。

而這條路徑真正指向的，不只是一個更強的視頻生成工具，而是一個能夠長期協(xié)作的「數(shù)字制片團(tuán)隊」。在 Video Agent 這種新的產(chǎn)品形態(tài)下，用戶更像一個「出資方」：不再需要充當(dāng)導(dǎo)演反復(fù) prompt 獎戲，而是可以把創(chuàng)作目標(biāo)安心托付給一個能夠長期信賴、持續(xù)調(diào)用的創(chuàng)作伙伴。

以下是整理后的訪談內(nèi)容：

視頻模型生成的「中美分野」

極客公園：你們關(guān)注到最近很火那個 HappyHorse 了嗎？

曹越：看到了，還挺有意思的，好多人拿推特上一個分析的帖子來問這個是不是我們的模型。我后來發(fā)現(xiàn)，是有個網(wǎng)站上面就直接把我們 Magihuman tech report（Sand.ai 最新開源的模型）內(nèi)容轉(zhuǎn)成網(wǎng)頁，名字是 HappyHorse。（笑）不過我們的新模型在訓(xùn)練中，會盡快推出，很大概率會直接開源出來，希望整個行業(yè)一起加速推動。

極客公園：所以是個 fake news。但最近你們一邊內(nèi)測新產(chǎn)品 VidMuse 2.0，一邊開源了一個基模，在外部看來是個有點反共識的決定。今天大家都在強調(diào)商業(yè)化和閉源，你們?yōu)槭裁催x擇開源？

曹越：我覺得開源的本質(zhì)之一是提升品牌價值，有的時候也能夠降低獲客成本。比如 DeepSeek-R1 那次開源，大家一開始也未必能想到帶來了那么好的效果，起到了很好的作用。

對我們來說，去年 4 月我們發(fā)布 Magi-1 的時候，就開源了那個模型，算是最早開始探索世界模型的團(tuán)隊吧，Magi-1是自回歸視頻基礎(chǔ)模型。子賀當(dāng)時還在北歐讀書，也是看到這個開源模型之后找到我們的。

極客公園：今天很多投資機構(gòu)也是在 GitHub 上通過開源項目找創(chuàng)業(yè)者。所以視頻模型這個賽道，今天發(fā)展到了什么階段？

曹越：這件事已經(jīng)進(jìn)入了一個「節(jié)奏分化」的階段：有些方向會先成熟，有些方向會更晚成熟。現(xiàn)在最明確已經(jīng)成立的，是用視頻模型來替代實拍。

過去如果要做一段內(nèi)容，需要租場地、燈光、演員，再進(jìn)入拍攝流程；現(xiàn)在則越來越多地變成「寫好 prompt，點擊生成」。這一能力首先服務(wù)的是一群本來就在做內(nèi)容生產(chǎn)的專業(yè)創(chuàng)作者，幫助他們替代過去的實拍環(huán)節(jié)。

因此，現(xiàn)階段最成熟的不是泛娛樂消費，而是有明確目標(biāo)的內(nèi)容生產(chǎn)。隨著模型能力變強，這部分創(chuàng)作者使用 AI 的比例在持續(xù)提高，而且這類人本來就有生產(chǎn)需求、也更愿意付費。過去接近兩年里，可靈、Runway、Seedance 的增長，都是建立在這類場景之上，典型應(yīng)用包括短視頻內(nèi)容、廣告電商、短劇等泛內(nèi)容生產(chǎn)。

極客公園：中美對待視頻模型的整體態(tài)度，有什么不同？

曹越：我認(rèn)為，中美團(tuán)隊的差異實質(zhì)上來自過去十年的產(chǎn)業(yè)和產(chǎn)品環(huán)境不同。

在北美，過去十年 C 端的大錢更多被 Meta 這樣的巨頭拿走，真正以 C 端產(chǎn)品為核心的創(chuàng)業(yè)公司相對少，因此大量創(chuàng)業(yè)公司更習(xí)慣在 ToB SaaS 上掙錢。

而過去十年，微信、短視頻等產(chǎn)品形態(tài)是中國最熱的產(chǎn)品，因此整個市場對 ToC 場景的感知更強。所以，在視頻生成這件事上，中國公司會更重視它的價值，也更相信它能很快產(chǎn)生商業(yè)回報。

某種程度上，我理解 OpenAI 停掉 Sora，可以看成把更多算力資源傾斜到了 coding 這個方向。相較之下，中國公司看起來更重視視頻生成，因為它已經(jīng)是除 coding 之外最明確的大場景之一，而且商業(yè)價值也更容易被驗證。

Sand.ai 創(chuàng)始人曹越，此前曾任光年之外聯(lián)合創(chuàng)始人 | 圖片由受訪者提供

極客公園：具體到大公司和創(chuàng)業(yè)者，他們都做了什么？你有關(guān)注美國那邊 Runway 最近的動作嗎？

曹越：我們其實沒有特別關(guān)注 Runway。因為看起來，他們在「面向創(chuàng)作者的純視頻生成」產(chǎn)品層面，似乎沒有再進(jìn)行特別大規(guī)模的投入，整體敘事越來越偏向「世界模型」，包括 Luma AI 也是這樣的。相比繼續(xù)強化產(chǎn)品，美國的創(chuàng)業(yè)者更聚焦在強化模型，以及模型繼續(xù)演進(jìn)的方向。

極客公園：所以他們是「弱化產(chǎn)品、強化模型」？

曹越：對，硅谷我認(rèn)為是這個趨勢。

在中國，產(chǎn)品則會更快地進(jìn)入商業(yè)化階段。以 Seedance、可靈為代表，中國的視頻模型可以更快實現(xiàn)付費的閉環(huán)。不過，雖然在語言模型上，國內(nèi)和國際最領(lǐng)先水平仍有 gap，但在視頻這個方向上，我認(rèn)為中國公司的模型能力已經(jīng)處在世界第一梯隊了，這也是它們更容易率先把商業(yè)場景打出來的原因。

為數(shù)不多的技術(shù)共識：

音畫同出、多鏡頭敘事

極客公園：視頻模型的技術(shù)路線，今天收斂了嗎？

曹越：沒有收斂。至少現(xiàn)在還沒出現(xiàn)像語言模型里 coding 那樣，所有人都必須死磕、不能落后的統(tǒng)一方向。

目前視頻模型的競爭，更像是不同團(tuán)隊在不同方向上做強化選擇。例如多鏡頭敘事這件事，目前 Seedance 是處于領(lǐng)先地位的，但我們認(rèn)為這并不來自不可復(fù)制的絕對技術(shù)壁壘，更是「更早選擇了這個方向，并更早把它做好」的判斷，從而獲得了大約三個月左右的領(lǐng)先周期。

其實，從過去兩三年模型能力的進(jìn)展看，一家公司做出的能力，其他公司往往會在很短時間內(nèi)跟進(jìn)，快則兩三個月，慢則三到六個月。所以，競爭核心不完全是長期技術(shù)壁壘，也包括階段性的判斷和選擇。

極客公園：那么過去一年，視頻模型層面最關(guān)鍵的技術(shù)突破是什么？

曹越：我認(rèn)為是音畫同出和多鏡頭敘事。

Google Veo 3 是最早做出音畫同出的模型之一，我們后來也很快跟進(jìn)了。它的關(guān)鍵價值在于：人物的基礎(chǔ)表演會變得更細(xì)膩、更逼真，尤其是口型、聲音、動作之間的同步，會讓人物看起來沒那么像一個 AI 合成的人，而更像真實表演。

極客公園：那多鏡頭敘事呢？

曹越：多鏡頭敘事的重要性，其實更多是在它被做出來之后，行業(yè)內(nèi)才突然意識到。因為它顯著提升了敘事型視頻的質(zhì)量和真實感。

如果只是單鏡頭生成，即便畫面本身很好，人依然會隱約覺得「不太對勁」。因為人天然生活在 3D 空間里，對空間是否真實有非常敏銳的感受。多鏡頭敘事能在一段短視頻里，讓同一個場景從不同視角被表現(xiàn)出來。比如先從一個角度拍一個人說話，再切到另一個角度拍另一個人回應(yīng)。這樣一來，觀眾會迅速建立起對這個場景的空間感，整體也就顯得更真實、更舒服。

另外，現(xiàn)實世界里本來就存在大量天然對齊的信息。畫面和聲音是對齊的；同一個空間里的不同視角也是對齊的。過去如果模型只處理單鏡頭、無聲音的內(nèi)容，其實就等于沒有利用這些現(xiàn)實中天然存在的信息。一旦把這些不同維度的信息一起灌進(jìn)同一個模型里，生成效果就會顯著提高。

極客公園：聽起來是一個不斷升維的過程，從靜態(tài)畫面，到動態(tài)畫面加聲音，再到同一空間內(nèi)的多視角表達(dá)，能力是一層層往上疊加的。疊到某個臨界點后，用戶才會突然覺得「這個東西真能用了」。

曹越：這其實就是多模態(tài)的本質(zhì)：把物理世界里原本已經(jīng)對齊的信息，用同一個模型統(tǒng)一起來。

極客公園：視頻模型領(lǐng)域，會不會出現(xiàn)一個類似 coding 之于語言模型那種「皇冠上的明珠」？如果會，它是什么？

曹越：如果現(xiàn)在就讓我給一個已經(jīng)完全收斂的答案，我覺得還沒有。但我認(rèn)為視頻模型下一步非常關(guān)鍵的方向，很可能是更強的上下文理解、thinking，以及由此帶來的更細(xì)膩的表演能力。

今天的模型已經(jīng)能做到一部分事情。比如你給一張照片，再給一個比較具體的描述，它已經(jīng)可以讓這個人帶著某種情緒去說一段臺詞，而且畫面和聲音是一起生成的，所以對齊度會比較高，你會覺得它比較真。

但這還只是比較粗的層面。如果想要更細(xì)膩地表達(dá)一段音畫同出的內(nèi)容，我覺得模型需要的不是更簡單的一對一映射，而是 thinking。也就是它看到一整段 prompt 之后，不是直接把「憤怒地說」映射成一個表情，而是先理解上下文：這個角色是誰，之前發(fā)生了什么，這個場景是什么，他應(yīng)該怎樣表達(dá)。只有這樣，表演才會更細(xì)膩，也更貼合場景。

現(xiàn)在，還沒有模型能真正做到這一點，但我覺得這會來得很快，而且會是下一個非常關(guān)鍵的 breakthrough。

從創(chuàng)作者到「視頻投資人」

極客公園：聊聊你們在內(nèi)測的新產(chǎn)品 VidMuse 2.0 吧。我看了你們的介紹，交互邏輯是「Music in，Video Out」，這次核心的升級是什么？

張子賀：VidMuse 2.0 的核心，不是多了幾個功能，而是重新做了 agent 的框架。

之前市面上的很多 Video Agent，包括我們自己 1.0 的狀態(tài)，都會更像一個「帶著腳鐐」的 agent：它只能按你預(yù)設(shè)好的 workflow，一步一步往下走。

但視頻創(chuàng)作本身不是一個線性的流程，它是一個很發(fā)散的過程。所以 2.0 的核心升級，就是從這種 Workflow 式、強編排的工具，轉(zhuǎn)向一個更開放的 Video Agent。我們想做的是，盡量把原來加在 AI 身上的那些手鏈、腳鏈放開，讓它自己去發(fā)揮智能，順著用戶需求和創(chuàng)作過程流動。

極客公園：現(xiàn)在大家都開始放開韁繩、少編排，更多交給 agent 創(chuàng)造好環(huán)境，VidMuse 2.0 基本就是往這個思路走的，對嗎？

張子賀：是的，因為視頻創(chuàng)作這件事本身非常社區(qū)驅(qū)動。社區(qū)里會不斷冒出新的玩法、新的創(chuàng)作習(xí)慣、新的表達(dá)方式。如果每次社區(qū)冒出一個新想法，如果我都要靠人力、物力再去迭代一個新功能，那這個產(chǎn)品是永遠(yuǎn)追不上的。哪怕有各類 coding agent 提效，你也不可能真的 24 小時在線去手工支持所有這些變化。

所以，從產(chǎn)品角度看，把 AI 綁在固定 workflow 里，是追不上創(chuàng)作演化速度的。

極客公園：既然你認(rèn)為它是一個 Video Agent，那它對標(biāo)的是什么？

張子賀：我們從一開始就不是把它當(dāng)成一個單點工具，而是把它當(dāng)成一個「完整的乙方」或者「制片團(tuán)隊」。我們看到很多 AI 時代的創(chuàng)作者，為了做一個完整視頻，要在 DeepSeek、Midjourney、生圖工具、生視頻工具之間來回穿梭，自己搭管線，門檻很高。我們當(dāng)時看到的機會就是：能不能在這些工具之上架一個 agent，把它變成一個完整的制片團(tuán)隊。用戶不需要再自己穿梭在各種工具里，只需要說目標(biāo)，agent 去組織流程、調(diào)度 agent，最后把視頻交付出來。

極客公園：這個形態(tài)下，用戶其實就成為了制片人或者投資方?！笩筎oken，然后得到滿意的成片。

張子賀：是的。

VidMuse 產(chǎn)品負(fù)責(zé)人張子賀 Zake | 圖片由受訪者提供

音樂是 AI 時代的視頻創(chuàng)作起點

極客公園：我聽說有人把 VidMuse 看成一個 MV 場景的垂類產(chǎn)品？你們肯定是奔著一個通用目標(biāo)去的吧？

張子賀：我想專門澄清一下。我們內(nèi)部從來沒有說過自己只做 MV，也從來沒有把自己定位成一個 MV Video Agent。

一開始我們也走過一些彎路。最初的想法是，模型能力本來是通用的，那產(chǎn)品也應(yīng)該盡量通用，不要給模型太多預(yù)設(shè)。但真正做的時候你會發(fā)現(xiàn)，如果所有場景都想覆蓋，產(chǎn)品很難跨過那個「用戶愿意付費」的閾值，所以它必須收斂。

問題在于，怎么收斂。很多人會按內(nèi)容類型去切：音樂、漫劇、廣告，分別做成不同產(chǎn)品。但我不太認(rèn)同這種切法。因為如果你按內(nèi)容類型把產(chǎn)品框死，它后面一旦要輻射更多場景，往往就得重構(gòu)。我們最后選擇的不是按內(nèi)容類型切，而是按創(chuàng)作鏈路去切。也就是說，我不是先定義「我做的是 MV」，而是先定義：AI 時代的視頻創(chuàng)作，到底是沿著什么鏈路往前走的。

極客公園：所以你們是會順著「創(chuàng)作意愿」去找用戶？音樂為什么會成為更好的切入口？

張子賀：我越來越覺得，音頻是一個比圖片和文字更適合切入的連續(xù)信息。圖片和文字更像是離散的，但音頻，尤其是音樂，是連續(xù)流動的。

我們刷了很多 Twitter、YouTube 火的純 AI 生成視頻，發(fā)現(xiàn)它們有一個很明顯的共性：很多作品其實都是通過音樂或者音頻去 drive 整個創(chuàng)作鏈路。所以我當(dāng)時才會說，音樂其實像這個視頻的骨架。

所以我會覺得：AI 時代的視頻，不一定還需要傳統(tǒng)剪映式的軟件邏輯，而更可能是沿著音頻驅(qū)動的鏈路往前走。我們后來選擇從音樂切，不是因為「MV 這個品類本身」，而是因為我覺得在音頻里，音樂占了一個非常大的部分，它是最自然的入口。

極客公園：如果順著這個邏輯往外延展？MV 之外還可能是什么？

張子賀：這套理解后來又延伸到廣告。我覺得，廣告里很多真正讓人記住的東西，不只是畫面和文案，還有旋律。一個詞配上一段洗腦的音樂，再配上簡單但強記憶點的畫面，信息傳遞會被明顯放大。

極客公園：所以從更長遠(yuǎn)的角度看，你們會認(rèn)為「文字、畫面、旋律」看成一種更高維的內(nèi)容格式，而不是把音樂只當(dāng)成一個附屬元素。

張子賀：是的。

VidMuse 的產(chǎn)品界面

極客公園：選擇「Music in」，跟用戶畫像有關(guān)系嗎？

張子賀：有，而且關(guān)系很大。

我們有一個很明確的判斷：很多 Video Agent 在增長上會遇到瓶頸，因為你很難憑空創(chuàng)造用戶的「創(chuàng)作意愿」。一個人如果本來沒有生產(chǎn)視頻的意愿，你很難讓他突然開始做這件事，ROI 也很難算正。但從音樂切就不一樣。因為有音樂的人，天然已經(jīng)有創(chuàng)作意愿，讓他從音樂順理成章地過渡到視頻，投放和增長的 ROI 會更正，這也是我們增長比較快的一個原因。

所以，音樂不是隨便選的流量入口，而是和「創(chuàng)作意愿」直接相關(guān)。

極客公園：你們現(xiàn)在的用戶畫像，大概是怎樣的？

張子賀：我會把他們大致分成兩類。

第一類就是音樂相關(guān)用戶，不管是傳統(tǒng)音樂人，還是 AI 音樂人。后者其實占了很大一部分——比如 Suno 賦予了他們創(chuàng)作能力，他們從原來只是音樂愛好者，慢慢成長到會頻繁發(fā)布自己的歌，希望有更多人聽到。

但光有音樂還不夠。你把音樂發(fā)在 Spotify 或 SoundCloud 上，真正能聽到的人還是有限；流量更大的地方是 TikTok、Instagram、YouTube。這樣一來，他們就天然需要一個視頻媒介。所以我看到的第一批核心用戶，其實就是：他們很會做音樂，但不會做音樂視頻。他們本來就在音樂這個模態(tài)里很專業(yè)，來到 VidMuse，是為了補上「從音樂到視頻」這一步。

極客公園：那么另一類呢？

張子賀：我們內(nèi)部把他們叫做泛生活化創(chuàng)作的人。

這類人的創(chuàng)作內(nèi)容更偏生活和個人表達(dá)，比如年會視頻、孩子成長、朋友生日、家庭紀(jì)念日，這些都算。這個方向本身就是一個新發(fā)現(xiàn)，因為過去這類人其實很容易被忽視。

更讓我們印象深的是，里面還有一部分是非常強的個人情緒表達(dá)。有人會用它創(chuàng)作一些關(guān)于童年、家庭關(guān)系等等題材的視頻。他們很多時候其實已經(jīng)有一首自己的歌，然后用這個產(chǎn)品去把那首歌對應(yīng)成自己心里真正想要的畫面，一遍一遍調(diào)。這里面有些內(nèi)容甚至不會發(fā)到任何平臺上，它不是為了傳播，而是為了表達(dá)和宣泄。

這類用戶很重要的一點是：他們上傳的往往是非常隱私的照片和故事。他們未必愿意把這些內(nèi)容交給一個人類創(chuàng)作者，但愿意交給一個工具或 agent 去完成。所以我會覺得，這里已經(jīng)不只是普通的內(nèi)容生產(chǎn)，它更接近一種個人紀(jì)念、情緒整理，甚至某種自我療愈式的創(chuàng)作。

創(chuàng)業(yè)公司更容易搞定「雙輪驅(qū)動」

極客公園：如果通過編排和加 skill 的方式，用 OpenClaw 做一個類似的產(chǎn)品，那你們自己的模型在 VidMuse 里到底扮演什么角色？你們的模型和產(chǎn)品之間，是強耦合還是弱耦合？

曹越：我們內(nèi)部從一開始就是雙輪驅(qū)動。

產(chǎn)品不應(yīng)該被模型掣肘，產(chǎn)品的目標(biāo)是服務(wù)用戶、把規(guī)模做大，所以不應(yīng)該帶著鐐銬跳舞，哪怕這個鐐銬是金的。對我們來說，哪個模型能讓產(chǎn)品跑得更快，就應(yīng)該調(diào)用哪個模型；我們從一開始就沒有要求產(chǎn)品必須用自家模型。

但換一個角度，模型團(tuán)隊在很多場景下又確實要支持產(chǎn)品。比如我們做 Music Video，第一步就需要更準(zhǔn)確地分析音樂，識別節(jié)奏、卡點這些細(xì)顆粒度信息，這時候模型團(tuán)隊就可以過來支持，把音樂分析做得更準(zhǔn)。再比如在視頻生成里，有些場景用我們自己的模型效果更好，或者成本更低，這些也都能直接支持產(chǎn)品。

所以這不是簡單的強耦合或者弱耦合。更準(zhǔn)確地說，產(chǎn)品先按自己的節(jié)奏跑，模型在關(guān)鍵環(huán)節(jié)提供支持：一方面提升效果，另一方面降低調(diào)用 API 的成本，提高毛利，幫助產(chǎn)品跑得更大。

極客公園：雙輪驅(qū)動肯定好，但也肯定難。

曹越：我的感受是，創(chuàng)業(yè)公司更容易把雙輪驅(qū)動搞定。原因不是團(tuán)隊小本身，而是創(chuàng)業(yè)公司里更容易有一批真正處在 founder mode 的人。無論是做業(yè)務(wù)、做產(chǎn)品，還是做模型的人，只要他們心里的目標(biāo)和公司的目標(biāo)是對齊的，這件事就好推動。

反過來，如果一個做模型的人心里想的是「我要做一個特別的模型，公司好壞跟我關(guān)系不大」，那他的目標(biāo)其實只對齊在模型這條線上，這就不是雙輪驅(qū)動，而是單輪驅(qū)動。

所以真正決定雙輪驅(qū)動能不能成立的，不是形式上公司里同時有模型和產(chǎn)品，而是兩邊負(fù)責(zé)人是不是都相信：同時擁有模型和產(chǎn)品，對公司整體是更有利的。

極客公園：具體來說，你們是怎么處理「先用最好模型把產(chǎn)品跑起來，再把關(guān)鍵能力收回來」這個問題的？

曹越：從產(chǎn)品 0 到 1 去找 PMF 的階段，如果一開始就和自家模型綁得太死，驗證周期會被拉長，不利于快速驗證、快速找到 PMF。所以我們過去這段時間的做法是，先拿效果最好的模型把產(chǎn)品搭起來。

這個階段我們不會先優(yōu)先考慮成本，而是先看它能跑到什么狀態(tài)，這個產(chǎn)物能不能交付，能不能形成商業(yè)閉環(huán)。等這條鏈路先跑通以后，我們再看有哪些地方值得優(yōu)化、值得收回來。

所以這件事不是一開始就要求產(chǎn)品必須用自家模型，而是先讓產(chǎn)品按自己的節(jié)奏跑起來；模型團(tuán)隊在關(guān)鍵環(huán)節(jié)提供支持。一方面把效果做得更好，另一方面把調(diào)用 API 的成本降下來，提高毛利，幫助產(chǎn)品跑得更大。

信任關(guān)系才是最深的護(hù)城河

極客公園：你們現(xiàn)在商業(yè)收入跑到什么程度了？

張子賀：VidMuse 從 1 月中旬上線開始，大概兩個月時間，跑到了1000 萬美金的 ARR，而且還在漲?；旧鲜?strong>單周 20 多萬美金的收入，并且已經(jīng)比較穩(wěn)定。

收費方式上，我們現(xiàn)在是訂閱+加油包。注冊用戶有免費 1000 積分，可以先起一個項目。

極客公園：1000 積分是什么概念？

張子賀：大概能把一個 30 秒左右的視頻項目推進(jìn)到比較后面的階段。

極客公園：付費轉(zhuǎn)化率、客單價怎么樣？

張子賀：注冊到付費的轉(zhuǎn)化大約在 5%-7%?？蛦蝺r一直比較高，因為用戶需要先訂閱，再買加油包，有些人最后會直接升級到更高階版本。

極客公園：繼續(xù)往后走呢？VidMuse 3.0、4.0 還要補齊什么能力？產(chǎn)品邊界會怎么變？

曹越：3.0 或 4.0 應(yīng)該是一個更徹底釋放的狀態(tài)：用戶提一個原來產(chǎn)品里沒有的功能，它也能想辦法調(diào)動自己擁有的資源，把這個問題解決掉。

這件事會越來越依賴更通用的 agent 能力，尤其是 coding agent 的能力。因為社區(qū)里會不斷冒出千奇百怪的需求。你得有一種能力，能順著用戶的需求流動，用戶給你一個鏈接、一個帖子、一個教程，你能理解里面的方法，然后把它實現(xiàn)出來。產(chǎn)品會更少依賴預(yù)設(shè)功能，而是更順著用戶需求流動。

極客公園：聽起來，未來的產(chǎn)品會越來越「無為」。從長期看，Sand.ai 的護(hù)城河是什么？怎么留住用戶、沉淀長期價值？我相信不止是模型能力吧？

曹越：現(xiàn)在 AI agent 產(chǎn)品最大的問題之一，是穩(wěn)定性很差，很難和用戶建立可信賴的關(guān)系。

所以我們的思路是：先解決各種幻覺，尤其是多輪對話里小幻覺被不斷放大的問題，讓用戶敢信你。我們希望用戶在創(chuàng)作結(jié)束時，留下的是「thank you」、「good night」這樣的情緒，而不是被激怒、被消耗。第一步先是建立信任感。

第二步，是讓用戶愿意留在這里。好的產(chǎn)品要在使用過程中不斷認(rèn)識這個人、了解這個人、理解他喜歡什么。比如用戶已經(jīng)明確說過自己喜歡諾蘭，就不要再給他推別的導(dǎo)演風(fēng)格；用戶說過自己不喜歡紫色，后面的場景、分鏡、腳本設(shè)計就不該再往這個方向走。

所以，memory（長期記憶）和信任關(guān)系是我們 Video Agent 的靈魂。

*頭圖來源：Sand.ai

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你想體驗 Sand.ai 嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.