国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)硅谷轉(zhuǎn)向「世界模型」,中國視頻公司選擇先把錢賺了丨對話 Sand.ai

0
分享至


這家兩個月達(dá)成千萬美金 ARR 的團(tuán)隊,認(rèn)為音樂才是 AI 視頻的入口。


整理|曹思頎

采訪|張鵬 曹思頎

2026 年,在以 OpenClaw 為代表的 Agentic AI 成為整個 AI 圈「超級共識」的同時,視頻模型卻開始走向另一種分化。

在美國,OpenAI 已關(guān)閉 Sora 的獨立產(chǎn)品形態(tài),視頻生成在其當(dāng)前優(yōu)先級里明顯后撤;Runway、Luma AI 等創(chuàng)業(yè)公司也開始把敘事的中心轉(zhuǎn)向「世界模型」。

而國內(nèi)則呈現(xiàn)另一番景象:視頻模型正在成為大廠下一階段必爭的多模態(tài)能力。無論是字節(jié)旗下的即夢,還是快手旗下的可靈,這類視頻生成產(chǎn)品正在從大眾娛樂場景,進(jìn)一步滲透進(jìn)付費意愿更強的專業(yè)創(chuàng)作者群體。

Sand.ai 是這輪分化里一個值得觀察的創(chuàng)業(yè)樣本。他們的核心產(chǎn)品 VidMuse 主打「Music in,Video Out」的產(chǎn)品形態(tài),把音頻放到產(chǎn)品最核心的輸入位置。據(jù)了解,VidMuse 自年初上線以來,ARR(年度經(jīng)常性收入)已超千萬美金。

近期,Sand.ai 宣布完成了新一輪約 5000 萬美元的融資,極客公園也和 Sand.ai 創(chuàng)始人曹越、VidMuse 產(chǎn)品負(fù)責(zé)人張子賀 Zake 進(jìn)行了當(dāng)面溝通。在 Sand.ai 看來,音樂的重要性并不因為它對應(yīng)某一類內(nèi)容或用戶,而在于它可能成為 AI 時代視頻創(chuàng)作更底層的輸入起點,也天然連接著更強的創(chuàng)作意愿。

與此同時,Sand.ai 還堅定地選擇了既做產(chǎn)品又做模型的「雙輪驅(qū)動」路徑:先用市場上效果最好的模型為產(chǎn)品找到 PMF,再用自家的模型回到關(guān)鍵節(jié)點換效果、換成本、換毛利。無論從精力、能力還是資源上看,這都不是一條輕松的路。但在曹越看來,這恰恰是創(chuàng)業(yè)公司相對巨頭的一種優(yōu)勢:在這里,模型和產(chǎn)品更容易服務(wù)于同一個目標(biāo),而不會彼此分裂。

而這條路徑真正指向的,不只是一個更強的視頻生成工具,而是一個能夠長期協(xié)作的「數(shù)字制片團(tuán)隊」。在 Video Agent 這種新的產(chǎn)品形態(tài)下,用戶更像一個「出資方」:不再需要充當(dāng)導(dǎo)演反復(fù) prompt 獎戲,而是可以把創(chuàng)作目標(biāo)安心托付給一個能夠長期信賴、持續(xù)調(diào)用的創(chuàng)作伙伴。

以下是整理后的訪談內(nèi)容:

01

視頻模型生成的「中美分野」

極客公園:你們關(guān)注到最近很火那個 HappyHorse 了嗎?

曹越:看到了,還挺有意思的,好多人拿推特上一個分析的帖子來問這個是不是我們的模型。我后來發(fā)現(xiàn),是有個網(wǎng)站上面就直接把我們 Magihuman tech report(Sand.ai 最新開源的模型)內(nèi)容轉(zhuǎn)成網(wǎng)頁,名字是 HappyHorse。(笑)不過我們的新模型在訓(xùn)練中,會盡快推出,很大概率會直接開源出來,希望整個行業(yè)一起加速推動。

極客公園:所以是個 fake news。但最近你們一邊內(nèi)測新產(chǎn)品 VidMuse 2.0,一邊開源了一個基模,在外部看來是個有點反共識的決定。今天大家都在強調(diào)商業(yè)化和閉源,你們?yōu)槭裁催x擇開源?

曹越:我覺得開源的本質(zhì)之一是提升品牌價值,有的時候也能夠降低獲客成本。比如 DeepSeek-R1 那次開源,大家一開始也未必能想到帶來了那么好的效果,起到了很好的作用。

對我們來說,去年 4 月我們發(fā)布 Magi-1 的時候,就開源了那個模型,算是最早開始探索世界模型的團(tuán)隊吧,Magi-1是自回歸視頻基礎(chǔ)模型。子賀當(dāng)時還在北歐讀書,也是看到這個開源模型之后找到我們的。

極客公園:今天很多投資機構(gòu)也是在 GitHub 上通過開源項目找創(chuàng)業(yè)者。所以視頻模型這個賽道,今天發(fā)展到了什么階段?

曹越:這件事已經(jīng)進(jìn)入了一個「節(jié)奏分化」的階段:有些方向會先成熟,有些方向會更晚成熟。現(xiàn)在最明確已經(jīng)成立的,是用視頻模型來替代實拍。

過去如果要做一段內(nèi)容,需要租場地、燈光、演員,再進(jìn)入拍攝流程;現(xiàn)在則越來越多地變成「寫好 prompt,點擊生成」。這一能力首先服務(wù)的是一群本來就在做內(nèi)容生產(chǎn)的專業(yè)創(chuàng)作者,幫助他們替代過去的實拍環(huán)節(jié)。

因此,現(xiàn)階段最成熟的不是泛娛樂消費,而是有明確目標(biāo)的內(nèi)容生產(chǎn)。隨著模型能力變強,這部分創(chuàng)作者使用 AI 的比例在持續(xù)提高,而且這類人本來就有生產(chǎn)需求、也更愿意付費。過去接近兩年里,可靈、Runway、Seedance 的增長,都是建立在這類場景之上,典型應(yīng)用包括短視頻內(nèi)容、廣告電商、短劇等泛內(nèi)容生產(chǎn)。

極客公園:中美對待視頻模型的整體態(tài)度,有什么不同?

曹越:我認(rèn)為,中美團(tuán)隊的差異實質(zhì)上來自過去十年的產(chǎn)業(yè)和產(chǎn)品環(huán)境不同。

在北美,過去十年 C 端的大錢更多被 Meta 這樣的巨頭拿走,真正以 C 端產(chǎn)品為核心的創(chuàng)業(yè)公司相對少,因此大量創(chuàng)業(yè)公司更習(xí)慣在 ToB SaaS 上掙錢。

而過去十年,微信、短視頻等產(chǎn)品形態(tài)是中國最熱的產(chǎn)品,因此整個市場對 ToC 場景的感知更強。所以,在視頻生成這件事上,中國公司會更重視它的價值,也更相信它能很快產(chǎn)生商業(yè)回報。

某種程度上,我理解 OpenAI 停掉 Sora,可以看成把更多算力資源傾斜到了 coding 這個方向。相較之下,中國公司看起來更重視視頻生成,因為它已經(jīng)是除 coding 之外最明確的大場景之一,而且商業(yè)價值也更容易被驗證。


Sand.ai 創(chuàng)始人曹越,此前曾任光年之外聯(lián)合創(chuàng)始人 | 圖片由受訪者提供

極客公園:具體到大公司和創(chuàng)業(yè)者,他們都做了什么?你有關(guān)注美國那邊 Runway 最近的動作嗎?

曹越:我們其實沒有特別關(guān)注 Runway。因為看起來,他們在「面向創(chuàng)作者的純視頻生成」產(chǎn)品層面,似乎沒有再進(jìn)行特別大規(guī)模的投入,整體敘事越來越偏向「世界模型」,包括 Luma AI 也是這樣的。相比繼續(xù)強化產(chǎn)品,美國的創(chuàng)業(yè)者更聚焦在強化模型,以及模型繼續(xù)演進(jìn)的方向。

極客公園:所以他們是「弱化產(chǎn)品、強化模型」?

曹越:對,硅谷我認(rèn)為是這個趨勢。

在中國,產(chǎn)品則會更快地進(jìn)入商業(yè)化階段。以 Seedance、可靈為代表,中國的視頻模型可以更快實現(xiàn)付費的閉環(huán)。不過,雖然在語言模型上,國內(nèi)和國際最領(lǐng)先水平仍有 gap,但在視頻這個方向上,我認(rèn)為中國公司的模型能力已經(jīng)處在世界第一梯隊了,這也是它們更容易率先把商業(yè)場景打出來的原因。

02

為數(shù)不多的技術(shù)共識:

音畫同出、多鏡頭敘事

極客公園:視頻模型的技術(shù)路線,今天收斂了嗎?

曹越:沒有收斂。至少現(xiàn)在還沒出現(xiàn)像語言模型里 coding 那樣,所有人都必須死磕、不能落后的統(tǒng)一方向。

目前視頻模型的競爭,更像是不同團(tuán)隊在不同方向上做強化選擇。例如多鏡頭敘事這件事,目前 Seedance 是處于領(lǐng)先地位的,但我們認(rèn)為這并不來自不可復(fù)制的絕對技術(shù)壁壘,更是「更早選擇了這個方向,并更早把它做好」的判斷,從而獲得了大約三個月左右的領(lǐng)先周期。

其實,從過去兩三年模型能力的進(jìn)展看,一家公司做出的能力,其他公司往往會在很短時間內(nèi)跟進(jìn),快則兩三個月,慢則三到六個月。所以,競爭核心不完全是長期技術(shù)壁壘,也包括階段性的判斷和選擇。

極客公園:那么過去一年,視頻模型層面最關(guān)鍵的技術(shù)突破是什么?

曹越:我認(rèn)為是音畫同出和多鏡頭敘事。

Google Veo 3 是最早做出音畫同出的模型之一,我們后來也很快跟進(jìn)了。它的關(guān)鍵價值在于:人物的基礎(chǔ)表演會變得更細(xì)膩、更逼真,尤其是口型、聲音、動作之間的同步,會讓人物看起來沒那么像一個 AI 合成的人,而更像真實表演。

極客公園:那多鏡頭敘事呢?

曹越:多鏡頭敘事的重要性,其實更多是在它被做出來之后,行業(yè)內(nèi)才突然意識到。因為它顯著提升了敘事型視頻的質(zhì)量和真實感。

如果只是單鏡頭生成,即便畫面本身很好,人依然會隱約覺得「不太對勁」。因為人天然生活在 3D 空間里,對空間是否真實有非常敏銳的感受。多鏡頭敘事能在一段短視頻里,讓同一個場景從不同視角被表現(xiàn)出來。比如先從一個角度拍一個人說話,再切到另一個角度拍另一個人回應(yīng)。這樣一來,觀眾會迅速建立起對這個場景的空間感,整體也就顯得更真實、更舒服。

另外,現(xiàn)實世界里本來就存在大量天然對齊的信息。畫面和聲音是對齊的;同一個空間里的不同視角也是對齊的。過去如果模型只處理單鏡頭、無聲音的內(nèi)容,其實就等于沒有利用這些現(xiàn)實中天然存在的信息。一旦把這些不同維度的信息一起灌進(jìn)同一個模型里,生成效果就會顯著提高。

極客公園:聽起來是一個不斷升維的過程,從靜態(tài)畫面,到動態(tài)畫面加聲音,再到同一空間內(nèi)的多視角表達(dá),能力是一層層往上疊加的。疊到某個臨界點后,用戶才會突然覺得「這個東西真能用了」。

曹越:這其實就是多模態(tài)的本質(zhì):把物理世界里原本已經(jīng)對齊的信息,用同一個模型統(tǒng)一起來。

極客公園:視頻模型領(lǐng)域,會不會出現(xiàn)一個類似 coding 之于語言模型那種「皇冠上的明珠」?如果會,它是什么?

曹越:如果現(xiàn)在就讓我給一個已經(jīng)完全收斂的答案,我覺得還沒有。但我認(rèn)為視頻模型下一步非常關(guān)鍵的方向,很可能是更強的上下文理解、thinking,以及由此帶來的更細(xì)膩的表演能力。

今天的模型已經(jīng)能做到一部分事情。比如你給一張照片,再給一個比較具體的描述,它已經(jīng)可以讓這個人帶著某種情緒去說一段臺詞,而且畫面和聲音是一起生成的,所以對齊度會比較高,你會覺得它比較真。

但這還只是比較粗的層面。如果想要更細(xì)膩地表達(dá)一段音畫同出的內(nèi)容,我覺得模型需要的不是更簡單的一對一映射,而是 thinking。也就是它看到一整段 prompt 之后,不是直接把「憤怒地說」映射成一個表情,而是先理解上下文:這個角色是誰,之前發(fā)生了什么,這個場景是什么,他應(yīng)該怎樣表達(dá)。只有這樣,表演才會更細(xì)膩,也更貼合場景。

現(xiàn)在,還沒有模型能真正做到這一點,但我覺得這會來得很快,而且會是下一個非常關(guān)鍵的 breakthrough。

03

從創(chuàng)作者到「視頻投資人」

極客公園:聊聊你們在內(nèi)測的新產(chǎn)品 VidMuse 2.0 吧。我看了你們的介紹,交互邏輯是「Music in,Video Out」,這次核心的升級是什么?

張子賀:VidMuse 2.0 的核心,不是多了幾個功能,而是重新做了 agent 的框架。

之前市面上的很多 Video Agent,包括我們自己 1.0 的狀態(tài),都會更像一個「帶著腳鐐」的 agent:它只能按你預(yù)設(shè)好的 workflow,一步一步往下走。

但視頻創(chuàng)作本身不是一個線性的流程,它是一個很發(fā)散的過程。所以 2.0 的核心升級,就是從這種 Workflow 式、強編排的工具,轉(zhuǎn)向一個更開放的 Video Agent。我們想做的是,盡量把原來加在 AI 身上的那些手鏈、腳鏈放開,讓它自己去發(fā)揮智能,順著用戶需求和創(chuàng)作過程流動。

極客公園:現(xiàn)在大家都開始放開韁繩、少編排,更多交給 agent 創(chuàng)造好環(huán)境,VidMuse 2.0 基本就是往這個思路走的,對嗎?

張子賀:是的,因為視頻創(chuàng)作這件事本身非常社區(qū)驅(qū)動。社區(qū)里會不斷冒出新的玩法、新的創(chuàng)作習(xí)慣、新的表達(dá)方式。如果每次社區(qū)冒出一個新想法,如果我都要靠人力、物力再去迭代一個新功能,那這個產(chǎn)品是永遠(yuǎn)追不上的。哪怕有各類 coding agent 提效,你也不可能真的 24 小時在線去手工支持所有這些變化。

所以,從產(chǎn)品角度看,把 AI 綁在固定 workflow 里,是追不上創(chuàng)作演化速度的。

極客公園:既然你認(rèn)為它是一個 Video Agent,那它對標(biāo)的是什么?

張子賀:我們從一開始就不是把它當(dāng)成一個單點工具,而是把它當(dāng)成一個「完整的乙方」或者「制片團(tuán)隊」。我們看到很多 AI 時代的創(chuàng)作者,為了做一個完整視頻,要在 DeepSeek、Midjourney、生圖工具、生視頻工具之間來回穿梭,自己搭管線,門檻很高。我們當(dāng)時看到的機會就是:能不能在這些工具之上架一個 agent,把它變成一個完整的制片團(tuán)隊。用戶不需要再自己穿梭在各種工具里,只需要說目標(biāo),agent 去組織流程、調(diào)度 agent,最后把視頻交付出來。

極客公園:這個形態(tài)下,用戶其實就成為了制片人或者投資方?!笩筎oken,然后得到滿意的成片。

張子賀:是的。


VidMuse 產(chǎn)品負(fù)責(zé)人張子賀 Zake | 圖片由受訪者提供

04

音樂是 AI 時代的視頻創(chuàng)作起點

極客公園:我聽說有人把 VidMuse 看成一個 MV 場景的垂類產(chǎn)品?你們肯定是奔著一個通用目標(biāo)去的吧?

張子賀:我想專門澄清一下。我們內(nèi)部從來沒有說過自己只做 MV,也從來沒有把自己定位成一個 MV Video Agent。

一開始我們也走過一些彎路。最初的想法是,模型能力本來是通用的,那產(chǎn)品也應(yīng)該盡量通用,不要給模型太多預(yù)設(shè)。但真正做的時候你會發(fā)現(xiàn),如果所有場景都想覆蓋,產(chǎn)品很難跨過那個「用戶愿意付費」的閾值,所以它必須收斂。

問題在于,怎么收斂。很多人會按內(nèi)容類型去切:音樂、漫劇、廣告,分別做成不同產(chǎn)品。但我不太認(rèn)同這種切法。因為如果你按內(nèi)容類型把產(chǎn)品框死,它后面一旦要輻射更多場景,往往就得重構(gòu)。我們最后選擇的不是按內(nèi)容類型切,而是按創(chuàng)作鏈路去切。也就是說,我不是先定義「我做的是 MV」,而是先定義:AI 時代的視頻創(chuàng)作,到底是沿著什么鏈路往前走的。

極客公園:所以你們是會順著「創(chuàng)作意愿」去找用戶?音樂為什么會成為更好的切入口?

張子賀:我越來越覺得,音頻是一個比圖片和文字更適合切入的連續(xù)信息。圖片和文字更像是離散的,但音頻,尤其是音樂,是連續(xù)流動的。

我們刷了很多 Twitter、YouTube 火的純 AI 生成視頻,發(fā)現(xiàn)它們有一個很明顯的共性:很多作品其實都是通過音樂或者音頻去 drive 整個創(chuàng)作鏈路。所以我當(dāng)時才會說,音樂其實像這個視頻的骨架。

所以我會覺得:AI 時代的視頻,不一定還需要傳統(tǒng)剪映式的軟件邏輯,而更可能是沿著音頻驅(qū)動的鏈路往前走。我們后來選擇從音樂切,不是因為「MV 這個品類本身」,而是因為我覺得在音頻里,音樂占了一個非常大的部分,它是最自然的入口。

極客公園:如果順著這個邏輯往外延展?MV 之外還可能是什么?

張子賀:這套理解后來又延伸到廣告。我覺得,廣告里很多真正讓人記住的東西,不只是畫面和文案,還有旋律。一個詞配上一段洗腦的音樂,再配上簡單但強記憶點的畫面,信息傳遞會被明顯放大。

極客公園:所以從更長遠(yuǎn)的角度看,你們會認(rèn)為「文字、畫面、旋律」看成一種更高維的內(nèi)容格式,而不是把音樂只當(dāng)成一個附屬元素。

張子賀:是的。


VidMuse 的產(chǎn)品界面

極客公園:選擇「Music in」,跟用戶畫像有關(guān)系嗎?

張子賀:有,而且關(guān)系很大。

我們有一個很明確的判斷:很多 Video Agent 在增長上會遇到瓶頸,因為你很難憑空創(chuàng)造用戶的「創(chuàng)作意愿」。一個人如果本來沒有生產(chǎn)視頻的意愿,你很難讓他突然開始做這件事,ROI 也很難算正。但從音樂切就不一樣。因為有音樂的人,天然已經(jīng)有創(chuàng)作意愿,讓他從音樂順理成章地過渡到視頻,投放和增長的 ROI 會更正,這也是我們增長比較快的一個原因。

所以,音樂不是隨便選的流量入口,而是和「創(chuàng)作意愿」直接相關(guān)。

極客公園:你們現(xiàn)在的用戶畫像,大概是怎樣的?

張子賀:我會把他們大致分成兩類。

第一類就是音樂相關(guān)用戶,不管是傳統(tǒng)音樂人,還是 AI 音樂人。后者其實占了很大一部分——比如 Suno 賦予了他們創(chuàng)作能力,他們從原來只是音樂愛好者,慢慢成長到會頻繁發(fā)布自己的歌,希望有更多人聽到。

但光有音樂還不夠。你把音樂發(fā)在 Spotify 或 SoundCloud 上,真正能聽到的人還是有限;流量更大的地方是 TikTok、Instagram、YouTube。這樣一來,他們就天然需要一個視頻媒介。所以我看到的第一批核心用戶,其實就是:他們很會做音樂,但不會做音樂視頻。他們本來就在音樂這個模態(tài)里很專業(yè),來到 VidMuse,是為了補上「從音樂到視頻」這一步。

極客公園:那么另一類呢?

張子賀:我們內(nèi)部把他們叫做泛生活化創(chuàng)作的人。

這類人的創(chuàng)作內(nèi)容更偏生活和個人表達(dá),比如年會視頻、孩子成長、朋友生日、家庭紀(jì)念日,這些都算。這個方向本身就是一個新發(fā)現(xiàn),因為過去這類人其實很容易被忽視。

更讓我們印象深的是,里面還有一部分是非常強的個人情緒表達(dá)。有人會用它創(chuàng)作一些關(guān)于童年、家庭關(guān)系等等題材的視頻。他們很多時候其實已經(jīng)有一首自己的歌,然后用這個產(chǎn)品去把那首歌對應(yīng)成自己心里真正想要的畫面,一遍一遍調(diào)。這里面有些內(nèi)容甚至不會發(fā)到任何平臺上,它不是為了傳播,而是為了表達(dá)和宣泄。

這類用戶很重要的一點是:他們上傳的往往是非常隱私的照片和故事。他們未必愿意把這些內(nèi)容交給一個人類創(chuàng)作者,但愿意交給一個工具或 agent 去完成。所以我會覺得,這里已經(jīng)不只是普通的內(nèi)容生產(chǎn),它更接近一種個人紀(jì)念、情緒整理,甚至某種自我療愈式的創(chuàng)作。

05

創(chuàng)業(yè)公司更容易搞定「雙輪驅(qū)動」

極客公園:如果通過編排和加 skill 的方式,用 OpenClaw 做一個類似的產(chǎn)品,那你們自己的模型在 VidMuse 里到底扮演什么角色?你們的模型和產(chǎn)品之間,是強耦合還是弱耦合?

曹越:我們內(nèi)部從一開始就是雙輪驅(qū)動。

產(chǎn)品不應(yīng)該被模型掣肘,產(chǎn)品的目標(biāo)是服務(wù)用戶、把規(guī)模做大,所以不應(yīng)該帶著鐐銬跳舞,哪怕這個鐐銬是金的。對我們來說,哪個模型能讓產(chǎn)品跑得更快,就應(yīng)該調(diào)用哪個模型;我們從一開始就沒有要求產(chǎn)品必須用自家模型。

但換一個角度,模型團(tuán)隊在很多場景下又確實要支持產(chǎn)品。比如我們做 Music Video,第一步就需要更準(zhǔn)確地分析音樂,識別節(jié)奏、卡點這些細(xì)顆粒度信息,這時候模型團(tuán)隊就可以過來支持,把音樂分析做得更準(zhǔn)。再比如在視頻生成里,有些場景用我們自己的模型效果更好,或者成本更低,這些也都能直接支持產(chǎn)品。

所以這不是簡單的強耦合或者弱耦合。更準(zhǔn)確地說,產(chǎn)品先按自己的節(jié)奏跑,模型在關(guān)鍵環(huán)節(jié)提供支持:一方面提升效果,另一方面降低調(diào)用 API 的成本,提高毛利,幫助產(chǎn)品跑得更大。

極客公園:雙輪驅(qū)動肯定好,但也肯定難。

曹越:我的感受是,創(chuàng)業(yè)公司更容易把雙輪驅(qū)動搞定。原因不是團(tuán)隊小本身,而是創(chuàng)業(yè)公司里更容易有一批真正處在 founder mode 的人。無論是做業(yè)務(wù)、做產(chǎn)品,還是做模型的人,只要他們心里的目標(biāo)和公司的目標(biāo)是對齊的,這件事就好推動。

反過來,如果一個做模型的人心里想的是「我要做一個特別的模型,公司好壞跟我關(guān)系不大」,那他的目標(biāo)其實只對齊在模型這條線上,這就不是雙輪驅(qū)動,而是單輪驅(qū)動。

所以真正決定雙輪驅(qū)動能不能成立的,不是形式上公司里同時有模型和產(chǎn)品,而是兩邊負(fù)責(zé)人是不是都相信:同時擁有模型和產(chǎn)品,對公司整體是更有利的。

極客公園:具體來說,你們是怎么處理「先用最好模型把產(chǎn)品跑起來,再把關(guān)鍵能力收回來」這個問題的?

曹越:從產(chǎn)品 0 到 1 去找 PMF 的階段,如果一開始就和自家模型綁得太死,驗證周期會被拉長,不利于快速驗證、快速找到 PMF。所以我們過去這段時間的做法是,先拿效果最好的模型把產(chǎn)品搭起來。

這個階段我們不會先優(yōu)先考慮成本,而是先看它能跑到什么狀態(tài),這個產(chǎn)物能不能交付,能不能形成商業(yè)閉環(huán)。等這條鏈路先跑通以后,我們再看有哪些地方值得優(yōu)化、值得收回來。

所以這件事不是一開始就要求產(chǎn)品必須用自家模型,而是先讓產(chǎn)品按自己的節(jié)奏跑起來;模型團(tuán)隊在關(guān)鍵環(huán)節(jié)提供支持。一方面把效果做得更好,另一方面把調(diào)用 API 的成本降下來,提高毛利,幫助產(chǎn)品跑得更大。

06

信任關(guān)系才是最深的護(hù)城河

極客公園:你們現(xiàn)在商業(yè)收入跑到什么程度了?

張子賀:VidMuse 從 1 月中旬上線開始,大概兩個月時間,跑到了1000 萬美金的 ARR,而且還在漲?;旧鲜?strong>單周 20 多萬美金的收入,并且已經(jīng)比較穩(wěn)定。

收費方式上,我們現(xiàn)在是訂閱+加油包。注冊用戶有免費 1000 積分,可以先起一個項目。

極客公園:1000 積分是什么概念?

張子賀:大概能把一個 30 秒左右的視頻項目推進(jìn)到比較后面的階段。

極客公園:付費轉(zhuǎn)化率、客單價怎么樣?

張子賀:注冊到付費的轉(zhuǎn)化大約在 5%-7%??蛦蝺r一直比較高,因為用戶需要先訂閱,再買加油包,有些人最后會直接升級到更高階版本。

極客公園:繼續(xù)往后走呢?VidMuse 3.0、4.0 還要補齊什么能力?產(chǎn)品邊界會怎么變?

曹越:3.0 或 4.0 應(yīng)該是一個更徹底釋放的狀態(tài):用戶提一個原來產(chǎn)品里沒有的功能,它也能想辦法調(diào)動自己擁有的資源,把這個問題解決掉。

這件事會越來越依賴更通用的 agent 能力,尤其是 coding agent 的能力。因為社區(qū)里會不斷冒出千奇百怪的需求。你得有一種能力,能順著用戶的需求流動,用戶給你一個鏈接、一個帖子、一個教程,你能理解里面的方法,然后把它實現(xiàn)出來。產(chǎn)品會更少依賴預(yù)設(shè)功能,而是更順著用戶需求流動。

極客公園:聽起來,未來的產(chǎn)品會越來越「無為」。從長期看,Sand.ai 的護(hù)城河是什么?怎么留住用戶、沉淀長期價值?我相信不止是模型能力吧?

曹越:現(xiàn)在 AI agent 產(chǎn)品最大的問題之一,是穩(wěn)定性很差,很難和用戶建立可信賴的關(guān)系。

所以我們的思路是:先解決各種幻覺,尤其是多輪對話里小幻覺被不斷放大的問題,讓用戶敢信你。我們希望用戶在創(chuàng)作結(jié)束時,留下的是「thank you」、「good night」這樣的情緒,而不是被激怒、被消耗。第一步先是建立信任感。

第二步,是讓用戶愿意留在這里。好的產(chǎn)品要在使用過程中不斷認(rèn)識這個人、了解這個人、理解他喜歡什么。比如用戶已經(jīng)明確說過自己喜歡諾蘭,就不要再給他推別的導(dǎo)演風(fēng)格;用戶說過自己不喜歡紫色,后面的場景、分鏡、腳本設(shè)計就不該再往這個方向走。

所以,memory(長期記憶)和信任關(guān)系是我們 Video Agent 的靈魂。

*頭圖來源:Sand.ai

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你想體驗 Sand.ai 嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網(wǎng)
2026-04-16 19:42:33
山東八路山頭多,由誰掌舵成難題,43年毛主席果斷將指揮權(quán)交一人

山東八路山頭多,由誰掌舵成難題,43年毛主席果斷將指揮權(quán)交一人

歷史龍元閣
2026-04-16 06:45:09
紐約時報:40美元半只雞讓美國人震驚

紐約時報:40美元半只雞讓美國人震驚

新浪財經(jīng)
2026-04-16 12:46:58
上喂阿祖下睡士兵男孩!底特律變?nèi)伺鞒珊谂勰虌?>
    </a>
        <h3>
      <a href=游民星空
2026-04-16 18:19:55
這則污蔑中國人的假消息,不少日本人看不下去了……

這則污蔑中國人的假消息,不少日本人看不下去了……

環(huán)球時報國際
2026-04-17 00:17:01
鴻山寺61歲方丈法云身亡!事前毫無征兆,死因曝光,弟子再曝猛料

鴻山寺61歲方丈法云身亡!事前毫無征兆,死因曝光,弟子再曝猛料

青橘罐頭
2026-04-17 07:19:47
震驚!面館“免費加”被指性暗示,網(wǎng)友:99%的人不知哪有性暗示

震驚!面館“免費加”被指性暗示,網(wǎng)友:99%的人不知哪有性暗示

火山詩話
2026-04-17 07:28:41
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
連續(xù)暴跌!一字跌停封死,想跑都跑不掉

連續(xù)暴跌!一字跌停封死,想跑都跑不掉

財經(jīng)智多星
2026-04-15 15:13:57
不可思議!蒙古國三百萬人去年生了8萬,內(nèi)蒙兩千多萬人才生了10萬

不可思議!蒙古國三百萬人去年生了8萬,內(nèi)蒙兩千多萬人才生了10萬

西游日記
2026-04-16 20:53:41
4年戰(zhàn)爭,烏克蘭殺瘋了!海陸空無人武器全面進(jìn)化,打到莫斯科已成現(xiàn)實

4年戰(zhàn)爭,烏克蘭殺瘋了!海陸空無人武器全面進(jìn)化,打到莫斯科已成現(xiàn)實

網(wǎng)易新聞出品
2026-04-16 13:47:19
中國女籃集訓(xùn)第1天尷尬了!19人只有1人參加:宮魯鳴看后該懵了?

中國女籃集訓(xùn)第1天尷尬了!19人只有1人參加:宮魯鳴看后該懵了?

籃球快餐車
2026-04-17 02:11:49
攬勝回應(yīng)被大量模仿:很高興 每一次都說明攬勝就是標(biāo)桿!

攬勝回應(yīng)被大量模仿:很高興 每一次都說明攬勝就是標(biāo)桿!

快科技
2026-04-17 00:59:12
確認(rèn)了!兩人系間諜

確認(rèn)了!兩人系間諜

浙江之聲
2026-04-16 22:16:31
廣西攔路的路霸已被刑事拘留,網(wǎng)友好奇為啥只抓5人

廣西攔路的路霸已被刑事拘留,網(wǎng)友好奇為啥只抓5人

映射生活的身影
2026-04-16 23:47:58
她工資腰斬,卻想學(xué)開飛機去轟炸伊朗

她工資腰斬,卻想學(xué)開飛機去轟炸伊朗

澎湃新聞
2026-04-17 07:22:29
慘了!伊朗使用星鏈的用戶將面臨死刑,軍方啟用電子干擾星鏈

慘了!伊朗使用星鏈的用戶將面臨死刑,軍方啟用電子干擾星鏈

深度報
2026-04-16 22:38:25
澳門有多大

澳門有多大

新科文
2026-04-16 18:31:53
普京訪華時間定了,與特朗普到訪日期相近,俄表態(tài)不排斥舉行會晤

普京訪華時間定了,與特朗普到訪日期相近,俄表態(tài)不排斥舉行會晤

軍機Talk
2026-04-16 14:46:25
萬萬沒有想到,女神居然也接小商演,看來這樣比較賺錢?。?>
    </a>
        <h3>
      <a href=萬萬沒有想到,女神居然也接小商演,看來這樣比較賺錢?。?/a> 東方不敗然多多
2026-04-16 16:27:04
2026-04-17 09:59:00
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11957文章數(shù) 78872關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

小伙曾花80萬開店失敗被離婚:妻子覺得我很難翻身

頭條要聞

小伙曾花80萬開店失敗被離婚:妻子覺得我很難翻身

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

游戲
時尚
親子
本地
公開課

《地鐵2039》已上架Steam!全新概念圖公開

爆火的前額葉梗,讓多少年輕人主動確診「腦殘」?

親子要聞

6款寶寶營養(yǎng)肉餅合集??補鐵補鈣 鮮嫩多汁

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版