国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MiniMax稀宇科技薛子釗:AI大模型不是"砸錢游戲",國內(nèi)大模型被嚴(yán)重低估|Alpha峰會

0
分享至

精彩觀點(diǎn):
  • 全球僅四家公司在三模態(tài)均達(dá)到領(lǐng)先水平:MiniMax是全球僅有的四家在語言、視頻、聲音三個(gè)模態(tài)都達(dá)到全球領(lǐng)先水平的公司之一,另外三家是OpenAI、谷歌和字節(jié)跳動。公司將80%以上資源投入模型層和基礎(chǔ)設(shè)施,模型本身才是核心產(chǎn)品,應(yīng)用只是展示窗口。未來競爭將是全模態(tài)融合,單模態(tài)公司將失去競爭力。
  • 高效的研發(fā)組織和持續(xù)創(chuàng)新的能力才是關(guān)鍵:盡管市場以驚人的月度雙位數(shù)速度增長,但真正能在模型層持續(xù)發(fā)布全球領(lǐng)先產(chǎn)品的核心玩家數(shù)量在不斷減少。資源(算力、資金、人才)并非成功的唯一保證,高效的研發(fā)組織和持續(xù)創(chuàng)新的能力才是真正的壁壘。
  • M2模型成為AI編程領(lǐng)域最大國產(chǎn)模型:今年10月MiniMax發(fā)布的M2語言模型是全球開源模型中真實(shí)token用量最大的AI編程模型,成為首個(gè)真正切入該領(lǐng)域的國產(chǎn)模型,用量相當(dāng)于其他所有國產(chǎn)模型總和。
  • 每一塊錢買到更多智能:MiniMax從創(chuàng)立第一天就是全球化公司,所有產(chǎn)品均服務(wù)全球用戶,目前大部分商業(yè)化收入來自海外。核心戰(zhàn)略是與所有人共創(chuàng)智能,用更少資源做出更領(lǐng)先的模型和創(chuàng)新,提供更高的"per dollar intelligence"(每塊錢的智能水平)。
  • Agent智能體已成為內(nèi)部HR和財(cái)務(wù)數(shù)字同事:公司推出的Agent智能體產(chǎn)品在調(diào)研寫報(bào)告等任務(wù)上已超越普通實(shí)習(xí)生水平,內(nèi)部HR、財(cái)務(wù)、商務(wù)分析等部門已高度依賴該數(shù)字同事,未來可自主完成簡歷篩選、聯(lián)系候選人甚至面試等工作。
  • 與海外技術(shù)接近但估值差兩個(gè)數(shù)量級:MiniMax等國內(nèi)大模型公司在技術(shù)上已接近甚至在某些領(lǐng)域超越美國同行,且差距持續(xù)縮小,但估值仍相差兩個(gè)數(shù)量級。比如谷歌、OpenAI、Anthropic和xAI。這些公司估值可能是中國公司的100倍,但是技術(shù)就領(lǐng)先5%,投入可能在50至100倍之間。相比之下,國內(nèi)公司研發(fā)效率更高但被嚴(yán)重低估。


12月20日,MiniMax稀宇科技副總裁薛子釗做客由華爾街見聞和中歐國際工商學(xué)院聯(lián)合主辦的「Alpha峰會」,薛子釗不僅復(fù)盤了MiniMax成立四年來的心路歷程,更直言AI大模型行業(yè)與我們熟悉的移動互聯(lián)網(wǎng)有著本質(zhì)區(qū)別,傳統(tǒng)的“流量思維”和“大力出奇跡”在這里可能并不奏效。

這位曾在高瓴資本任職的資深投資人,如今作為AI行業(yè)的親歷者,強(qiáng)調(diào)大模型行業(yè)的市場空間完全取決于“模型的智能水平”,每一次智能的跳變都會瞬間解鎖全新的市場。然而,盡管市場在高速膨脹,真正能留在牌桌上的玩家卻在急劇減少。

薛子釗指出大模型更像是一項(xiàng)“造芯片、造火箭一樣的系統(tǒng)工程”,單純靠堆砌資金和挖人,并不能保證成功。

未來AI將從“昂貴的玩具”變成普惠的工具。正如MiniMax所追求的“per dollar intelligence”(每一美元能買到的智能),誰能用更高效的研發(fā)效率做出拓展行業(yè)邊界的創(chuàng)新,誰就能定義下一個(gè)時(shí)代。

在這場沒有硝煙的戰(zhàn)爭中,技術(shù)的迭代速度將決定生死,而無論是巨頭還是創(chuàng)業(yè)者,稍有停歇,就可能被時(shí)代拋下。

以下是華爾街見聞?wù)淼木A內(nèi)容:

各位好,非常榮幸有機(jī)會與大家分享我們在行業(yè)中看到的動向與進(jìn)展,包括公司成立四年以來取得的一些階段性成果。

首先,這個(gè)標(biāo)題是我們的 slogan,叫做“與所有人共創(chuàng)智能”。這句話其實(shí)影響了我們后續(xù)很多商業(yè)決策和戰(zhàn)略,包括我們希望成為一家什么樣的公司,我們的模型理念和產(chǎn)品理念是什么,這些我后面會展開介紹。


AI行業(yè)反直覺的兩大特點(diǎn)

在介紹公司之前,我想分享這個(gè)行業(yè)兩個(gè)非常不同的特點(diǎn)?赡芎驮谧S多有金融投資背景的朋友以往看到過的行業(yè),包括大家最熟悉的互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)行業(yè),都有所不同,甚至有些反直覺。

第一個(gè)特點(diǎn)是,這個(gè)行業(yè)的市場空間只有一個(gè)核心驅(qū)動因素,就是模型的智能水平。模型的智能水平隨著模型的發(fā)布而不斷提升,并且這種提升通常不是連續(xù)性的。


例如,回想三年前的 GPT-3.5,經(jīng)過半年時(shí)間,GPT-4 發(fā)布,其水平就實(shí)現(xiàn)了一次躍升。每次這樣的躍升,都會解鎖更多新的應(yīng)用場景和用途。許多此前被認(rèn)為模型無法勝任的場景,隨著智能水平的躍升就變得可行了。

這意味著,每解鎖一次,就會有更大的市場空間和可觸達(dá)的市場被劃歸到大模型能夠服務(wù)的范圍。而這種向上的躍升在發(fā)生之前,往往難以預(yù)料,每一次都像是一個(gè)驚喜的意外。

我舉幾個(gè)例子大家可能會更有體會。一個(gè)最近的例子是谷歌的Nano Banana圖像生成模型,用戶可以通過文字生成圖片并與之多輪互動。在這個(gè)模型發(fā)布之前,業(yè)內(nèi)最好的圖片模型是 Midjourney。用戶輸入一段文字,它能生成非常精美的圖片,在多數(shù)場景下已難辨真假。

在Nano Banana發(fā)布前,人們對于更好的圖像生成模型的想象,可能是像素更高、審美更專業(yè)、細(xì)節(jié)更豐富。但一兩個(gè)月前Nano Banana發(fā)布后,大家突然發(fā)現(xiàn),它生成的圖片似乎能理解世界的知識。例如,讓它生成一個(gè)幻燈片投影儀的內(nèi)部結(jié)構(gòu),它就能做出像教學(xué)課件一樣的內(nèi)容,圖片中的文字和物體具有其物理含義。

這個(gè)模型發(fā)布后,大家突然發(fā)現(xiàn)可以用它來做 PPT。你只需輸入想表達(dá)的內(nèi)容,它就能直接生成一張完整的 PPT 頁面,其中包含有邏輯、有物理關(guān)系的圖文內(nèi)容。這種對于世界知識的理解能力,在模型發(fā)布前是大家根本想不到的。

在這個(gè)行業(yè),我們經(jīng)常發(fā)現(xiàn)這樣的循環(huán):每一次模型智能水平的提升,都會解鎖更多場景;這些新場景會為模型公司帶來更多的下游市場和商業(yè)化收入;這些收入又可以投入到下一代模型的研發(fā)中,從而推動模型智能水平持續(xù)攀升。這種飛輪或閉環(huán)效應(yīng)在這個(gè)行業(yè)是非常獨(dú)特的。

再舉一個(gè)例子,比如 SaaS 軟件。去年,如果我們看二級市場的 SaaS 軟件公司,他們大多宣稱自己是 AI 的受益者,會講述如何利用模型提升軟件效率。那些在應(yīng)用模型上取得一些成果的公司,交易倍數(shù)通常也很高。


但到了今年,情況發(fā)生了變化。模型的智能水平從具備一定推理能力的 L2 級別,上升到了接近智能體水平的 L3 級別。其區(qū)別在于,模型現(xiàn)在能夠自主規(guī)劃并執(zhí)行較為復(fù)雜的任務(wù)。

于是大家突然發(fā)現(xiàn),過去幾十年沉淀下來的許多軟件工作流程,模型似乎可以自主完成。例如,在人力資源管理軟件中,那些以往需要固化成固定代碼流程的功能,現(xiàn)在模型可以通過自主識別、泛化理解任務(wù)目標(biāo),并運(yùn)用編程能力來解決,仿佛不再需要固化的軟件流程。

今年在二級市場大家也看到了,從年初開始,正是因?yàn)槟P椭悄芩降纳仙@些 SaaS 軟件公司似乎從 AI 大模型的受益者,變成了可能被大模型取代的風(fēng)險(xiǎn)對象,因此它們的交易倍數(shù)下降了很多。同時(shí),這部分 SaaS 軟件市場也瞬間被劃歸到了大模型的市場份額之中。

這其實(shí)是不斷在發(fā)生的例子。我再舉一個(gè)多模態(tài)的例子,我們的海螺視頻生成模型,也是當(dāng)前全球用量最大的模型之一。在視頻生成模型剛推出時(shí),大家可能覺得只能做一些簡單粗糙的視頻素材生成。

但今年,隨著模型智能水平的提升,我們看到非常多專業(yè)用戶開始使用。例如,國內(nèi)短劇行業(yè)非常發(fā)達(dá),短劇制作公司非常在意成本和制作投入的 ROI,他們就會用 AI 生成來輔助制作短劇。在廣告行業(yè),比如奔馳以前推出一款車型,會制作預(yù)算高達(dá)幾百萬美金的大片級廣告片,F(xiàn)在,通過結(jié)合 AI 的方式,用同樣的預(yù)算可能制作出十個(gè)、一百個(gè)同等質(zhì)量的宣傳片,今年廣告行業(yè)的 AI 滲透也非?。

下一步的滲透,都將隨著模型智能水平的提升而進(jìn)行。我們在圖片領(lǐng)域已經(jīng)看到了:現(xiàn)在,你可能不再需要一位精通 Photoshop 的專業(yè)人士。你直接與圖片生成模型對話,用自然語言描述需要修改哪里,它可能比以往任何一代最專業(yè)的修圖師都修得更好。

當(dāng)模型的智能水平達(dá)到這種程度并解鎖該場景后,這部分市場就被劃歸到了大模型的市場。

這與大家看到的許多行業(yè)的驅(qū)動力有本質(zhì)區(qū)別。

我們熟悉的移動互聯(lián)網(wǎng),常常講數(shù)據(jù)的飛輪:有更多數(shù)據(jù)就更懂用戶,推薦算法就更精準(zhǔn),用戶體驗(yàn)更好,留存更高,然后又能獲得更多數(shù)據(jù)。這是移動互聯(lián)網(wǎng)推薦引擎的閉環(huán)。

但在這個(gè)行業(yè),情況完全不同。我們看到基本上每三個(gè)月到半年,大家就會突然眼前一亮,模型的智能水平又上了一個(gè)臺階,從而解鎖出更多的場景。

這個(gè)行業(yè)現(xiàn)在增長很快。根據(jù)一些統(tǒng)計(jì)數(shù)字,其年化收入目前接近三百億美金——這是此時(shí)此刻,全球頭部模型層公司收入的總和。

它的增速狀態(tài)是:本月與上月相比,保持著雙位數(shù)的增長。這個(gè)數(shù)字很驚人,意味著每月增長約百分之十,即一年增長約一點(diǎn)一的十二次方。這是非?膳碌脑鏊。通常,增速如此快的行業(yè)會吸引越來越多的公司參與競爭,因?yàn)槊磕甑脑隽慷紩笥谌ツ甑拇媪俊?/p>

但這個(gè)行業(yè)的第二個(gè)非常不同之處在于:我們看到,真正參與模型層競爭、能持續(xù)發(fā)布全球領(lǐng)先模型的公司數(shù)量并沒有變多,而是從三年前到現(xiàn)在持續(xù)在減少。目前全球大概只有十家左右。

放到國內(nèi)語境,幫大家回顧一下:在二二年十一月 OpenAI 發(fā)布 ChatGPT 后,過了一個(gè)春節(jié),到二三年年初,這變成了國內(nèi)關(guān)注度最高的行業(yè)。二三年年中,有非常多的公司宣稱要做大模型。那時(shí)有個(gè)詞叫“百模大戰(zhàn)”,類似于若干年前的百團(tuán)大戰(zhàn)。

但到了二四年,我相信大家已經(jīng)聽不到這個(gè)詞了。二四年,我們的同行發(fā)明了一個(gè)詞叫“五小龍”還是“六小龍”,即從一百家變成了個(gè)位數(shù)。因?yàn)楹芏嗉曳艞壛嘶P偷某掷m(xù)研發(fā),今年又進(jìn)一步淘汰。這是國內(nèi)大家能切身感受到的,真正參與領(lǐng)先模型發(fā)布的玩家在減少的趨勢。

海外也是如此。我舉個(gè)海外大廠的例子可能比較有體感。兩年前,Llama 1、Llama 2 是公認(rèn)的全球最好的開源語言模型。但從Llama 3 開始,可能就不算第一梯隊(duì)了。到了 Llama 4 甚至更差,F(xiàn)在,它的開源模型其實(shí)已經(jīng)沒什么人用了。

因此,今年三四月份,馬克·扎克伯格花了幾億美金,以天價(jià)從谷歌、OpenAI 挖人,組成了一個(gè)新的團(tuán)隊(duì),收購了Alexandr Wang的Scale AI。組建這個(gè)團(tuán)隊(duì)后,我們作為業(yè)內(nèi)人,其實(shí)一直覺得不太對——大模型肯定不是這么做出來的。

但仍然有很多人認(rèn)為,重組后的團(tuán)隊(duì)都是最精英的,應(yīng)該沒問題,F(xiàn)在半年過去了,大家可能也看到很多報(bào)道,這個(gè)團(tuán)隊(duì)仍然什么都沒做出來,而且非;靵y,有很多公開新聞描述其內(nèi)部如何混亂。

讀完這些文章,大家會有兩個(gè)很好的理解:

  • 第一,大模型研發(fā)是一個(gè)類似于造芯片、造火箭的系統(tǒng)工程,不是單點(diǎn)的算法創(chuàng)新。每一代模型可能需要做一千個(gè)決策,如果你能做對其中八百個(gè),模型最終會不錯(cuò);但如果只做對五百個(gè),即使投入大量算力成本訓(xùn)練出來,結(jié)果也會很差。
  • 第二,大家可能會更理解,在一個(gè)大廠組織里,如果存在很多摩擦,如果一號位并非真正懂大模型技術(shù),中間會發(fā)生什么樣的組織損耗。

你說他們沒有資源嗎?它的集群比任何一家中國公司,包括中國大廠的都要大、要多;它花的錢、招的人都是全球最好的。但即便如此,也并不一定能保證它在這個(gè)行業(yè)做出領(lǐng)先的模型。

還有很多其他例子,比如另一個(gè)投資了OpenAI的海外大廠,但自己也有一個(gè)內(nèi)部的AI團(tuán)隊(duì)在做自研模型,但到現(xiàn)在為止,還沒有任何人知道他們做出了什么,即始終沒有發(fā)布過領(lǐng)先的模型。包括另一個(gè)投資了 Anthropic的大廠,同時(shí)自己也有一個(gè)自研模型團(tuán)隊(duì),花了非常多的資源和資金,也始終沒有做出來。

這么多數(shù)據(jù)點(diǎn)讓大家看到的是,這個(gè)行業(yè)真正的壁壘并非簡單地?fù)碛写罅咳瞬呕螨嫶蟮乃懔骸?strong>真正的壁壘在于,你能否持續(xù)做出創(chuàng)新,拓展行業(yè)的邊界?而不是簡單地把其他公司的人挖過來做復(fù)現(xiàn)。

因?yàn)檫@個(gè)行業(yè)的模型智能水平提升非常快,每三到六個(gè)月就會躍升一大截。因?yàn)檫@個(gè)行業(yè)每年的增量都比歷史的存量要大,所以你必須不斷向前創(chuàng)新、拓展行業(yè)邊界,才可能在這個(gè)行業(yè)留有一席之地。

比如,Meta即使把OpenAI的人全挖來,過半年做出了 OpenAI 半年前的東西,其實(shí)也已經(jīng)沒用了,因?yàn)檫@個(gè)行業(yè)已經(jīng)往前走了很多。

所以,這是我們看到的這個(gè)行業(yè)真正的壁壘:如何讓一個(gè)至少百人規(guī)模的研發(fā)組織高效配合,持續(xù)跟上甚至超過行業(yè)模型迭代的速度,持續(xù)做出創(chuàng)新。這也是為什么,盡管行業(yè)發(fā)展非常快,月度環(huán)比增速是雙位數(shù),但反而留在模型層的玩家數(shù)量卻越來越少。

我舉個(gè)例子,就是如果你發(fā)布一次模型失敗了,可能沒關(guān)系。但如果你在一年到一年半的時(shí)間里,每次發(fā)布的模型甚至還不如開源模型,那會發(fā)生什么?這個(gè)團(tuán)隊(duì)里最頂尖的人才會立刻流向其他公司,因?yàn)樵谶@個(gè)行業(yè),頂尖人才非常搶手。頂尖人才走后,次頂尖的人才也會走。然后,整個(gè)團(tuán)隊(duì)的研發(fā)凝聚力、信心和士氣就散掉了。士氣散掉后,其實(shí)很難再回到原來的狀態(tài)。

這是前面想跟大家介紹的,與大家傳統(tǒng)認(rèn)知中各個(gè)行業(yè)都不同的兩點(diǎn):市場在飛速地、跳躍式地變大;同時(shí),真正在模型層持續(xù)發(fā)布過全球領(lǐng)先模型的公司反而在變少;并且,大廠有資源并不一定就能留在牌桌上。

關(guān)于我們公司:從第一天的構(gòu)想到四年來的實(shí)踐

接下來回到我們公司。這張圖非常有意思,是我們公司成立第一天,創(chuàng)始人在白板上寫下的,相當(dāng)于我們的商業(yè)計(jì)劃書。我先介紹其中的幾點(diǎn)內(nèi)容。

這個(gè)時(shí)間點(diǎn)是四年以前,那時(shí)還沒有 OpenAI 發(fā)布 ChatGPT,是 ChatGPT 誕生一年以前。當(dāng)時(shí)我們的創(chuàng)始人閆俊杰(我們一般叫他花名 IO,即 Input/Output),他當(dāng)時(shí)看到的一個(gè)核心點(diǎn)就是圖中的第一點(diǎn):雖然那時(shí)還沒有 ChatGPT,但我們看到通用模型可能迎來爆發(fā)點(diǎn)。這里說的“下一代 AI”,其“上一代 AI”是指什么呢?

我們的創(chuàng)始人 IO 之前一直從事圖像、視覺相關(guān)的“上一代 AI”,其特點(diǎn)是每遇到一個(gè)新的客戶、一個(gè)新的場景,都需要在這個(gè)場景里訓(xùn)練一個(gè)專用模型,因此邊際成本很高,且難以規(guī);D悴豢赡芊⻊(wù)到每一個(gè)終端用戶,因?yàn)榇蠹覉鼍安煌夹枰槍鼍爸匦掠?xùn)練模型。

但在四年前,我們非常前瞻地看到,通用模型可能即將到達(dá)工業(yè)化可用的拐點(diǎn)。這是我們第一天開始創(chuàng)業(yè)的核心判斷:模型將從“幾萬個(gè)模型服務(wù)幾萬個(gè)場景”,轉(zhuǎn)變?yōu)椤耙粋(gè)通用模型服務(wù)所有場景”。這是我們看到的第一點(diǎn)。

第二點(diǎn),我們把通用人工智能定義為可以接近通過圖靈測試的智能體。Agent 這個(gè)概念后來被全球行業(yè)廣泛使用,其實(shí)我們是非常早提出的。這背后隱含的含義是,我們認(rèn)為通用人工智能應(yīng)該實(shí)現(xiàn)的方向,一定是全模態(tài)交互的——不僅僅是語言交互,還包括視覺和聲音。

所以,我們從第一天就在做三個(gè)模態(tài)的大模型:大家最熟悉的大語言模型、視覺相關(guān)模型和聲音相關(guān)模型。因?yàn)樗腥伺c人的交互其實(shí)都可以拆解成這三個(gè)模態(tài)。例如,我們能看到的所有內(nèi)容,都可以拆解成這三種模態(tài)。只要在這三個(gè)模態(tài)中都實(shí)現(xiàn)了通用人工智能,組合在一起就是一個(gè)可以通過圖靈測試的智能體。

這是我們當(dāng)時(shí)在第一天就堅(jiān)持的第二個(gè)理念和目標(biāo):我們不是只做語言模型,而是要做三個(gè)模態(tài)都實(shí)現(xiàn)通用智能的模型。

后面還有一些我們對于行業(yè)的理解。例如,圖中打了三個(gè)星號的“系統(tǒng)工程”這個(gè)詞剛才也介紹了,它不是單點(diǎn)的創(chuàng)新。因?yàn)樵诙荒甑字暗纳弦淮?AI,所有研發(fā)范式是我需要非常多的算法專家,研發(fā)組織按算法分組。但這一代完全反過來了:我們只有幾個(gè)算法模型,比如公司只有三個(gè)模態(tài)的模型,也就是三個(gè)通用模型;同時(shí),也不需要通用的技術(shù)中臺,這里的基礎(chǔ)設(shè)施變成了專門服務(wù)于這幾個(gè)模型的專用基礎(chǔ)設(shè)施。

這個(gè)過程更像是造火箭和造芯片,需要一位總工程師或一號位,對每一個(gè)模塊、端到端的技術(shù)細(xì)節(jié)都有深入理解。

此外,當(dāng)時(shí)我們也設(shè)想了一些模型,比如不同智能程度從 L1 到 L4 的變化,以及產(chǎn)品形態(tài)從閑聊到目標(biāo)導(dǎo)向的演進(jìn)。閑聊就是我們推出的第一款娛樂性產(chǎn)品“Talkie /星野”,而目標(biāo)導(dǎo)向就是我們現(xiàn)在的智能體產(chǎn)品。

所以,整體來看,這個(gè)行業(yè)的一些關(guān)鍵時(shí)間點(diǎn)判斷、技術(shù)路線和產(chǎn)品形態(tài),我們在第一天就寫在了白板上,后來驗(yàn)證都是正確的。我們也是整個(gè)亞洲最早成立的專注做大模型的公司。

后面發(fā)生的事情是,過了一年后,OpenAI 發(fā)布了 ChatGPT,這個(gè)行業(yè)變得人盡皆知、非;馃帷P袠I(yè)的關(guān)注度和增速確實(shí)比我們四年前想的要快很多。我也非常幸運(yùn),當(dāng)時(shí)也在場,但是在桌子的另一邊——我之前一直是做投資的,來自高瓴。高瓴是我們的天使投資人,也是前幾輪的持續(xù)投資人,后來我選擇加入了公司。

我們的產(chǎn)品與業(yè)務(wù):以模型為核心

現(xiàn)在介紹我們公司的產(chǎn)品和業(yè)務(wù),其實(shí)非常好理解。

三個(gè)模態(tài)的大模型就是我們核心的產(chǎn)品,即底層的模型層:大家熟悉的語言模型、視頻生成與圖像生成模型,以及聲音相關(guān)的語音和音樂模型,還有支持這些模型訓(xùn)練和推理的平臺。在模型和基礎(chǔ)設(shè)施層,我們投入了超過百分之八十的公司資源。模型層之上是我們的產(chǎn)品層。

產(chǎn)品層,我們開發(fā)了一系列面向全球 C 端、B 端和開發(fā)者的全球化產(chǎn)品,有幾個(gè)方向,后面會仔細(xì)介紹。正如我在開頭講的,這個(gè)行業(yè)很大的不同是,我們發(fā)現(xiàn)無論你做任何大模型驅(qū)動的產(chǎn)品,主要的用戶體驗(yàn)其實(shí)都來自于模型本身。所以對我們來說,這些產(chǎn)品具體長什么樣并沒有那么重要。

在我們公司有一句話:我們的核心產(chǎn)品其實(shí)是這些模型,而大家傳統(tǒng)意義上理解的產(chǎn)品,比如海螺、星野、我們的智能體 Agent、To B 的開放平臺,都只是將我們的模型打包集成、面向不同用戶群體的渠道或窗口。真正為客戶、用戶提供價(jià)值的,是我們的底層模型本身。

下面從模型層快速回顧一下我們過去四年的進(jìn)展。

第一年,2022 年,在 ChatGPT 發(fā)布前,我們就已經(jīng)有了自己的大語言模型。

兩年前,2023 年,我們的語音模型實(shí)現(xiàn)了從文字生成語音的突破。其技術(shù)表現(xiàn)先做到了國內(nèi)第一,后面做到了全球第一。我相信大家日常生活中肯定接觸過由我們語音模型驅(qū)動的聲音。舉個(gè)例子,大家用的各種智能硬件,包括智能音箱、各種 AR/VR 眼鏡、AI玩具,大概率都由我們模型驅(qū)動。

再比如,電商直播里的虛擬主播,很多聲音也是我們提供的。當(dāng)然,抖音會用字節(jié)的模型;旧显诼曇暨@個(gè)賽道,我們在國內(nèi)和字節(jié)加起來幾乎等于全市場。例如,有聲書方面,字節(jié)的番茄小說會用其自有模型,但除此之外的大部分有聲書產(chǎn)品,都接入了我們的語音模型。

現(xiàn)在,以前專門做讀書的創(chuàng)作者,只需將其音色復(fù)刻下來,就不再需要花幾十個(gè)小時(shí)去朗讀,只需幾分鐘就能用其語音逼真地讀出來。大家如果聽書,現(xiàn)在大部分內(nèi)容應(yīng)該都是由我們模型生成的,但大家是聽不出來的。這是我們兩年前在聲音模態(tài)實(shí)現(xiàn)的階段性成就。

去年,在視頻生成模態(tài),我們的海螺模型也做到了全球用量非常領(lǐng)先,處于數(shù)一數(shù)二的狀態(tài)。去年八月,實(shí)際上可能更早,去年二月過年時(shí),大家一定對 OpenAI 發(fā)布的 Sora 演示視頻有印象——一位穿紅裙子的女士在東京街頭行走。

那時(shí)是 2024 年 2 月,它只發(fā)布了演示,模型并未開放使用。我們則在去年八月底發(fā)布了海螺模型,公開可用,所有人通過簡單提示詞即可生成視頻。發(fā)布后,我們沒有任何投放推廣,但很快通過口碑在全球各大平臺傳播開來,迅速成為該賽道最大的視頻生成平臺之一。

我們的產(chǎn)品“海螺”第一個(gè)月甚至沒有英文界面,是一個(gè)中文網(wǎng)站,但海外用戶通過瀏覽器翻譯使用,因?yàn)楫?dāng)時(shí)模型效果排在第一位。到現(xiàn)在,我們的模型與谷歌的 Veo 3、OpenAI的Sora2一起,被公認(rèn)為模型性能最好的幾個(gè)第一梯隊(duì)模型。這是我們?nèi)ツ陮?shí)現(xiàn)的第二個(gè)模態(tài)的突破。

今年,在第三個(gè)模態(tài)——語言模型上,我們也實(shí)現(xiàn)了很大突破。目前我們的新語言模型叫 M2,是全球所有開源模型中,在編程和智能體等場景真實(shí) token 用量最大的語言模型。雖然它名字叫 M2,聽起來是第二代,但若從 2022 年第一版語言模型算起,它是我們內(nèi)部迭代的第八或第九代模型。

今年十月發(fā)布后,我們收到了非常好的國際反響。回過頭看,我們每一年在一個(gè)模態(tài)上都實(shí)現(xiàn)了一個(gè)新的突破,在技術(shù)和模型用量上都做到了全球第一梯隊(duì)。我們也希望未來每一年都能持續(xù)上一個(gè)臺階。

有一些量化的數(shù)據(jù)可以介紹:例如視頻生成,我們每天生成接近兩百萬條視頻。這是什么概念?谷歌的 Veo 在上次財(cái)報(bào)時(shí)發(fā)布過數(shù)據(jù),其模型每天生成一百多萬條視頻。所以至少在上個(gè)季度,我們每天生成的視頻量是超過谷歌 Veo 的。

另一個(gè)視角是,國內(nèi)大家常用的小紅書,日活躍用戶超過一億,它每天的視頻和圖像新增投稿量是千萬級別。而我們一個(gè)平臺的生成量已達(dá)兩百萬級別,可見滲透率在快速增長。

關(guān)于語言模型,我多說兩句,這個(gè)突破我們也非常開心。在大眾用戶最熟悉的場景,如海外的 ChatGPT、國內(nèi)的豆包或 DeepSeek 這類閑聊對話機(jī)器人,我們是不做這個(gè)產(chǎn)品的。因?yàn)檫@個(gè)產(chǎn)品在國內(nèi)以免費(fèi)為主,我們作為創(chuàng)業(yè)公司,認(rèn)為這個(gè)產(chǎn)品更適合大廠來做。

我們的語言模型主攻的是語言市場中商業(yè)化收入最大的下游——AI 輔助編程和支持自主決策的智能體。這個(gè)下游在兩個(gè)月前幾乎 100% 由美國公司壟斷,其中份額最大的是一家叫 Anthropic 的公司。

如果大家關(guān)注投資,可以搜索它每年的收入和估值增速,它是全球歷史上收入增長最快的軟件公司之一。它今年一月的年化收入是十億美金,到十月時(shí)已達(dá)七十億美金,十個(gè)月翻了七倍。在語言模型市場,目前超過一半的下游是編程相關(guān)場景,而該場景又由 Anthropic 壟斷。

歷史上,從來沒有一個(gè)國產(chǎn)模型或開源模型真正切入 AI 編程場景。大家可能最熟悉的國產(chǎn)語言模型是 DeepSeek,它今年的突破主要是在對話問答場景。而編程這個(gè)最能商業(yè)化的場景,之前沒有國產(chǎn)模型能切入。

我們的 M2 模型在十月底發(fā)布后,迅速成為全球編程 AI 領(lǐng)域用量最多的國產(chǎn)模型,目前用量份額排到第三名。這不是榜單打榜的分?jǐn)?shù),而是真實(shí)的 token 用量。我們現(xiàn)在是國產(chǎn)模型中用量最大的,基本相當(dāng)于其他國產(chǎn)模型用量的總和。

當(dāng)然,排在前面的還是兩個(gè)美國模型。同時(shí),看我們的下游應(yīng)用,也都是編程軟件場景。我們做個(gè)小小預(yù)告,未來很快也會發(fā)布 M2 模型的一個(gè)更新版。這是我們在語言模型上最新的突破。

視頻模型從去年開始一直非常領(lǐng)先,這里就不多說了,非常直觀。和大家分享一個(gè)一分鐘的短片,它完全是由我們今年六月發(fā)布的第二代模型生成的。生成時(shí)的提示詞都是文字,我們也把提示詞列在了底部供參考。

這個(gè)短片是我們內(nèi)部兩位 AI 藝術(shù)家花了一天半時(shí)間,通過文生視頻生成兩百個(gè)六到十二秒的小片段,從中挑選出好的片段拼接而成的作品。像剛才最后兩個(gè)鏡頭——馬戲團(tuán)和小丑化為灰塵消失的特效鏡頭,如果使用上一代計(jì)算機(jī)視覺建模技術(shù)制作,僅這兩個(gè)鏡頭的成本可能就要小幾十萬,而且非常耗時(shí),因?yàn)樾枰粠粠剡M(jìn)行 3D 建模和粒子效果調(diào)整,F(xiàn)在通過 AI 生成,可以更快迭代、更低成本地制作出高質(zhì)量內(nèi)容。

接下來是聲音模型。剛才我也介紹了一些應(yīng)用場景,現(xiàn)在聽起來已經(jīng)非常自然。我們的模型是統(tǒng)一的底層模型,無論什么語言、音色或場景,你只需要輸入不同的語音提示詞,它就可以進(jìn)行克隆或模仿。

類似的,能說話就能唱歌,所以我們的音樂模型可以輸入歌詞生成完整歌曲。當(dāng)然,歌詞也可以通過我們的語言模型來創(chuàng)作。比如,你想把今天下午在上海中歐商學(xué)院的感想變成一首歌,它可以先幫你寫成歌詞,再生成歌曲。

我相信有些人可能注意到了,我們這些推廣模型的演示視頻本身,也是由我們的海螺視頻模型生成的。

我們的核心競爭力與未來愿景

最后,我想再補(bǔ)充兩點(diǎn)。

我們剛才介紹了一些模型在全球的進(jìn)展和突破。我們是一家獨(dú)立的創(chuàng)業(yè)公司,每年消耗的資源,主要是訓(xùn)練算力,與美國這個(gè)行業(yè)最大的公司,如 OpenAI,相差兩個(gè)數(shù)量級;與國內(nèi)同樣在每個(gè)模態(tài)都有模型的字節(jié)相比,我們的資源消耗也小于一個(gè)數(shù)量級。

這就是創(chuàng)業(yè)公司存在的核心意義:我們的研發(fā)效率和資金使用效率更高,不斷做創(chuàng)新,能用更少的資源做出更領(lǐng)先、迭代更快的模型。這是我們核心的競爭能力和組織能力。

最近也有很多討論,為什么感覺模型差距在不斷接近,但估值還差兩個(gè)數(shù)量級?我相信大部分人稍加研究,都能得出結(jié)論:包括我們在內(nèi)的國內(nèi)模型公司,其價(jià)值是被嚴(yán)重低估的。

最后介紹一下商業(yè)化。我們從第一天就是一家全球化運(yùn)營的公司,每一個(gè)產(chǎn)品,包括海螺視頻生成、面向企業(yè)和開發(fā)者的開放平臺、陪伴類產(chǎn)品Talkie/星野,都服務(wù)于全球用戶。目前,大部分商業(yè)化收入也來自全球。

這些產(chǎn)品我就不一一展開了,如果大家感興趣,歡迎到我們的官網(wǎng)體驗(yàn),每個(gè)產(chǎn)品都有獨(dú)立鏈接。

這里我最推薦的是我們的新產(chǎn)品 Agent(智能體),因?yàn)槲覀(gè)人是日活用戶。我用它做調(diào)研、寫報(bào)告,現(xiàn)在的完成度、思考深度和速度,肯定比一個(gè)普通實(shí)習(xí)生要好很多。這是我們新的智能體產(chǎn)品。

未來,我們相信它能成為我們的數(shù)字同事。我們內(nèi)部,HR、財(cái)務(wù)和商務(wù)分析已經(jīng)非常多使用我們的Agent同事,它能自主規(guī)劃任務(wù),在虛擬環(huán)境中操作電腦,例如幫助 HR 查找簡歷、跟蹤聯(lián)系等。到明年,甚至可能自主進(jìn)行面試。

最后,再跟大家回顧一下前面的觀點(diǎn):首先,競爭留在牌桌上的玩家確實(shí)越來越少;其次,我們越來越看到,真正全模態(tài)的價(jià)值正被越來越多的人所欣賞。未來一定不是單模態(tài)的,一定是語言、視頻、聲音越來越融合。

我們也是全球?yàn)閿?shù)不多的、僅有的四家公司之一,能在每個(gè)模態(tài)都做出全球領(lǐng)先的模型。目前在這個(gè)類別中,只有四家公司:兩家美國公司 OpenAI 和谷歌,兩家中國公司我們和字節(jié)。

我們相信,基于我們的研發(fā)效率、研發(fā)創(chuàng)新能力和每個(gè)模態(tài)模型的競爭力,我們可以在全球提供更好的“per dollar intelligence”,即每一塊錢能買到的智能水平,真正將大模型從一個(gè)服務(wù)少數(shù)人、價(jià)格昂貴的東西,變成能服務(wù)普羅大眾的產(chǎn)品。這符合我們的愿景——“與所有人共創(chuàng)智能”的行業(yè)發(fā)展趨勢。

這些是我今天想跟大家分享的內(nèi)容,謝謝。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
又一知名企業(yè)宣布破產(chǎn),3000家門店消失,上萬員工慘遭拋棄

又一知名企業(yè)宣布破產(chǎn),3000家門店消失,上萬員工慘遭拋棄

知鑒明史
2025-12-21 12:30:08
又有農(nóng)商行董事長被帶走,云南農(nóng)信系統(tǒng)年內(nèi)已有7人相繼被

又有農(nóng)商行董事長被帶走,云南農(nóng)信系統(tǒng)年內(nèi)已有7人相繼被

湘財(cái)Plus
2025-12-22 16:20:39
79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

小熊侃史
2025-12-20 10:56:45
不是奎因,不是薩姆納,賽后青島外援韋瑟斯龐盛贊廣東隊(duì)一人

不是奎因,不是薩姆納,賽后青島外援韋瑟斯龐盛贊廣東隊(duì)一人

南海浪花
2025-12-22 06:30:58
港媒爆料趙雅芝日子挺苦的,被3個(gè)兒子長期啃老,71歲還不能老!

港媒爆料趙雅芝日子挺苦的,被3個(gè)兒子長期啃老,71歲還不能老!

木子愛娛樂大號
2025-07-05 09:37:33
33歲內(nèi)馬爾隔空喊話:帶我踢世界杯!若進(jìn)決賽 我保證進(jìn)球

33歲內(nèi)馬爾隔空喊話:帶我踢世界杯!若進(jìn)決賽 我保證進(jìn)球

葉青足球世界
2025-12-21 19:32:50
習(xí)慣性失利,4戰(zhàn)3敗火箭被批偽強(qiáng)隊(duì),缺少2人讓球隊(duì)面貌大不如前

習(xí)慣性失利,4戰(zhàn)3敗火箭被批偽強(qiáng)隊(duì),缺少2人讓球隊(duì)面貌大不如前

拾叁懂球
2025-12-22 19:19:00
他信的第26次被探望:女兒佩通坦帶來好消息,西那瓦家族仍有機(jī)會

他信的第26次被探望:女兒佩通坦帶來好消息,西那瓦家族仍有機(jī)會

照見古今
2025-12-22 18:30:02
我外交部發(fā)出警告,若外國媒體的消息屬實(shí),中日事態(tài)可能會很嚴(yán)重

我外交部發(fā)出警告,若外國媒體的消息屬實(shí),中日事態(tài)可能會很嚴(yán)重

霽寒飄雪
2025-12-22 19:44:14
大馬丁未來難保!維拉冬窗強(qiáng)攻世界最佳門將!

大馬丁未來難保!維拉冬窗強(qiáng)攻世界最佳門將!

奶蓋熊本熊
2025-12-22 10:19:13
內(nèi)蒙古連日來已有6名廳官被查處,但是這個(gè)人需重點(diǎn)說一下

內(nèi)蒙古連日來已有6名廳官被查處,但是這個(gè)人需重點(diǎn)說一下

呼市呼事
2025-12-22 15:21:25
他比黎智英更“毒”!潛伏30年,用510萬策劃香港暴亂,結(jié)局如何

他比黎智英更“毒”!潛伏30年,用510萬策劃香港暴亂,結(jié)局如何

云舟史策
2025-12-22 07:04:23
柬埔寨指責(zé)泰國無視中美調(diào)停,繼續(xù)發(fā)動進(jìn)攻和侵略

柬埔寨指責(zé)泰國無視中美調(diào)停,繼續(xù)發(fā)動進(jìn)攻和侵略

環(huán)球熱點(diǎn)快評
2025-12-21 09:59:35
人活到最后,就會明白:人的終極歸宿,其實(shí)就3個(gè)字

人活到最后,就會明白:人的終極歸宿,其實(shí)就3個(gè)字

千秋文化
2025-12-21 18:02:15
0-1,第94分鐘丟球釀悲劇,42歲德羅西率隊(duì)遭絕殺+遭遇意甲2連敗

0-1,第94分鐘丟球釀悲劇,42歲德羅西率隊(duì)遭絕殺+遭遇意甲2連敗

側(cè)身凌空斬
2025-12-22 05:46:13
告別全華班!四川男籃官宣簽NBL場均3+2中鋒加克 此前4戰(zhàn)全敗

告別全華班!四川男籃官宣簽NBL場均3+2中鋒加克 此前4戰(zhàn)全敗

醉臥浮生
2025-12-22 10:54:57
別被“某音”前凸后翹的網(wǎng)紅美女騙了....

別被“某音”前凸后翹的網(wǎng)紅美女騙了....

健身廚屋
2025-11-22 15:41:18
已爆單!外媒嘆:這波中國又趕上了

已爆單!外媒嘆:這波中國又趕上了

觀察者網(wǎng)
2025-12-22 17:57:28
剛提車不久撞人致死!保險(xiǎn)公司解讀新車保險(xiǎn)生效時(shí)間與理賠規(guī)則,“車主可要求商業(yè)險(xiǎn)即時(shí)生效”

剛提車不久撞人致死!保險(xiǎn)公司解讀新車保險(xiǎn)生效時(shí)間與理賠規(guī)則,“車主可要求商業(yè)險(xiǎn)即時(shí)生效”

極目新聞
2025-12-20 12:57:46
敘利亞截獲史上最大便攜式防空導(dǎo)彈走私案,邊境安全再拉警報(bào)

敘利亞截獲史上最大便攜式防空導(dǎo)彈走私案,邊境安全再拉警報(bào)

老馬拉車莫少裝
2025-12-22 19:15:20
2025-12-22 21:19:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領(lǐng)先的金融商業(yè)信息提供商
139203文章數(shù) 2651909關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

特朗普任命格陵蘭島特使 特使稱要將格陵蘭島并入美國

頭條要聞

特朗普任命格陵蘭島特使 特使稱要將格陵蘭島并入美國

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財(cái)經(jīng)要聞

央行信用新政:為失信者提供"糾錯(cuò)"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

本地
藝術(shù)
數(shù)碼
旅游
公開課

本地新聞

云游安徽|走進(jìn)銅陵,照見三千年不滅的爐火

藝術(shù)要聞

萬年松樹開花,震驚你的雙眼!

數(shù)碼要聞

華為WATCH GT 6冰雪藍(lán)配色亮相 全系新增輪椅模式實(shí)現(xiàn)科技關(guān)愛

旅游要聞

當(dāng)中國游客集體轉(zhuǎn)身,日本旅游業(yè)的“海嘯”來了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版