国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

你在抖音上點(diǎn)的“小紅心”到底去哪了?

0
分享至

你在抖音上點(diǎn)的“小紅心”到底去哪了?

文 | 史中

作為祖國四化建設(shè)的接班人,張三睡前喜歡在抖音上刷 妹子 科普短視頻。

看到一個(gè)不錯(cuò)的視頻,他按捺不住沖動,野性雙擊點(diǎn)了個(gè)贊?粗莻(gè)小紅心從屏幕上飄出來,一閃即散。

張三暗暗點(diǎn)頭,仿佛和屏幕里的主播心意相通,指尖順勢一滑準(zhǔn)備看下一個(gè)視頻。

誒,不許動!就在這個(gè)普通得不能再普通的日常瞬間,中哥按一下暫停,問你一個(gè)問題:你知道這顆“小紅心”后來去哪了嗎?

小紅心當(dāng)然沒有隨風(fēng)飄散,而是開啟了一場冒險(xiǎn)之旅——論路途,它接下來要走的路,也許比玄奘西行還要曲折;論結(jié)局,它將匯入奔涌的數(shù)據(jù)洪流,組成數(shù)字世界賴以運(yùn)轉(zhuǎn)的“真經(jīng)”。

我們今天的故事,就講講這顆小紅心的“硬核奇幻漂流”。

(一)對“小紅心”最為禮遇的人

在講小紅心的冒險(xiǎn)之前,請?jiān)徫疑陨远嘟淮鷰拙浔尘啊f一個(gè)壞消息和一個(gè)好消息。

先說壞消息吧。

羅永浩早年在吉林大學(xué)演講時(shí)曾對孩子們說過這樣一段話:

如果你的一生沒有做出偉大的事業(yè),沒有賺到錢也沒有出名,但是一生耿直剛正不阿,拼著老命把家人照顧好了,梗著脖子去世了,你這一生有沒有改變世界?還是改變了,因?yàn)檫@個(gè)世界上多了一個(gè)好人。

我時(shí)常想起這句話,不僅因?yàn)樗鼤谖倚澳蠲劝l(fā)的時(shí)候勉勵(lì)我做個(gè)好人,更因?yàn)樗澈蟛刂粋(gè)有趣的模型:

我們每個(gè)人的腦袋瓜里都有一個(gè)“投票器”,無論大事小情,只要面對岔路口,都會用“投票器”抉擇一下。


一個(gè)人一生幾億次投票匯總下來,其實(shí)就是他的墓志銘;而無數(shù)人的墓志銘匯總起來,就是我們世界的歷史線。

如此看來,我們顱內(nèi)的每一次渺小“投票”都像是給世界輸入了一個(gè)“數(shù)據(jù)”,最終會導(dǎo)致這個(gè)世界輸出的“結(jié)果”有一絲絲偏轉(zhuǎn)。

可壞消息來了:我們的物理世界是沒有“存證機(jī)制”的。

你做了好事不一定被人看到,被人看到不一定被理解,被理解不一定被贊揚(yáng),被贊揚(yáng)不一定被效仿,被效仿時(shí)又不一定被下一個(gè)人看到。。。于是,這種“數(shù)據(jù)”的傳遞慢得驚人,留存準(zhǔn)確度也低得驚人。

以至于,“善惡有報(bào)”這件事情雖然在邏輯上隱約成立,卻在一個(gè)人的生命跨度里基本無法被觀測到。

接下來說好消息吧。

2022年的我們,不是全無選擇——除了破舊的物理世界,還有嶄新的數(shù)字世界。

在數(shù)字世界里,事情就大快人心得多。每一個(gè)字節(jié)的數(shù)據(jù)都可以被分毫不爽地高速傳遞,進(jìn)而確定性地、可以量化地對這個(gè)世界造成改變。

這么說有點(diǎn)抽象,舉個(gè)栗子吧:

在物理世界,你看到一個(gè)人扶起了摔倒的老奶奶,你對著他比了一個(gè)贊,然后就沒有然后了。

可是在抖音上,你看到一個(gè)人扶起了摔倒老奶奶的視頻,你點(diǎn)了一個(gè)贊,這個(gè)贊就會像一枚鋼印刻在數(shù)據(jù)庫里,推動系統(tǒng)把這個(gè)視頻推薦給更多人看,最終成為更多人心頭的一個(gè)善念。

你看,正是有了數(shù)據(jù),數(shù)字世界才有了比現(xiàn)實(shí)世界更大的演化動力。所以,把數(shù)據(jù)稱為數(shù)字世界的石油簡直不要太合適。

遺憾的是,縱然數(shù)據(jù)是個(gè)寶,但不同人對它的態(tài)度是不同的。

就像石油一樣:在原始部落看來這就是黑乎乎的沼澤,棄之如敝履,因?yàn)樗麄儫o法利用;但對于工業(yè)體系完善的國家來說,就會對石油頗為“禮遇”,因?yàn)樗麄兌萌绾我睙捤?/p>

那么此時(shí)此刻的數(shù)字世界,對數(shù)據(jù)最為禮遇,最會從數(shù)據(jù)中提煉能源的是誰呢?

要我說,四舍五入就是抖音的母公司,字節(jié)跳動。

我認(rèn)識的字節(jié)跳動的老師傅不算多。但這些人卻有一點(diǎn)出奇地相似,就是他們都極其尊重?cái)?shù)據(jù),甚至說“信仰數(shù)據(jù)”也不過分。你看,2012年他們起名的時(shí)候就把公司直接叫成了數(shù)據(jù)的計(jì)量單位“字節(jié)”,可見從第一集就奔著西天取經(jīng)去了。。。

這幾年字節(jié)的老師傅們開發(fā)了好多有趣的技術(shù),目的就是“三最”——用最高的規(guī)格,把數(shù)據(jù)冶煉成最純的能源,發(fā)揮出最大的價(jià)值。

這些技術(shù),組成了一個(gè)“旅行社”,把小紅心的旅途安排得明明白白。

好了,估計(jì)你已經(jīng)對小紅心的奇幻之旅有那么一點(diǎn)好奇了~~為了深刻體會數(shù)據(jù)技術(shù)的歷史脈絡(luò),我決定帶你重走一遍老師傅的取經(jīng)路。

咱們先坐上時(shí)光機(jī),回到2015年吧。

(二)老師傅的“開掛系統(tǒng)”

2015年,抖音還沒出生。但沒關(guān)系,它的大哥今日頭條已經(jīng)誕生了。假設(shè)有人給某篇頭條文章點(diǎn)了贊,也會產(chǎn)生一顆小紅心。

這顆“小紅心”的旅程可能是醬的:

1、它睜開了雙眼,還沒來得透過屏幕仔細(xì)看清主人的模樣,就嗖地一下被甩到空中?罩械幕鞠駨椆粯,迅雷不及掩耳盜鈴地把它彈射到轟鳴的服務(wù)器中。

2、在服務(wù)器中,小紅心見到了和它一樣的來自各地的數(shù)據(jù),它們列隊(duì)整齊,被安排入住在一個(gè)叫做”數(shù)據(jù)庫“的巨大酒店里。

3、這個(gè)大酒店里好吃好喝,但就是有些寂寞,各個(gè)數(shù)據(jù)也相互不見面。小紅心本以為自己就要在這里頤養(yǎng)天年了。但是,幾天之后,它卻收到邀請,要去參加一個(gè)有趣的游戲。

原來,字節(jié)的老師傅們寫了一個(gè)系統(tǒng),用來把“A組文章”和“B組文章”的閱讀情況分別進(jìn)行匯總。

我們的主角小紅心恰恰屬于A組文章的點(diǎn)贊數(shù)據(jù),于是,它和其他眾多數(shù)據(jù)抱在一起,坐在了數(shù)據(jù)工廠的流水線上,從另一端出來時(shí),它變了模樣,成為報(bào)表的一部分。

你可能有點(diǎn)懵,這是在玩啥?

不瞞你說,這是字節(jié)這群老師傅在練絕招:“A/B測試”。

當(dāng)時(shí)的情況大概是:今日頭條剛剛開發(fā)出兩種文章的推薦策略,可這兩種策略哪種能把文章*更精準(zhǔn)*地推薦給想看它們的人呢?

不知道。

不知道不要緊,事實(shí)是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)。

老師傅們選定兩組用戶,先分別用A、B兩個(gè)策略為他們推薦文章,然后把這兩組文章的點(diǎn)贊、閱讀時(shí)長等等數(shù)據(jù)匯總起來,哪個(gè)策略返回的數(shù)據(jù)更好,不就說明它干活兒更棒么?

看到這,你可能撇嘴:這不就是簡單的對比實(shí)驗(yàn)么,算啥絕招?

客官有所不知,“A/B測試”從實(shí)驗(yàn)設(shè)計(jì)到數(shù)據(jù)匯總,是一個(gè)賊拉費(fèi)勁兒的事情。

你遇到“午飯吃麥當(dāng)勞還是肯德基”這樣的抉擇,肯定不會做個(gè)實(shí)驗(yàn),把兩家的漢堡薯?xiàng)l都買來,對比誰家的薯?xiàng)l多,誰家的漢堡大,你最多扔個(gè)鞋決定一下也就完事兒了,只有遇到重大抉擇才會想到用“A/B”來嚴(yán)肅地解決。

圖片來自“畢導(dǎo)”,他曾經(jīng)真的測試過哪種快餐更合算。。。文章鏈接我放在最后吧。

可字節(jié)這群人卻都是“A/B狂人”,買漢堡前先做實(shí)驗(yàn)這種事兒他們沒準(zhǔn)還真能干出來。。。

在字節(jié)公司內(nèi)部,流傳著一個(gè)“黑話”—— 遇事不決用A/B 。

大到推薦引擎的策略調(diào)整,小到App里一個(gè)按鈕的位置擺放,各種改進(jìn),總要設(shè)計(jì)個(gè)實(shí)驗(yàn)看看回收數(shù)據(jù)才能放心,可見“數(shù)據(jù)測試”已經(jīng)寫入這幫人的DNA了。。。

如果把做今日頭條比作打一場游戲,那么每一次“A/B測試”就相當(dāng)于一個(gè)“存檔點(diǎn)”。

在AB兩種策略里選優(yōu)就相當(dāng)于——“這里打得不好,讀檔重來再打一次”,每次都在“打得好的那一版”的基礎(chǔ)上繼續(xù)往前打。

最終,一點(diǎn)點(diǎn)優(yōu)勢累計(jì),就必然形成數(shù)學(xué)上的巨大勝率。相比其他一條命拼到死的競爭對手,你說它不勝出誰勝出?

所以,“用A/B”不是絕招,“總用A/B”才是絕招。

可字節(jié)跳動這幫人“開掛”也不是沒有代價(jià)。還是剛才說的,實(shí)驗(yàn)設(shè)計(jì)太太太太太費(fèi)功夫。。。

我們把剛才幾張圖拼成完整的流程,你感受一下:

如今字節(jié)數(shù)據(jù)平臺負(fù)責(zé)人羅旋在2014年加入公司。

他還記得那個(gè)“震撼”景象:所有的數(shù)據(jù)報(bào)表都是同事們用郵件傳來傳去,手動比對分析。

這種小米加步槍的狀態(tài)下,負(fù)責(zé)技術(shù)的老師傅就比較慘:

今天A團(tuán)隊(duì)為了把這堆數(shù)據(jù)撈回來,要請技術(shù)老師傅寫一堆代碼;明天B團(tuán)隊(duì)要把那堆數(shù)據(jù)撈回來,又得請老師傅重新寫一堆代碼。。。

老師傅長期被“請”,疲于奔命,秀發(fā)早晚不保啊。。。

不行,老師傅們一合計(jì),得趕快開發(fā)出一套“A/B測試工具”——甭管是哪個(gè)團(tuán)隊(duì),想測啥事兒,直接把系統(tǒng)拿去用,最好別霸占俺們的“肉身”。

Albert,就在這個(gè)“秀發(fā)保衛(wèi)戰(zhàn)”前不久加入字節(jié),負(fù)責(zé)開發(fā)這個(gè)名叫“Libra”(天平)的A/B測試工具。

造這個(gè)工具的難點(diǎn)是啥呢?

你看,A/B測試最早是用在推薦算法的改進(jìn)上,推薦算法團(tuán)隊(duì)的同學(xué)肯定是懂代碼的,所以設(shè)計(jì)給他們用的A/B測試系統(tǒng)并不難; 可是后來,App 的設(shè)計(jì)團(tuán)隊(duì)也想用A/B測試來改進(jìn) App 的外觀和邏輯,他們就不是那么懂底層代碼了; 再后來,運(yùn)營推廣團(tuán)隊(duì)也想用A/B測試,決定哪種推廣策略拉新效果更好,他們就完全不懂代碼了。。。 所以,為了照顧所有人的使用,Libra 的界面就得盡量傻瓜,最好用鼠標(biāo)拖拽的方式就能創(chuàng)造一個(gè)實(shí)驗(yàn)。

Albert 回憶。

于是,一群搞底層代碼開發(fā)出身的老師傅坐在一起,把數(shù)據(jù)接入、實(shí)驗(yàn)設(shè)置這些核心功能搞定后,還得圍成一圈開始研究怎樣做出一個(gè)易用的界面。畢竟不是科班出身,搞出來的第一版界面蠢萌蠢萌的。

當(dāng)時(shí)的界面找不到了,給你們看看現(xiàn)在的界面吧(局部)

很快,各個(gè)團(tuán)隊(duì)就七嘴八舌地對界面和邏輯提出了各種改進(jìn)意見——底層數(shù)據(jù)怎么調(diào)度他們不太關(guān)心,但是界面和邏輯改進(jìn)他們很有心得。

在各個(gè)團(tuán)隊(duì)的“威逼”下,Albert 他們只好硬著頭皮繼續(xù)改進(jìn),甚至還專門招聘了前端工程師。

一個(gè)給內(nèi)部用的產(chǎn)品,真的值得在易用性上下這么大功夫么?

可能連 Libra 團(tuán)隊(duì)自己也沒想到,這恰恰會演變成為后來故事的一個(gè)重要伏筆,我們一會兒再說。

隨著團(tuán)隊(duì)們用 Libra 越來越熟練,一個(gè)哲學(xué)命題猝不及防地浮出水面:

我們剛才一直在說,A/B測試的目的是選擇兩個(gè)方案里更“好”的那個(gè)?墒,究竟什么是“好”,恐怕才是更根本的問題吧?

比如,什么是好的“文章推薦策略”呢? 點(diǎn)進(jìn)去的人多,就是好策略嗎?恐怕不是吧。標(biāo)題黨文章點(diǎn)擊多,但用戶很可能點(diǎn)進(jìn)去就退出來,沒準(zhǔn)還會罵兩句。 那么,閱讀完成度高,就是好策略嗎?似乎也不能這么絕對,很多不太高雅的內(nèi)容可以吸引讀者看完,可這種文章沒營養(yǎng),長期來看讀者也不會滿意。

Albert 解釋。

Albert

那腫么辦?

哲學(xué)問題,不妨從哲學(xué)家那里借鑒答案。哲學(xué)家陳嘉映專門寫過一本書,就叫《何為良好生活》。

他的結(jié)論當(dāng)然很復(fù)雜,但是從技術(shù)層面來理解,所謂良好生活其實(shí)是“一系列復(fù)雜指標(biāo)的總和”,包括快樂、品行、智識、自我實(shí)現(xiàn)等等。

那么以此類推,一個(gè)良好的推薦策略也不能只考察“點(diǎn)擊量”、“點(diǎn)贊數(shù)”或“留存率”這樣的單一指標(biāo),而是應(yīng)該把好幾個(gè)維度的數(shù)據(jù)集合起來,形成更復(fù)雜的指標(biāo)。

Albert 回憶,當(dāng)時(shí)各個(gè)團(tuán)隊(duì)可以放開手腳隨意做實(shí)驗(yàn)之后,很快就意識到在指標(biāo)上的“囊中羞澀”。

那段日子,無論是推薦策略團(tuán)隊(duì),還是產(chǎn)品團(tuán)隊(duì),還是運(yùn)營推廣團(tuán)隊(duì),都絞盡腦汁開始設(shè)計(jì)奇奇怪怪的指標(biāo)。

于是,這又引出了新的難題:

指標(biāo)是由無數(shù)“小紅心”這樣的底層數(shù)據(jù)計(jì)算而成的。指標(biāo)越復(fù)雜,就要調(diào)度越多的底層數(shù)據(jù)。

我們不妨把各個(gè)團(tuán)隊(duì)用來生成報(bào)表的各種“數(shù)據(jù)工廠”想象成煉油廠,把存在數(shù)據(jù)庫的原始數(shù)據(jù)想象成地底的原油。 在煉油廠規(guī)模比較小的時(shí)候,也許一口簡易油井就足夠供應(yīng); 可是,現(xiàn)在煉油廠發(fā)展壯大,需要綜合冶煉各種類型的原油,油井的性能就妥妥成了瓶頸。就是下圖中閃爍的紅色剪頭。

結(jié)果就是,2017年時(shí)分析師要查一個(gè)指標(biāo)的歷史變化情況,大概要等20秒鐘才能看到結(jié)果。

20秒雖說不長,可分析師不是一天只看一個(gè)指標(biāo)啊,他的工作就是每時(shí)每刻看指標(biāo)。這一天下來,光等就等到頹廢。。。

歷史喜歡開玩笑——就在工具不怎么湊手的檔口,卻偏偏來了個(gè)大活兒!

(三)“查數(shù)”神器

2017年,抖音火了,火到不能再火。

打南邊來了一億用戶,每人都要上傳視頻;打北邊來了兩億用戶,每人都要觀看、點(diǎn)贊、評論——洶涌人潮中,“小紅心和它的數(shù)據(jù)朋友們”比從前翻了成千上萬倍。

注意,這個(gè)時(shí)候,如果煉油廠(數(shù)據(jù)應(yīng)用)需要原油(數(shù)據(jù))的時(shí)候,還現(xiàn)場從油田(數(shù)據(jù)庫)里抽取肯定是來不及了。

合理的辦法是:創(chuàng)造出一個(gè)大倉庫,把原油提前整理好放在那里,需要的時(shí)候可以第一時(shí)間抓取,這個(gè)倉庫就叫“數(shù)倉”。

就像下面這樣:

建造一個(gè)牛X的數(shù)倉,刻不容緩。

擺在老師傅面前的技術(shù)方案有四五個(gè),就像東邪西毒南帝北丐那樣各有千秋。

可挨個(gè)嘗試了之后,結(jié)局很殘酷——大多數(shù)技術(shù)路線都無法滿足這么大規(guī)模數(shù)據(jù)的高速調(diào)取。。。

如今的數(shù)倉團(tuán)隊(duì)技術(shù)負(fù)責(zé)人 Carl,正是在這個(gè)危急時(shí)候加入團(tuán)隊(duì)的。

Carl 剛加入沒幾天,大伙就告訴他噩耗:東邪西毒南帝北丐都頂不住,目前就剩一個(gè)“郭靖”看起來還是個(gè)苗子。

這就是當(dāng)時(shí)最新的開源分析型數(shù)據(jù)庫ClickHouse。

“雖然但是,啥。。。啥是 ClickHouse?”在數(shù)據(jù)庫領(lǐng)域縱橫八年的老司機(jī) Carl 有些尷尬地問。。。

其實(shí)這不怪 Carl,在2017年,ClickHouse 誕生不久,剛開始在社區(qū)里流行,還沒有哪個(gè)像樣的江湖大佬敢冒險(xiǎn)選用這個(gè)年輕的“郭靖”,沒聽說過也再正常不過。

可邪門的是,經(jīng)過進(jìn)一步測試,ClickHouse 讀寫數(shù)據(jù)的性能總是名列前茅,就像一個(gè)閃閃發(fā)光的急速機(jī)械臂,老師傅越看越愛。

Carl 他們一合計(jì),沒人吃螃蟹,并不等于螃蟹不好吃啊。拍拍胸脯,我們先用唄!

老師傅們就這樣沖進(jìn)了戰(zhàn)場,用了兩個(gè)月就基于 ClickHouse 搞出第一版數(shù)倉,交給一些敢于嘗鮮的規(guī)模小一點(diǎn)的業(yè)務(wù)團(tuán)隊(duì)去用。

Carl

可是,吃螃蟹的代價(jià)很快就來了。

剛才說過,ClickHouse 就像一個(gè)機(jī)械臂?墒且粋(gè)完整的數(shù)倉,僅僅有機(jī)械臂還不行,還需要有系統(tǒng)負(fù)責(zé)多個(gè)機(jī)械臂之間的配合,還要有一系列措施保證機(jī)械臂的故障維修。

就像下面這樣:

可是,ClickHouse 自己都是初出茅廬,和它相配套的系統(tǒng)更沒有經(jīng)過大規(guī)模磨合檢驗(yàn),暗藏著五花八門的坑。。。

當(dāng)時(shí)一個(gè)大的數(shù)倉里能達(dá)到400-500個(gè) ClickHouse 集群,集群之間要實(shí)現(xiàn)“高可用”,靠的是 Zookeeper 系統(tǒng)。 這么多集群滿負(fù)荷運(yùn)行,壓力就會集中在 Zookeeper 身上,弄不好就會掛掉。。。

Carl 回憶。

要命的是,當(dāng)時(shí)有些團(tuán)隊(duì)已經(jīng)開始依賴這套系統(tǒng),他們吃著火鍋唱著歌查著數(shù)據(jù),突然系統(tǒng)崩潰,那種感覺就像被麻匪劫了一樣慌。

Carl 他們也驚出一身冷汗,把伙伴置于危險(xiǎn)境地那妥妥有損技術(shù)人的尊嚴(yán)啊,這種事兒決不能發(fā)生——他們當(dāng)即使出單身30年的手速,寫了一套臨時(shí)腳本硬生生扛住。

腳本就像臨時(shí)纏上的膠帶,畢竟不是長久之計(jì)。

他們只能左右開弓:

左手維護(hù)腳本,右手開始寫一套永久的高可用方案。

幾周之后,新方案火速上線替換掉臨時(shí)腳本,才算滅火成功。。。

用幾個(gè)機(jī)器人把 Zookeeper 的任務(wù)分擔(dān)下來。

可是,汗還沒來得及擦,新的“險(xiǎn)情”又來了。

雖說數(shù)倉的建立本來就是為了讓人查詢各種奇怪的數(shù)據(jù)。可有些業(yè)務(wù)團(tuán)隊(duì)的腦洞過大,查數(shù)據(jù)的姿勢堪比瑜伽——總讓機(jī)械臂去夠架子邊緣的箱子。。。

數(shù)倉又不可能躺在椅子上翹腿說:“你查的這個(gè)數(shù)據(jù)太怪了,我不想給你找!

它只能勉為其難去查,這一下不要緊,機(jī)械臂觸發(fā) Bug “扭了腰”,整個(gè)系統(tǒng)就被搞掛了。

Carl 他們一開始的想法是,預(yù)測一下大家都會用什么怪姿勢使用數(shù)倉,后來他發(fā)現(xiàn)自己天真了:

調(diào)用數(shù)倉的這群人腦洞可太大了,老師傅根本猜不到他們會怎么出牌,只能遇到一個(gè)問題修復(fù)一個(gè)問題——Bug 難免有,及時(shí)修好下次不犯就是好同志。

數(shù)倉掛掉,業(yè)務(wù)團(tuán)隊(duì)多少是能容忍的,可伴隨而來的另一件事兒他們卻忍不了:

每一次數(shù)倉“因病”去世(掛掉),再投胎轉(zhuǎn)世(重啟)都需要十來分鐘,這等不起啊。。。

Carl 他們猛然意識到,數(shù)倉的“重啟速度”這種細(xì)節(jié),也妥妥是性能的重要組成部分!

老師傅趕緊研究,他們發(fā)現(xiàn)數(shù)倉重啟之所以需要轉(zhuǎn)圈圈那么久,就是因?yàn)樽x取“元信息”的過程比較繁瑣,干脆一不做二不休,專門寫了一套程序把這些信息存盤管理起來。

需要重啟的時(shí)候,直接讀取這一整套數(shù)據(jù),又干凈又衛(wèi)生。

你發(fā)現(xiàn)沒,那個(gè)階段 Carl 他們做的事情,好像哪件都說不上驚天動地。但是,如果沒有幾百個(gè)核心業(yè)務(wù)每天在數(shù)倉上反復(fù)摩擦,你還真沒辦法把這些問題都發(fā)現(xiàn),也沒辦法解決得這么圓潤。。。

這個(gè)“圓潤”,同樣為未來埋下了伏筆,我們一會兒再說。

我們的故事快進(jìn)到2018年,此時(shí) Carl 他們已經(jīng)陸續(xù)給 ClickHouse 增加了幾百項(xiàng)大小改動,使得“字節(jié)版”的 ClickHouse 已經(jīng)和母胎的“社區(qū)版”有很大區(qū)別了,于是他們決定給自己的 ClickHouse 起個(gè)新名,叫做 ByteHouse。

這一年,也是 Carl 最開心的一年。因?yàn)殡S著 ByteHouse 肉眼可見越來越好用,公司內(nèi)很多團(tuán)隊(duì)的數(shù)據(jù)工廠都紛紛把 ByteHouse 數(shù)倉作為自己數(shù)據(jù)處理的重要一環(huán)。

更讓 Carl 高興的是,在業(yè)界很多大公司也紛紛開始選擇 ClickHouse 作為數(shù)倉核心組件。

這種感覺,就像你在網(wǎng)易云發(fā)現(xiàn)了一首評論寥寥的寶藏歌曲,幾年后卻發(fā)現(xiàn)評論已經(jīng)十萬加,所有人都在聽——一種“老子就是有眼光”的感覺油然而生。

ByteHouse 出場之后,我們不妨再來看我們的主角“小紅心”,它的“奇幻旅程”就和前幾年明顯不同了。

張三給一個(gè)視頻點(diǎn)了小紅心,小紅心誕生之后,會先入住數(shù)據(jù)庫這個(gè)“賓館”; 然后它會從賓館出來,進(jìn)入 ByteHouse 這個(gè)碩大的“倉庫”,和來自其他“賓館”的數(shù)據(jù)匯合在一起; 接下來,小紅心才會根據(jù)調(diào)遣進(jìn)入功能各異的數(shù)據(jù)工廠,用自己的身軀組成報(bào)表; 當(dāng)然,如果有必要,一些報(bào)表會繼續(xù)進(jìn)入那個(gè)“A/B測試”的神器 Libra,最終為這個(gè)數(shù)字世界里的每一個(gè)決策提供依據(jù)。

注意,我畫的這個(gè)旅游線路是“極簡版”。

在實(shí)際的“數(shù)據(jù)旅行”中,計(jì)算一個(gè)數(shù)據(jù)沒有這么簡單。

小紅心很可能要在“賓館”(數(shù)據(jù)庫)“倉庫”(數(shù)倉)和工廠“數(shù)據(jù)應(yīng)用”中來回穿梭,中途要換好幾次“大巴”,還要和不同的數(shù)據(jù)“組團(tuán)”——一趟旅途分成幾百段都很正常。

參加過旅行團(tuán)的淺友都有過這樣的經(jīng)歷:集體坐大巴的時(shí)候,總有個(gè)別人因?yàn)槲寤ò碎T的理由遲到,一車人只好坐在那里干等,這會大大降低旅行團(tuán)的行進(jìn)效率。。。

沒錯(cuò),在“數(shù)據(jù)旅行團(tuán)”中,這種事兒同樣會發(fā)生。。。

就在2018年,隨著數(shù)據(jù)處理流程越來越復(fù)雜,老師傅們發(fā)現(xiàn),數(shù)據(jù)該出現(xiàn)不出現(xiàn),該發(fā)車不發(fā)車的情況越來越多。

比如,抖音規(guī)定有些報(bào)表早晨9點(diǎn)就要計(jì)算出來,可是前面的數(shù)據(jù)沒出來,指標(biāo)就填不進(jìn)去——將軍看不到地圖,這仗難道要“盲打”了嗎?

數(shù)據(jù)旅行團(tuán)的問題,也可以從現(xiàn)實(shí)旅行團(tuán)身上借鑒答案。

沒錯(cuò),數(shù)據(jù)旅行團(tuán)需要一個(gè)“導(dǎo)游”,而且是一個(gè)嚴(yán)厲的導(dǎo)游,誰遲到就打誰屁屁的那種!

(四)數(shù)據(jù)旅行團(tuán)的“導(dǎo)游”

“字節(jié)有一個(gè)很牛的文化,你知道是什么嗎?是拉群!盉rian 笑著給我講。

“當(dāng)年,遇到‘?dāng)?shù)據(jù)流程卡住’的問題,你只要把相關(guān)負(fù)責(zé)人拉到一個(gè)群,他們就會神奇地行動起來,自己協(xié)商出辦法把問題給解決!自驅(qū)力杠杠的。”

可問題就在于,“一腔熱血”不能解決所有問題。

拉群辦事,靠的畢竟是肉身,就像在數(shù)據(jù)流程的水管破口上用手指頭按住那樣↓↓↓

可隨著數(shù)據(jù)應(yīng)用變多,發(fā)現(xiàn)的破口越來越多——每次出問題就多拉一個(gè)群,到后來,相關(guān)負(fù)責(zé)人手機(jī)里的群已經(jīng)密密麻麻,老師傅們的手指頭不夠用了↓↓↓

結(jié)論很明顯:靠人力解決“數(shù)據(jù)治理”的難題,長遠(yuǎn)來看根本不可取。

這里,就是 Brian 和他的同事們展現(xiàn)實(shí)力的時(shí)刻了。

哦還沒給你介紹,Brian 是字節(jié)跳動數(shù)據(jù)治理工具 DataLeap 的負(fù)責(zé)人。這個(gè) DataLeap,就是剛才我們說的“數(shù)據(jù)旅行團(tuán)”里的“導(dǎo)游”。

Brian

具體來說,DataLeap 保證數(shù)據(jù)流程的方法,是通過各方簽署“SLA”(服務(wù)級別協(xié)議 Service-Level Agreement)來實(shí)現(xiàn)的。

啥是 SLA?

我們還是沿用之前的例子:

假如A團(tuán)隊(duì)必須在早晨9點(diǎn)把一個(gè)報(bào)表準(zhǔn)時(shí)提交給抖音的負(fù)責(zé)人,那么B團(tuán)隊(duì)就要在早晨6點(diǎn)前把所有指標(biāo)算出來; 以此往前推,C團(tuán)隊(duì)就要在凌晨3點(diǎn)前把計(jì)算指標(biāo)所需的數(shù)據(jù)都準(zhǔn)備好; 再往前推,C團(tuán)隊(duì)計(jì)算所需的更底層數(shù)據(jù)在凌晨1點(diǎn)就要由D團(tuán)隊(duì)準(zhǔn)備好。 在這個(gè)共識的基礎(chǔ)上,A、B、C、D 四個(gè)團(tuán)隊(duì)就在 DataLeap 上簽字畫押,也就是簽署 SLA。 這下,數(shù)據(jù)鏈路上重要節(jié)點(diǎn)的責(zé)任就被“鐵路警察,各包一段”了。

在字節(jié)內(nèi)部,每天都會新增一些“數(shù)據(jù)旅行線路”——用 DataLeap 來建立線路的時(shí)候,就可以同時(shí)簽署相應(yīng)的 SLA。

假如以后遇到問題,數(shù)據(jù)卡在了C團(tuán)隊(duì)那里,DataLeap 會直接給C團(tuán)隊(duì)彈出報(bào)警,讓他們趕快處理,如果沒有即使修復(fù),事故責(zé)任就落在了C團(tuán)隊(duì)頭上。

就像一個(gè)有趣的“擊鼓傳鍋”游戲。(開玩笑的,大家很友好不會甩鍋,DataLeap只是幫各個(gè)團(tuán)隊(duì)明晰了權(quán)責(zé)。)

Brian 特別提醒我,不要把 DataLeap 想象成冰冷的“簽字畫押”工具,它還有很多溫馨的黑科技。

比如,老師傅在 DataLeap 里內(nèi)置了一個(gè)算法,可以根據(jù)表現(xiàn)自動給一條數(shù)據(jù)鏈路的“健康度”打分。

如果某個(gè)數(shù)據(jù)傳輸節(jié)點(diǎn)設(shè)置不合理,或者給存儲計(jì)算分配的資源太摳門,或者歷史上出現(xiàn)了多次延時(shí),都會影響這條數(shù)據(jù)鏈路的分?jǐn)?shù)。

相關(guān)團(tuán)隊(duì)只要經(jīng)常關(guān)注各條數(shù)據(jù)鏈路的分?jǐn)?shù),就能把問題消滅在萌芽中了。

再比如,DataLeap 還可以設(shè)定每條數(shù)據(jù)鏈路的“優(yōu)先級”。

假設(shè)抖音每天需要1000個(gè)數(shù)據(jù)流來產(chǎn)生1000種報(bào)表,那么,萬一遇到不可抗力,計(jì)算資源吃緊,在規(guī)定時(shí)間內(nèi)只能算出40%的報(bào)表。

這時(shí)候應(yīng)該腫么辦呢?

這是個(gè)經(jīng)典的“吃自助餐”問題:肚子有限,怎么才能吃回本?肯定是先吃最值錢的龍蝦!

所以,抖音團(tuán)隊(duì)也應(yīng)該先挑最重要的報(bào)表計(jì)算——他們可以在 DataLeap 里提前規(guī)定好:

100個(gè)“一級任務(wù)”; 300個(gè)“二級任務(wù)”; 600個(gè)“三級任務(wù)”。

這樣遇到問題的時(shí)候,DataLeap 就可以自動保證數(shù)據(jù)按照輕重緩急的順序被計(jì)算,最大程度減小損失。

故事發(fā)展到這個(gè)階段,我們的主角小紅心的“奇幻旅途”又升級了。

在它穿梭在數(shù)據(jù)庫、數(shù)倉、數(shù)據(jù)分析系統(tǒng)的過程中,旁邊會時(shí)刻站著一個(gè)導(dǎo)游(DataLeap),絮絮叨叨苦口婆心地幫它安排行程,催它一個(gè)個(gè)趕通告。

至此,字節(jié)這群老師傅花了幾年時(shí)間精心構(gòu)建出來的“數(shù)據(jù)豪華旅行團(tuán)”,就已基本呈現(xiàn)在你面前。

請注意,“豪華”這兩個(gè)字不是我隨意加的修飾,其實(shí)在2018年,每顆小紅心旅行一趟下來,總體花費(fèi)的成本比現(xiàn)在高不少,堪稱豪華。

但這種“豪華”沒啥驕傲的,這其實(shí)代表著性價(jià)比不那么極致。

在2018年以后,一方面全球經(jīng)濟(jì)形勢都遇到了寒潮,大家都不富裕;另一方面,人們對數(shù)字世界的依賴卻只增不減,要處理的小紅心還是越來越多。

Albert 算了算,如今 Libra 上每天新增的實(shí)驗(yàn)有2000個(gè),同時(shí)進(jìn)行中的實(shí)驗(yàn)數(shù)更是數(shù)以萬計(jì)。

進(jìn)入A/B測試的就有這么多,那么每時(shí)每刻產(chǎn)生的總報(bào)表數(shù)就更多了,進(jìn)而,底層的數(shù)倉和數(shù)據(jù)庫被調(diào)用的次數(shù)就更更更多了。

這種情況下,老師傅反倒比以前壓力更大,各個(gè)環(huán)節(jié)都被倒逼要優(yōu)化“數(shù)據(jù)旅行”的支出——又讓馬兒跑,又得馬兒不吃草。

小紅心必須得“窮游”了 ↓↓↓

(五)窮游的小紅心

“問你個(gè)問題,每個(gè)A/B實(shí)驗(yàn)應(yīng)該選擇多少樣本做對比,才能得出科學(xué)的結(jié)果?”Albert 問我。

“那。。。應(yīng)該是越多越好吧!蔽艺f。

首先,測試是非常耗費(fèi)計(jì)算資源的,如果實(shí)驗(yàn)規(guī)模過大,同時(shí)上這么多實(shí)驗(yàn),Libra 肯定撐不住。 再說,如果一個(gè) App 有1億用戶,測試樣本就把1億用戶分成兩個(gè)5000萬,那就不是實(shí)驗(yàn),而是實(shí)際發(fā)生了。如果A策略有缺陷,就會對A策略覆蓋的5000萬用戶都都造成不可逆的負(fù)面影響。

他說。

“要這么說,樣本數(shù)量就不能太大,選1萬人!蔽艺f。

“1萬人測試出來的結(jié)果,一定會和1億人測試的結(jié)論相同嗎?”他反問。

“那就。。。每次實(shí)驗(yàn)選1萬人,連續(xù)做5次實(shí)驗(yàn),5次結(jié)果相互印證,會不會好一點(diǎn)?”我有點(diǎn)心虛。

“你看,這就是問題所在。當(dāng)樣本規(guī)模變小的時(shí)候,這就變成了一個(gè)統(tǒng)計(jì)科學(xué)問題了。告訴你答案,從統(tǒng)計(jì)學(xué)的角度來看,‘5萬人做5次’的結(jié)果并不比‘5萬人做1次’的結(jié)果更準(zhǔn)確。”Albert 笑。

“等等,讓我捋捋。。!痹捔牡竭@兒,我已經(jīng)在暈菜的邊緣徘徊了。

“其實(shí),我們這些做代碼工程出身的,一開始統(tǒng)計(jì)學(xué)知識也不夠。但是從2018年開始,我們意識到自己的局限性,引進(jìn)了很多數(shù)據(jù)科學(xué)家,我講的這些結(jié)論是跟他們學(xué)習(xí)以后才明白的。”Albert 安慰脆弱的我。

看我的表情還殘存一絲倔強(qiáng),Albert 又給我講了幾個(gè)栗子:

比如“樣本污染問題”。

很多團(tuán)隊(duì)每次做“A/B測試”,都會一直選擇ID是奇數(shù)的用戶為A組,ID是偶數(shù)的用戶為B組。 這就有問題了,假如兩次*本應(yīng)獨(dú)立*的實(shí)驗(yàn)用的分組情況完全相同,甲實(shí)驗(yàn)就會干擾乙實(shí)驗(yàn)。 乙實(shí)驗(yàn)觀察到“A策略比B策略好”,這很可能是因?yàn)樵诩讓?shí)驗(yàn)里的A策略比B策略好,由于樣本選取不科學(xué),這個(gè)“好”在第二次實(shí)驗(yàn)里仍然在發(fā)揮作用。。。 也就是說,兩次實(shí)驗(yàn)發(fā)生了“交叉污染”。。。

再比如“分組干擾問題”

你在重慶挑選了A、B兩組用戶做拉新,介紹一個(gè)新用戶注冊抖音就給一包火鍋底料(這是隨便編的策略)。 但是很可能A、B兩組用戶在真實(shí)世界里本來就有關(guān)系,是同事、家人、朋友,會口耳相傳。 兩個(gè)策略就會相互干擾,呈現(xiàn)出失真的結(jié)果。 所以,必須讓 A、B兩組用戶越不認(rèn)識越好。 但是,你又不能一組選在重慶一組選在新疆。因?yàn)檫@樣兩組樣本本身差異太大,新疆人愛吃大盤雞,不想要你的火鍋底料。。。

你看,這些問題五花八門,但說到底他們要做的就是一件事兒——在“成本可控”的情況下,盡量保證“決策衛(wèi)生”,從而把測試結(jié)果準(zhǔn)確率無限推進(jìn)到“理論極致”。

所以,從2018年開始,數(shù)據(jù)科學(xué)家們在 Libra 里面內(nèi)置了很多保證“決策衛(wèi)生”的流程和功能。它們就像一個(gè)個(gè)“安全氣囊”,保證不太懂統(tǒng)計(jì)科學(xué)的新手司機(jī)也能上秋名山飚車。。。

顯然,要實(shí)現(xiàn)全流程“窮游”,數(shù)據(jù)倉庫同樣需要技術(shù)升級。

可是,數(shù)倉這東西非常精密,所有組件都緊緊咬合在一起,牽一發(fā)動全身,沒辦法“微整形”,要整就整“大手術(shù)”。

在2020年左右,ByteHouse 的各種小優(yōu)化已經(jīng)做到極致,拱不動了。Carl 他們咬咬牙——與其逃避命運(yùn),不如主動出擊——決定對 ByteHouse 進(jìn)行兩場大手術(shù)。

這第一臺手術(shù)就是“存算分離”。

我們回到前面的比喻,把 ByteHouse 看做一個(gè)倉庫。原本這個(gè)倉庫是每一個(gè)貨架(存儲資源)旁邊都站著一個(gè)固定機(jī)械臂(計(jì)算資源),需要這個(gè)貨架上的數(shù)據(jù),它就拿下來。

但是可想而知,如果倉庫規(guī)模不斷變大,機(jī)械臂數(shù)量也會線性增多。

然而,不是每個(gè)貨架上的數(shù)據(jù)時(shí)刻都需要存取——大部分時(shí)間機(jī)械臂(計(jì)算資源)都在閑置中,資源浪費(fèi)。

所謂存算分離,就是把機(jī)械臂變成移動的,需要哪個(gè)貨架上的數(shù)據(jù),就過去拿。可想而知,這樣的改造不僅能節(jié)省很多“機(jī)械臂”,還能騰出“貨架”的空間。

就像下面這樣↓↓↓

第二臺手術(shù)就是“并行處理”。

原本 ClickHouse 的任務(wù)分配模式是“樹狀”的:

一個(gè)查詢?nèi)蝿?wù)來了,就需要一個(gè)“工頭”把任務(wù)分配給很多機(jī)械臂,它們把數(shù)據(jù)找來,再匯總給工頭?蛇@樣有個(gè)明顯的缺點(diǎn),就是工頭一個(gè)人成為了系統(tǒng)的瓶頸,尤其是在數(shù)據(jù)匯總的時(shí)候,大家都把數(shù)據(jù)給它,它就會忙不過來。

所謂“并行處理”,就是讓機(jī)械臂們自己分別匯總,然后把匯總后的結(jié)果報(bào)給工頭,就能大大縮短計(jì)算的時(shí)間。

別看這兩臺手術(shù)從邏輯上聽上去不難理解,但是要完成改造,需要深入數(shù)倉內(nèi)部的最細(xì)節(jié)代碼,相當(dāng)于把每一顆螺絲都進(jìn)行改造,再精巧地封裝回去,難度直逼開顱手術(shù)——Carl 他們整整干了兩年。

就在 ByteHouse 做手術(shù)的時(shí)候,DataLeap 也沒閑著。

Brian 給我介紹了一個(gè)字節(jié)獨(dú)創(chuàng)的理念,叫“數(shù)據(jù)的分布式自制”。

這是啥呢?

舉個(gè)例子,像抖音、今日頭條這樣的頂流業(yè)務(wù),對數(shù)據(jù)的要求就是“變態(tài)級”的,哪怕數(shù)據(jù)晚到一秒鐘,可能都是事故。可是對于字節(jié)內(nèi)部剛剛孵化的小業(yè)務(wù),就沒必要這么較真,數(shù)據(jù)晚半個(gè)小時(shí)似乎也沒問題。

于是,DataLeap 就加入了一個(gè)功能,可以根據(jù)大家不同的容忍程度,自助調(diào)整數(shù)據(jù)鏈條的“松緊”。

“干嘛要調(diào),不是數(shù)據(jù)傳遞越快越好嗎?”我問。

因?yàn)闀r(shí)間就是金錢。 對數(shù)據(jù)要求嚴(yán)格,就必須在全鏈路的計(jì)算、存儲、監(jiān)控都下足本錢,成本自然就高; 反之如果對數(shù)據(jù)時(shí)效要求不高,就可以坐慢車,大大節(jié)省成本。

他說。

就像這樣,飛機(jī)火車汽車隨便挑。

Brian 他們搞出的“摳門”操作還有很多。

比如,有些沒人用的就數(shù)據(jù)會一直占據(jù)存儲空間,可是團(tuán)隊(duì)卻不舍得刪,就像不敢扔家里的舊書,生怕哪天還要看。

可是,存儲用的硬盤卻是實(shí)打?qū)嵉某杀景。⊙劭疵刻於加行聰?shù)據(jù)源源不斷進(jìn)來,存儲資源成本越來越高。。。

DataLeap 一看,這個(gè)事兒我能幫忙!

因?yàn)樗械臄?shù)據(jù)鏈路都在 DataLeap 上創(chuàng)建,它就自然能知道哪些數(shù)據(jù)訪問量比較高,哪些數(shù)據(jù)一直在“萬年冷宮”。根據(jù)數(shù)據(jù)的熱度,DataLeap 就能精準(zhǔn)建議團(tuán)隊(duì)刪除一些最冷的數(shù)據(jù)。

這樣一來,不僅存儲成本大大降低,數(shù)據(jù)也可以在合適的機(jī)會被銷毀。

故事講到這,我們的主角小紅心的“數(shù)據(jù)旅行團(tuán)”又有了新升級。

首先,它的整個(gè)旅途在保證質(zhì)量的情況下,會變得更便宜; 其次,在完成所有旅程之后,它最終還會回歸自然。直到這一刻,小紅心才真正走完了它“驅(qū)動世界”的旅途。

給你看下全景圖吧:

剛才我為了方便你理解,一直在強(qiáng)調(diào)“窮游”,好像老師傅都很摳門似的。但, 這樣磨煉極致的數(shù)據(jù)處理體系,難道僅僅是為了省錢嗎?

當(dāng)然不是。

別忘了,數(shù)據(jù)是數(shù)字世界的石油——不僅僅是字節(jié)跳動需要數(shù)據(jù)石油,也不僅僅是互聯(lián)網(wǎng)行業(yè)需要數(shù)據(jù)石油,我們現(xiàn)實(shí)世界里的工廠、飯店、機(jī)場、銀行,千行百業(yè)全部都在源源不斷地產(chǎn)生數(shù)據(jù),他們當(dāng)然也有權(quán)力使用數(shù)據(jù)石油。

可問題在于:不同行業(yè)的“數(shù)據(jù)密度”是不同的;ヂ(lián)網(wǎng)行業(yè)天生泡在數(shù)據(jù)石油里,如中東土豪一樣;但一些傳統(tǒng)行業(yè)就像貧油國,有些數(shù)據(jù)并不豐富,有些開采難度較大。

這種情況下,還要斥巨資建設(shè)數(shù)據(jù)處理體系,他們就沒有動力了。。。

換句話說,只有一個(gè)性價(jià)比足夠高的數(shù)據(jù)處理體系,才能融入千行百業(yè),幫助他們來開采自己的石油。

字節(jié)這群老師傅忽然抬頭,發(fā)現(xiàn)整個(gè)江湖之上,自己對于數(shù)據(jù)技術(shù)的處理已經(jīng)到了獨(dú)孤求敗的地步。于是,高層慎重討論,準(zhǔn)備把這些年積累下來的各種技術(shù)開放出來,服務(wù)廣大企業(yè)。

這就是后來大名鼎鼎的“火山引擎”。

(六)成為“利器”

2021年,數(shù)據(jù)老師傅們來了個(gè)一秒變裝——從服務(wù)公司內(nèi)部業(yè)務(wù),轉(zhuǎn)向服務(wù)衣食住行、千行百業(yè)。

字節(jié)這些系統(tǒng)也來了個(gè)一秒變裝——A/B 測試系統(tǒng) Libra 改名為 DataTester,用戶增長分析系統(tǒng)TEA 改名為 DataFinder,數(shù)據(jù)洞察工具風(fēng)神改名為 DataWind、客戶數(shù)據(jù)平臺 Mirror 改名為 VeCDP,一起裝在了叫做“VeDI”的數(shù)智平臺里。

就像這樣(點(diǎn)擊可以看大圖)

其實(shí),各行各業(yè)建設(shè)數(shù)據(jù)體系,本質(zhì)上就是把字節(jié)走過的路重走一遍,火山引擎的價(jià)值恰恰是——字節(jié)踩過的10086個(gè)坑,不要再讓其他公司踩。

老師傅發(fā)現(xiàn),他們要做的還是老三樣:

1、幫助企業(yè)建立“收集小紅心”的能力; 2、幫助企業(yè)建造小紅心的“倉庫”和“工廠”; 3、幫助企業(yè)給小紅心的旅途配備“導(dǎo)游”。

舉幾個(gè)栗子吧。

有很多非互聯(lián)網(wǎng)企業(yè),還沒有自己的 App,或者 App 功能設(shè)計(jì)不完善。

他們最急需的,就是第一步——收集“小紅心”的能力。

字節(jié)的一位同學(xué)告訴我,他們剛剛幫助領(lǐng)克汽車改進(jìn)了 App 的設(shè)計(jì),讓領(lǐng)克的車主可以不用說話,僅僅通過在 App 里的各種操作就展現(xiàn)出他們的訴求,就像今日頭條和抖音所做的那樣。

收集到了小紅心,領(lǐng)克就可以做“A/B測試”,從而一點(diǎn)點(diǎn)改進(jìn)對車主的服務(wù)。

你看,數(shù)據(jù)鏈條就這樣緩慢地轉(zhuǎn)動起來。

估計(jì)淺友里肯定有領(lǐng)克的車主,不知道你最近體驗(yàn)到變化沒。

領(lǐng)克還用火山引擎做了更多數(shù)據(jù)加工,篇幅有限就放在圖里了。(點(diǎn)雞可以變大)

有了小紅心,就到了第二步——建造小紅心的“倉庫”和“工廠”。

2021年,Levi’s(李維斯)已經(jīng)完成了用戶數(shù)據(jù)庫的建立,他們就讓字節(jié)的老師傅們把數(shù)據(jù)接入了數(shù)據(jù)工廠——VeCDP(管理客戶數(shù)據(jù)的平臺)。

這樣一來,Levi’s 就把自己的客戶分為六大人群體系,然后對每一類客戶進(jìn)行個(gè)性化的推薦和營銷。

這樣不僅減少了對很多非核心用戶的打擾,還能集中精力服務(wù)真正的目標(biāo)用戶。

倉庫和工廠都有了,接下來就是第三步——給小紅心配“導(dǎo)游”。

能走到第三步的企業(yè),已經(jīng)算是數(shù)據(jù)領(lǐng)域的佼佼者了,因?yàn)檫@說明他們的數(shù)據(jù)基礎(chǔ)已經(jīng)完備,開始考慮數(shù)據(jù)治理的問題了。(你還記得吧,字節(jié)也是在數(shù)據(jù)基礎(chǔ)鏈路建設(shè)完整之后才重點(diǎn)搞數(shù)據(jù)治理的。)

講實(shí)話,目前這樣的企業(yè)還真不多,“得到”就是其中之一。

得到是很多愛智求真的小伙伴(比如我)手機(jī)里的C位 App。

客觀上來說,這些客戶的消費(fèi)能力還挺強(qiáng)的,所以他們使用得到 App 時(shí)產(chǎn)生的小紅心(數(shù)據(jù))的價(jià)值也很高,必須被重視,必須得到及時(shí)的響應(yīng)。

所以,得到對數(shù)據(jù)鏈路的 SLA 要求賊高,數(shù)據(jù)決不能遲到。

這不正好是 DataLeap 的用武之地么?

2021年的時(shí)候,字節(jié)老師傅幫得到建設(shè)了 DataLeap 的數(shù)據(jù)體系,從此,數(shù)據(jù)不到位的情況大大減少。

字節(jié)的同學(xué)還給我講了好多案例,篇幅有限我就不給你轉(zhuǎn)述了。

草灰蛇線伏脈千里,你還記得我們之前的那些伏筆么?

很多客戶沒有專業(yè)的數(shù)據(jù)分析師,這時(shí)候 Libra 的傻瓜式操作就非常合適; 各行各業(yè)使用數(shù)據(jù)的模式千奇百怪,ByteHouse 早年被鍛煉出來的圓潤皮實(shí)就發(fā)揮了作用; 各個(gè)公司的數(shù)據(jù)發(fā)展水平不同,有的對數(shù)據(jù)質(zhì)量要求高,有的對數(shù)據(jù)質(zhì)量容忍度高,這個(gè)時(shí)候 DataLeap 的分布式治理功能恰恰能派上用場。

他們當(dāng)年費(fèi)力做了這么多細(xì)節(jié)功能,更多是出于純粹的數(shù)據(jù)信仰。 可是 “純粹”恰恰是改造世界最鋒利的武器。

那些默默的努力如今一下子靈魂附體。大概正如那歌詞:“人生沒有白走的路,每一步都算數(shù)”。

(七)沒有盡頭的數(shù)據(jù)長征

熟悉中哥的人都知道,我是一個(gè)“數(shù)據(jù)技術(shù)信仰者”。

原因其實(shí)也很簡單,中國總體地大物“薄”,人均來看各種能源都談不上豐富,漫長的時(shí)間里,我們可以依靠的只有每個(gè)人的勤勞和忍耐。

正是這樣的歷史,造就了巨大的人口和統(tǒng)一的市場。而這兩樣,恰恰是數(shù)據(jù)的溫床,孕育了最豐富的未來能源。

從這個(gè)角度看來,我們終究得到了歷史的一些眷顧。

在未來幾十年,大概率會爆發(fā)一場波瀾壯闊的“數(shù)據(jù)技術(shù)普及浪潮”,每一個(gè)公司都可以用低廉的價(jià)格購買一個(gè)高效的“數(shù)據(jù)處理引擎”,就像現(xiàn)在我們買汽車一樣簡單。

也只有到了數(shù)據(jù)引擎遍地開花的時(shí)候,我們才真正拍胸脯說自己是奔跑在數(shù)據(jù)上的國家。

壞消息是,我們目前的數(shù)據(jù)處理效率,還不能支撐那樣的未來。

好消息是,老師傅們?nèi)栽诶^續(xù)努力。

Carl 告訴我,最近 ByteHouse 正準(zhǔn)備研究一個(gè)智能化的黑科技:

你還記得我們剛才說過,一個(gè)任務(wù)到達(dá) ByteHouse 之后,要有一個(gè)工頭來進(jìn)行任務(wù)分配的吧。

面對一個(gè)任務(wù),究竟應(yīng)該召喚出多少個(gè)“機(jī)械臂”去執(zhí)行子任務(wù)呢?如果太多就會浪費(fèi)算力,如果太少就會拖延時(shí)間。

當(dāng)前的解決方案比較粗暴,就是手動設(shè)定的默認(rèn)值。

可未來 ByteHouse 進(jìn)一步滲入各行各業(yè),計(jì)算任務(wù)會變得更加五花八門,都采用“默認(rèn)任務(wù)分配策略”就不合適了。

所以,黑科技就是:根據(jù)現(xiàn)場情況,自動測算最合適的“并行度”來分配任務(wù)。

這種潤物細(xì)無聲的“智能化”還發(fā)生著在很多地方。

比如在 DataTester(Libra) 里,目前所有的指標(biāo)都是分析師自己憑腦袋瓜想出來的。

但 Albert 告訴我,他們正在嘗試研究一種技術(shù),可以通過歷史數(shù)據(jù)和行業(yè)屬性自動向分析師推薦:“要不要試試這樣構(gòu)建指標(biāo)?”

這樣的智能建議如果足夠靠譜,那么各行各業(yè)就會進(jìn)一步擺脫對專業(yè)分析師的依賴,利用數(shù)據(jù)的門檻隨之大幅下降。

DataLeap 也有類似的黑科技。

Brian 說,過去的 DataLeap 在發(fā)現(xiàn)某個(gè)數(shù)據(jù)流卡住的時(shí)候(一般是半夜),都會馬上打電話叫醒響應(yīng)團(tuán)隊(duì)的方方面面好幾位負(fù)責(zé)人,但很多情況下能解決問題的就是其中一個(gè)人。

所以 DataLeap 正在研究的黑科技就是:

通過數(shù)據(jù)智能研判這個(gè)擁堵具體是由那個(gè)小分隊(duì)造成的,直接給這一個(gè)人負(fù)責(zé)人來精準(zhǔn)的“奪命連環(huán) Call”,別人該睡還睡。

“提升大家的幸福感嘛!”Brian 笑。

舉了這三個(gè)例子,可能你已經(jīng)看出來了,未來數(shù)據(jù)技術(shù)發(fā)展的一大方向就是“數(shù)據(jù)處理的智能化”。

智能化浪潮的意義,堪比汽車從手動擋進(jìn)化成自動擋一樣,瞬間讓很多沒信心開車的人也能學(xué)開車了。

除了“智能化”,未來數(shù)據(jù)處理還會越來越“實(shí)時(shí)化”。

以前的“小紅心旅行”短則幾個(gè)小時(shí),長則幾天,但是在很多場景下,我們等不了這么久:

比如,你搜索了一件衣服,下一秒你就希望電商馬上給你推薦相似的款式; 比如,火電廠周圍的風(fēng)向變了,就需要馬上調(diào)整空冷島風(fēng)扇的轉(zhuǎn)速,補(bǔ)償風(fēng)向?qū)ι岬挠绊懀?比如,居民的用電情況發(fā)生改變,就需要馬上調(diào)整電網(wǎng)輸送功率,保持供電用電平衡。

實(shí)時(shí)報(bào)表的要求越來越高,小紅心整個(gè)旅途可能在幾秒內(nèi)就得完成。(可以參考我寫過的)

當(dāng)延遲以毫秒計(jì)數(shù),數(shù)據(jù)就會組成一條奔騰的大河。而在大河兩岸,新的文明得以被滋養(yǎng)。

就像下面這張完整版大圖:

雖然有點(diǎn)俗,但我的夢想就是通過產(chǎn)品化的方式,讓未來更多的人能夠用到數(shù)據(jù)。 人做的事情越來越少,自動化越來越多,直到人類從一條條數(shù)據(jù)鏈路中被完全解放出來。

Brian 說。

我想了半天:“你這夢想已經(jīng)不俗了吧?”

告別字節(jié)的老師傅們,我忍不住掰著手指頭計(jì)算。

二十多年前,互聯(lián)網(wǎng)出現(xiàn);十多年前,智能手機(jī)普及;而建立在這些基礎(chǔ)之上數(shù)據(jù)世界,仍是蹣跚的孩子。

一個(gè)孩子已經(jīng)如此強(qiáng)悍, 我有理由相信,更多奇跡已經(jīng)預(yù)定了我們的未來。

但成長從來并非易事。

從荒蕪到轟鳴,如今數(shù)字世界的一切都由一行行微小而具體的代碼堆砌而成,過去走到現(xiàn)在并無捷徑。由此想見,由現(xiàn)在走到未來也沒有捷徑。

這可能是一場漫長的數(shù)據(jù)長征。老師傅只能前赴后繼,用一行行代碼代替腳步,去丈量大地。

但好在,代碼是數(shù)字世界的磚石,它一旦創(chuàng)生,就再也不會消逝,我們每向前走一步,就離終點(diǎn)更近一步。

用數(shù)據(jù)

為你想要的世界投票

再自我介紹一下吧。我叫史中,是一個(gè)傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。

哦對了,如果喜歡文章,請別吝惜你的“在看”“分享”。讓有趣的靈魂有機(jī)會相遇,會是一件很美好的事情。

Thx with in Beijing

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張一鳴該跟豆包算賬了

張一鳴該跟豆包算賬了

字母榜
2026-01-21 16:26:16
2026年1月車市涼透了!銷量暴跌67%,到底是誰按下了暫停鍵?

2026年1月車市涼透了!銷量暴跌67%,到底是誰按下了暫停鍵?

老特有話說
2026-01-20 21:55:30
演員劉琳:我一直想要孩子,35歲開始,第一次胎停,第二次又胎停

演員劉琳:我一直想要孩子,35歲開始,第一次胎停,第二次又胎停

南權(quán)先生
2026-01-22 15:47:36
上海一女子崩潰!頭發(fā)大面積脫落,已嚴(yán)重潰爛,理發(fā)師:別再折騰了……

上海一女子崩潰!頭發(fā)大面積脫落,已嚴(yán)重潰爛,理發(fā)師:別再折騰了……

環(huán)球網(wǎng)資訊
2026-01-20 21:13:24
下午四點(diǎn)!傳出重磅消息:CBA冠軍隊(duì)主帥辭職,球迷:36計(jì)走為上

下午四點(diǎn)!傳出重磅消息:CBA冠軍隊(duì)主帥辭職,球迷:36計(jì)走為上

南海浪花
2026-01-22 17:27:36
國王單節(jié)輸22分遭猛龍逆轉(zhuǎn)吞3連敗 威少23分巴恩斯23+8+7

國王單節(jié)輸22分遭猛龍逆轉(zhuǎn)吞3連敗 威少23分巴恩斯23+8+7

醉臥浮生
2026-01-22 13:31:33
原來馬斯克沒說錯(cuò),全球搶的不是芯片,而是中國20萬一臺的變壓器

原來馬斯克沒說錯(cuò),全球搶的不是芯片,而是中國20萬一臺的變壓器

云上烏托邦
2026-01-22 13:10:38
黃仁勛稱后悔英偉達(dá)上市后賣股票為父母買奔馳:這是世上最貴的車

黃仁勛稱后悔英偉達(dá)上市后賣股票為父母買奔馳:這是世上最貴的車

IT之家
2026-01-22 07:09:08
格伊轉(zhuǎn)會曼城真實(shí)總價(jià)高達(dá)1.25億鎊!利物浦放棄太明智

格伊轉(zhuǎn)會曼城真實(shí)總價(jià)高達(dá)1.25億鎊!利物浦放棄太明智

夜白侃球
2026-01-22 15:55:50
被套在山峰上的股民終于樂了

被套在山峰上的股民終于樂了

獨(dú)孤老趙的筆記
2026-01-22 16:22:46
特朗普報(bào)復(fù)開始,27國聯(lián)手圍華,逐一淘汰中國制造,中方丑話說前

特朗普報(bào)復(fù)開始,27國聯(lián)手圍華,逐一淘汰中國制造,中方丑話說前

通文知史
2026-01-21 18:35:03
70萬億存款"大限"將至!銀行慌了,2026將上演史詩級資金大遷徙?

70萬億存款"大限"將至!銀行慌了,2026將上演史詩級資金大遷徙?

小鄭說史
2026-01-22 11:56:16
自稱“性商教母”,網(wǎng)紅周媛爆火,收入已超2400萬元

自稱“性商教母”,網(wǎng)紅周媛爆火,收入已超2400萬元

財(cái)通社
2026-01-22 13:41:42
牢A事件發(fā)酵!第一代在吸中國爹媽的血,斬殺線離他們后代很近…

牢A事件發(fā)酵!第一代在吸中國爹媽的血,斬殺線離他們后代很近…

火山詩話
2026-01-22 06:10:32
四川省5天5名廳官被查

四川省5天5名廳官被查

上觀新聞
2026-01-22 06:42:08
廣東程序員高廣輝去世!僅32歲,妻子曝死因,死后不能進(jìn)祖墳

廣東程序員高廣輝去世!僅32歲,妻子曝死因,死后不能進(jìn)祖墳

八斗小先生
2026-01-22 13:38:12
打虎!張建龍被查

打虎!張建龍被查

新京報(bào)
2026-01-22 09:38:34
“回國禍害人了?”女留子畢業(yè)美圖被群嘲,網(wǎng)友:看過牢A就懂了

“回國禍害人了?”女留子畢業(yè)美圖被群嘲,網(wǎng)友:看過牢A就懂了

妍妍教育日記
2026-01-20 19:09:20
A股寬基持續(xù)放量謎團(tuán)揭曉,中央?yún)R金出手了!密集贖回各大寬基ETF,最新持倉曝光

A股寬基持續(xù)放量謎團(tuán)揭曉,中央?yún)R金出手了!密集贖回各大寬基ETF,最新持倉曝光

金融界
2026-01-22 15:06:36
俄羅斯遭大規(guī)模襲擊

俄羅斯遭大規(guī)模襲擊

魯中晨報(bào)
2026-01-22 15:31:02
2026-01-22 19:08:49
淺黑科技官方 incentive-icons
淺黑科技官方
科技有溫情
284文章數(shù) 22967關(guān)注度
往期回顧 全部

科技要聞

幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

頭條要聞

加拿大有人眼紅:就算便宜 也別買中國車

頭條要聞

加拿大有人眼紅:就算便宜 也別買中國車

體育要聞

跑個(gè)步而已,他們在燃什么?

娛樂要聞

田亮一家新年全家福!森碟變清純少女

財(cái)經(jīng)要聞

潘功勝:繼續(xù)實(shí)施好適度寬松的貨幣政策

汽車要聞

配備多塊娛樂屏 極氪8X內(nèi)飾曝光

態(tài)度原創(chuàng)

旅游
家居
教育
房產(chǎn)
軍事航空

旅游要聞

湖南4家景區(qū)入選全國5A級景區(qū)百強(qiáng)榜,其中岳麓山-橘子洲旅游區(qū)排名全國第6

家居要聞

法式風(fēng)情 南洋中古居

教育要聞

上海財(cái)經(jīng)大學(xué)排名怎么樣?全國前四,力壓清北復(fù)交的好選擇?

房產(chǎn)要聞

開年王炸!四重政策紅利加碼,廣州置業(yè)窗口期邁入倒計(jì)時(shí)!

軍事要聞

普京:愿意向"和平委員會"提供10億美元

無障礙瀏覽 進(jìn)入關(guān)懷版