国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

拋硬幣連續(xù)出了10次正面?窩要驗(yàn)幣!“賭神”貝葉斯告訴你這幣還真有問題

0
分享至

認(rèn)真閱讀下面的文章,并思考文末互動(dòng)提出的問題,嚴(yán)格按照互動(dòng):你的答案格式在評(píng)論區(qū)留言,就有機(jī)會(huì)獲得由中信出版集團(tuán)提供的優(yōu)質(zhì)科普書籍《統(tǒng)計(jì)的藝術(shù)。


如果你已經(jīng)連續(xù)拋出了10次正面,那么下一次最有可能拋出的結(jié)果是什么?貝葉斯定理給出了答案,這不僅適用于拋硬幣,更普遍適用于科學(xué)探索。圖片來源:Wikipedia

先問你一個(gè)問題:

假如我拋了一枚硬幣10次,發(fā)現(xiàn)每次都是正面朝上。如果我再拋一次,出現(xiàn)正面的概率是多少?

我(譯者注:作者)經(jīng)常拿這個(gè)問題去問學(xué)生,無論是中學(xué)生還是大學(xué)生,甚至去問他們的老師。受過數(shù)學(xué)訓(xùn)練的學(xué)生(通常也包括他們的老師)給出的答案幾乎如出一轍。他們會(huì)說,下一次拋出正面的概率絕對(duì)是 1/2。他們對(duì)此往往非常篤定,通常還會(huì)搬出那套熟悉的理論,告訴我“硬幣是沒有記憶的”,或者類似這樣的話。

但如果你去問一個(gè)(沒受過多少數(shù)學(xué)訓(xùn)練的)賭徒,他們可能會(huì)說,既然這枚硬幣都已經(jīng)連續(xù)出了那么多次正面,風(fēng)水輪流轉(zhuǎn),下次怎么也該輪到反面了吧!所以,出現(xiàn)正面的概率肯定小于 1/2。

但是,在我看來(沒錯(cuò),這確實(shí)常常引發(fā)相當(dāng)激烈的爭(zhēng)論),這兩種答案都錯(cuò)了!事實(shí)上,下一次拋擲出正面的概率非常接近于 1。你沒看錯(cuò),就是 1。你可能會(huì)問:“怎么會(huì)這樣?難道我以前學(xué)的數(shù)學(xué)都是錯(cuò)的嗎?”你先別急,咱們理理思路,如果要讓這枚硬幣在下一次拋擲時(shí)出正面的概率是 1/2,前提是它必須是一枚“絕對(duì)公平”的硬幣(也就是每次拋擲出現(xiàn)正反面的可能性完全相等)??墒牵覐念^到尾都沒說過這是一枚公平的硬幣呀!那僅僅是你自己想當(dāng)然的假設(shè)罷了。

你看,明明擺在眼前的是壓倒性的反面證據(jù),你卻依然做出了硬幣是絕對(duì)公平的假設(shè)。仔細(xì)想想,如果一枚硬幣連續(xù)十次拋出正面,那它十有八九不是什么正經(jīng)硬幣。事實(shí)上,如果這枚硬幣真的質(zhì)地均勻,發(fā)生這種情況的概率只有 0.510,也就是 1/1024 ,接近于千分之一的概率。這就意味著,你需要把“連拋十次”作為一個(gè)回合,足足重復(fù)上一千個(gè)回合——也就是總共拋擲 10,000 次,我估摸著這至少得連續(xù)拋上三個(gè)小時(shí),才能有較大的概率見證一次“連續(xù)十次正面”的奇跡。

估計(jì)絕大多數(shù)人扔不到一半就感覺手酸,早早放棄了。因此,既然我們已經(jīng)親眼看到了硬幣連續(xù)出現(xiàn)了十次正面,一個(gè)非常合理的推斷就是:這枚硬幣肯定不對(duì)勁,它的內(nèi)部可能存在某種偏向性,導(dǎo)致它更容易擲出正面。想通了這一點(diǎn),情況就很明朗了,下一次拋出正面的概率絕對(duì)比 1/2 要高得多。

但是新的問題又來了,到底會(huì)高出多少呢?

我在這里所描述的,其實(shí)正是科學(xué)研究的運(yùn)作方式。假設(shè)我們想要研究某個(gè)系統(tǒng),我們會(huì)先進(jìn)行一系列的觀察,并從中推斷其內(nèi)在可能的機(jī)制。這個(gè)過程需要我們提出假設(shè),然后用數(shù)據(jù)去檢驗(yàn)這些假設(shè)。一旦確立了假設(shè),我們就可以開始做預(yù)測(cè)。但這必須在收集到數(shù)據(jù)之后才能進(jìn)行,而且我們必須非常謹(jǐn)慎,不能在一開始就對(duì)系統(tǒng)做出不切實(shí)際的假設(shè)。

這個(gè)道理不僅適用于我們的這枚硬幣,還同樣適用于天氣預(yù)報(bào)、氣候變化預(yù)測(cè),以及應(yīng)對(duì)流行病傳播的決策。它也適用于我們生活中的許多其他方面,無論是司法系統(tǒng)的運(yùn)轉(zhuǎn),還是我們制定政策(甚至進(jìn)行社會(huì)活動(dòng))的方式。

幸運(yùn)的是,我們有一個(gè)非常強(qiáng)大的工具可以提供幫助,那就是貝葉斯推斷(Bayesian inference)。如今,人工智能、機(jī)器學(xué)習(xí)以及機(jī)器的決策能力正在飛速發(fā)展,而貝葉斯推斷正是這一切的核心。

正面,貝葉斯贏!

老師和學(xué)生有時(shí)會(huì)批評(píng)我的第一個(gè)問題過于模糊。題干中沒有提供足夠的信息來得出答案。確實(shí),這肯定無法作為一道合格的考題,至少在數(shù)學(xué)考試中是不合格的。從某種意義上說,這種批評(píng)是對(duì)的。但在現(xiàn)實(shí)中,我們經(jīng)常會(huì)面臨類似的情境,不得不依靠做出合理的假設(shè)來處理問題。因此,為了讓這個(gè)問題更加嚴(yán)謹(jǐn),我將其重新表述如下:

我有一個(gè)裝了許多硬幣的袋子。其中大部分是質(zhì)地均勻的普通硬幣,拋出正面或反面的概率均為 1/2。然而,有比例為 p(假設(shè) p 的值很?。┑挠矌攀翘厥獾?,它們兩面都是正面。如果拋擲這種硬幣,出現(xiàn)正面的概率就是 1(這里假設(shè)硬幣不會(huì)立在地面上)。我從這個(gè)袋子里隨機(jī)摸出一枚硬幣,連拋 10 次,結(jié)果每次都是正面朝上。那么,下一次拋擲它依然出現(xiàn)正面的概率是多少?


氣象學(xué)依賴于貝葉斯推斷。圖片來源:Pixabay

在這個(gè)更為嚴(yán)謹(jǐn)?shù)那榫诚拢覀儙缀蹩梢詳喽?,如果硬幣每次都擲出正面,那它極大概率是一枚存在偏向的硬幣(即兩面都是正面的硬幣)。在這種情況下,下一次拋擲肯定還是正面。運(yùn)用貝葉斯推斷這一奇妙的方法,我們可以將這一推論表述得更加精確,甚至還能看出它與比例 p 的大小有著怎樣的關(guān)系。

要做到這一點(diǎn),我們需要引入事件的條件概率(conditional probability)這一概念。在前面設(shè)定的游戲中,存在幾種可能發(fā)生的事件。其一便是“抽中一枚存在偏向的硬幣”這一事件。我們將該事件記為 A,并用 P(A) 來表示其發(fā)生的概率。將“抽中一枚均勻硬幣”的事件記為 B,并用 P(B) 表示該事件發(fā)生的概率。那么:

我們通常將這種概率稱為先驗(yàn)信息(prior information)。只有在對(duì)這枚硬幣一無所知的情況下,P (A) = p 這一等式才成立。這是在獲取任何實(shí)測(cè)數(shù)據(jù)之前,硬幣存在偏向的概率。

一旦開始拋擲硬幣,我們就會(huì)對(duì)它有更多的了解,并隨之修正先驗(yàn)信息,從而得出關(guān)于該系統(tǒng)的所謂后驗(yàn)知識(shí)(a-posteriori knowledge)。作為人類,我們的大腦時(shí)刻都在經(jīng)歷著這樣的過程:不斷收集關(guān)于周遭環(huán)境的感官信息,并據(jù)此在腦海中構(gòu)建出對(duì)當(dāng)前狀況的認(rèn)知。這也是機(jī)器進(jìn)行學(xué)習(xí)并更新其對(duì)某個(gè)系統(tǒng)已有知識(shí)的過程。對(duì)于這類機(jī)器而言,實(shí)現(xiàn)這一過程的核心工具正是貝葉斯分析(Bayesian analysis)。接下來,就讓我們看看它是如何發(fā)揮作用的。

假設(shè)我們有兩個(gè)事件 A 和 B。條件概率 P(A|B) 指的是在已知事件 B 已經(jīng)發(fā)生的前提下,事件 A 發(fā)生的概率。

舉個(gè)例子,假設(shè)事件 A 為“連續(xù)拋擲 10 次硬幣,每次都是正面朝上”,事件 B 為“我們抽中了一枚兩面都是正面的硬幣”,而事件 C 為“我們抽中了一枚質(zhì)地均勻的普通硬幣”。稍作思考就會(huì)發(fā)現(xiàn):

這是因?yàn)槟敲队矌艃擅娑际钦?,所以它每次拋擲必然都會(huì)出現(xiàn)正面。另外,正如我們?cè)谇懊嬉呀?jīng)計(jì)算過的,我們還可以得出:

你可以明顯看出,P(A|B) 要比P(A|C) 大得多。

貝葉斯是怎么說的

在小學(xué)二年級(jí),我們就學(xué)過一個(gè)關(guān)于條件概率的通用公式。如果用 P(A and B) 來表示事件 A 和事件 B 同時(shí)發(fā)生的概率,那么公式就是:

這個(gè)公式可能不是那么一目了然——如果想了解它為什么成立,可以去閱讀相關(guān)的推導(dǎo)文章。

但是,P(A and B) 與 P(B and A) 顯然是同一回事,根據(jù)上述公式,它同樣等于P(B)P(A|B)。這也就意味著:

由中間的等式可得:

這個(gè)結(jié)果就是著名的“貝葉斯定理”(Bayes' theorem)。它由托馬斯·貝葉斯牧師(Revd. Thomas Bayes)提出,并由英國(guó)皇家學(xué)會(huì)(Royal Society)以《論有關(guān)機(jī)遇問題的求解》(An Essay towards solving a Problem in the Doctrine of Chances)為題于 1763 年正式發(fā)表。


托馬斯·貝葉斯(1701-1761)

貝葉斯并不算是一位職業(yè)數(shù)學(xué)家,盡管他對(duì)哲學(xué)和統(tǒng)計(jì)學(xué)有著濃厚的興趣。事實(shí)上,他是一名神職人員。但是,貝葉斯定理卻是整個(gè)數(shù)學(xué)領(lǐng)域最重要的成果之一!它不僅在概率論和統(tǒng)計(jì)學(xué)中居于核心地位,在衛(wèi)星追蹤(或幾乎任何其他目標(biāo)的追蹤)、考古學(xué)、司法系統(tǒng)、氣象學(xué),甚至在大名鼎鼎(讓人又愛又恨)的蒙提霍爾問題(即著名的“三門問題”)等截然不同的領(lǐng)域中,都有著數(shù)不勝數(shù)的應(yīng)用。它更是構(gòu)建整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的基石。對(duì)于區(qū)區(qū)一個(gè)定理來說,這成就可以說相當(dāng)了不起了。

我們可以用通俗的語(yǔ)言來解釋這個(gè)定理為何如此重要。假設(shè)事件 B 是我們真正感興趣的研究對(duì)象,而事件 A 是我們?yōu)榱诉M(jìn)一步了解 B 所進(jìn)行的實(shí)驗(yàn)。P(B) 就是我們?cè)谶M(jìn)行實(shí)驗(yàn)之前對(duì)事件 B 掌握的“先驗(yàn)知識(shí)”;而 P(B|A) 則是實(shí)驗(yàn)之后我們對(duì) B 獲得的“后驗(yàn)知識(shí)”。貝葉斯定理為我們提供了一條從先驗(yàn)知識(shí)通往后驗(yàn)知識(shí)的橋梁。我們成功地從數(shù)據(jù)中推斷出了背后的真相,這正是“貝葉斯推斷”一詞的由來。當(dāng)我們想要弄清楚一個(gè)無法直接測(cè)量的系統(tǒng)內(nèi)部正在發(fā)生什么,并且必須依靠間接的測(cè)量結(jié)果來進(jìn)行推論時(shí),這種思想在科學(xué)研究的各個(gè)方面都會(huì)被一遍又一遍地反復(fù)運(yùn)用。

硬幣存在偏向的概率有多大?

作為例子,現(xiàn)在讓我們把這個(gè)定理應(yīng)用到最初的問題上,在不直接查看硬幣的情況下,推斷這枚硬幣是否兩面都是正面。我們這里重申一下設(shè)定,事件 A 為“連續(xù)擲出 10 次正面”,事件 B 為“我們抽中了一枚兩面都是正面的硬幣”。

我們已經(jīng)知道 P(A|B)=1,并且 P(B)=p。因此,為了計(jì)算出 P(B|A)(也就是在已知連續(xù)擲出 10 次正面的前提下,這枚硬幣兩面都是正面的概率),我們需要先算出 P(A)。P(A) 代表的是:從袋子里隨機(jī)摸出一枚硬幣,拋擲后連續(xù)出現(xiàn) 10 次正面的總概率。這里需要考慮兩種互斥的情況。第一種情況是,我們抽中了一枚兩面都是正面的硬幣,然后擲出了十次正面。這種情況發(fā)生的概率,其實(shí)就等于抽中這枚問題硬幣的概率 P(B)(因?yàn)橐坏┏橹兴?,擲出十次正面就是板上釘釘?shù)氖铝耍?。第二種情況是,我們抽中了一枚質(zhì)地均勻的普通硬幣(我們將此事件記為 C),然后擲出了十次正面。在這種情況下,擲出十次正面的概率就是兩個(gè)單獨(dú)概率的乘積:P(A|C)P(C)。因此,擲出十次正面的總概率 P(A),就是這兩種互斥情況的概率之和:

我們剛才已經(jīng)算出了這里所有的項(xiàng):P(B)=p,P(A|C) = 1 / 1024,以及 P(C) = 1-p。因此:

現(xiàn)在,我們可以完成最后的計(jì)算,得出在“連續(xù)擲出 10 次正面”的前提下,這枚硬幣兩面都是正面的概率為:

為了讓你對(duì)這個(gè)概率的具體大小有個(gè)直觀感受,假設(shè)我們有一個(gè)裝了 100 枚硬幣的袋子,其中只有一枚是兩面全為正面的問題硬幣。那么,p = 1 / 100。在這種情況下,已知硬幣連續(xù)擲出 10 次正面,它是問題硬幣的概率就變成了:

也就是說,這枚硬幣存在偏向的概率高達(dá) 91%。對(duì)于大多數(shù)人來說,這個(gè)可能性已經(jīng)相當(dāng)有把握了。所以可以看到,在貝葉斯定理的運(yùn)用下,原本僅有 1% 的“硬幣存在偏向”的先驗(yàn)概率被更新為了 91%。

再次擲出正面的概率是多少?

現(xiàn)在,我們終于可以回過頭來回答最初提出的那個(gè)問題了。在已經(jīng)連續(xù)擲出 10 次正面的前提下,下一次擲出正面的概率究竟是多少?

如果這是一枚問題硬幣(即事件 B),那么下一次擲出正面的概率必然是 1。因此,基于現(xiàn)有的觀察數(shù)據(jù)(連出 10 次正面),下一次擲出正面且硬幣確實(shí)存在偏向的概率為:

如果這枚硬幣是質(zhì)地均勻的普通硬幣(即事件 C),那么下一次擲出正面的概率就是 1/2。因此,基于現(xiàn)有數(shù)據(jù),下一次擲出正面且硬幣毫無偏向的概率為:

在第 11 次拋擲這枚硬幣時(shí),再次出現(xiàn)正面的總概率,就是上述這兩個(gè)互斥事件概率的總和:

我們之前已經(jīng)算出了 P(B|A) 的值,而 P(C|A) 簡(jiǎn)單來說就是 1- P(B|A)。因此,下一次再次擲出正面的概率就變成了:

如果 p = 1 / 100,那么P(再次擲出正面) = 0.955,約為96%。對(duì)于大多數(shù)實(shí)際情況來說,這個(gè)概率已經(jīng)足夠接近于 1 了。

在下圖中,我們將 P(再次擲出正面) 繪制為了 p 的函數(shù)。你可以清楚地看到,只有當(dāng) p 小到極其微弱的程度時(shí),P(再次擲出正面) 才會(huì)與 1 產(chǎn)生明顯的差距。因此,我們完全有底氣說,最初那個(gè)問題的答案就是,下一次出現(xiàn)正面的概率非常接近 1,即便我們其實(shí)并不知道 p 的確切數(shù)值。


概率 P(再次擲出正面) 隨 p 變化的曲線圖。

大功告成……

……但是等等,有沒有一種可能,我對(duì)你隱瞞了真實(shí)的數(shù)據(jù)。這種情況下我們?cè)撛趺崔k?它又跟天氣預(yù)報(bào)甚至機(jī)器學(xué)習(xí)有什么千絲萬(wàn)縷的聯(lián)系?欲知后事如何,且聽下文分解。

背面,貝葉斯輸!

在現(xiàn)實(shí)中,科學(xué)家們往往只能基于不完美的數(shù)據(jù)來做出預(yù)測(cè),天氣預(yù)報(bào)就是一個(gè)典型的例子。接下來,本文的后半部分將為你揭秘一項(xiàng)專為解決此問題而生的技術(shù)——“數(shù)據(jù)同化”(data assimilation)。它能夠在新信息的啟發(fā)下更新初始預(yù)測(cè),并充分考慮到一個(gè)現(xiàn)實(shí)情況:無論是觀測(cè)數(shù)據(jù)還是最初的預(yù)測(cè),其實(shí)都是不完美的。

在前面的章節(jié)中,我們學(xué)習(xí)了如何基于觀測(cè)數(shù)據(jù),運(yùn)用貝葉斯定理來調(diào)整對(duì)某個(gè)事件發(fā)生概率的預(yù)測(cè)。我們舉的例子是,一枚硬幣連續(xù)十次擲出了正面。面對(duì)這樣的數(shù)據(jù),這枚硬幣十有八九存在問題,因此第十一次擲出正面的概率,理應(yīng)高于一枚普通均勻硬幣那 50% 的概率。貝葉斯定理從數(shù)學(xué)上證實(shí)了我們的直覺。

然而,對(duì)于我們所觀察到的現(xiàn)象,其實(shí)還存在另一種解釋。硬幣絕對(duì)公平?jīng)]有問題,真正出了問題的,是數(shù)據(jù)本身。例如,我可能在記錄正反面的時(shí)候剛好摘下了眼鏡。這下我根本兩眼一抹黑分不清哪面是哪面,為了圖省事兒,干脆把每次拋擲的結(jié)果都記成了正面。又或者,我明明看清了正反面,但是由于電腦系統(tǒng)出了故障,所有的結(jié)果全被強(qiáng)行錄入成了正面。

這些正是所謂儀器誤差(instrumentation error)的例子。在記錄數(shù)據(jù)時(shí),這類誤差其實(shí)并不罕見(盡管在現(xiàn)實(shí)中往往不會(huì)像上述例子那么極端)。要知道,沒有任何數(shù)據(jù)記錄設(shè)備是絕對(duì)完美的,它們多多少少都會(huì)出現(xiàn)一些偏差。

還有一種可能性是,我在記錄數(shù)據(jù)時(shí)故意對(duì)你撒了謊。哪怕硬幣擲出了好幾次反面,我仍然向你偽裝出它存在偏向的假象。在刑事案件的取證中,這種情況屢見不鮮,人們往往必須在真假難辨的證據(jù)和數(shù)據(jù)面前,判斷到底該不該相信某位證人的證言。

于是,我們不得不面對(duì)這樣一個(gè)問題:如果擺在面前的數(shù)據(jù)不完全可靠,那么對(duì)于我們正在研究的系統(tǒng)(比如這枚硬幣到底是不是公平的),我們還能做出什么有意義的推斷嗎?

貝葉斯來救場(chǎng)

既然數(shù)據(jù)可能不太靠譜,要想準(zhǔn)確估計(jì)系統(tǒng)的真實(shí)狀態(tài),我們就需要有辦法來衡量這些數(shù)據(jù)的可靠性。對(duì)于測(cè)量?jī)x器來說,溫度計(jì)就是個(gè)很好的例子。假設(shè)我們要測(cè)量某個(gè)實(shí)際溫度 T,溫度計(jì)每次給出的讀數(shù)可能會(huì)有些許波動(dòng),但如果這些讀數(shù)的平均值恰好等于 T,我們就稱這支溫度計(jì)是“無偏的”(unbiased)。而這些讀數(shù)的方差(variance)則反映了它們?cè)谄骄瞪舷路稚⒌某潭龋@就為我們提供了一把評(píng)估測(cè)量結(jié)果到底有多靠譜的標(biāo)尺。如果方差很大,讀數(shù)飄忽不定,我們?cè)谛睦飳?duì)這組數(shù)據(jù)的采信度就會(huì)打個(gè)折扣;反之,如果方差很小,我們就會(huì)更加信任這些數(shù)據(jù)。通過這種方式,當(dāng)面對(duì)一份可能存在誤差的測(cè)量數(shù)據(jù)時(shí),我們就能精確權(quán)衡出究竟需要對(duì)原有的預(yù)測(cè)做出多大程度的修正,從而完成對(duì)某個(gè)事件(先驗(yàn))預(yù)測(cè)的更新。

這個(gè)過程,通常就被稱為“數(shù)據(jù)同化”(data assimilation)。數(shù)據(jù)同化的絕妙之處在于,它能將“不太靠譜的預(yù)測(cè)”與“同樣不太靠譜的數(shù)據(jù)”結(jié)合起來,最終孕育出一個(gè)比這兩者都要準(zhǔn)確得多的全新預(yù)測(cè)!這簡(jiǎn)直就像變魔術(shù)一樣,我們幾乎是在"無中生有"!

氣象學(xué)家們使用數(shù)據(jù)同化技術(shù)已有大約二十年之久,這極大地提升了天氣預(yù)報(bào)的可靠性。理論上,要想根據(jù)今天的天氣狀況準(zhǔn)確預(yù)報(bào)明天全球的天氣,氣象學(xué)家在今天就需要對(duì)整個(gè)大氣層的狀態(tài)進(jìn)行大約十億次測(cè)量。但在現(xiàn)實(shí)中,這根本不可能辦到,他們窮盡手段,撐死也就只能完成大約一百萬(wàn)次測(cè)量。顯然,單靠這點(diǎn)數(shù)據(jù),遠(yuǎn)不足以了解今天的天氣狀況。

為了解決這個(gè)問題,氣象學(xué)家們想出了一個(gè)辦法。他們會(huì)先拿出昨天對(duì)今天所做的天氣預(yù)報(bào),然后朝著今天實(shí)際觀測(cè)數(shù)據(jù)的方向,對(duì)這份預(yù)報(bào)進(jìn)行 “微調(diào)”( nudge)。然后用修正后的當(dāng)日天氣預(yù)報(bào),做明天的天氣預(yù)報(bào)。

數(shù)據(jù)同化正是用來完成這種“微調(diào)”的,它的基本思路如下:氣象學(xué)家根據(jù)昨天掌握的信息,對(duì)今天的天氣做出一個(gè)(先驗(yàn))預(yù)測(cè)。同時(shí),他們還要盡可能多地去測(cè)量今天的天氣狀況,比如看溫度計(jì)(或者干脆直接瞅瞅窗外)。由于每次測(cè)量總會(huì)有些微小的差異,所以即便是一支絕對(duì)標(biāo)準(zhǔn)的“無偏”溫度計(jì),也會(huì)給出一系列可能的測(cè)量值。

另一方面,基于昨日天氣對(duì)今日天氣所作的預(yù)測(cè)同樣也會(huì)存在誤差。實(shí)際上,是一大堆可能的誤差(畢竟我們的天氣模型和計(jì)算能力還遠(yuǎn)遠(yuǎn)談不上完美),我們將這種預(yù)測(cè)誤差分布的方差記為 Epred。然后,把這份預(yù)測(cè)與我們目前能收集到的關(guān)于今天天氣的(有限)觀測(cè)數(shù)據(jù)放在一起進(jìn)行比對(duì)。當(dāng)然,這些觀測(cè)數(shù)據(jù)自身也是帶有誤差的,我們將它的方差記為 Edata。

如果與 Edata 相比,Epred 的值較小,那么原本的預(yù)測(cè)只會(huì)朝著觀測(cè)數(shù)據(jù)的方向“微調(diào)”一點(diǎn)點(diǎn)。通俗點(diǎn)說,這是因?yàn)榇藭r(shí)的預(yù)測(cè)結(jié)果比今天實(shí)際測(cè)量的數(shù)據(jù)更可靠,所以我們不想過多地被今天的測(cè)量數(shù)據(jù)“帶偏”。相反,如果 Epred 比 Edata 大得多,那我們就會(huì)在很大程度上采信實(shí)測(cè)數(shù)據(jù)。

經(jīng)過這番“微調(diào)”后得到的結(jié)果,我們稱之為“分析值”,記為 A。這個(gè)分析值巧妙地兼顧了原始預(yù)測(cè)和實(shí)測(cè)數(shù)據(jù),是對(duì)今天天氣狀況做出的最佳估計(jì)。拿著這個(gè)分析值,天氣預(yù)報(bào)員就可以去預(yù)測(cè)接下來幾天的天氣了。


數(shù)據(jù)同化過程示意圖。粉色橢圓代表預(yù)測(cè)結(jié)果及其可能存在的誤差范圍,橙色橢圓則代表觀測(cè)數(shù)據(jù)及其可能存在的誤差范圍。數(shù)據(jù)同化將原始預(yù)測(cè)朝著觀測(cè)數(shù)據(jù)的方向進(jìn)行了“微調(diào)”,使得最終結(jié)果既落入原始預(yù)測(cè)的誤差橢圓之內(nèi),又同時(shí)落在了觀測(cè)數(shù)據(jù)的誤差橢圓之中。

這種將觀測(cè)數(shù)據(jù)同化到天氣預(yù)測(cè)中的想法(在專業(yè)方面衍生出了3 DVAR(三維變分)、4 DVAR(四維變分)以及集合卡爾曼濾波(Ensemble Kalman Filtering)等具體方法),正是英國(guó)氣象局(Met Office)、歐洲中期天氣預(yù)報(bào)中心(ECMWF)以及全球各地氣象中心每天為我們準(zhǔn)確預(yù)報(bào)天氣的關(guān)鍵。


氣象學(xué)中數(shù)據(jù)同化過程示意圖。

在這個(gè)案例,以及其他數(shù)據(jù)同化的應(yīng)用場(chǎng)景里,貝葉斯定理扮演的角色就是,它能精準(zhǔn)地告訴我們,“微調(diào)”的幅度到底需要多大。它在新數(shù)據(jù)的啟發(fā)下不斷更新預(yù)測(cè),并聰明地兼顧到了一個(gè)現(xiàn)實(shí)情況,也就是,無論是觀測(cè)數(shù)據(jù)還是原始預(yù)測(cè),都是不完美的。我們可以利用它來編寫出一套算法,從而找到那個(gè)最佳預(yù)測(cè)。

極其成功的‘卡爾曼濾波’技術(shù)也運(yùn)用了同樣的理念,即系統(tǒng)性地將系統(tǒng)已有認(rèn)知與源源不斷的數(shù)據(jù)流結(jié)合起來。該技術(shù)最初是為了追蹤衛(wèi)星而發(fā)明的,如今卻已普及到了千家萬(wàn)戶,廣泛應(yīng)用于包括飛機(jī)導(dǎo)航系統(tǒng)和你口袋里的智能手機(jī)在內(nèi)的無數(shù)設(shè)備中。這種想法還進(jìn)一步被應(yīng)用在了現(xiàn)代機(jī)器學(xué)習(xí)領(lǐng)域,其中復(fù)雜的神經(jīng)網(wǎng)絡(luò)正是在海量(且可能并不完全可靠的)數(shù)據(jù)的“投喂”下不斷接受訓(xùn)練,從而學(xué)會(huì)去執(zhí)行各種五花八門的任務(wù)。

可以毫不夸張地說,我們?nèi)缃竦默F(xiàn)代世界,正是建立在貝葉斯定理及其無數(shù)神奇應(yīng)用的基礎(chǔ)之上!

作者:Chris Budd

翻譯:LogicMoriaty

審校:virens

原文鏈接: &

fu

li

shi

jian

今天我們將送出由中信出版集團(tuán)提供的《統(tǒng)計(jì)的藝術(shù)》


這是一本不需要數(shù)學(xué)背景,卻能讓你在人工智能時(shí)代保持清醒的“認(rèn)知工具包”。英國(guó)皇家統(tǒng)計(jì)學(xué)會(huì)前會(huì)長(zhǎng)施皮格爾霍爾特,用日常的生動(dòng)案例,剝開數(shù)據(jù)迷霧,拆解因果關(guān)系,教你識(shí)別陷阱、提出關(guān)鍵問題、做出更優(yōu)決策。在人工智能不斷改變世界的今天,我們更需要統(tǒng)計(jì)學(xué)的底層素養(yǎng),作為理解世界不確定性、應(yīng)對(duì)噪聲的思維方式——拉開認(rèn)知差距,從擁有統(tǒng)計(jì)思維開始。

互動(dòng)問題:玩游戲抽卡、排隊(duì)或者平時(shí)碰運(yùn)氣的時(shí)候,你有沒有遇到過類似‘連出10次正面’這種極其邪門、讓你甚至懷疑‘系統(tǒng)一定動(dòng)了手腳’的經(jīng)歷?可以分享一下嗎?】

請(qǐng)大家嚴(yán)格按照互動(dòng):?jiǎn)栴}答案的格式在評(píng)論區(qū)留言參與互動(dòng),格式不符合要求者無效。

截止到本周四中午12:00,參與互動(dòng)的留言中點(diǎn)贊數(shù)排名第二、三、五的朋友將獲得我們送出的圖書一套(點(diǎn)贊數(shù)相同的留言記為并列,并列的后一名次序加一,如并列第二的后一位讀者記為第三名,以此類推)。

為了保證更多的朋友能夠參與獲獎(jiǎng),過往四期內(nèi)獲過獎(jiǎng)的朋友不能再獲得獎(jiǎng)品,名次會(huì)依次順延

*本活動(dòng)僅限于微信平臺(tái)

編輯:姬子隰

翻譯內(nèi)容僅代表作者觀點(diǎn)

不代表中科院物理所立場(chǎng)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
歐冠2006冠軍名單被提前泄露,12年后全中,歐足聯(lián)至今沒吭聲

歐冠2006冠軍名單被提前泄露,12年后全中,歐足聯(lián)至今沒吭聲

籃壇第一線
2026-04-13 14:48:02
網(wǎng)暴全紅嬋的網(wǎng)民被抓獲,身份曝光令人氣憤,警方處罰大快人心!

網(wǎng)暴全紅嬋的網(wǎng)民被抓獲,身份曝光令人氣憤,警方處罰大快人心!

古希臘掌管松餅的神
2026-04-10 19:42:22
伊朗伊斯蘭革命衛(wèi)隊(duì)海軍發(fā)出警告

伊朗伊斯蘭革命衛(wèi)隊(duì)海軍發(fā)出警告

財(cái)聯(lián)社
2026-04-12 22:23:06
馬筱梅帶娃回京,曬北京美景,穿白色裙子美翻了,張?zhí)m力挺兒媳婦

馬筱梅帶娃回京,曬北京美景,穿白色裙子美翻了,張?zhí)m力挺兒媳婦

情感大頭說說
2026-04-13 03:03:33
如何優(yōu)雅地謀殺一座城:陳麗華的推土機(jī)與華新民的廢紙

如何優(yōu)雅地謀殺一座城:陳麗華的推土機(jī)與華新民的廢紙

有戲
2026-04-11 09:21:04
暖心!廣州增城蔗農(nóng)擺23圍流水席答謝游客 20余天清空50多畝滯銷甘蔗

暖心!廣州增城蔗農(nóng)擺23圍流水席答謝游客 20余天清空50多畝滯銷甘蔗

朗威談星座
2026-04-13 14:41:12
昔日“女副部”的黃昏迷局

昔日“女副部”的黃昏迷局

健身狂人
2026-04-13 17:18:40
巴薩官網(wǎng)展望歐冠:挑戰(zhàn)與機(jī)遇并存,弗里克的巴薩仍缺一場(chǎng)“真正逆轉(zhuǎn)”

巴薩官網(wǎng)展望歐冠:挑戰(zhàn)與機(jī)遇并存,弗里克的巴薩仍缺一場(chǎng)“真正逆轉(zhuǎn)”

懂球帝
2026-04-13 19:18:04
東施效顰?清湖模仿曼城經(jīng)營(yíng)藍(lán)軍4年未成功 三關(guān)鍵要素全被忽視

東施效顰?清湖模仿曼城經(jīng)營(yíng)藍(lán)軍4年未成功 三關(guān)鍵要素全被忽視

雪狼侃體育
2026-04-13 19:40:20
男子取保候?qū)徠陂g為立功,“做局”檢舉他人酒駕,獲輕判次月被發(fā)現(xiàn),最終法院改判,兩罪并罰

男子取保候?qū)徠陂g為立功,“做局”檢舉他人酒駕,獲輕判次月被發(fā)現(xiàn),最終法院改判,兩罪并罰

極目新聞
2026-04-13 14:33:43
上海市一棟大別墅拍賣,1850萬(wàn)就成交

上海市一棟大別墅拍賣,1850萬(wàn)就成交

天天話事
2026-04-13 16:03:39
美中央司令部:4月13日起封鎖伊朗港口海上交通,英國(guó)稱不參與封鎖霍爾木茲海峽

美中央司令部:4月13日起封鎖伊朗港口海上交通,英國(guó)稱不參與封鎖霍爾木茲海峽

縱相新聞
2026-04-13 19:00:03
科大訊飛員工買彩票中1500萬(wàn)!知情人士:有中獎(jiǎng)但金額不對(duì)

科大訊飛員工買彩票中1500萬(wàn)!知情人士:有中獎(jiǎng)但金額不對(duì)

快科技
2026-04-13 18:24:06
大陸之行結(jié)束,鄭麗文下飛機(jī)后講出3句話,賴清德終于怕了

大陸之行結(jié)束,鄭麗文下飛機(jī)后講出3句話,賴清德終于怕了

阿柒的訊
2026-04-13 12:57:04
飛機(jī)上,我靠窗的位置被黑人女人占了,她說中國(guó)人不配坐靠窗

飛機(jī)上,我靠窗的位置被黑人女人占了,她說中國(guó)人不配坐靠窗

城事錄主
2026-04-13 10:12:00
大陸公布10項(xiàng)對(duì)臺(tái)紅利后,蔣萬(wàn)安表態(tài)變了,侯友宜應(yīng)該慚愧了

大陸公布10項(xiàng)對(duì)臺(tái)紅利后,蔣萬(wàn)安表態(tài)變了,侯友宜應(yīng)該慚愧了

牛鍋巴小釩
2026-04-13 13:30:56
連談21小時(shí),美伊不歡而散,特朗普:特朗普:中國(guó)不許送武器,否則有麻煩

連談21小時(shí),美伊不歡而散,特朗普:特朗普:中國(guó)不許送武器,否則有麻煩

聞識(shí)
2026-04-12 13:53:31
德國(guó)站隊(duì)了!正式向世界宣布:以色列若繼續(xù)打黎巴嫩,會(huì)讓他好看

德國(guó)站隊(duì)了!正式向世界宣布:以色列若繼續(xù)打黎巴嫩,會(huì)讓他好看

Ck的蜜糖
2026-04-13 17:50:08
鄭麗文白來了?大陸發(fā)布十大惠臺(tái)措施后,臺(tái)當(dāng)局下決心全面封殺

鄭麗文白來了?大陸發(fā)布十大惠臺(tái)措施后,臺(tái)當(dāng)局下決心全面封殺

一口娛樂
2026-04-13 16:31:55
西安灞河釣魚愛好者,竟然釣出了巨型大魚。

西安灞河釣魚愛好者,竟然釣出了巨型大魚。

健身狂人
2026-04-13 14:40:54
2026-04-13 19:51:00
中科院物理所 incentive-icons
中科院物理所
愛上物理,改變世界。
10061文章數(shù) 136520關(guān)注度
往期回顧 全部

頭條要聞

媒體:歐爾班敗選不僅是一國(guó)之事 牽扯到與中國(guó)的關(guān)系

頭條要聞

媒體:歐爾班敗選不僅是一國(guó)之事 牽扯到與中國(guó)的關(guān)系

體育要聞

一支球隊(duì)不夠爛,也是一種悲哀

娛樂要聞

賈玲減重后現(xiàn)身馮鞏生日宴 身材未反彈

財(cái)經(jīng)要聞

起底AI"造黃"灰產(chǎn):19.9元"一鍵脫衣"

科技要聞

"抄作業(yè)"近四年,馬斯克版微信周五上線

汽車要聞

不止命名更純粹 領(lǐng)克10/10+要做純電操控新王

態(tài)度原創(chuàng)

藝術(shù)
家居
數(shù)碼
教育
房產(chǎn)

藝術(shù)要聞

22位中國(guó)當(dāng)代名家油畫作品

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

數(shù)碼要聞

售價(jià)超兩萬(wàn) 壹號(hào)本銳龍AI Max+ 395迷你AI工作站上架

教育要聞

6000余份offer!鄭州健康學(xué)院舉行2026屆畢業(yè)生春季線下雙選會(huì)

房產(chǎn)要聞

6000億投資盛宴,全球巨頭齊聚,海南又要干件大事!

無障礙瀏覽 進(jìn)入關(guān)懷版