国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

鄂維南院士:關(guān)于推動(dòng)AI從工程化走向科學(xué)化的一點(diǎn)思考

0
分享至

(本文由科學(xué)大院根據(jù)鄂維南院士在第204次科學(xué)與技術(shù)前沿論壇上的報(bào)告《The Science of AI》整理而成,首發(fā)于科學(xué)大院。)



鄂維南院士做報(bào)告

(圖片來(lái)源:中國(guó)科學(xué)院理論物理研究所)

今天我報(bào)告的主題不是 AI for Science,而是Science of AI。AI for Science,是利用人工智能來(lái)攻克科研中依賴經(jīng)驗(yàn)和試錯(cuò)的問(wèn)題;而Science of AI,則是以科學(xué)的方法體系來(lái)推動(dòng)人工智能自身的發(fā)展。如果人工智能本身也依靠經(jīng)驗(yàn)和試錯(cuò)作為主要發(fā)展模式,這將構(gòu)成一個(gè)根本性的問(wèn)題。所以,我們需要思考如何推動(dòng)人工智能從工程化走向科學(xué)化。

人工智能的研究先驅(qū)

先回顧人工智能發(fā)展歷史上的先驅(qū)者。在達(dá)特茅斯會(huì)議之前,人工智能的研究者以數(shù)學(xué)家為主,比如圖靈(Alan Mathison Turing)、馮·諾伊曼(Von Neumann)、維納(Norbert Wiener)、香農(nóng)(Claude Elwood Shannon)等人,他們的工作集中于構(gòu)建人工智能的理論與概念基礎(chǔ)。會(huì)議之后,明斯基(Marvin Minsky)、麥卡錫(John McCarthy)、西蒙(Herbert Simon)和紐厄爾(Allen Newell)等人對(duì)人工智能的進(jìn)一步發(fā)展起到了關(guān)鍵作用。







人工智能的研究先驅(qū)。從左到右:
上:圖靈、馮·諾伊曼、維納、香農(nóng)
下:明斯基、麥卡錫、西蒙、紐厄爾

達(dá)特茅斯會(huì)議之后,人工智能主要遵循一條工程化的路線發(fā)展,并且取得了巨大的成就,誕生了如 Lisp 語(yǔ)言、IBM “深藍(lán)” (Deep Blue)、AlexNet、AlphaGo 等里程碑式的工程項(xiàng)目。相對(duì)而言,AI的基礎(chǔ)理論研究是比較滯后的。這并不是因?yàn)闆](méi)有人研究人工智能的基礎(chǔ)理論,而是相關(guān)研究沒(méi)有跟上人工智能發(fā)展的步伐。這里舉兩個(gè)例子:

一個(gè)例子是明斯基和派珀特(Seymour Papert)在1969年所寫的一本書《感知器》(Perceptrons)。他們的出發(fā)點(diǎn)是探究人工智能的理論基礎(chǔ),但這本書的結(jié)論具有嚴(yán)重的誤導(dǎo)性,對(duì)人工智能的后續(xù)研究方向造成了負(fù)面影響。

另一個(gè)例子是瓦普尼克 (Vladimir Naumovich Vapnik)的經(jīng)典著作《統(tǒng)計(jì)學(xué)習(xí)理論》(The Nature of Statistical Learning Theory)。盡管這本書在統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域影響深遠(yuǎn),但沒(méi)有涉及深度學(xué)習(xí),還停留在機(jī)器學(xué)習(xí)的早期研究框架上。



左:《感知器》右:《統(tǒng)計(jì)學(xué)習(xí)理論》

基礎(chǔ)理論缺失造成的后果是人工智能的發(fā)展經(jīng)歷了幾次大起大落;幾乎沒(méi)有哪個(gè)學(xué)科像人工智能一樣,發(fā)展歷程一會(huì)迎來(lái)熱潮,一會(huì)跌到低谷。同樣,理論研究的缺失也直接導(dǎo)致了當(dāng)下的大模型開(kāi)發(fā)依然高度依賴經(jīng)驗(yàn)與試錯(cuò),門檻高、成本高、資源浪費(fèi)的情況很嚴(yán)重。

人工智能的主要方法

從數(shù)據(jù)使用量的角度來(lái)看,人工智能的主要技術(shù)可以分為四類:0數(shù)據(jù)、小數(shù)據(jù)、大數(shù)據(jù)、全數(shù)據(jù)。

一、0數(shù)據(jù)

0數(shù)據(jù),即不依賴數(shù)據(jù),而依賴人工定義的規(guī)則與邏輯,主要技術(shù)路徑是符號(hào)表示、邏輯推理、機(jī)器證明、專家系統(tǒng)等。0數(shù)據(jù)的一個(gè)典型例子是專家系統(tǒng),它最具代表性的成就是1997年IBM的“深藍(lán)”擊敗國(guó)際象棋冠軍卡斯帕羅夫。

但是,專家系統(tǒng)的難題在于組合爆炸。盡管它可以處理8x8的國(guó)際象棋棋盤邏輯,但面對(duì)19x19的圍棋棋盤,組合選擇呈指數(shù)級(jí)增長(zhǎng),就會(huì)出現(xiàn)組合爆炸問(wèn)題。哈薩比斯(Demis Hassabis)正是意識(shí)到專家系統(tǒng)的局限性,因此在深度學(xué)習(xí)出現(xiàn)之后看到了新的可能的路徑,最終攻克了圍棋難題。



二、小數(shù)據(jù)

小數(shù)據(jù)以經(jīng)典的統(tǒng)計(jì)學(xué)習(xí)方法為代表,其特點(diǎn)是模型結(jié)構(gòu)相對(duì)簡(jiǎn)單、樣本量有限。這種技術(shù)主要面臨的困難是維數(shù)災(zāi)難和組合爆炸。

維數(shù)災(zāi)難是指隨著系統(tǒng)復(fù)雜性(例如自由度個(gè)數(shù),或維數(shù))增加,計(jì)算量呈指數(shù)級(jí)增長(zhǎng)。眾多學(xué)科領(lǐng)域中都存在維數(shù)災(zāi)難的問(wèn)題。為此,科學(xué)家們不得不發(fā)明一些簡(jiǎn)單粗暴的近似方法來(lái)解決現(xiàn)實(shí)問(wèn)題,如量子化學(xué)中的Hartree近似。為什么早期的人工智能領(lǐng)軍人物(如西蒙和明斯基)對(duì)于人工智能的發(fā)展曾做出過(guò)于樂(lè)觀的預(yù)測(cè),主要原因之一是他們沒(méi)有認(rèn)識(shí)到,將解決簡(jiǎn)單問(wèn)題的經(jīng)驗(yàn)應(yīng)用到復(fù)雜問(wèn)題時(shí),會(huì)碰到維數(shù)災(zāi)難之類的問(wèn)題。

三、大數(shù)據(jù)

大數(shù)據(jù)最典型的例子就是深度學(xué)習(xí)。2012年,杰弗里·辛頓(Geoffrey Hinton)帶領(lǐng)的團(tuán)隊(duì)?wèi){借AlexNet贏得ImageNet競(jìng)賽,將錯(cuò)誤率大幅降低了十幾個(gè)百分點(diǎn),這是深度學(xué)習(xí)崛起的標(biāo)志性事件。盡管多層神經(jīng)網(wǎng)絡(luò)等算法早已存在,但只有在海量的高質(zhì)量數(shù)據(jù)(例如 ImageNet)與算力資源(GPU)的共同支撐下,它的潛力才完全發(fā)揮出來(lái)。



辛頓對(duì)深度學(xué)習(xí)做出了巨大貢獻(xiàn)。他早在博士論文期間就開(kāi)始神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究,在無(wú)人看好的領(lǐng)域堅(jiān)持?jǐn)?shù)十年,最終引領(lǐng)了深度學(xué)習(xí)的爆發(fā)式發(fā)展。

四、全數(shù)據(jù)
當(dāng)下的大模型都在強(qiáng)調(diào)“大”。其實(shí)“大”是次要的,最重要的是實(shí)現(xiàn)全量數(shù)據(jù)的有效利用。例如,GPT-3在發(fā)布時(shí)號(hào)稱使用了當(dāng)時(shí)互聯(lián)網(wǎng)上所有文本數(shù)據(jù)。而要處理全量數(shù)據(jù),模型就必須足夠大。這需要解決兩個(gè)技術(shù)問(wèn)題:

1.預(yù)訓(xùn)練。核心目標(biāo)在于如何高效利用無(wú)標(biāo)注數(shù)據(jù)。

2.通用性。既然使用了全量數(shù)據(jù),就必須具備解決所有下游任務(wù)的能力。

此前業(yè)界存在兩條主流的大模型路徑:谷歌的 BERT(基于掩碼的填空式學(xué)習(xí))OpenAI的GPT(預(yù)測(cè)下一個(gè)詞)。最初谷歌的方法因?yàn)橛?xùn)練效率高而更受歡迎,但兩者有一個(gè)本質(zhì)區(qū)別:預(yù)測(cè)下一個(gè)詞能以通用的表達(dá)方式解決翻譯、對(duì)話、推理等各種語(yǔ)言任務(wù),而“填空”模式并不能實(shí)現(xiàn)這一點(diǎn)。這也是為什么當(dāng)時(shí)OpenAI在大模型競(jìng)爭(zhēng)中占據(jù)了領(lǐng)先地位。

深度學(xué)習(xí)的基礎(chǔ)理論

盡管深度學(xué)習(xí)在實(shí)踐中取得了巨大的成功,但仍然存在許多基礎(chǔ)理論問(wèn)題尚未解決,充滿了各種各樣的未解之謎和“黑魔法”。例如:

  • 為什么深度學(xué)習(xí)的效果優(yōu)于其他機(jī)器學(xué)習(xí)方法?
  • 為什么多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練如此困難?
  • 為什么隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)的效果往往好于梯度下降(Gradient Descent,GD)?
  • 為什么批標(biāo)準(zhǔn)化(Batch Normalization)能顯著提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練效果?
  • 為什么循環(huán)神經(jīng)網(wǎng)絡(luò)難以處理記憶較長(zhǎng)的序列?

我們能否對(duì)這些問(wèn)題有基本的認(rèn)識(shí)?這就需要研究深度學(xué)習(xí)的基礎(chǔ)理論。
一、有監(jiān)督學(xué)習(xí)

有監(jiān)督學(xué)習(xí)是深度學(xué)習(xí)中的核心方法之一,其本質(zhì)上是關(guān)于函數(shù)逼近的計(jì)算數(shù)學(xué)問(wèn)題。例如在圖像分類問(wèn)題中,我們需要構(gòu)建一個(gè)映射函數(shù),圖像是自變量,分類結(jié)果作為因變量。我們有有限個(gè)樣本點(diǎn)上的函數(shù)值。我們的任務(wù)是利用這些信息得到一個(gè)目標(biāo)函數(shù)的高精度逼近。下圖展示了對(duì)CIFAR-10數(shù)據(jù)集中部分圖像及其分類結(jié)果:



CIFAR-10數(shù)據(jù)集中的部分圖像示例。

CIFAR-10數(shù)據(jù)集是一個(gè)廣泛用于機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)算法的圖像集合。它總共包含60000張32x32像素的彩色圖像,分為10個(gè)不同的類別。

神經(jīng)網(wǎng)絡(luò)本質(zhì)上可視為一類特殊的函數(shù),就像多項(xiàng)式是另外一類特殊函數(shù)一樣。從數(shù)學(xué)的角度來(lái)說(shuō),我們還可以從動(dòng)力系統(tǒng)的視角來(lái)審視神經(jīng)網(wǎng)絡(luò),反向傳播算法等優(yōu)化方法可以很自然地被理解為動(dòng)力系統(tǒng)的基礎(chǔ)算法。



二、維數(shù)災(zāi)難
對(duì)于函數(shù)逼近問(wèn)題的研究,計(jì)算數(shù)學(xué)和深度學(xué)習(xí)的一個(gè)根本區(qū)別在于問(wèn)題的維數(shù)。傳統(tǒng)計(jì)算數(shù)學(xué)側(cè)重于處理一維、二維等低維問(wèn)題,十維就被視為很高的維度;而在圖像分類任務(wù)中,每個(gè)像素都是一個(gè)自由度,一張32×32像素的彩色圖片,自由度是32×32×3=3072,維數(shù)是三千多。從計(jì)算數(shù)學(xué)的角度,想處理這么高維數(shù)的問(wèn)題幾乎是無(wú)能無(wú)力的,但是深度學(xué)習(xí)卻能較好處理。

為什么高維問(wèn)題在計(jì)算數(shù)學(xué)中難以處理?根源在于經(jīng)典逼近理論中的維數(shù)災(zāi)難。比如用分片線性函數(shù)逼近目標(biāo)函數(shù),假設(shè)需要m個(gè)網(wǎng)格點(diǎn),每個(gè)網(wǎng)格的寬度是h,m和h之間有以下關(guān)系(d是維數(shù)):



分片線性函數(shù)逼近的誤差是二階的:



如果想將誤差降低為原先的十分之一,網(wǎng)格點(diǎn)的個(gè)數(shù)需要增加10d/2倍;如果維數(shù)d=3000,那么網(wǎng)格點(diǎn)就要擴(kuò)大到原先的101500倍,這是一個(gè)天文數(shù)字。這類維數(shù)災(zāi)難的問(wèn)題不僅存在于分片線性函數(shù)逼近,在幾乎所有的計(jì)算數(shù)學(xué)方法(比如小波方法、三角函數(shù)逼近)都普遍存在,所以非常難以解決。
然而,深度學(xué)習(xí)似乎不存在維數(shù)災(zāi)難的問(wèn)題。這是為什么?
我們從一個(gè)經(jīng)典的例子,高維積分的計(jì)算,來(lái)開(kāi)始探討這個(gè)問(wèn)題。比如對(duì)于積分I(g),用Im(g)逼近:



如果使用傳統(tǒng)的基于網(wǎng)格的方法,如梯形公式,那么誤差的表達(dá)和分片線性函數(shù)是類似的,存在維數(shù)災(zāi)難:



但如果采用蒙特卡洛方法,誤差中m的指數(shù)就不存在1/d的項(xiàng),與維數(shù)無(wú)關(guān),因此能夠計(jì)算維數(shù)高達(dá)數(shù)百萬(wàn)的積分:



我們?cè)購(gòu)母呔S積分的角度出發(fā),再來(lái)看函數(shù)逼近的問(wèn)題。假如目標(biāo)函數(shù)能夠被寫成如下形式,其中π是某個(gè)概率分布:



這就將函數(shù)逼近問(wèn)題轉(zhuǎn)化為積分問(wèn)題,利用蒙特卡洛方法解決,逼近誤差就不會(huì)出現(xiàn)維數(shù)災(zāi)難。



這里的關(guān)鍵是,上述逼近函數(shù)恰好是一個(gè)兩層的神經(jīng)網(wǎng)絡(luò),只不過(guò)其激活函數(shù)是指數(shù)函數(shù):



所以說(shuō)只要目標(biāo)函數(shù)具有上面的積分表達(dá)形式,就可以使用兩層的神經(jīng)網(wǎng)絡(luò)來(lái)逼近,同時(shí)逼近誤差沒(méi)有維數(shù)災(zāi)難。

在這一問(wèn)題的啟示下,我們可以定義一系列的函數(shù)空間,使得函數(shù)逼近的誤差沒(méi)有維數(shù)災(zāi)難。因?yàn)榘蛡悾ˋndrew R. Barron)是最早考慮相關(guān)思路的,我們把這類函數(shù)空間稱為Barron空間。



當(dāng)然,逼近誤差只是一個(gè)因素。我們還需要考慮泛化誤差、訓(xùn)練誤差等?傊,這個(gè)問(wèn)題還遠(yuǎn)遠(yuǎn)沒(méi)有完全解決。但從上述分析,我們可以看到,深度學(xué)習(xí)方法對(duì)高維問(wèn)題的效果的確跟經(jīng)典方法不一樣。

總結(jié)一下,我們應(yīng)該如何用正確的數(shù)學(xué)觀點(diǎn)看待神經(jīng)網(wǎng)絡(luò)?

之前提到,明斯基和派珀特在《感知器》中提出了一個(gè)誤導(dǎo)性的看法。書中研究的核心是單層感知器,這可以看成是最簡(jiǎn)單形式的神經(jīng)網(wǎng)絡(luò)。他們的出發(fā)點(diǎn)是問(wèn)這樣一個(gè)問(wèn)題:?jiǎn)螌痈兄骺梢跃_表達(dá)什么樣的邏輯函數(shù)?結(jié)果發(fā)現(xiàn)連最簡(jiǎn)單的邏輯函數(shù)都無(wú)法被精確表達(dá),由此他們得出了非常悲觀的結(jié)論。事實(shí)上,他們的出發(fā)點(diǎn)就是錯(cuò)誤的:我們不應(yīng)該追求精確表達(dá)函數(shù),而是應(yīng)該采用逼近論的觀點(diǎn)來(lái)看待這個(gè)問(wèn)題。

從逼近論的角度出發(fā),西本科(George Cybenko)證明了所謂的通用逼近定理(Universal Approximation Theorem),即在閉區(qū)間上任何連續(xù)函數(shù)都可以用神經(jīng)網(wǎng)絡(luò)來(lái)逼近到任意精度。這的確是一個(gè)重要結(jié)果。但是,這一定理不能區(qū)別多項(xiàng)式和神經(jīng)網(wǎng)絡(luò)。數(shù)學(xué)專業(yè)的大一學(xué)生就學(xué)過(guò)魏爾施特拉斯逼近定理(Weierstrass Theorem),即在閉區(qū)間上任何連續(xù)函數(shù)都可以用多形式來(lái)逼近到任意精度。但是我們知道在高維空間,神經(jīng)網(wǎng)絡(luò)逼近和多項(xiàng)式逼近的表現(xiàn)非常不一樣。正確的出發(fā)點(diǎn)應(yīng)該是探討逼近速度和維數(shù)的關(guān)系。前面關(guān)于Barron空間的結(jié)果是這個(gè)方向的一個(gè)起點(diǎn)。

認(rèn)識(shí)到深度學(xué)習(xí)可能是解決維數(shù)災(zāi)難的一個(gè)有效工具,是一個(gè)巨大突破,因?yàn)樵S多問(wèn)題的核心困難都是維數(shù)災(zāi)難,例如最優(yōu)控制問(wèn)題、高維微分方程等。我們推動(dòng)AI for science最初的出發(fā)點(diǎn)也是如此,因?yàn)榫S數(shù)災(zāi)難是許多科學(xué)問(wèn)題的核心困難,比如量子力學(xué)、分子動(dòng)力學(xué)、蛋白結(jié)構(gòu)等等。

三、深度災(zāi)難
深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中會(huì)產(chǎn)生梯度爆炸或消失的現(xiàn)象,導(dǎo)致很難訓(xùn)練好比較深的神經(jīng)網(wǎng)絡(luò)。這個(gè)問(wèn)題我們稱為“深度災(zāi)難”。

大約十年前,訓(xùn)練多層的神經(jīng)網(wǎng)絡(luò)是一件非常困難的事情。這一難題后來(lái)由殘差網(wǎng)絡(luò)(ResNet)得以解決。

訓(xùn)練神經(jīng)網(wǎng)絡(luò)通常使用各種梯度下降的方法,所以避不開(kāi)計(jì)算梯度,而梯度涉及到所有參數(shù)矩陣的連乘。由于神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)一般是隨機(jī)賦予初值,數(shù)學(xué)中著名的乘法遍歷定理(multiplicative ergodic theorem)告訴我們,多個(gè)隨機(jī)矩陣乘積得到的矩陣隨著個(gè)數(shù)的增加會(huì)呈指數(shù)變化,這個(gè)指數(shù)的基數(shù)是一個(gè)被稱之為李雅普諾夫指數(shù)的數(shù)字,通常記為κ。如果李雅普諾夫指數(shù)κ大于1,那么隨著深度的增加,梯度是指數(shù)爆炸的;如果κ小于1,那么梯度是指數(shù)衰減的。兩種情況都不是好結(jié)果。



解決的辦法很簡(jiǎn)單:回到神經(jīng)網(wǎng)絡(luò)的動(dòng)力系統(tǒng)定義,如果我們?cè)谟疫吋由弦粋(gè)項(xiàng)zk,且在切始化時(shí)將參數(shù)W取得很小,這個(gè)動(dòng)力系統(tǒng)可以視為一個(gè)恒定動(dòng)力系統(tǒng)加上一個(gè)小的擾動(dòng)。此時(shí),κ就會(huì)非常接近1,從而解決了梯度指數(shù)爆炸或消失的問(wèn)題。這就是殘差網(wǎng)絡(luò)能夠解決深度災(zāi)難的本質(zhì)原因。



四、梯度下降和隨機(jī)梯度下降,哪個(gè)更好?
從計(jì)算效率來(lái)看,隨機(jī)梯度下降顯著優(yōu)于梯度下降,因?yàn)楹笳呙看蔚夹枰?jì)算整個(gè)數(shù)據(jù)集的梯度,而隨機(jī)梯度僅隨機(jī)選取幾個(gè)數(shù)據(jù)上的梯度,顯然計(jì)算效率更高。那么,兩種方法在測(cè)試誤差上的表現(xiàn)如何呢?

十年前,有一個(gè)很著名的謎題:隨機(jī)梯度下降不僅效率高,準(zhǔn)確率也往往比梯度下降更好。這是一個(gè)普遍觀察到的現(xiàn)象,尤其是在網(wǎng)絡(luò)參數(shù)個(gè)數(shù)大于訓(xùn)練數(shù)據(jù)量的過(guò)參數(shù)化情形下(即變量個(gè)數(shù)大于方程個(gè)數(shù)),此時(shí)可以得到多個(gè)訓(xùn)練誤差為0的解,不同的訓(xùn)練方法會(huì)收斂到不同的解。這自然引出一個(gè)問(wèn)題:給定一個(gè)訓(xùn)練方法,它會(huì)選擇哪個(gè)解?

我們還是從動(dòng)力系統(tǒng)的角度來(lái)看這個(gè)問(wèn)題。不過(guò)現(xiàn)在的動(dòng)力系統(tǒng)不是神經(jīng)網(wǎng)絡(luò),而是將訓(xùn)練方法看作一個(gè)動(dòng)力系統(tǒng),例如梯度下降、隨機(jī)梯度下降。

動(dòng)力系統(tǒng)中有一個(gè)非常基本的概念:動(dòng)力系統(tǒng)的收斂解必須是線性穩(wěn)定的。從動(dòng)力系統(tǒng)穩(wěn)定性的角度出發(fā),我們可以分析隨機(jī)梯度下降的的線性穩(wěn)定性。我們從一個(gè)簡(jiǎn)單的一維問(wèn)題出發(fā)。下方表達(dá)式是線性化之后的隨機(jī)梯度下降的迭代公式,其中Hj是第j個(gè)數(shù)據(jù)的海塞矩陣(Hessian Matrix),η是學(xué)習(xí)率(Learning Rate),B是批次大。˙atch Size)。集合中批次的選取是隨機(jī)的,所以這是一個(gè)隨機(jī)動(dòng)力系統(tǒng)。



分析這個(gè)隨機(jī)動(dòng)力系統(tǒng)的穩(wěn)定性,需要引入兩個(gè)量:所有矩陣Hj的平均值,我們稱之為尖銳度(sharpness);還有方差,我們稱之為不均勻度(non-uniformity):



簡(jiǎn)單的分析可以給出穩(wěn)定性條件:



在尖銳度和不均勻度組成的空間中,分別固定學(xué)習(xí)率(下圖左)和批次大小(下圖右),畫出穩(wěn)定性區(qū)域,會(huì)發(fā)現(xiàn)穩(wěn)定性隨學(xué)習(xí)率和批次大小發(fā)生變化,而且隨機(jī)梯度下降的穩(wěn)定性區(qū)域小于梯度下降的穩(wěn)定性區(qū)域。



吳磊在實(shí)驗(yàn)中還發(fā)現(xiàn)了這樣一個(gè)現(xiàn)象:當(dāng)梯度下降的準(zhǔn)確度接近100%時(shí),如果突然把訓(xùn)練方法更換為隨機(jī)梯度下降,那么訓(xùn)練的軌跡會(huì)快速逃逸原來(lái)的軌跡,然后再慢慢重新收斂,并收斂到另一個(gè)解。這個(gè)現(xiàn)象的原因就是梯度下降可以收斂到很多個(gè)解,但大多數(shù)這些解對(duì)于隨機(jī)梯度下降都是不穩(wěn)定的,后者只能在別的地方找到穩(wěn)定的解。



再看看實(shí)際計(jì)算中的情況。我們讓梯度下降在兩個(gè)數(shù)據(jù)集(Fashion-MNIST和CIFAR-10)上使用不同的學(xué)習(xí)率進(jìn)行訓(xùn)練。梯度下降的穩(wěn)定性要求表明,尖銳度必然小于2/η。從實(shí)驗(yàn)結(jié)果我們可以看出這個(gè)穩(wěn)定性條件是滿足的。更為重要的是,我們發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果離穩(wěn)定性的邊界靠得很近,梯度下降方法的訓(xùn)練軌跡實(shí)際上是處在穩(wěn)定區(qū)域的邊緣(edge of stability)。隨機(jī)梯度下降也有類似的現(xiàn)象。



5.序列問(wèn)題與記憶災(zāi)難

如何基于一個(gè)已有序列,預(yù)測(cè)下一個(gè)詞?這是大語(yǔ)言模型的核心問(wèn)題。這類問(wèn)題的難點(diǎn)在于記憶:比方說(shuō)下一個(gè)詞與前文多長(zhǎng)區(qū)間的詞存在依賴性?一個(gè)典型困難是“記憶災(zāi)難”:可以證明,如果關(guān)聯(lián)的區(qū)間(也就是“記憶”)非常長(zhǎng),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Network)所需的神經(jīng)元個(gè)數(shù)會(huì)隨記憶區(qū)間長(zhǎng)度的增加而呈指數(shù)級(jí)增長(zhǎng)。



同時(shí)我們還證明了,Transformer架構(gòu)在一定條件下不存在記憶災(zāi)難。事實(shí)上,這個(gè)理論告訴我們, Transformer架構(gòu)能夠有效處理復(fù)雜但稀疏的長(zhǎng)記憶問(wèn)題。這是大語(yǔ)言模型普遍轉(zhuǎn)向Transformer架構(gòu)的一個(gè)重要原因。





6.MoE(混合專家模型)架構(gòu)

MoE架構(gòu)在當(dāng)下非常熱門,基本原理是通過(guò)路由(Router)機(jī)制,將不同的任務(wù)分配給最擅長(zhǎng)的“專家”(expert)。

從流形學(xué)習(xí)的角度來(lái)看,我們可以想象數(shù)據(jù)是分布在一個(gè)高維的“曲面”(即流形)上。由于流形通常沒(méi)有統(tǒng)一的全局坐標(biāo),只能通過(guò)多個(gè)局部坐標(biāo)片(patch)一起拼起來(lái)來(lái)覆蓋。每一個(gè)“專家”本質(zhì)上就是在負(fù)責(zé)處理流形上的一個(gè)局部切片。

此外,從分片函數(shù)的視角來(lái)看,MoE架構(gòu)就像是用許多小網(wǎng)絡(luò)去擬合一個(gè)復(fù)雜的分片函數(shù)。其能夠擬合的函數(shù)的片數(shù)隨著網(wǎng)絡(luò)層數(shù)的增加呈指數(shù)級(jí)增長(zhǎng),所以MoE架構(gòu)是擴(kuò)展模型容量的有效方法。



7.大語(yǔ)言模型

最簡(jiǎn)單的語(yǔ)言模型是N-gram,即用前N個(gè)詞來(lái)預(yù)測(cè)下一個(gè)詞。在長(zhǎng)文本中,N可能很大,就像一本小說(shuō)第一頁(yè)的故事對(duì)于最后一頁(yè)的情節(jié)可能都有影響。這意味著模型需要處理長(zhǎng)程記憶,而這種記憶往往是稀疏的。Transformer架構(gòu)的成功,恰恰在于它能夠高效處理這種稀疏長(zhǎng)程記憶。

然而,語(yǔ)言實(shí)際上不能用N-gram來(lái)建模,而是需要用“Hidden N-gram”,因?yàn)槲覀儾粫?huì)把所有想到的東西都說(shuō)出來(lái)。例如在推理時(shí),我們并不會(huì)寫下所有的推理過(guò)程,正如數(shù)學(xué)家經(jīng)常用“顯而易見(jiàn)”來(lái)省去一些證明。語(yǔ)言的文字表象之下,隱藏著大量未表達(dá)的邏輯。

大語(yǔ)言模型推理的難點(diǎn)在于,隨著隱藏的推理步數(shù)增加,推理難度(例如需要的數(shù)據(jù)量)呈超多項(xiàng)式增長(zhǎng) (super-polynomial growth)。我們稱這種現(xiàn)象為推理步數(shù)災(zāi)難。這正是我們需要思維鏈(Chain of Thought, CoT)的原因——通過(guò)引導(dǎo)模型補(bǔ)充中間步驟,將隱藏的信息外顯化,從而縮短隱藏步數(shù),降低推理難度。

總體來(lái)說(shuō),深度學(xué)習(xí)是一個(gè)很清晰的數(shù)學(xué)問(wèn)題,核心挑戰(zhàn)在于高維、長(zhǎng)程記憶等復(fù)雜任務(wù)的處理。而大模型更像一個(gè)復(fù)雜系統(tǒng)問(wèn)題,需要處理各種復(fù)雜行為,所以更接近于統(tǒng)計(jì)物理的研究范式。

人工智能的系統(tǒng)論

如上所述,對(duì)于深度學(xué)習(xí)和大模型,我們其實(shí)已經(jīng)積累了許多比較深入的理解。但為什么我們還總是覺(jué)得人工智能充滿各種驚奇、奇怪、難以理解的事情?為什么我們對(duì)人工智能的發(fā)展沒(méi)有可靠的預(yù)判和把控?這主要有兩個(gè)原因:一是理論方面,仍然有許多基本問(wèn)題沒(méi)有解決,還沒(méi)有形成一套基本原理可以作為指導(dǎo)原則;二是人工智能系統(tǒng)是一個(gè)包括許多核心組分的復(fù)雜系統(tǒng)。我們需要從系統(tǒng)的角度看待人工智能。

復(fù)雜系統(tǒng)的一個(gè)典型案例是飛機(jī)。飛機(jī)的設(shè)計(jì)從早期的工程化走向有嚴(yán)謹(jǐn)設(shè)計(jì)體系的科學(xué)化,乃至總結(jié)出一套基本原理式的指導(dǎo)原則,這中間經(jīng)過(guò)了一個(gè)漫長(zhǎng)過(guò)程,最后形成了一套系統(tǒng)論方法。對(duì)于這樣一個(gè)復(fù)雜系統(tǒng),我們需要定義系統(tǒng)的每一個(gè)部分,定義每個(gè)系統(tǒng)的設(shè)計(jì)目標(biāo),并完成整體優(yōu)化。



人工智能不只是一個(gè)大模型,而是一個(gè)復(fù)雜系統(tǒng)。它包括:

  • 內(nèi)核:例如大模型;
  • 內(nèi)存:記憶系統(tǒng);
  • 外部接口:AI數(shù)據(jù)庫(kù)等;
  • 本體:軟、硬智能體;
  • 環(huán)境:物理環(huán)境、邏輯環(huán)境。

比如說(shuō),“憶立方”是較早從系統(tǒng)角度來(lái)設(shè)計(jì)的大模型,它最早提出將推理和記憶分離,實(shí)現(xiàn)記憶分層。通過(guò)將海量知識(shí)保存在內(nèi)置知識(shí)庫(kù)中,“憶立方”大幅降低了模型讀寫知識(shí)的成本。



從方法論的角度來(lái)看,我們還需要將基于數(shù)據(jù)的深度學(xué)習(xí)方法與經(jīng)典的邏輯方法結(jié)合起來(lái)。AlphaGeometry模型就是一個(gè)這樣的例子。在幾何證明中通過(guò)大模型建議證明的策略(例如如何添加輔助線),再依據(jù)定理庫(kù)給出邏輯證明。

總結(jié)與展望

總結(jié)主要有兩點(diǎn):

第一點(diǎn),人工智能在理論層面已經(jīng)取得了巨大進(jìn)步,只是這些成果還沒(méi)有被普遍了解。相信今天報(bào)告中的很多內(nèi)容,即使是人工智能理論研究領(lǐng)域的從業(yè)人員也并不完全熟悉。

我們重點(diǎn)強(qiáng)調(diào)了人工智能發(fā)展歷程中已經(jīng)初步解決的幾個(gè)“災(zāi)難”性困難:

  • 維數(shù)災(zāi)難:解釋了基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)為什么優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí);
  • 深度災(zāi)難:解釋了殘差網(wǎng)絡(luò)為什么優(yōu)于一般網(wǎng)絡(luò);
  • 記憶災(zāi)難:解釋了Transformer架構(gòu)為什么優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò);
  • 推理步數(shù)災(zāi)難:解釋了為什么需要使用思維鏈。

人工智能仍有許多問(wèn)題,其解決需要更深入的洞察力:例如如何以最優(yōu)規(guī)則給大模型“喂數(shù)據(jù)”?生成式人工智能的不同方法如何統(tǒng)一起來(lái)?非結(jié)構(gòu)化數(shù)據(jù)如何建模?預(yù)訓(xùn)練和后訓(xùn)練之間的關(guān)系是什么?這些問(wèn)題都有待我們的思考。

第二點(diǎn),我們已經(jīng)到了可以推動(dòng)人工智能從工程走向科學(xué)化的轉(zhuǎn)折點(diǎn)。具體包括以下層面:

  • 系統(tǒng)層面(系統(tǒng)設(shè)計(jì)、系統(tǒng)優(yōu)化、系統(tǒng)理論):內(nèi)核、自主學(xué)習(xí)的本體、學(xué)習(xí)環(huán)境等;
  • 方法層面(不同方法的深度融合):數(shù)據(jù)、邏輯、幾何、物理
  • 模型層面(架構(gòu)、訓(xùn)練方法、數(shù)據(jù))

只有推動(dòng)人工智能從工程化走向科學(xué)化,才能避免泡沫和不必要的起伏,保證人工智能的長(zhǎng)期穩(wěn)定發(fā)展。
謝謝大家。

作者:鄂維南

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鹵菜店使用“四姐”二字被索賠50萬(wàn)元,店主:大家都叫我四姐,為什么告我侵權(quán)

鹵菜店使用“四姐”二字被索賠50萬(wàn)元,店主:大家都叫我四姐,為什么告我侵權(quán)

環(huán)球網(wǎng)資訊
2026-04-11 21:50:22
騙走50億被央視曝光!用小鮮肉的血抗衰,“撈金女王”這次真栽了

騙走50億被央視曝光!用小鮮肉的血抗衰,“撈金女王”這次真栽了

翰飛觀事
2026-04-08 17:13:46
阿斯:盡管克洛普再與皇馬傳出緋聞,但他一心想執(zhí)教德國(guó)隊(duì)

阿斯:盡管克洛普再與皇馬傳出緋聞,但他一心想執(zhí)教德國(guó)隊(duì)

懂球帝
2026-04-19 08:09:39
美參議院同意繼續(xù)動(dòng)武,增派1萬(wàn)士兵,特朗普將擠壓伊朗經(jīng)濟(jì)

美參議院同意繼續(xù)動(dòng)武,增派1萬(wàn)士兵,特朗普將擠壓伊朗經(jīng)濟(jì)

山河路口
2026-04-16 10:35:02
欣旺達(dá)官宣:自研全新閃充電池超越比亞迪!真強(qiáng)還是打嘴炮?

欣旺達(dá)官宣:自研全新閃充電池超越比亞迪!真強(qiáng)還是打嘴炮?

優(yōu)視汽車
2026-04-18 11:29:00
山口百惠自曝:8年賺4億,21歲下嫁退隱后,連6萬(wàn)的包都不舍買

山口百惠自曝:8年賺4億,21歲下嫁退隱后,連6萬(wàn)的包都不舍買

白面書誏
2026-03-07 15:15:38
她曾火遍全國(guó),卻在32歲喪夫,改嫁小叔子再守寡,49歲女兒又夭折

她曾火遍全國(guó),卻在32歲喪夫,改嫁小叔子再守寡,49歲女兒又夭折

白面書誏
2026-04-18 14:39:47
《妻子的浪漫旅行2026》這倆老公:太強(qiáng)勢(shì)、敷衍,看得人真難受!

《妻子的浪漫旅行2026》這倆老公:太強(qiáng)勢(shì)、敷衍,看得人真難受!

林輕吟
2026-04-16 19:43:50
27歲單親媽媽開(kāi)直播,播著播著睡著了,醒來(lái)一看后臺(tái)直接傻眼了

27歲單親媽媽開(kāi)直播,播著播著睡著了,醒來(lái)一看后臺(tái)直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
鎮(zhèn)店之寶不再保密!莫氏雞煲創(chuàng)始人累到想休息,公開(kāi)全部配方

鎮(zhèn)店之寶不再保密!莫氏雞煲創(chuàng)始人累到想休息,公開(kāi)全部配方

大魚簡(jiǎn)科
2026-04-15 19:49:23
馬來(lái)西亞一金店2分鐘被搶走15公斤金飾,約合人民幣1670萬(wàn)元,劫匪逃離前還搶走現(xiàn)場(chǎng)保安的霰彈槍及一枚子彈,警方稱正在追捕這4名嫌犯

馬來(lái)西亞一金店2分鐘被搶走15公斤金飾,約合人民幣1670萬(wàn)元,劫匪逃離前還搶走現(xiàn)場(chǎng)保安的霰彈槍及一枚子彈,警方稱正在追捕這4名嫌犯

瀟湘晨報(bào)
2026-04-18 11:34:09
馬英九攤牌:兩岸開(kāi)戰(zhàn)在所難免,臺(tái)成不了烏克蘭,只因有致命死穴

馬英九攤牌:兩岸開(kāi)戰(zhàn)在所難免,臺(tái)成不了烏克蘭,只因有致命死穴

混沌錄
2026-04-16 17:31:13
與向華強(qiáng)分房十多年后,自曝家丑的向太陳嵐,不再顧及豪門體面

與向華強(qiáng)分房十多年后,自曝家丑的向太陳嵐,不再顧及豪門體面

白面書誏
2026-04-17 18:36:35
中方接到消息,高市通告時(shí)機(jī)已到,日本掀桌,5500枚核彈原料就位

中方接到消息,高市通告時(shí)機(jī)已到,日本掀桌,5500枚核彈原料就位

南宗歷史
2026-04-15 02:46:17
寧可砸爛,不白送!網(wǎng)傳杭州一4S店撤場(chǎng)退租,把所有落地玻璃砸毀

寧可砸爛,不白送!網(wǎng)傳杭州一4S店撤場(chǎng)退租,把所有落地玻璃砸毀

放開(kāi)他讓wo來(lái)
2026-04-17 10:58:46
朱芳雨:很遺憾沒(méi)能用勝利答謝球迷,希望季后賽能得到大家支持

朱芳雨:很遺憾沒(méi)能用勝利答謝球迷,希望季后賽能得到大家支持

懂球帝
2026-04-18 23:29:08
美財(cái)政部改口:延長(zhǎng)一個(gè)月

美財(cái)政部改口:延長(zhǎng)一個(gè)月

觀察者網(wǎng)
2026-04-18 22:31:22
河南一豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕,演員回應(yīng):現(xiàn)場(chǎng)觀眾超千人,一半人落了淚

河南一豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕,演員回應(yīng):現(xiàn)場(chǎng)觀眾超千人,一半人落了淚

極目新聞
2026-04-15 19:44:40
演員王安宇遭激光筆掃射面部?劇組緊急聲明:將全面升級(jí)安保措施

演員王安宇遭激光筆掃射面部?劇組緊急聲明:將全面升級(jí)安保措施

環(huán)球網(wǎng)資訊
2026-04-19 08:10:24
她找到了親生父親,并嫁給了他:兩年后,他殺了她和他們的孩子

她找到了親生父親,并嫁給了他:兩年后,他殺了她和他們的孩子

三目觀史
2026-03-26 22:05:39
2026-04-19 09:04:49
中國(guó)科普博覽 incentive-icons
中國(guó)科普博覽
中國(guó)科學(xué)院科普云平臺(tái)
4771文章數(shù) 201427關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

頭條要聞

女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

體育要聞

時(shí)隔25年重返英超!沒(méi)有人再嘲笑他了

娛樂(lè)要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬(wàn)元起

態(tài)度原創(chuàng)

家居
教育
旅游
房產(chǎn)
數(shù)碼

家居要聞

法式線條 時(shí)光靜淌

教育要聞

中考數(shù)學(xué)真題,別想太簡(jiǎn)單了

旅游要聞

貴州湄潭:從賣茶葉到賣體驗(yàn),一片茶葉如何“玩”出新業(yè)態(tài)?

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!?跇鞘校蝗粴⑷肷衩胤科!

數(shù)碼要聞

首款驍龍8 Gen5小平板!OPPO Pad Mini下周發(fā)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版