鄂維南院士：回國五年，我的探索與思考

2025-12-02 19:38:51　來源: 知識分子

江蘇舉報

分享至

鄂維南，中國科學(xué)院院士，北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院教授。圖源：上海

撰文｜鄂維南

到今年九月，我全職回國已經(jīng)整整五年。

這五年間，我同時推動了AI for Science、 data-centric AI基礎(chǔ)設(shè)施建設(shè)，自主可控的工業(yè)軟件和工業(yè)智能的開發(fā)，以志愿者身份參與創(chuàng)建交大人工智能學(xué)院，并嘗試構(gòu)建一個高效率、高水平的科技創(chuàng)新機制。

做這些事不是為了個人的科研，而是希望推動我國在最核心的技術(shù)方面實現(xiàn)自主可控，在未來最重要的發(fā)展方向上能夠抓住千載難逢的機會, 在智能化時代率先找到最有競爭力的人才培養(yǎng)和科技創(chuàng)新機制。

這些任務(wù)中的任何一項都極為重要，更不要說以個人的力量同時推動幾個事情，難度是可想而知的。除了我的幾個學(xué)生，沒有人理解我為什么同時做這么多事情，我也無法向別人解釋。

讓人欣慰的是許多事情都已經(jīng)開始開花結(jié)果。更讓我感到驚喜的是，它們正走到一起，成為我們“終極目標(biāo)”的核心組成部分。但回想起來，在具體推動這些事的過程中，一些實際做法大大增加了國家層面失去重要機會窗口的風(fēng)險，這里面的經(jīng)驗教訓(xùn)值得認(rèn)真總結(jié)。

另一方面，從大學(xué)時代起，我就有一個科技強國的夢想。為了這個夢想，我改行做應(yīng)用數(shù)學(xué)，之后又探索了幾十年。我在許多關(guān)鍵戰(zhàn)略認(rèn)識和戰(zhàn)略部署上都走在了時代的前沿，后面的發(fā)展也多次證明這些認(rèn)識和部署是正確的。

但前沿性的認(rèn)識并不意味著它能夠產(chǎn)生實際效果，其核心是在一個習(xí)慣追趕的大環(huán)境下，能不能建立起一個有效支持領(lǐng)跑的機制，這樣的機制在科技創(chuàng)新進(jìn)入快車道的智能化時代是不可或缺的，也是實現(xiàn)科技強國的重要組成部分。

如何建立起這樣的機制？這也是我這幾年一直在思考的問題。這篇文章簡單總結(jié)了我這幾年的經(jīng)歷和對上述問題的一些探索和思考。

此外，寫這篇文章還有一個目的，是想解釋一下這幾年來我的一些做法，包括：對同事，為什么我不得不在上海和北京之間跑，多多少少辜負(fù)了你們的希望？對朋友，為什么許多會議、活動和聚會我都參加不了，以至于落下不食人間煙火的名聲？對身邊的年輕人，為什么我對你們要求這么高、這么嚴(yán)，以至于在許多人眼里我最主要的工作就是“鞭策”？這些問題一直是壓在心里的石頭，不吐不快。

此文將會分成上下兩篇，上篇主要談遲到的回國、AI for Science、工業(yè)軟件和工業(yè)智能和Data-centric AI基礎(chǔ)設(shè)施建設(shè)四個部分。

下篇會講到交大人工智能學(xué)院、為什么沒有能夠集中精力做一件事、建立起一個適應(yīng)智能化時代需求的科技創(chuàng)新機制和我的一點感悟。

遲到的回國

2020年9月17日，我乘坐東航的班機回到了上海。

我很清楚地意識到，這次回來之后，再回美國就不容易了。所以回來之前，我特地到Fine Hall，和我特別喜愛的辦公室、普林斯頓大學(xué)數(shù)學(xué)系和PACM(Program in Applied and Computational Mathematics)作了告別。我在這里工作了21年，真的是特別喜歡這里的工作環(huán)境和學(xué)術(shù)氛圍。因為是疫情期間，老師和學(xué)生都在家里辦公，所以整個過程沒有碰到其他人。

在上海的隔離期間，我做了三件事情：給普林斯頓大學(xué)數(shù)學(xué)系和PACM寫了辭職信；給四個朋友發(fā)了我在飛機上寫的“落地信”，信中講了我的一些設(shè)想和工作計劃；學(xué)會用PPT準(zhǔn)備了一個題為“數(shù)學(xué)、科學(xué)與人工智能”的報告。這是一個在腦子里已經(jīng)盤繞了三年，被我稱為“科學(xué)史上最ambitious的計劃”。

兩周之后，十月一號的晚上（當(dāng)天也是中秋節(jié)），我趕到交大閔行校區(qū)，在第二天的“文俊論壇”上做了這個報告。

其實我1985年出國的時候，就是沖著回國去的。為此，我做了一件被許多人認(rèn)為很愚蠢的事情：把F1簽證（自費）換成了J1簽證（自費公派），還因此耽擱了UCLA數(shù)學(xué)系的部分博士資格考試。

我職業(yè)生涯中最關(guān)鍵的時間節(jié)點是1982年的寒假?；乜拼笄暗淖詈笠惶?，我決定放棄純數(shù)學(xué)，改行研究應(yīng)用數(shù)學(xué)，目的是讓我的工作能夠直接應(yīng)用于社會，能夠直接幫助到我的國家。由于數(shù)學(xué)界普遍認(rèn)為中國的應(yīng)用數(shù)學(xué)不太行，所以我一定得到國外去學(xué)。

后來的事實證明這的確是一個極其天真的想法，因為一直到三十年之后，我都沒有覺得我的工作真的有用。我職業(yè)生涯的大部分時間都處在表面上一帆風(fēng)順、內(nèi)心里充滿疑慮的狀態(tài)。的確我的工作也有許多人用，但是他們的工作似乎離實際問題還有很大距離。

記得2011年的夏天，我交付了“Principles of Multi-scale Modeling” 這本書的最終版本之后，躺在北大資源大廈辦公室的沙發(fā)上，覺得這一輩子應(yīng)該是做不出真正有用的原創(chuàng)性工作了。既然大數(shù)據(jù)很重要，我自己也呼吁了許多年，就改行做大數(shù)據(jù)吧。

真正徹底下決心改行是2014年。從2004年開始我就在國內(nèi)呼吁大數(shù)據(jù)算法的重要性。我本人的專業(yè)是科學(xué)計算中的算法。在當(dāng)時，這是兩個距離很遠(yuǎn)的不同領(lǐng)域（現(xiàn)在它們很近了，部分原因也是來自于我本人的工作），所以我自己并沒有下決心改行研究大數(shù)據(jù)算法，而是希望其他相鄰領(lǐng)域的專家們重視起來。

但是呼吁了十年，組織了很多會議、討論班，效果甚微。到2014年，大數(shù)據(jù)已經(jīng)開始紅火起來，而大數(shù)據(jù)算法研究在國內(nèi)卻比較冷清。我感到?jīng)]有別的辦法，只有自己徹底轉(zhuǎn)行，研究大數(shù)據(jù)中的算法。

這個經(jīng)歷是到目前為止我職業(yè)生涯中最大的教訓(xùn)：一件事情如果真的重要，就應(yīng)該自己去做。希望年輕人不要犯同樣的錯誤。

研究大數(shù)據(jù)算法，具體來說就是研究機器學(xué)習(xí)。很快我就發(fā)現(xiàn)，機器學(xué)習(xí)研究的問題跟我的老本行計算數(shù)學(xué)研究的問題其實是很類似的，都是函數(shù)逼近（有監(jiān)督學(xué)習(xí)）、概率分布的逼近和采樣（無監(jiān)督學(xué)習(xí)或者生成式人工智能），以及解方程（強化學(xué)習(xí)）。

但有一個重大區(qū)別：例如同樣是圖像問題，計算數(shù)學(xué)圈子里只研究單個圖片的處理，如壓縮或去噪，而機器學(xué)習(xí)圈子里討論的卻是圖像識別這種涉及到整個圖像數(shù)據(jù)集的問題。前者是二維問題，后者是我們想都不敢想的極高維問題，原因是“維數(shù)災(zāi)難”（計算復(fù)雜度隨著維數(shù)的增加而指數(shù)增加）。難道做機器學(xué)習(xí)的人有什么魔術(shù)？很快我意識到，深度學(xué)習(xí)很可能提供了克服“維數(shù)災(zāi)難”的有效路徑。

這是我職業(yè)生涯中最重要的頓悟，因為它意味著我們可以重塑數(shù)學(xué)和科學(xué)。從數(shù)學(xué)的角度來說，我們通常研究的要么是低維空間的數(shù)學(xué)，如泰勒展開，要么就是無窮維空間的數(shù)學(xué)，如泛函分析。高維空間的數(shù)學(xué)結(jié)構(gòu)是一個極其宏大的新課題。深度學(xué)習(xí)和人工智能賦予了這個問題非常重要的實際意義。如果我們生活的空間不是3維而是30維，那么我們一開始就不應(yīng)該學(xué)習(xí)多項式和泰勒展開，而是神經(jīng)網(wǎng)絡(luò)。這意味著我們應(yīng)該圍繞高維情形重構(gòu)數(shù)學(xué)。

從科學(xué)的角度來說，以前困擾我們的許多問題，其本質(zhì)困難都來自于維數(shù)災(zāi)難，這在科學(xué)計算領(lǐng)域尤為明顯。在這一點上我的感受可能是最深切的。在我?guī)资陮で笥袑嶋H應(yīng)用的原創(chuàng)研究課題的探索中，我嘗試了許多不同的領(lǐng)域。我在中科院學(xué)的是計算數(shù)學(xué)，到UCLA之后學(xué)習(xí)計算流體力學(xué)，然后又轉(zhuǎn)行到材料科學(xué)、計算化學(xué)、化工、生物學(xué)等等。我研究過地球的磁場、太陽表面的對流、磁約束的核聚變、復(fù)雜化學(xué)反應(yīng)的理論和計算、超導(dǎo)的理論模型等多種多樣的問題?？梢哉f除高能物理和量子信息以外，很難找到一個理科或工科中的主要理論和計算問題，我沒有花功夫研究過。而所有這些問題最終的難點都來自于“維數(shù)災(zāi)難”。既然深度學(xué)習(xí)可以幫助我們解決維數(shù)災(zāi)難問題，那么它必將改變我們做科學(xué)研究的方式方法。

2017年春天，我開始清楚地意識到兩件事情：

人工智能將帶來廣泛的影響。因為AlphaGo背后的原理是具有普適性的，它可以被應(yīng)用到所有需要決策的場景，而決策是人類最重要的事情。

科技戰(zhàn)已經(jīng)不可避免，我們要為應(yīng)對科技戰(zhàn)做準(zhǔn)備。2017年夏天的一個晚上，我一邊看著電視，一邊思考著這些問題，腦子里逐漸梳理出三個清晰的方向：一是作為人工智能的基礎(chǔ)，我們必須構(gòu)建處理“非結(jié)構(gòu)化數(shù)據(jù)”的基礎(chǔ)設(shè)施，把門檻和成本降下來。二是人工智能方法將全面改變我們的科研范式，這是一個前所未有的機會，如果中國抓住了這個機會，它很可能可以幫助我們一下子走到領(lǐng)先的位置。三是作為一個制造業(yè)大國，我們必須構(gòu)建自主可控的制造業(yè)基礎(chǔ)設(shè)施——工業(yè)軟件和高端裝備。當(dāng)時覺得高端裝備方面我無能為力，但是工業(yè)軟件的任務(wù)必須扛下來。突然之間，我意識到我的科研不僅有用，而且比我設(shè)想的還更加有用！

十年推動大數(shù)據(jù)算法而效果甚微的教訓(xùn)讓我意識到，與其花精力去說服其他人，還不如下決心帶領(lǐng)年輕人把這些事情都做起來。但突然間這么多任務(wù)一下子壓過來，我內(nèi)心深處感受到巨大的恐懼，那種恐懼感至今難忘。

其實當(dāng)時還布局了第四個項目：宏觀經(jīng)濟(jì)的精準(zhǔn)和精細(xì)預(yù)測。從經(jīng)濟(jì)發(fā)展的角度來說，最讓人擔(dān)心的就是宏觀層面出現(xiàn)大起大落，它不但影響到經(jīng)濟(jì)體系的運行，同時也影響到消費者和生產(chǎn)者的信心。精準(zhǔn)預(yù)測能夠幫助我們避免許多系統(tǒng)風(fēng)險。過去由于受方法和數(shù)據(jù)的限制，我們很難做到精準(zhǔn)精細(xì)預(yù)測。在大數(shù)據(jù)和深度學(xué)習(xí)時代，情況不一樣了，我們可以通過整體建模，利用大量弱信號，來對宏觀經(jīng)濟(jì)作精準(zhǔn)精細(xì)預(yù)測。這是一個非常值得做的事情，我們也做了很多探索，我堅信這是可行的。但由于種種原因，盡管花費了不少精力，這個項目已經(jīng)被暫時擱置了。

2018年北京大數(shù)據(jù)研究院的三周年慶典上，我的三個學(xué)生，邰騁、張林峰、楊雨成，分別就上面四個題目中的三個做了報告。這些報告沒有引起注意，但它們的內(nèi)容是很有前瞻性和原創(chuàng)性的。

AI for Science

推動AI for Science，得從培養(yǎng)學(xué)生做起。

2017年春天，韓劼群和張林峰已經(jīng)在分子動力學(xué)方面做出了一些非常好的結(jié)果，但是系統(tǒng)推進(jìn)深度學(xué)習(xí)在各個領(lǐng)域、各種科學(xué)計算問題中的應(yīng)用，還需要更多人的參與。2017年圣誕節(jié)的時候，我召集了我研究生涯中唯一一次全員組會，跟學(xué)生們講了兩方面的事情：一是人工智能之于數(shù)學(xué)，之于科學(xué)和之于中國，它意味著什么？二是人工智能賦能科學(xué)研究帶來的機會，只有一百年前量子力學(xué)被發(fā)明的時候可以比擬。

2017年底，張林峰和王涵推動成立了DeepModeling開源社區(qū)，用于交流人工智能賦能科學(xué)的算法方面的成果。

2018年夏天，湯超和我在北大組織了“AI for Science” 內(nèi)部交流會議。這很可能是國際上第一次使用“AI for Science“的說法。會后我拉著張平文一起去見林建華校長，建議在北大成立 “AI for Science” 研究院。林校長對這個建議很支持，認(rèn)為是將來可以“批量出諾貝爾獎”的方向。他還給我們出了一個難題：這個研究院的中文名字應(yīng)該叫什么？但林校長不久就退休了，這個建議沒有得到落實。

2018年我還鼓勵張林峰和孫偉杰成立了深勢科技。當(dāng)時有兩個目的。一是推動真正落地，二是通過企業(yè)的融資獲得必要的資金支持。考慮到我整合資源的能力有限，又有許多基礎(chǔ)性工作需要完成，后面這一點是必要的。幾年下來，深勢科技對推動中國AI for Science的發(fā)展的確起到了不可替代的作用。

我回國之后的一件重要工作就是宣傳人工智能對科學(xué)研究將會帶來的整體影響。我走訪了交大、復(fù)旦、科大、北大和清華等五所高校，給學(xué)生宣傳AI for Science，又組織了機器學(xué)習(xí)線上討論會，取得了一定的效果。

但真正有幫助的是另外兩件事情：一是2020年底在北京市的支持下組織成立北京科學(xué)智能研究院。這是國際上第一個以 “AI for Science” 為主題的科研機構(gòu)。二是2021年國家自然科學(xué)基金委交叉學(xué)部立項“可解釋、可通用的下一代人工智能方法”重大研究計劃，這是國內(nèi)第一個系統(tǒng)支持AI for Science 的研究計劃。這兩件事情都是在AI for Science 還沒有得到廣泛認(rèn)可的情況下做起來的，它充分體現(xiàn)了相關(guān)領(lǐng)導(dǎo)的前瞻性眼光。

幾年下來，AI for Science 已成燎原之勢。今年8月份國務(wù)院出臺的“人工智能+”行動意見高度重視人工智能賦能的科研范式變革。國內(nèi)涌現(xiàn)出了一大批非常有潛力的年輕科學(xué)家，他們積極參與到了AI for Science 的浪潮之中。一些資深的科學(xué)家們也積極擁抱AI for Science, 用人工智能方法推動相關(guān)領(lǐng)域的根本性變革。

8月中旬，丁洪、湯超和我一起在大理組織了一個AI for Science的會議，這是一個具有極高水平的前瞻性學(xué)術(shù)討論。我們非常欣喜地看到一批極具創(chuàng)造力的年輕人站在講臺上，為聽眾勾畫出人工智能賦能下他們各自領(lǐng)域的未來。

我推動AI for Science的核心目的是利用人工智能帶來的機會，率先推動我國整體科研和研發(fā)范式的改變，而不僅僅是解決幾個亮點問題。

要實現(xiàn)這個目標(biāo)，最重要的就是建立新的基礎(chǔ)設(shè)施?？蒲泻脱邪l(fā)依賴的方法和工具無非是文獻(xiàn)或已有資料，理論或計算，最終是實驗，這些工具是科研效率的關(guān)鍵因素。過去我們讀文獻(xiàn)和學(xué)習(xí)資料的能力非常有限，理論和計算方法難以處理實際場景的問題，實驗往往是靠經(jīng)驗和試錯，加上作坊式的組織形式，使得科研和研發(fā)的周期長、效率低。人工智能的賦能，能從很大程度上幫助我們突破這些瓶頸。

這些突破意味著我們可以建立起一整套新的科研基礎(chǔ)設(shè)施。我們從一開始就把工作重心放在基礎(chǔ)設(shè)施建設(shè)上。先是從計算工具入手，又逐漸拓展到文獻(xiàn)和實驗工具，并形成了“四梁N柱”的架構(gòu)。

經(jīng)過幾年的努力，我們已經(jīng)建立起了一套比較完整的基礎(chǔ)設(shè)施，張林峰、李鑫宇、孫偉杰等年輕人把它命名為“玻爾科研空間站”。用玻爾的名字，是因為玻爾是量子力學(xué)的先驅(qū)者——先有玻爾，后有薛定諤。玻爾空間站已經(jīng)被全國最頂尖的高校廣泛采用。在此基礎(chǔ)上，上海交大人工智能學(xué)院、深勢科技和上海算法創(chuàng)新研究院一起開發(fā)了第一個真正意義上的科學(xué)基座模型Innovator 和科研智能體SciMaster。盡管它們沒有玻爾空間站完善，但我相信它們不久也將會被科研工作者們廣泛使用，并成為新一代科研基礎(chǔ)設(shè)施中不可或缺的一部分。

應(yīng)該說，在AI for Science基本設(shè)施的布局上，我們是比較超前的。國外一直到剛剛出臺的“創(chuàng)世紀(jì)計劃”中才真正認(rèn)識到基礎(chǔ)設(shè)施的重要性，其主要思路也基本上沿用了我們一直在推進(jìn)的路線。不過創(chuàng)世紀(jì)計劃的力度還是相當(dāng)可觀的。

跟大模型情況不太一樣，我國AI for Science的發(fā)展走了一條相對比較獨立的路徑。目前已經(jīng)初步形成了一個完整體系：玻爾空間站和SciMaster兩大入口級平臺；以科大機器化學(xué)家和嘉庚實驗室大設(shè)施為代表的規(guī)模化、自動化實驗裝置；以及以植物星球、材料基因組工程、藥物設(shè)計、數(shù)字細(xì)胞、人類蛋白組計劃、有機合成、智能化儀器設(shè)備、催化、民用航天發(fā)動機、核聚變等為代表的典型應(yīng)用場景。智能化改造已經(jīng)成為許多理論和實驗團(tuán)隊的剛需。最為令人欣慰的是一大批年輕人成為了骨干力量，他們正在用他們的工作來改變他們所在的領(lǐng)域，許多人在各自的領(lǐng)域中已經(jīng)走在了國際前沿。

隨著基礎(chǔ)設(shè)施的逐漸成熟和AI for Science理念的高度普及，AI for Science 的重點應(yīng)該回到科學(xué)問題本身，科學(xué)家應(yīng)該成為主要推動者。另一方面，生產(chǎn)力的提升必將推動生產(chǎn)關(guān)系的改變。人工智能時代的科研組織形式應(yīng)該是什么樣子的？這些問題將會成為AI for Science 發(fā)展的中心問題。

在推動AI for Science的過程中，我們得到了許多人的支持。這里就不一一把他們的名字列舉出來，但是我從內(nèi)心里感激他們。

隨著AI for Science 逐漸成為新的熱點，許多令人擔(dān)憂的事情也開始出現(xiàn)。最為令人擔(dān)憂的是資源配置的不合理，例如，許多有能力的年輕人并不處在有利位置，而他們才是推動AI for Science發(fā)展的主力軍。資源的錯誤配置帶來的不僅僅是資源浪費，還有可能是方向性的誤導(dǎo)。

我個人堅定地認(rèn)為，AI for Science是中國科技創(chuàng)新歷史上最好的機會，沒有之一，但這是以理性的資源配置作為前提的。如果我們不迅速解決資源配置的問題，我們將失去這個千載難逢的機會。

工業(yè)軟件和工業(yè)智能

對中國這樣一個制造業(yè)大國來說，工業(yè)軟件是基礎(chǔ)中的基礎(chǔ)，核心中的核心。就我從事的科學(xué)計算領(lǐng)域來說，最直接的應(yīng)用就是工業(yè)軟件。所以工業(yè)軟件是我最早注意到的應(yīng)用場景。但軟件實在不是我的強項。十幾年前我就開始找人討論工業(yè)軟件的問題。由于各種原因，這些討論都不了了之。2017年，我意識到工業(yè)軟件的問題已經(jīng)不能再等了，就找到科大的楊周旺教授，建議他立即著手開發(fā)工業(yè)軟件的幾何內(nèi)核。他當(dāng)場表示，他退休前一定要把幾何內(nèi)核搞定。

幾何內(nèi)核是工業(yè)軟件的基礎(chǔ)。我國計算幾何方面的人才比較缺乏，愿意下決心做出商業(yè)上可用的幾何內(nèi)核的人更是寥寥無幾。而我國在微分方程求解（即CAE的核心）方面的人才比較多。所以如果幾何的問題解決了，我們就不太怕斷供了。

八年下來，楊周旺帶領(lǐng)開發(fā)的九韶內(nèi)核已經(jīng)發(fā)布了五個版本，成為國際五大商用幾何內(nèi)核中的一個。三百多萬行的代碼都是他們團(tuán)隊自己寫的，基本覆蓋了商用內(nèi)核需要的所有功能。九韶內(nèi)核已經(jīng)被應(yīng)用到許多場景，包括飛機、汽車在內(nèi)的高端應(yīng)用場景?，F(xiàn)在九韶團(tuán)隊的工作重心已經(jīng)轉(zhuǎn)移到如何在九韶內(nèi)核的基礎(chǔ)上開發(fā)CAD、CAE、CAM等軟件，建立“九韶生態(tài)”。

制造業(yè)的另外一個根基是機床。機床有硬件和軟件部分，其中高端數(shù)控系統(tǒng)仍然是一個卡脖子問題。經(jīng)過一段曲折的過程，我們和通用技術(shù)集團(tuán)機床工程研究院上海分院形成了合作，開發(fā)高端數(shù)控系統(tǒng)。現(xiàn)在算法方面的工作已經(jīng)基本完成，也開發(fā)了數(shù)控系統(tǒng)原型，并完成了初步的加工測試。這得感謝通用技術(shù)集團(tuán)的支持，也得感謝我的學(xué)生和博士后胡衛(wèi)、龍吉昊和趙振華。他們從零開始，頂著發(fā)表論文、爭取帽子、前景不明等多種壓力，全身心地投入到這項工作中。胡衛(wèi)和龍吉昊從普林斯頓大學(xué)回國的時候，沒有提出任何要求也沒有安排好的工作在等著他們，只是抱著為國家做事情的決心。另外一個學(xué)生楊泓康也是這樣，他們的精神真是讓我感動。

工業(yè)管理智能化是制造業(yè)的另外一個新的發(fā)展空間。它同樣是一個困難問題，因為制造業(yè)場景多種多樣，而且異常復(fù)雜。顧敏潔帶領(lǐng)的品見團(tuán)隊抱著把每一個項目都挖掘到極致的態(tài)度，啃了一個又一個硬骨頭，現(xiàn)在終于開始摸索到一條比較通用的技術(shù)路徑。

經(jīng)過這些基礎(chǔ)性工作，推動AI for Manufacturing的條件已經(jīng)開始成熟。我自己也會把更多精力放到這個方向上來。這是解決我國高端制造業(yè)難題的極好機會。

Data-centric AI 基礎(chǔ)設(shè)施建設(shè)

十年前，我牽頭組織了一個“非結(jié)構(gòu)化數(shù)據(jù)分析”973項目。這個過程讓我充分認(rèn)識到，非結(jié)構(gòu)化數(shù)據(jù)（例如文本、圖像、語音、視頻）是人工智能發(fā)展的核心資源也是核心困難，非結(jié)構(gòu)化數(shù)據(jù)處理的成本和門檻是人工智能能否成功落地的關(guān)鍵。

與此同時，邰騁和湯林鵬在指紋識別方面取得了革命性突破。他們在少量人工標(biāo)注數(shù)據(jù)的基礎(chǔ)上，利用基于深度學(xué)習(xí)的特征提取和迭代改進(jìn)（我把這個想法稱為“墨奇算法“），使指紋識別的效率和準(zhǔn)確率有了幾個數(shù)量級的提升，幫助有關(guān)部門以極低的成本建立起了幾十億級指紋管理的大庫。

我們很快意識到，上述方法不僅適用于指紋，它其實適用于一般性的非結(jié)構(gòu)化數(shù)據(jù)，其核心是構(gòu)建一個非結(jié)構(gòu)化數(shù)據(jù)庫（現(xiàn)在通常被稱為AI數(shù)據(jù)庫，向量數(shù)據(jù)庫是一個特例），它能夠在同一個系統(tǒng)中管理各種不同模態(tài)的數(shù)據(jù)，并進(jìn)行高效率聯(lián)合查詢，比方說用語言搜索圖片或者用圖片搜索圖片。這之前已經(jīng)有了向量搜索工具，但還沒有完整的向量數(shù)據(jù)庫，更別談一般性的AI數(shù)據(jù)庫。邰騁和湯林鵬帶領(lǐng)的團(tuán)隊在國際上最早提出AI數(shù)據(jù)庫的概念（2018年）并開發(fā)了第一個AI數(shù)據(jù)庫。這是一個了不起的貢獻(xiàn)。

有了這樣的數(shù)據(jù)庫，我們就可以低成本、低門檻地開發(fā)滿足特殊需求的AI模型，例如許多任務(wù)只需通過簡單的搜索就完成了。有了許許多多這樣的小模型，我們只需要一個操作系統(tǒng)來管理和調(diào)度這些小模型就可以了。2020年我們就開始推這樣的框架。這其實就是現(xiàn)在智能體的應(yīng)用框架，只不過現(xiàn)在的框架都是基于大模型底座的。

大模型的興起表明人工智能創(chuàng)新的重心由模型逐步轉(zhuǎn)向數(shù)據(jù)。在以模型為中心的時代，AI行業(yè)建立起了一整套相應(yīng)的基礎(chǔ)設(shè)施，如TensorFlow這樣的工具，它讓我們能夠低門檻、高效率地探索不同的模型架構(gòu)。TensorFlow出現(xiàn)之前我們探索不同的模型架構(gòu)只能靠人工、靠經(jīng)驗、靠試錯。現(xiàn)在在數(shù)據(jù)方面的探索就是這樣。這個成本極為巨大，也·是人工智能在企業(yè)落地的最大障礙。要解決這個問題，我們就必須建立起一整套數(shù)據(jù)層面的工具平臺。這是張文濤團(tuán)隊開發(fā)DataFlow的出發(fā)點。DataFlow可以讓人們像用TensorFlow 玩模型一樣來玩數(shù)據(jù)。它對人工智能工具開發(fā)的平民化和人工智能在企業(yè)的落地都會起到關(guān)鍵作用。

AI 數(shù)據(jù)庫和DataFlow 這樣的工具平臺將成為數(shù)據(jù)方面的基礎(chǔ)設(shè)施，就像GPU、 CUDA和TensorFlow等一起組成了算力層面的基礎(chǔ)設(shè)施一樣?，F(xiàn)在大家對算力層面的基礎(chǔ)設(shè)施有了充分的認(rèn)識，但對數(shù)據(jù)層面的基礎(chǔ)設(shè)施還缺乏足夠重視。

篇幅所限，上篇暫告一段落。下篇將于近日推出，敬請期待。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.