国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NUS尤洋教授深度探討智能增長的瓶頸:或許我們將這樣實現(xiàn)AGI?

0
分享至



機器之心發(fā)布

2026 年即將到來,AI 的發(fā)展也已經(jīng)進入了一個新的階段:我們已經(jīng)取得了驚人成就,卻同時面臨進一步增長的瓶頸。

新加坡國立大學(NUS)的尤洋教授近期發(fā)表了一篇深度分析:《智能增長的瓶頸》。



原文鏈接:https://zhuanlan.zhihu.com/p/1989100535295538013

在這篇分析文章中,尤洋教授從技術(shù)本質(zhì)出發(fā),直指智能增長的核心矛盾,為我們揭示了 AGI(通用人工智能)的可能路徑。

觀點速覽

智能增長的本質(zhì)不是架構(gòu)變革,而是算力如何轉(zhuǎn)化為智能:AI 的核心智能來自于預訓練及其 Loss 結(jié)構(gòu)(例如 GPT 的 Next-Token Prediction)。這些機制更像是把算力轉(zhuǎn)化為智能的方法,而非智能本身。

現(xiàn)有智能增長遇到瓶頸的根源:當前范式(Transformer + 超大算力)在面對進一步增長時, 難以充分消化不斷增長的算力資源,這導致了所謂 “預訓練紅利遞減”。

算力并不是無限擴展就能解決問題:即使算力指數(shù)級增長,如果現(xiàn)有算法無法有效利用這些計算資源,智能提升仍將受限。

未來方向不在于工程優(yōu)化,而是底層范式突破:文章探討了更高精度計算、更高階優(yōu)化器、更靈活的 Loss 設計、超大規(guī)模訓練策略等潛在突破點。

AI 未來仍然樂觀:智能增長瓶頸雖強,但仍有可能通過更好的算力利用方式被克服。預訓練可能才剛剛開始,大模型智能仍有巨大的發(fā)展空間。

AGI 的未來將如何發(fā)展?讓我們拭目以待。



尤洋教授,《智能增長的瓶頸》作者

以下為其分享原文:

智能增長的瓶頸

2026 年已至。在 ChatGPT 誕生三年多后的今天,關(guān)于我們的智能水平是否令人滿意,以及未來是否還能強勁增長,筆者想分享一些個人的看法。如有謬誤,懇請大家指正。

為了能深入探討智能的本質(zhì),本文將不涉及產(chǎn)品易用性、成本等商業(yè)化或落地問題,因為這些本質(zhì)上與智能突破本身無關(guān)。

1. 智能的現(xiàn)狀

什么是智能?其實目前并沒有一個明確的定義。

從最近圖靈獎得主 Yann LeCun 和諾貝爾獎得主 Demis Hassabis 關(guān)于 AGI 的爭論中,我感受到即便是世界上最頂尖的專家也無法準確定義智能。

個人感覺,AGI 很難定義,其標準也會隨著時代的變化而變化。我依然記得十幾年前,普通人對人臉識別技術(shù)感到不可思議。如果把今天的 ChatGPT 拿到 2006 年,相信那時候的很多人會毫不懷疑地認為我們已經(jīng)實現(xiàn)了 AGI。

我覺得智能的核心是預測創(chuàng)作

我認為如果達到以下這種狀態(tài),那么就離 AGI 不遠了:

  • 如果你選擇接受哪個工作 Offer,完全聽從 AI 的意見。
  • 如果你買足球彩票預測世界杯冠軍,完全聽從 AI 的意見。
  • 如果你有健康問題,會完全采用 AI 制定的方案去治療。
  • 你分辨不清楚一部奧斯卡最佳電影是否是由 AI 生成的。
  • 石油公司的勘探團隊用 AI 替代了所有數(shù)值算法。
  • AI 能指導初級高鐵工程師在 5 分鐘內(nèi)排除高鐵的疑難故障。
  • AI 能研制出一款專殺癌細胞且不破壞好細胞的藥物。
  • AI 能通過某區(qū)域的地下結(jié)構(gòu)數(shù)據(jù),精準預測地震的時間。
  • 等等……

今天,我們顯然還沒實現(xiàn)這些。未來能否實現(xiàn),取決于我們能否克服智能發(fā)展的瓶頸。

2. 智能發(fā)展的瓶頸

今天,我們經(jīng)常聽到一些關(guān)于智能發(fā)展遇到瓶頸,或者預訓練紅利已盡的觀點。何為瓶頸?我們先探討一下智能從何而來。

過去 10 年,AI 大模型的技術(shù)本質(zhì),是把電力能源通過計算過程轉(zhuǎn)化為可復用的智能。技術(shù)的好壞取決于這個轉(zhuǎn)化效率的高低。類似的表述,我也聽月之暗面的朋友提及過。

今天模型的智能本身,最主要還是來自預訓練(往往是自監(jiān)督方法),僅有少量來自微調(diào)或強化學習。

為什么?先算一筆淺顯的經(jīng)濟賬:因為預訓練消耗的算力最多,消耗的能源也最多。

當然,預訓練、微調(diào)、強化學習本質(zhì)上都是在計算梯度以更新參數(shù)。如果有合適的海量數(shù)據(jù)和 Loss 函數(shù),未來在預訓練階段采用 SFT(監(jiān)督微調(diào))或特殊的強化學習方法也有可能。

從智能增長的角度,我們甚至不用刻意區(qū)分預訓練、SFT 和強化學習。它們的區(qū)別主要在于更新參數(shù)的次數(shù)與規(guī)模。從計算本質(zhì)上看:預訓練、微調(diào)、強化學習(比如 GRPO)都是在計算梯度的類似物,并用它來更新參數(shù)。

那么,能源從何而來呢?這就是 GPU 或算力。英偉達在這點上做了最大的貢獻。雖然英偉達有很多先進的技術(shù),比如更強的 Tensor Cores、Transformer Engine、互聯(lián)技術(shù)(NVLink / 網(wǎng)絡化 NVLink)、軟件棧等,但我先試圖用一句話說清楚英偉達過去幾年在技術(shù)上做的最重要的事情,即其 GPU 設計的核心思路。

簡而言之,英偉達過去幾年最重要的路線是:在同樣的物理空間里堆更多 HBM(高帶寬內(nèi)存)

HBM 雖然帶寬很高,但依然是計算核心之外的內(nèi)存(Off-chip from logic die),與計算核心存在不可忽略的物理距離。為了掩蓋內(nèi)存訪問延遲,GPU 只能依賴超大的 Batch Size(批處理量)和大規(guī)模并行來處理數(shù)據(jù)。英偉達 GPU 本質(zhì)上就是一臺并行計算機。

因此,英偉達對算法層和軟件層的要求非常明確:必須提供足夠大的 Batch Size 或并行度。

面對英偉達的要求,很多研究團隊都提出了自己的方案。比如 RNN、Transformer、卷積序列模型(CNN for Sequence)等等。甚至有人嘗試用 SVM 來處理大規(guī)模序列數(shù)據(jù)。

那為什么 Transformer 率先脫穎而出?因為 Transformer 也是一臺并行計算機。



原初的 Transformer 架構(gòu)

這里我引用一下 Ilya Sutskever 的一句話:“Transformers: parallel computers in disguise”,直白的意思是:Transformer 本質(zhì)上是一個被神經(jīng)網(wǎng)絡外殼包裹起來的并行計算機。這也是 Transformer 最先能夠顯現(xiàn)智能的核心原因,因為它的并行計算特性完美匹配了 GPU 的并行計算單元



同時,OpenAI 完美地實現(xiàn)了Next-Token Prediction這個 Loss 函數(shù),它給了 AI 大模型近乎無限的訓練數(shù)據(jù)。理論上 BERT 的 Loss 函數(shù)(完形填空和 Next Sentence Prediction)也可以提供近乎無限的數(shù)據(jù),但在實踐中,Next-Token Prediction 的效果明顯更好。

我推測,這個 Loss 函數(shù)最小化了人類的干預 —— 它不是人為設計的,而是大自然在進化過程中賦予人腦的邏輯。并且,Next-Token Prediction 其實是預測未來,而 BERT 的完形填空其實是把過去的信息和現(xiàn)在的信息串聯(lián)起來。這就好比讓一個足球?qū)<腋鶕?jù)歷史數(shù)據(jù)和當天的比賽結(jié)果去解釋合理性,幾乎所有專家都能做到;但是,如果讓專家去預測每一場比賽的精準比分,他們會經(jīng)常出錯。這再次說明了,預測 (Prediction) 是智能的核心能力體現(xiàn),難度遠高于解釋 (Explanation)

其實我挺佩服 OpenAI 團隊能夠堅持下來的勇氣。2018 年時,BERT 在媒體上的影響力幾乎完全碾壓了 GPT,且當時 OpenAI 的 AI 研發(fā)團隊體量跟 Google 比起來微不足道。很佩服他們沒有放棄 Next-Token Prediction,也沒有轉(zhuǎn)向類 BERT 的訓練方式。真理往往需要時間去檢驗。



BERT 對比 GPT

同時,以 Transformer 為核心的方案收獲了 “一箭雙雕” 的雙重優(yōu)勢:

  1. 模型的每層參數(shù)量越多,并行度就越高 (Tensor Parallelism)。 所以,只要通信代價不顯著增加,能同時利用的算力就越多。這點需要點贊行業(yè)領(lǐng)導者的先見之明。幾年前,我看到 CNN 時代有研究人員試圖把模型往深度發(fā)展,比如設想 1000 層的神經(jīng)網(wǎng)絡。其實非常深(層數(shù)非常多)的神經(jīng)網(wǎng)絡是不利于有效利用算力的,因為流水線并行提供的并行度上限不高。
  2. Transformer 的不同 Token 可以同時計算。 序列長度越長,并行度就越高,只要通訊代價不顯著增加,能同時利用的算力就越多。Sequence Parallelism 與 Data Parallelism 互補,進一步提供了更多的并行度。

就這樣,我們見證了 GPT-1、BERT、GPT-2、GPT-3、ChatGPT、Gemini 一步一步把智能提升到了今天的高度。

到這里,大家大概也清楚為什么 AI 模型的智能增長會遇到瓶頸了 —— 因為我們現(xiàn)在的范式無法充分消化持續(xù)增長的算力

假定一次模型訓練和微調(diào)消耗的浮點數(shù)計算次數(shù)(即程序員面試中的計算復雜度的具體值)從 10? 變成 10??3 時,我們是否獲得了一個顯著更好的模型?

其實,很多時候我們把 “效率優(yōu)化技術(shù)” 和 “智能提升技術(shù)” 混淆了。比如,明天我提出一個新的架構(gòu),實驗發(fā)現(xiàn)達到跟 GPT-5 類似的效果,只需要 20% 的參數(shù)量或計算量。這其實更多是落地或商業(yè)化問題;智能的終極問題是:使用同樣的浮點數(shù)計算次數(shù)(而非 Token 量),能否獲得一個更好的模型。浮點數(shù)計算次數(shù),才是算力最基本、最本質(zhì)的計量單位。

3. 未來的方法探討

首先從硬件層來看,我們需要持續(xù)產(chǎn)生更大的絕對算力,這不一定局限于單位芯片上的算力提升。



前沿規(guī)模機器學習模型訓練所用計算量的趨勢,圖源:Epoch AI

即便單位芯片上的算力沒有大幅度提升,我們通過集群的方式也能構(gòu)建更大的絕對算力。這里需要平衡的是:聚集芯片帶來的性能增長,要高于 “芯片或服務器之間通信增長帶來的負擔”。

所以,具體的硬指標就是:增長或至少維持住 “計算開銷/通信開銷” 這個比值。這是整個 AI 基礎設施層最核心的技術(shù)目標。要想實現(xiàn)這個目標,我們需要擴展性更好的并行計算技術(shù),無論是軟件還是硬件。

更上層的探索中,我們需要讓 AI 模型在單位時間內(nèi) “吃下” 更多能源,并真正將其轉(zhuǎn)化為智能。個人感覺大概有以下幾點方向:

  1. 更高精度的計算能力。 今天,從 FP16 到 FP32,甚至 FP64,模型智能并未出現(xiàn)明顯躍升。這本身就是一個瓶頸。理論上,更高精度應當帶來更可靠的計算結(jié)果,這一點在傳統(tǒng)科學計算中早已得到驗證。這個觀點可能與主流機器學習共識并不一致,而且真正發(fā)生可能需要很長時間,但從本質(zhì)上看,智能仍然需要更精準的計算。這與過擬合并無直接關(guān)系,過擬合的根源在于數(shù)據(jù)規(guī)模不足或參數(shù)與數(shù)據(jù)不匹配。
  2. 更高階的優(yōu)化器。 Google 的朋友告訴我,他們有時候已經(jīng)不用類 Adam 優(yōu)化器,而是用更高階的優(yōu)化器在訓練模型。高階優(yōu)化器理論上能在學習過程中給模型更好的指導,算出更好的梯度,這是模型智能提升的本質(zhì)。當然,高階優(yōu)化器的全面替代可能需要很長的時間。
  3. 擴展性更好的模型架構(gòu)或 Loss 函數(shù)。 我們?nèi)匀恍枰环N擴展性更好的整合和利用算力的方式。這點我們需要注意:優(yōu)化效率不一定能提升智能。比如 Mamba 出來的時候,宣傳重點是吞吐量的提升,用更小的模型獲得同水平的智能。但是,本文關(guān)注的是:在最健全的 AI 基礎設施上,用最大的可接受成本,能否訓出更好的模型,獲得更高的智能。比如,今天 Google 告訴你:預算 300 億美元,半年內(nèi)給我訓出一個更好的模型,不考慮省錢問題,花 10 億和花 100 億沒區(qū)別。在這個場景下,你最終是否會用 Mamba 這樣的架構(gòu)?你是否需要設計更好的 Loss 函數(shù)?
  4. 更多的 Epoch 和更好的超參數(shù)。 迫于成本壓力,我們今天其實并沒有對 AI 模型進行深度優(yōu)化,甚至沒有深度搜索超參數(shù)。這其實也是我之所以對 AI 模型的智能繼續(xù)增長有信心的原因。我這里的意思不是直接訓練更多的 Epoch。明知無效卻生硬地跑更多 Epoch 其實是方法不對(比如參數(shù)量和數(shù)據(jù)量不匹配)。但是,根本上,更多的 Epoch 代表更多的浮點數(shù)、更多的能源。我們需要找到方法去 “吃下” 更多能源,并轉(zhuǎn)化出更高智能。

有些技術(shù)對大規(guī)模落地 AI 非常重要,比如低精度訓練、剪枝、量化、蒸餾、PD 分離等推理優(yōu)化技術(shù)。但是,在一個 “算力轉(zhuǎn)智能” 極端有效的情況下,這些技術(shù)跟提升智能上限無關(guān)。筆者對這些技術(shù)的貢獻者非常尊重,它們在實際落地中至關(guān)重要,只是與本文探討的主題無關(guān)。

智能增長歸根到底還是算力利用問題。假定算力無限大,比如一個集群的算力達到今天的萬億倍,可能我們會發(fā)現(xiàn)更簡單的模型結(jié)構(gòu)比 Transformer 和 Next-Token Prediction 的擴展性更好。從 SVM 到 CNN、LSTM、BERT、GPT、MoE:我們始終在尋找能更高效利用算力且具備更好擴展性的方法。這個過程中,核心原因是問題的規(guī)模在不斷擴大。

我們在 AI 時代到來之前便已實現(xiàn)天氣預報,然而至今仍未能攻克地震預報,盡管兩者本質(zhì)上都是針對地球數(shù)據(jù)的研究。究其原因,地下結(jié)構(gòu)涉及比大氣更加錯綜復雜、且變量規(guī)模呈指數(shù)級龐大的動態(tài)多模態(tài)數(shù)據(jù)。這種傳統(tǒng)計算模式難以駕馭的高維復雜性,恰恰是未來 AI 技術(shù)大有可為的機遇所在。

所以,我有信心我們未來會不斷找到更高效的算力使用方式。雖然過程中可能會有很多困難和低潮,但大趨勢不可阻擋。

最后,借用 Richard Sutton 教授的一句話收尾:人工智能 70 年的研究留給我們最大的經(jīng)驗教訓是,依托計算能力的通用方法才是最終的贏家,且具備壓倒性的優(yōu)勢。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國企最大的弊端就是一些溜須拍馬的人,在提拔另一些溜須怕馬的人

國企最大的弊端就是一些溜須拍馬的人,在提拔另一些溜須怕馬的人

細說職場
2026-01-05 16:58:04
小里弗斯:狄龍是球隊文化締造者,灰熊火箭太陽都因他而變好

小里弗斯:狄龍是球隊文化締造者,灰熊火箭太陽都因他而變好

懂球帝
2026-01-07 13:26:07
新年翻車!小米“投敵”24小時

新年翻車!小米“投敵”24小時

智識漂流
2026-01-07 11:21:20
演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

大眼妹妹
2025-12-15 10:39:19
7 點被告知項目被搶走,我7點12分就提交離職報告,拉黑所有同事

7 點被告知項目被搶走,我7點12分就提交離職報告,拉黑所有同事

今天說故事
2026-01-03 23:56:51
劉世芳、鄭英耀是誰?“臺獨”頑固分子、打手幫兇最新清單

劉世芳、鄭英耀是誰?“臺獨”頑固分子、打手幫兇最新清單

環(huán)球網(wǎng)資訊
2026-01-07 13:36:11
想不到,用命守衛(wèi)馬杜羅到最后的,不是俄,也不是委,而是他們

想不到,用命守衛(wèi)馬杜羅到最后的,不是俄,也不是委,而是他們

策略述
2026-01-06 12:21:49
盧比奧一語道破委內(nèi)瑞拉荒誕真相:馬杜羅的江山,古巴人的管家

盧比奧一語道破委內(nèi)瑞拉荒誕真相:馬杜羅的江山,古巴人的管家

老馬拉車莫少裝
2026-01-05 21:46:08
又是全球銷冠!特斯拉Model Y:他們都不看好你,可你偏偏最爭氣

又是全球銷冠!特斯拉Model Y:他們都不看好你,可你偏偏最爭氣

鄰章
2026-01-05 10:32:05
你以為你看懂了?差遠著呢!盤點斷句錯誤惹出的笑死人的誤會笑話

你以為你看懂了?差遠著呢!盤點斷句錯誤惹出的笑死人的誤會笑話

另子維愛讀史
2026-01-06 21:26:59
海南一老人為救孫砍傷醉漢服刑8月:認定“正當防衛(wèi)”后申請國賠,法院決定賠償17萬元

海南一老人為救孫砍傷醉漢服刑8月:認定“正當防衛(wèi)”后申請國賠,法院決定賠償17萬元

封面新聞
2026-01-06 22:33:02
笑了!東部魚腩打爆雷霆!NBA或?qū)⒂惺吩娂壗灰?>
    </a>
        <h3>
      <a href=籃球?qū)崙?zhàn)寶典
2026-01-06 23:58:08
湖人進入最佳形態(tài)!東詹擋拆成殺器,艾頓態(tài)度回暖,還有2將輔助

湖人進入最佳形態(tài)!東詹擋拆成殺器,艾頓態(tài)度回暖,還有2將輔助

籃球資訊達人
2026-01-07 12:46:53
C羅與金姐的"臀"緣:當足球之王遇見翹臀女王

C羅與金姐的"臀"緣:當足球之王遇見翹臀女王

羅氏八卦
2026-01-07 08:21:53
上海vs青島前瞻:洛夫頓PK韋瑟斯龐引外援大戰(zhàn) 盧偉率隊沖8連勝

上海vs青島前瞻:洛夫頓PK韋瑟斯龐引外援大戰(zhàn) 盧偉率隊沖8連勝

狼叔評論
2026-01-07 11:51:16
欺辱舒淇,害死古龍,罵哭周星馳,明明是影壇惡霸,轉(zhuǎn)身奪得影帝

欺辱舒淇,害死古龍,罵哭周星馳,明明是影壇惡霸,轉(zhuǎn)身奪得影帝

老范談史
2026-01-07 12:55:37
淚流滿面!網(wǎng)傳昆山一家20多年外企撤場,N+1額外贈送一張購物卡

淚流滿面!網(wǎng)傳昆山一家20多年外企撤場,N+1額外贈送一張購物卡

火山詩話
2026-01-06 09:22:19
我65歲,退休金6千,回鄉(xiāng)下養(yǎng)老不到半年,卻要被親哥哥給逼瘋了

我65歲,退休金6千,回鄉(xiāng)下養(yǎng)老不到半年,卻要被親哥哥給逼瘋了

人間百態(tài)大全
2026-01-07 06:35:03
1952年,浙江嘉興有個老秀才快餓死了,硬著頭皮給北京寫了封信,信封上赫然寫著四個大字,主席看后只批了一句話,這人的命運一夜逆轉(zhuǎn)!

1952年,浙江嘉興有個老秀才快餓死了,硬著頭皮給北京寫了封信,信封上赫然寫著四個大字,主席看后只批了一句話,這人的命運一夜逆轉(zhuǎn)!

源溯歷史
2026-01-06 20:22:14
1967年,羅舜初叮囑到國防科委上班的李敏:千萬不要被人利用

1967年,羅舜初叮囑到國防科委上班的李敏:千萬不要被人利用

大運河時空
2026-01-06 10:40:03
2026-01-07 14:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12068文章數(shù) 142530關(guān)注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護城河

頭條要聞

外媒披露美國在委內(nèi)瑞拉下個目標:系馬杜羅關(guān)鍵盟友

頭條要聞

外媒披露美國在委內(nèi)瑞拉下個目標:系馬杜羅關(guān)鍵盟友

體育要聞

全明星次輪票數(shù):東契奇票王 詹皇超KD升西部第8

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財經(jīng)要聞

50萬億存款"洪流"將至 四大去向引關(guān)注

汽車要聞

蔚來2025百萬臺收官 一場遲到的自我修復

態(tài)度原創(chuàng)

健康
數(shù)碼
親子
時尚
軍事航空

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

“最強驍龍筆記本”:華碩推出Zenbook A16

親子要聞

趕快轉(zhuǎn)給另一半

冬天穿衣既要有溫度又要有風度!看看這些穿搭,優(yōu)雅又顯瘦

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項

無障礙瀏覽 進入關(guān)懷版