国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI 創(chuàng)造力源于“極度壓縮” | 辛頓 VS Google 首席科學(xué)家

0
分享至



近日,在美國(guó)圣地亞哥舉行的 NeurIPS大會(huì)現(xiàn)場(chǎng),Google 首席科學(xué)家、Gemini 共同負(fù)責(zé)人 Jeff Dean 以及諾獎(jiǎng)得主 Geoffrey Hinton 進(jìn)行了一場(chǎng)關(guān)于人工智能歷史與未來(lái)的圓桌對(duì)話。本次對(duì)話,兩位嘉賓回顧了從深度學(xué)習(xí)早期突破到當(dāng)下挑戰(zhàn)與機(jī)遇的種種歷程,Google Brain 創(chuàng)立初期、深入探討了Scaling Law在工業(yè)界的首次確證、Transformer 與 MoE的演進(jìn)邏輯、TPU 芯片的戰(zhàn)略護(hù)城河、Google 面對(duì) LLM 浪潮的內(nèi)部抉擇,以及兩位嘉賓關(guān)于“壓縮即創(chuàng)造”與 AI 加速科學(xué)發(fā)現(xiàn)的未來(lái)愿景。

嘉賓一致認(rèn)為,盡管算法精進(jìn)很重要,但將模型規(guī)模與數(shù)據(jù)量提升到超越當(dāng)時(shí)認(rèn)知的水準(zhǔn),是實(shí)現(xiàn)智能飛躍的確定性路徑。Hinton 提出,大模型的本質(zhì)是將海量知識(shí)壓縮到有限的連接中,這種極度壓縮迫使模型挖掘不同知識(shí)點(diǎn)背后的深層共性,從而產(chǎn)生了人類未曾察覺(jué)的跨學(xué)科創(chuàng)造力。

Jeff Dean 首次詳盡還原了自研芯片 TPU 的啟動(dòng)邏輯。他指出,正是預(yù)見到 1 億用戶每天使用語(yǔ)音功能將迫使 Google 服務(wù)器翻倍的巨大財(cái)務(wù)風(fēng)險(xiǎn),才驅(qū)動(dòng)了專注于低精度運(yùn)算的專用集成電路(ASIC)研發(fā)。Jeff Dean 強(qiáng)調(diào),神經(jīng)網(wǎng)絡(luò)對(duì)計(jì)算誤差具有天然的寬容度,甚至不需要糾錯(cuò)內(nèi)存,這種“結(jié)構(gòu)性優(yōu)勢(shì)”是 AI 能夠?qū)崿F(xiàn)數(shù)十億倍算力擴(kuò)展的基石。

展望未來(lái),Hinton 認(rèn)為 AI 導(dǎo)師將憑借數(shù)百萬(wàn)學(xué)生的教學(xué)經(jīng)驗(yàn)積累,在教育領(lǐng)域徹底超越人類私人教師;而 Jeff Dean 則期待 AI 能發(fā)現(xiàn)跨學(xué)科間的隱秘聯(lián)系,實(shí)現(xiàn)科學(xué)發(fā)現(xiàn)的全自動(dòng)化,開啟“研究全自動(dòng)時(shí)代”。

01

并行計(jì)算與神經(jīng)網(wǎng)絡(luò)結(jié)合的早期探索奠定了基礎(chǔ)

反向傳播算法雖然在 1986 年正式發(fā)表,但其潛力在 1982 年左右就已初顯。Jeff Dean 在 1990 年的本科論文就選擇了神經(jīng)網(wǎng)絡(luò)并行算法。當(dāng)時(shí)你在 32 處理器計(jì)算機(jī)上的研究是否讓你成為了第一個(gè)意識(shí)到擴(kuò)展算力是關(guān)鍵的人?Geoffrey,你又是何時(shí)領(lǐng)悟到算力的重要性?

Jeff Dean: 我當(dāng)時(shí)修了兩門并行算法系列課程,其中花了一周左右研究神經(jīng)網(wǎng)絡(luò)。我對(duì)此非常著迷,于是向明尼蘇達(dá)大學(xué)的 Vipin Kumar 教授申請(qǐng)做關(guān)于神經(jīng)網(wǎng)絡(luò)訓(xùn)練并行算法的榮譽(yù)論文。系里當(dāng)時(shí)有一臺(tái) 32 處理器的超立方體計(jì)算機(jī)。我想,如果能獲得 32 倍的算力,就能制造出不可思議的神經(jīng)網(wǎng)絡(luò)。其實(shí)我當(dāng)時(shí)也沒(méi)完全領(lǐng)悟,我當(dāng)時(shí)做的加速曲線并不理想,因?yàn)槲曳噶艘粋€(gè)錯(cuò)誤:在增加處理器數(shù)量時(shí)沒(méi)有同步擴(kuò)大模型規(guī)模。當(dāng)我試圖將 10 個(gè)神經(jīng)元的層分布到 32 個(gè)處理器上時(shí),效果非常糟糕。不過(guò)那次嘗試很有意義,我實(shí)際上創(chuàng)建了兩種模式:一種是現(xiàn)在所說(shuō)的數(shù)據(jù)并行訓(xùn)練,另一種是模型并行訓(xùn)練,只不過(guò)我當(dāng)時(shí)給它們起了些奇怪的名字。

Geoffrey Hinton: 我本該在 80 年代后期就意識(shí)到這一點(diǎn)。當(dāng)時(shí)有兩個(gè)研究團(tuán)隊(duì)投入巨大精力利用并行計(jì)算構(gòu)建更好的語(yǔ)音聲學(xué)模型。他們得到的模型性能達(dá)到了當(dāng)時(shí)的頂尖水平,優(yōu)于普通處理器運(yùn)行的效果。那一刻我們就該明白,只要把規(guī)模做大,效果就會(huì)更好。但當(dāng)時(shí)大規(guī)模運(yùn)行需要極其復(fù)雜的編程和硬件,由于種種限制,我們當(dāng)時(shí)并沒(méi)能真正吸取這個(gè)教訓(xùn),現(xiàn)在想來(lái)確實(shí)有些遺憾。直到 2014 年左右聽了 Ilya Sutskever 的一場(chǎng)演講,我才真正完全領(lǐng)悟到 Scaling Law 的威力。這已經(jīng)非常晚了,我之前沒(méi)意識(shí)到模型可以一直通過(guò)這種方式擴(kuò)展下去。

你們挑選的學(xué)生和博士后名單非常顯赫,包括 Yann LeCun、Ilya Sutskever 等人。Jeff 曾說(shuō)過(guò)衡量成就的一種方式是看研究生的表現(xiàn)。當(dāng)你們?cè)谔暨x學(xué)生進(jìn)入實(shí)驗(yàn)室時(shí),最看重哪些特質(zhì)?

Geoffrey Hinton: 我特別看重那些有過(guò)原創(chuàng)想法并付諸行動(dòng)的人。我常會(huì)問(wèn)面試者,你產(chǎn)生過(guò)的最好的想法是什么?有些學(xué)生雖然課程全優(yōu),但卻解釋說(shuō)因?yàn)檫€沒(méi)讀研究生所以還沒(méi)有自己的想法。對(duì)于這類人,我通常不會(huì)選擇。

02

深度學(xué)習(xí)的工業(yè)爆發(fā)點(diǎn)

多倫多大學(xué)那個(gè)簡(jiǎn)陋的實(shí)驗(yàn)室最終創(chuàng)造了 AlexNet。當(dāng)時(shí)為什么要參加 ImageNet 比賽?能談?wù)劗?dāng)時(shí)使用了多少算力,以及硬件設(shè)施背后的故事嗎?

Geoffrey Hinton: 幾年前 Vlad Mnih 曾嘗試使用 NVIDIA 的 GPU 識(shí)別航拍圖像中的道路,他在復(fù)雜的城市環(huán)境中做得非常出色。這項(xiàng)研究得到了政府的一項(xiàng)戰(zhàn)略資助。在 Vlad 證明了多層網(wǎng)絡(luò)遠(yuǎn)優(yōu)于單層網(wǎng)絡(luò)后,我申請(qǐng)了資助續(xù)期。當(dāng)時(shí)的核心爭(zhēng)議在于增加層數(shù)是否真的能提升性能,而他證明了每多一層效果就會(huì)變好,這是一個(gè)非常深刻的結(jié)論。隨后我申請(qǐng)資助續(xù)期,卻有一位評(píng)審員認(rèn)為這項(xiàng)研究不可能產(chǎn)生工業(yè)影響。我真想告訴他,這類技術(shù)貢獻(xiàn)了去年美國(guó)股市 80% 的增長(zhǎng)。

(關(guān)于 GPU 的潛力)通過(guò)這項(xiàng)工作,我們意識(shí)到 GPU 的潛力。某天我讓 Alex Krizhevsky 嘗試識(shí)別類似 MNIST 規(guī)模的小圖。我記得 Alex 第一次嘗試時(shí)告訴我不成功,我去檢查代碼發(fā)現(xiàn)他把權(quán)重衰減參數(shù)設(shè)成了 1。我告訴他應(yīng)該設(shè)為 0.0001。學(xué)生在剛接觸新事物時(shí)可能顯得缺乏經(jīng)驗(yàn),但 Alex 進(jìn)步得飛快。隨后 Ilya 提議把技術(shù)應(yīng)用到 ImageNet 上,并搶在其他人之前做出來(lái)。Ilya 親自做了數(shù)據(jù)預(yù)處理,將所有圖像處理成統(tǒng)一尺寸。結(jié)果證明效果驚人。接著我做出了一個(gè)明智的管理決策。當(dāng)時(shí) Alex 需要完成綜合考試,但他一心只想做研究。于是我說(shuō),只要他在 ImageNet 上的準(zhǔn)確率每周提高 1%,就可以推遲考試。結(jié)果他連續(xù)推遲了好幾個(gè)月。當(dāng)時(shí)訓(xùn)練用的設(shè)施就在 Alex 臥室里的兩塊 GPU 板卡上。板卡是我們買的,電費(fèi)是他父母交的,這也算幫學(xué)校省了錢。

03

超大規(guī)模模型結(jié)合海量數(shù)據(jù)是性能跨越式提升的確定性方向

在 AlexNet 誕生前,Google Brain 團(tuán)隊(duì)啟動(dòng)了 DistBelief 項(xiàng)目。它的起源是怎樣的?那場(chǎng)動(dòng)用了 1.6 萬(wàn)個(gè) CPU 核心的 YouTube 實(shí)驗(yàn)是否讓你們預(yù)見到了 AlexNet 的成功?

Jeff Dean: Google Brain 團(tuán)隊(duì)的起源源于我碰巧遇到了 Andrew Ng。他當(dāng)時(shí)剛開始在 Google 兼職。他在微型廚房告訴我,他在斯坦福的學(xué)生們用神經(jīng)網(wǎng)絡(luò)跑出了一些很棒的結(jié)果。這勾起了我對(duì)本科論文時(shí)期神經(jīng)網(wǎng)絡(luò)研究的回憶。于是我提議,為什么不在 Google 訓(xùn)練真正超大規(guī)模的神經(jīng)網(wǎng)絡(luò)?我們有海量的機(jī)器。當(dāng)時(shí)數(shù)據(jù)中心主要使用 CPU 集群。我開始編寫一個(gè)軟件抽象庫(kù),通過(guò)模型并行和數(shù)據(jù)并行將計(jì)算任務(wù)分配到大量機(jī)器上。我們最終使訓(xùn)練規(guī)模比當(dāng)時(shí)已知水平擴(kuò)大了 50 倍。

(關(guān)于 YouTube 實(shí)驗(yàn))我們完成了一項(xiàng)著名的實(shí)驗(yàn),在 1000 萬(wàn)個(gè)隨機(jī) YouTube 視頻幀上進(jìn)行無(wú)監(jiān)督學(xué)習(xí)。不過(guò)我們當(dāng)時(shí)犯了一個(gè)大錯(cuò),雖然采用了局部連接模式,但為了追求生物合理性而沒(méi)有使用卷積。結(jié)果我們搞出了一個(gè)擁有 20 億個(gè)獨(dú)立參數(shù)的龐然大物。最終我們?cè)诎?2.2 萬(wàn)個(gè)類別的 ImageNet 數(shù)據(jù)集上進(jìn)行了訓(xùn)練,相比當(dāng)時(shí)的頂尖技術(shù),誤差降低了 70%。那次訓(xùn)練動(dòng)用了 1.6 萬(wàn)個(gè) CPU 核心。我們由此明確觀察到,模型越大效果越好。隨后我們將這個(gè)軟件庫(kù)應(yīng)用到語(yǔ)音識(shí)別和計(jì)算機(jī)視覺(jué)等領(lǐng)域。雖然當(dāng)時(shí)沒(méi)正式提出 Scaling Law,但我們心里都清楚:大模型加海量數(shù)據(jù)就是未來(lái)。所以當(dāng) AlexNet 橫空出世時(shí),我們可能是極少數(shù)不感到驚訝的人,因?yàn)樵?AlexNet 結(jié)果公布的前一年,我們已經(jīng)在更大規(guī)模的數(shù)據(jù)集上看到了巨大的性能提升。

04

早期 Google Brain 的黃金時(shí)代

為什么當(dāng)初堅(jiān)定地選擇了 Google?當(dāng)時(shí)只有 20 人左右的 Google Brain 團(tuán)隊(duì)內(nèi)部氛圍是怎樣的,是否有某些瞬間讓你感受到了工業(yè)界與學(xué)術(shù)界在資源支持上的巨大差異?

Geoffrey Hinton: 堅(jiān)定選擇 Google 主要是因?yàn)?Google Brain 團(tuán)隊(duì)的氛圍極佳。我當(dāng)時(shí)就知道我們?cè)?Google 一定會(huì)工作得很開心。我記得剛從大學(xué)進(jìn)入工業(yè)界時(shí),有一次算力資源耗盡了。我聽到 Jeff 在電話里說(shuō),兩百萬(wàn)美元應(yīng)該夠了。這讓我感觸很深,在大學(xué)里想申請(qǐng)兩百萬(wàn)美元的算力經(jīng)費(fèi),需要寫好幾年的撥款申請(qǐng)。

Jeff Dean: 早期的 Brain 團(tuán)隊(duì)確實(shí)充滿樂(lè)趣,大家都覺(jué)得那段時(shí)光非常棒。當(dāng)時(shí)一切都是全新的,雖然不知道未來(lái)走向何方,但大家篤信模型越大、數(shù)據(jù)越多,效果就越好。當(dāng)時(shí) Brain 團(tuán)隊(duì)大約有 20 人,我們都在一個(gè)不算大的辦公室里辦公。

在進(jìn)入 Google 后的幾年里,團(tuán)隊(duì)產(chǎn)出了許多重要成果。Geoffrey 你曾堅(jiān)持研究被 Jeff 和 Ilya 質(zhì)疑的“膠囊網(wǎng)絡(luò)”,這種科研韌性來(lái)自哪里?此外,2014 年提出的“知識(shí)蒸餾”技術(shù)最初竟被 NIPS 拒絕,審稿人的盲點(diǎn)在哪里?

Geoffrey Hinton: 我研究了一個(gè)叫膠囊網(wǎng)絡(luò)的項(xiàng)目。這是堅(jiān)持科研決心的典型例子,如果你選對(duì)了方向,巨大的決心會(huì)帶來(lái)極佳的結(jié)果,但如果選錯(cuò)了方向,則會(huì)虛耗多年且一無(wú)所獲。早期 Jeff 和 Ilya 都建議我停止研究膠囊網(wǎng)絡(luò),但這反而讓我更加堅(jiān)定。

(關(guān)于知識(shí)蒸餾)我也為 Google 做出了一些實(shí)用貢獻(xiàn),比如 2014 年提出的知識(shí)蒸餾 (Distillation) 技術(shù)。我記得這篇論文最初被 NIPS 拒絕了,審稿人認(rèn)為學(xué)生模型的表現(xiàn)不會(huì)超過(guò)老師模型,完全沒(méi)理解其中的邏輯。事實(shí)證明,蒸餾技術(shù)非常有用,這一點(diǎn)看看 DeepSeek 就知道了。那是一個(gè)匿名審稿人給的意見。我真希望知道是誰(shuí)在加拿大的報(bào)告里寫過(guò),深度神經(jīng)網(wǎng)絡(luò)的研究永遠(yuǎn)不會(huì)產(chǎn)生工業(yè)影響。

在 AlexNet 爆發(fā)之前,你曾嘗試將實(shí)驗(yàn)室頂尖的語(yǔ)音聲學(xué)模型推薦給黑莓的母公司 RIM,但遭到了冷遇。這段故事背后的細(xì)節(jié)是怎樣的?這項(xiàng)技術(shù)后來(lái)是如何通過(guò)你的學(xué)生 Navdeep 在 Google 內(nèi)部力排眾議并最終取得成功的?

Geoffrey Hinton: George Dahl 和 Abdel-rahman Mohamed 開發(fā)了一個(gè)非常出色的語(yǔ)音聲學(xué)模型,其表現(xiàn)優(yōu)于當(dāng)時(shí)最好的模型。我的學(xué)生 Navdeep 曾想去那家公司(RIM)實(shí)習(xí),我聯(lián)系了他們,表示我們有一種更好的語(yǔ)音識(shí)別方法想提供給他們,并希望學(xué)生能去展示。但對(duì)方回復(fù)說(shuō),他們對(duì)語(yǔ)音識(shí)別不感興趣,畢竟他們當(dāng)時(shí)擁有全鍵盤,覺(jué)得不需要語(yǔ)音功能。

(關(guān)于后續(xù)發(fā)展)諷刺的是,該公司的創(chuàng)始人后來(lái)一直在抱怨加拿大的研究成果沒(méi)能在本土轉(zhuǎn)化,但實(shí)際上是他們自己決定放棄這項(xiàng)技術(shù)的。后來(lái) Navdeep 去了 Google 蒙特利爾實(shí)驗(yàn)室。雖然主管 Vincent 最初認(rèn)為改變 Google 的語(yǔ)音識(shí)別方式是個(gè)過(guò)于宏大的目標(biāo),但在 Navdeep 的堅(jiān)持下,他獲得了 GPU 資源并最終取得了成功。

05

Transformer 的誕生與 MoE 的乘數(shù)效應(yīng)

誕生于 Google Brain 的 Transformer 徹底改變了 AI 進(jìn)程。在研發(fā)過(guò)程中,內(nèi)部是否意識(shí)到這是一個(gè)劃時(shí)代的突破?從注意力機(jī)制的引入到專家混合模型(MoE)的結(jié)合,算法改進(jìn)與算力規(guī)模是如何共同作用,使現(xiàn)在的計(jì)算量達(dá)到十年前數(shù)十億倍的?

Jeff Dean:我認(rèn)為引發(fā)關(guān)注的起點(diǎn)是 Ilya 等人完成的序列到序列工作,該研究使用大規(guī)模 LSTM,最初在語(yǔ)言翻譯上取得了極好效果。我們當(dāng)時(shí)一直在嘗試擴(kuò)大 LSTM 規(guī)模,后來(lái)有人意識(shí)到,如果每個(gè)時(shí)間步都試圖將所有信息打包進(jìn)一個(gè)向量中,會(huì)面臨序列依賴導(dǎo)致的計(jì)算瓶頸和容量限制。如果能保存所有狀態(tài)并利用注意力機(jī)制予以處理,會(huì)是更好的選擇。這一理念隨后演化為 Transformer,其核心是保存并關(guān)注所有狀態(tài),這實(shí)現(xiàn)了計(jì)算的并行化,徹底擺脫了序列依賴,并且在解碼或編碼時(shí)可以查看更豐富的歷史狀態(tài)。

(關(guān)于注意力機(jī)制)Geoffrey Hinton:注意力機(jī)制最初被 Bahdanau 用于機(jī)器翻譯,在生成法語(yǔ)譯文之前保留完整的英語(yǔ)句子是合理的,當(dāng)時(shí)的上下文規(guī)模并不大,他們將這種簡(jiǎn)單的注意力機(jī)制引入序列到序列模型后取得了巨大成功。Transformer 剛出現(xiàn)時(shí)我關(guān)注不夠,因?yàn)槲矣X(jué)得大腦并不是通過(guò)保留所有神經(jīng)活動(dòng)向量副本這種方式運(yùn)作的。

(關(guān)于 MoE 與效率提升)現(xiàn)在看來(lái),可以通過(guò)快速權(quán)重等方式來(lái)近似模擬這一過(guò)程。第一篇 Transformer 論文證明,可以用少十倍到一百倍的算力獲得同等質(zhì)量的結(jié)果,或者在同等算力下獲得極高的質(zhì)量。我們?cè)谙∈杓せ钅P偷囊?guī)?;弦踩〉昧祟愃平Y(jié)果,算力效率提升了十倍。這兩項(xiàng)技術(shù)是互補(bǔ)的。現(xiàn)在我們將基于 Transformer 的專家混合模型結(jié)合在一起,性能提升產(chǎn)生了乘數(shù)效應(yīng)。在過(guò)去十年中,算法改進(jìn)與更快的芯片、更大的訓(xùn)練規(guī)模相結(jié)合,使現(xiàn)在的計(jì)算量達(dá)到了十年前的數(shù)十億倍。我記得 2012 年左右,系統(tǒng)管理員在安裝新的 Titan 顯卡時(shí)動(dòng)作稍慢,我當(dāng)時(shí)就在計(jì)算他浪費(fèi)了多少算力,如果我在 1986 年用 Lisp 機(jī)器運(yùn)行神經(jīng)網(wǎng)絡(luò),這塊新顯卡只需要一分鐘就能追上它跑了二十多年的工作量。

Jeff Dean我們當(dāng)時(shí)在適中規(guī)模的團(tuán)隊(duì)里,短時(shí)間內(nèi)識(shí)別出了知識(shí)蒸餾、Transformer、序列到序列模型以及詞向量模型等成果。Transformer 在當(dāng)時(shí)看來(lái)是重大突破,但我們當(dāng)時(shí)并未預(yù)見到它會(huì)比其他技術(shù)重要得多,盡管它現(xiàn)在確實(shí)被證明極其有用。

06

Google 錯(cuò)過(guò)“ChatGPT 時(shí)刻”的內(nèi)幕

在 ChatGPT 出現(xiàn)前,Google 內(nèi)部已有 PaLM 等表現(xiàn)卓越的聊天機(jī)器人且擁有八萬(wàn)多名內(nèi)部用戶。當(dāng)時(shí)內(nèi)部是否討論過(guò)以顛覆自身業(yè)務(wù)的方式發(fā)布它?Google 是否后悔開源了 Transformer 論文,以及當(dāng)前的論文發(fā)表政策在競(jìng)爭(zhēng)壓力下有何調(diào)整?

Geoffrey Hinton在 ChatGPT 之前,Microsoft 發(fā)布的聊天機(jī)器人 Tay 曾因噴射仇恨言論而嚇壞了所有人。Google 在發(fā)布這類模型時(shí)非常謹(jǐn)慎,其實(shí)在 ChatGPT 之前,Google 已經(jīng)擁有了像 PaLM 這樣表現(xiàn)出色的聊天機(jī)器人,只是當(dāng)時(shí)還沒(méi)引入人類反饋強(qiáng)化學(xué)習(xí),也沒(méi)意識(shí)到通過(guò)少量樣本就能有效抑制模型產(chǎn)生負(fù)面內(nèi)容。

Jeff Dean(關(guān)于搜索產(chǎn)品的考量)我們當(dāng)時(shí)在 Google 內(nèi)部有一個(gè)使用率極高的聊天機(jī)器人,在疫情期間有大約八萬(wàn)名員工在使用,大家都覺(jué)得它非常有用。但我們當(dāng)時(shí)確實(shí)有些目光短淺,由于它存在幻覺(jué)和事實(shí)性錯(cuò)誤,如果從搜索產(chǎn)品的角度來(lái)看,這是不可接受的。我們當(dāng)時(shí)沒(méi)能完全理解聊天系統(tǒng)在核心搜索之外的廣泛用途,比如協(xié)助起草信函或總結(jié)論文等功能。單純從搜索產(chǎn)品的視角來(lái)看,我們當(dāng)時(shí)認(rèn)為它還沒(méi)準(zhǔn)備好作為產(chǎn)品推向市場(chǎng),但從用戶價(jià)值的角度來(lái)看,員工反饋極其正面。因此,在正式對(duì)外發(fā)布前,我們希望先解決事實(shí)準(zhǔn)確性與幻覺(jué)問(wèn)題。

(關(guān)于論文發(fā)表政策)Google 不會(huì)后悔發(fā)表關(guān)于 Transformer 的論文,因?yàn)樗鼘?duì)世界產(chǎn)生了非常深遠(yuǎn)且正向的影響。實(shí)際上我們?nèi)匀话l(fā)表了大量成果,在 NeurIPS 的議程中,Google 通常有一百多篇論文入選。在超大規(guī)模模型領(lǐng)域,由于競(jìng)爭(zhēng)異常激烈,我們對(duì)涉及核心商業(yè)利益的技術(shù)細(xì)節(jié)確實(shí)更加謹(jǐn)慎,比如我們不會(huì)公布 Gemini 訓(xùn)練方案的具體細(xì)節(jié)。但對(duì)于邊緣領(lǐng)域或早期研究,我們依然樂(lè)于輸出觀點(diǎn),堅(jiān)持發(fā)表論文也是吸引頂尖人才的競(jìng)爭(zhēng)優(yōu)勢(shì)。Google 的研究體系非常龐大,這保證了論文發(fā)表的廣泛性。

07

TPU 的秘密:自研硬件構(gòu)筑的結(jié)構(gòu)性優(yōu)勢(shì)

TPU 被視為 Google 面對(duì)競(jìng)爭(zhēng)時(shí)的護(hù)城河。這個(gè)項(xiàng)目最初是如何啟動(dòng)的,你是如何說(shuō)服 CFO 在用途尚不明確時(shí)投入巨資的?神經(jīng)網(wǎng)絡(luò)對(duì)低精度運(yùn)算的“寬容”如何影響了硬件設(shè)計(jì)的效率,TPU 的迭代如何改變了芯片研發(fā)的范式?

Jeff DeanTPU 項(xiàng)目源于我們?cè)谡Z(yǔ)音識(shí)別和計(jì)算機(jī)視覺(jué)模型上取得的突破。當(dāng)時(shí)我意識(shí)到,如果用傳統(tǒng)的 CPU 平臺(tái)運(yùn)行這些模型,計(jì)算成本將不可想象。假設(shè)有 1 億用戶每天使用 3 分鐘語(yǔ)音功能,改用 CPU 運(yùn)行意味著 Google 必須將服務(wù)器數(shù)量翻倍。我們預(yù)見到強(qiáng)大神經(jīng)網(wǎng)絡(luò)將無(wú)處不在,神經(jīng)網(wǎng)絡(luò)的運(yùn)算類型非常單一,且對(duì)低精度運(yùn)算極其寬容,因?yàn)榈途葞?lái)的噪聲正是神經(jīng)網(wǎng)絡(luò)所適應(yīng)的。

Geoffrey Hinton(關(guān)于硬件設(shè)計(jì)的容忍度)而且你甚至不需要糾錯(cuò)內(nèi)存,因?yàn)閭€(gè)別位的錯(cuò)誤對(duì)整體結(jié)果幾乎沒(méi)有影響。

Jeff Dean沒(méi)錯(cuò),這就像是隨機(jī)失活。當(dāng)時(shí)我認(rèn)為,如果建立一個(gè)硬件團(tuán)隊(duì)最初專注于推理環(huán)節(jié),將能極大緩解大規(guī)模部署時(shí)的計(jì)算壓力。于是我們決定直接研發(fā)定制 ASIC,因?yàn)?FPGA 雖然靈活,但性能損耗會(huì)抵消收益。我當(dāng)時(shí)在走廊里攔住了首席財(cái)務(wù)官,說(shuō)服他在用途尚不完全明確的情況下,先部署價(jià)值 5000 萬(wàn)美元的硬件。最終,這些設(shè)備在語(yǔ)音、視覺(jué)和翻譯業(yè)務(wù)中發(fā)揮了巨大作用。隨后硬件團(tuán)隊(duì)轉(zhuǎn)向了規(guī)模更大的訓(xùn)練問(wèn)題,致力于讓大量芯片通過(guò)超高速互連協(xié)同工作,構(gòu)建起機(jī)器學(xué)習(xí)超級(jí)計(jì)算機(jī)。目前我們已經(jīng)迭代了多代產(chǎn)品,其布局效率已全面超越傳統(tǒng)的人工設(shè)計(jì)方案,這改進(jìn)了芯片的質(zhì)量和研發(fā)速度。

08

大模型的本質(zhì)是通過(guò)壓縮挖掘深層共性

Transformer 會(huì)被取代嗎?展望 20 年后,這項(xiàng)技術(shù)會(huì)給人類社會(huì)帶來(lái)怎樣的劇變?你們?nèi)绾味x大模型的“創(chuàng)造力”,以及 AI 將如何在醫(yī)療與教育領(lǐng)域徹底重構(gòu)現(xiàn)有的生產(chǎn)力分配?

Jeff Dean有一些趨勢(shì)值得關(guān)注,如果我們能讓模型處理數(shù)萬(wàn)億 Token,它就能直接閱讀海量的科學(xué)文獻(xiàn)庫(kù)或視頻庫(kù),這會(huì)徹底改變模型的應(yīng)用范式。這需要更節(jié)能的硬件支撐。目前的模型大多是靜態(tài)訓(xùn)練的,模型在服務(wù)用戶時(shí)應(yīng)當(dāng)具備進(jìn)化的能力。當(dāng)前的架構(gòu)依然不夠自由,不像人腦那樣靈活,我們需要探索更有趣的連接模式,而非目前這種由同等規(guī)模專家組成的稀疏 MoE 架構(gòu)。

Geoffrey Hinton(關(guān)于社會(huì)變革風(fēng)險(xiǎn))如果有人造出它,要么人類從此過(guò)上幸福生活,要么集體走向終結(jié),沒(méi)有人能準(zhǔn)確預(yù)見 20 年后的社會(huì)變革。顯而易見的是,大量工作崗位會(huì)消失,這需要通過(guò)社會(huì)制度的演進(jìn)來(lái)解決生產(chǎn)力提升后的財(cái)富分配問(wèn)題。

Jeff Dean(關(guān)于科學(xué)與創(chuàng)造力)我最期待的是 AI 對(duì)科學(xué)研究的加速作用。它能發(fā)現(xiàn)跨學(xué)科間的隱秘聯(lián)系,并在某些領(lǐng)域?qū)崿F(xiàn)科學(xué)發(fā)現(xiàn)的全自動(dòng)化。

Geoffrey Hinton大模型的本質(zhì)是將海量知識(shí)壓縮到有限的連接中,這種壓縮過(guò)程迫使模型挖掘不同知識(shí)點(diǎn)背后的深層共性。它們已經(jīng)在人類未曾察覺(jué)的地方找到了這些聯(lián)系,比如希臘文學(xué)與量子力學(xué)之間可能存在的類比。這種極度壓縮的能力讓 AI 展現(xiàn)出真正的創(chuàng)造力。

(關(guān)于醫(yī)療與教育的未來(lái))在醫(yī)療領(lǐng)域,效率提升意味著每個(gè)人都能獲得更優(yōu)質(zhì)的醫(yī)療服務(wù),而非醫(yī)生人數(shù)的減少。在教育方面,AI 導(dǎo)師將通過(guò)積累數(shù)百萬(wàn)名學(xué)生的教學(xué)經(jīng)驗(yàn),最終超越人類私人教師,幫助人類吸收多得多的知識(shí)。

| 文章來(lái)源:數(shù)字開物

【AI技術(shù)與應(yīng)用交流群|僅限受邀加入】

AI算力領(lǐng)域TOP級(jí)從業(yè)者專屬圈層

√ 與頭部算力企業(yè)深度對(duì)話

√ 與AI上下游企業(yè)深度對(duì)話

√ 獲取一手全球AI與算力產(chǎn)業(yè)信息

√ 獲取AI熱點(diǎn)及前沿產(chǎn)業(yè)獨(dú)家信息

√ 隨時(shí)了解全球AI領(lǐng)域高管最新觀點(diǎn)及實(shí)錄全文

√ 有機(jī)會(huì)參與AI主題產(chǎn)業(yè)交流活動(dòng)

掃碼驗(yàn)證身份(需備注姓名/公司/職務(wù)

不止有 DeepSeek,更有 AI產(chǎn)業(yè)的未來(lái)!

? END ?

【專欄】精品再讀

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
曹建國(guó)已從院士名單中撤下

曹建國(guó)已從院士名單中撤下

觀察者網(wǎng)
2025-12-27 14:20:07
緊急!多品牌洗發(fā)水暗含致癌物,趕緊自查你家洗漱臺(tái)有沒(méi)有!

緊急!多品牌洗發(fā)水暗含致癌物,趕緊自查你家洗漱臺(tái)有沒(méi)有!

今朝牛馬
2025-12-26 17:16:28
沉寂1天,高市早苗終于簽字,日本砸9萬(wàn)億反華,解放軍動(dòng)作更大

沉寂1天,高市早苗終于簽字,日本砸9萬(wàn)億反華,解放軍動(dòng)作更大

博覽歷史
2025-12-27 18:50:49
不被允許的欲望:老年人性需求正在演變?yōu)橹卮蠊残l(wèi)生風(fēng)險(xiǎn)

不被允許的欲望:老年人性需求正在演變?yōu)橹卮蠊残l(wèi)生風(fēng)險(xiǎn)

黑噪音
2025-12-27 20:51:40
銀行女經(jīng)理挪用12個(gè)儲(chǔ)戶3000萬(wàn),事發(fā)后與丈夫雙雙自盡,儲(chǔ)戶天塌了

銀行女經(jīng)理挪用12個(gè)儲(chǔ)戶3000萬(wàn),事發(fā)后與丈夫雙雙自盡,儲(chǔ)戶天塌了

觀世記
2025-12-27 15:02:35
徐湖平被查,兒子兒媳光速跑路!這家人的操作比宮斗劇還“精彩”

徐湖平被查,兒子兒媳光速跑路!這家人的操作比宮斗劇還“精彩”

畫夕
2025-12-27 20:28:24
金燦榮與“聽風(fēng)的蠶”首次同框,開聊中美關(guān)系

金燦榮與“聽風(fēng)的蠶”首次同框,開聊中美關(guān)系

大象新聞
2025-12-26 12:41:08
醫(yī)生提醒:若長(zhǎng)期一天只吃兩頓飯,用不了半年,或患上這4種疾病

醫(yī)生提醒:若長(zhǎng)期一天只吃兩頓飯,用不了半年,或患上這4種疾病

瑛派兒老黃
2025-12-24 08:05:26
銀比油貴時(shí)隔45年再現(xiàn)!現(xiàn)貨白銀日漲超10%,歷史信號(hào)警告到來(lái)!

銀比油貴時(shí)隔45年再現(xiàn)!現(xiàn)貨白銀日漲超10%,歷史信號(hào)警告到來(lái)!

聞號(hào)說(shuō)經(jīng)濟(jì)
2025-12-27 15:08:54
女子疑似在紐約地鐵逃票被夾頭,脖子被卡閘口無(wú)法掙脫,網(wǎng)民批:新閘機(jī)如同“斷頭臺(tái)”

女子疑似在紐約地鐵逃票被夾頭,脖子被卡閘口無(wú)法掙脫,網(wǎng)民批:新閘機(jī)如同“斷頭臺(tái)”

極目新聞
2025-12-27 19:52:27
法國(guó)、德國(guó)、英國(guó)、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國(guó)發(fā)表聯(lián)合聲明

法國(guó)、德國(guó)、英國(guó)、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國(guó)發(fā)表聯(lián)合聲明

每日經(jīng)濟(jì)新聞
2025-12-25 07:29:06
中方布局奏效,防的就是特朗普,美出爾反爾,醞釀對(duì)華加征新關(guān)稅

中方布局奏效,防的就是特朗普,美出爾反爾,醞釀對(duì)華加征新關(guān)稅

興史興談
2025-12-27 03:10:25
赴日游降溫?日本人自己都笑了

赴日游降溫?日本人自己都笑了

大道微言
2025-12-27 16:59:47
付豪33分賽季新高遼寧惜敗北控 廖三寧16助攻佩里28+18

付豪33分賽季新高遼寧惜敗北控 廖三寧16助攻佩里28+18

醉臥浮生
2025-12-27 21:31:22
中山大學(xué)教授太不要臉了!高中生兒子發(fā)表3篇SCI論文,被質(zhì)疑學(xué)術(shù)造假

中山大學(xué)教授太不要臉了!高中生兒子發(fā)表3篇SCI論文,被質(zhì)疑學(xué)術(shù)造假

回旋鏢
2025-12-27 19:14:15
即將與澤連斯基會(huì)晤,特朗普放話:未經(jīng)我批準(zhǔn),他無(wú)法敲定任何事

即將與澤連斯基會(huì)晤,特朗普放話:未經(jīng)我批準(zhǔn),他無(wú)法敲定任何事

環(huán)球網(wǎng)資訊
2025-12-27 09:02:08
有一說(shuō)一,楊瀚森在開拓者是沒(méi)有前途的,因?yàn)榭肆指珒?yōu)秀……!

有一說(shuō)一,楊瀚森在開拓者是沒(méi)有前途的,因?yàn)榭肆指珒?yōu)秀……!

田先生籃球
2025-12-27 17:02:53
保定大量商戶突然關(guān)閉,整個(gè)街道冷冷清清

保定大量商戶突然關(guān)閉,整個(gè)街道冷冷清清

映射生活的身影
2025-12-27 18:09:05
中國(guó)經(jīng)濟(jì)的未來(lái),取決于分配制度的改革

中國(guó)經(jīng)濟(jì)的未來(lái),取決于分配制度的改革

生命可以承受之輕
2025-12-27 11:07:22
曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

裕豐娛間說(shuō)
2025-12-28 00:07:11
2025-12-28 05:43:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

游戲
藝術(shù)
房產(chǎn)
公開課
軍事航空

我真幸運(yùn):《泰拉瑞亞》1.4.5更新定檔1月份!

藝術(shù)要聞

手串種類大盤點(diǎn),全見過(guò)的算得上是文玩老手了!

房產(chǎn)要聞

年銷20億+!中交·藍(lán)色港灣用好房子致敬好生活

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄稱已控制庫(kù)皮揚(yáng)斯克 正清繳烏軍

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版