国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

2年內(nèi)AI將“劇烈突破” | OpenAI首席研究員2萬字對話實錄

0
分享至



近日,OpenAI首席研究員、Transformer論文八位作者之一?ukasz Kaiser接受海外播客

Jon Hernandez AI
的深度訪談。作為GPT-4長上下文研發(fā)負(fù)責(zé)人和o1推理模型研究領(lǐng)導(dǎo)者,Kaiser在這次對話中深入探討了智能的本質(zhì)定義、Transformer 的發(fā)明細(xì)節(jié)、推理模型的底層邏輯、AGI 的現(xiàn)實距離、算力瓶頸與 Scaling Law 的延續(xù),以及 AI 對科學(xué)研究、社會就業(yè)和人類未來的深遠(yuǎn)影響。

Kaiser指出,AI不會進(jìn)入寒冬,反而將在未來一兩年迎來令人恐懼的劇烈突破。他認(rèn)為舊的Transformer擴(kuò)展范式雖已接近經(jīng)濟(jì)瓶頸,但推理模型范式才剛剛開啟,正處于能力爆發(fā)的陡峭上升期。

關(guān)于推理模型的革命性意義,Kaiser透露,OpenAI在ChatGPT發(fā)布前、甚至GPT-4之前就已開始研究推理模型,領(lǐng)先公開發(fā)布約兩年半。他將推理模型與Transformer相提并論,稱其為“繼Transformer之后最大的技術(shù)突破",并強(qiáng)調(diào)推理模型所需數(shù)據(jù)量比傳統(tǒng)LLM少一個數(shù)量級。

在技術(shù)路徑上,Kaiser明確指出GPU和能源是當(dāng)前AI發(fā)展的終極瓶頸,而非創(chuàng)意或算法。他透露即使算力增加十倍,OpenAI仍有廣闊的應(yīng)用空間。關(guān)于模型訓(xùn)練,他說明GPT-4演進(jìn)到GPT-4o就是完整重訓(xùn),主版本更新通常需要半年到一年周期。

對于AGI的定義,Kaiser表示,他不喜歡AGI這個詞,認(rèn)為AI與人類截然不同,在數(shù)學(xué)、編程等領(lǐng)域遠(yuǎn)超人類,但在物理世界中仍然笨拙。他預(yù)測推理模型將在未來一兩年內(nèi)自動化大部分辦公任務(wù),編程領(lǐng)域的進(jìn)展"神速",但物理世界的替代在技術(shù)和經(jīng)濟(jì)上還不劃算。

在爭議話題上,Kaiser認(rèn)為Transformer既是發(fā)現(xiàn)也是發(fā)明——核心自注意力機(jī)制是發(fā)現(xiàn),但讓它運(yùn)作的各種優(yōu)化是發(fā)明。他回應(yīng)了Richard Sutton對LLM的質(zhì)疑,指出推理模型與舊式LLM本質(zhì)不同,學(xué)習(xí)方式更高效、更接近人類,所需數(shù)據(jù)量下降了一個數(shù)量級。

關(guān)于幻覺問題,Kaiser揭示了根本原因:模型訓(xùn)練目標(biāo)是回答問題,而互聯(lián)網(wǎng)語料中極少包含"我不知道"的表述。解決方案是調(diào)整訓(xùn)練數(shù)據(jù)并強(qiáng)化推理能力,讓模型在搜索無果時自然承認(rèn)不知道。

在商業(yè)模式上,Kaiser強(qiáng)調(diào)OpenAI引以為傲的是采用訂閱模式而非廣告模式,核心原則是不把用戶參與度作為優(yōu)化指標(biāo)。他明確表示內(nèi)部有強(qiáng)烈共識"不想走那條路",并認(rèn)為語言模型的技術(shù)特性天然難以被商業(yè)利益扭曲。

關(guān)于AI未來的發(fā)展,他不認(rèn)為AI會瞬間創(chuàng)造天堂,真正的挑戰(zhàn)不在技術(shù)本身,而在于如何使用它。他呼吁全社會共同承擔(dān)責(zé)任,警惕技術(shù)誤用。

01 智能的本質(zhì)與AI使命

對你來說,什么是智能?你作為Transformer的作者并在此刻的OpenAI工作,認(rèn)為AI是一項造福社會的技術(shù)嗎?你的愿景是什么?

?ukasz Kaiser: 這是一個深奧的話題。盡管研究了很久,學(xué)術(shù)界常用的定義是在復(fù)雜環(huán)境中達(dá)成目標(biāo)的能力,但這建立在目標(biāo)明確的前提下。觀察孩子你會發(fā)現(xiàn),他們的目標(biāo)未必清晰。智能也許包含目標(biāo)之外的維度,比如單純的好奇心。研究AI的迷人之處在于,你會不斷發(fā)現(xiàn)智能中那些意想不到的側(cè)面。隨著我們賦予計算機(jī)更多能力,新的維度又會浮現(xiàn),讓我們意識到有些以前未曾重視的特質(zhì)也是智能的重要組成部分。

關(guān)于AI愿景,投身AI領(lǐng)域的人都抱著造福人類的愿景。歷史證明技術(shù)通常會帶來積極影響,雖然過程并非一帆風(fēng)順。AI誕生在社交媒體和互聯(lián)網(wǎng)普及之后,這讓我們能吸取教訓(xùn),投入大量精力確保它不會傷害人類。AI有潛力推動科學(xué)進(jìn)步、解決社會問題并處理繁重工作,但強(qiáng)大的機(jī)器也伴隨風(fēng)險。相關(guān)機(jī)構(gòu)需要介入觀察,確保技術(shù)發(fā)展不偏離軌道。

關(guān)于技術(shù)風(fēng)險:這種力量既能帶來福祉,也可能引發(fā)各種并發(fā)癥。意識到人類的未知領(lǐng)域也很重要。沒人能預(yù)知未來,就像第一輛汽車問世時,人們無法預(yù)見到后來的高速公路和交通擁堵。隨著技術(shù)發(fā)展,我們需要不斷調(diào)整規(guī)則來降低傷害,但如果沒有汽車和飛機(jī),我們也無法擁有現(xiàn)代生活。

AI的進(jìn)化速度遠(yuǎn)超汽車,汽車用了100年時間來完善基礎(chǔ)設(shè)施和法律,而AI的問題在于它太快了。但AI是數(shù)字化的,我們修筑數(shù)字橋梁的速度同樣很快。雖然發(fā)展迅速,但我目前并不覺得快到了失控的地步。ChatGPT推出至今,大家并沒有被這種速度壓垮,而是正在學(xué)會如何使用它。

關(guān)于OpenAI使命:OpenAI的使命始終是構(gòu)建有益的AGI。隨著能力提升,我們希望確保它能惠及每個人。我們的目標(biāo)是提升AI的能力,讓它替人類完成繁重工作并助力科學(xué)進(jìn)步,同時確保其安全性。

02 AGI的重新定義

你擁有獨特的內(nèi)部視角,AGI真的像傳言中那樣近嗎?這是我們近期就需要考慮的問題嗎?

?ukasz Kaiser: 我其實不太喜歡AGI這個詞。我16歲時的第一份兼職就是給Ben Goertzel寫代碼,他正是這個詞的創(chuàng)造者。最初這個詞是指相對于人類這種特定智能而言的通用智能,是一種比人類意識更廣闊的存在。而現(xiàn)在人們將AGI定義為能做人類能做的任何事。但AI與人類截然不同,它在數(shù)學(xué)、編程等領(lǐng)域遠(yuǎn)超人類,但在物理世界中,機(jī)器人依然非常笨拙。我認(rèn)為AI會持續(xù)進(jìn)化,但在物理領(lǐng)域取代人類工作,目前在技術(shù)或經(jīng)濟(jì)上還不劃算。

關(guān)于推理模型變革:當(dāng)前更值得關(guān)注的是推理模型帶來的變革。從去年開始,推理模型已能勝任很多專業(yè)辦公任務(wù)。它不再是幾秒鐘吐出答案的工具,而是能持續(xù)思考數(shù)小時并產(chǎn)出高質(zhì)量成果,這能顯著提升整體效率。這確實意味著部分工作流程將被自動化,從事這些工作的人可能需要轉(zhuǎn)型。目前它更多是自動化特定任務(wù),讓你有精力處理其他環(huán)節(jié)。無論是否稱之為AGI,這種變革正在發(fā)生,正如無人駕駛終將普及一樣,AI的編程能力會越來越強(qiáng),逐漸接管更多的開發(fā)任務(wù)。面對這些變革,整個社會都需要深思如何引導(dǎo)出一個好的結(jié)局。

03 推理模型已具備完成大部分辦公任務(wù)的潛力

在AI能夠處理我們大部分日常任務(wù)之前,我們還有多少時間?

?ukasz Kaiser: 如果是指電腦上的辦公任務(wù),比如點擊、寫作、編程,這些變化會來得非?臁.(dāng)前的推理模型已具備完成大部分此類工作的潛力。雖然現(xiàn)在還有些小毛病或數(shù)據(jù)不完善,但各實驗室都在通過競爭尋找最有價值的應(yīng)用場景。隨著Scaling Law的持續(xù)生效和研究深入,模型能力會持續(xù)提升。以編程為例,在AI開發(fā)者自身的迫切需求驅(qū)動下,進(jìn)展堪稱神速。Anthropic的Claude和OpenAI的Codex已能根據(jù)指令編寫復(fù)雜程序,處理大型代碼庫并進(jìn)行安全漏洞審查,而在一年前這幾乎是不可想象的。

關(guān)于Codex進(jìn)化:哪怕就在三個月前,Codex還只是輔助工具。但現(xiàn)在即使面對復(fù)雜的內(nèi)部代碼庫,它也能提供實打?qū)嵉膸椭N覉F(tuán)隊里一半的人現(xiàn)在都是先讓AI試著寫一遍代碼,再進(jìn)行人工微調(diào)。而這僅僅是推理范式的開端,還有大量容易改進(jìn)的技術(shù)細(xì)節(jié)等待優(yōu)化,它們肯定會變得更強(qiáng)大。

04 算力是終極瓶頸

AI的演進(jìn)速度驚人,但有什么因素在阻礙它變得更快嗎?是因為算力受限嗎?你們在提供服務(wù)時,是否感到受到了算力資源的制約?

?ukasz Kaiser: 這是肯定的。對于所有大型公司而言,受限于GPU資源的總量,我們能提供的服務(wù)是有限的。支付更高訂閱費(fèi)的用戶可以使用更先進(jìn)的模型,但從核心使命來看,OpenAI以及Anthropic等機(jī)構(gòu)都希望向所有人展示AI的潛力。讓大眾理解AI趨勢的唯一途徑就是讓他們親身體驗,因此我們致力于讓免費(fèi)版模型盡可能接近頂尖水平。這實現(xiàn)起來非常困難,因為這意味著必須在有限的算力資源下進(jìn)行極高效率的分配。

GPT-5確實帶來了顯著提升,但目前的推理功能僅覆蓋了部分對話。AI會自動切換模型,有時會分配給用戶體量較小的模型。為了讓現(xiàn)有的GPU資源支撐龐大的用戶群,這些性能上的折中是必不可少的。

關(guān)于算力需求:我們并不知道算力的上限在哪里。目前唯一可以確定的是,我們需要的算力遠(yuǎn)超現(xiàn)有的規(guī)模,Sam正在竭盡全力爭取更多資源。有人擔(dān)心這么多GPU是否能被充分利用,我對此并不擔(dān)心。在這個量級上,算力即便增加十倍,也依然有廣闊的應(yīng)用空間。我們可以訓(xùn)練更龐大的原始模型,然后再進(jìn)行精簡。有了資源,研究方法會變得非常多樣。當(dāng)然,這些投資規(guī)?涨,市場最終會對投入產(chǎn)出比形成約束,這從長遠(yuǎn)來看也是好事。

05 舊Transformer范式接近瓶頸,新推理范式正處陡峭上升期

現(xiàn)在AI發(fā)展極快,但也有觀點認(rèn)為我們正進(jìn)入另一個AI寒冬。你認(rèn)為我們在減速還是在加速?

?ukasz Kaiser: 過去幾年我們處于Transformer范式下,通過擴(kuò)展模型規(guī)模和數(shù)據(jù)量做出了ChatGPT。這種單純預(yù)測下一個詞的范式已經(jīng)接近瓶頸,因為互聯(lián)網(wǎng)上的通用數(shù)據(jù)基本已被挖掘殆盡。但新的推理范式才剛剛開啟,它正處于能力爆發(fā)的陡峭上升期。我們已經(jīng)證明了這條路行得通,但尚未進(jìn)行大規(guī)模開發(fā)。隨著研究方法的改進(jìn),這條路徑還有巨大的提升空間。

關(guān)于Scaling Law:雖然舊范式受制于經(jīng)濟(jì)性,但新的GPU投入依然會帶來性能提升。硬件基礎(chǔ)設(shè)施的建設(shè)確實面臨電力供應(yīng)等現(xiàn)實挑戰(zhàn),但我的基本觀點是,隨著數(shù)據(jù)中心的建成,更大規(guī)模的模型會表現(xiàn)得更好。Scaling law在之前的范式中始終有效,模型規(guī)模越大,能力越強(qiáng)。當(dāng)我們將大模型與推理結(jié)合,應(yīng)用于復(fù)雜的工作任務(wù)時,這種進(jìn)步會更加顯著。如果AI只是在幾秒內(nèi)給出簡單回答,你可能察覺不到進(jìn)步,但如果你讓它處理需要連續(xù)運(yùn)行數(shù)小時的任務(wù),它錯誤率更低、邏輯更嚴(yán)密且能扎實完成任務(wù)的表現(xiàn),會真正體現(xiàn)出其價值。

我們將同時看到來自舊有Scaling范式和新推理范式的進(jìn)步。兩者結(jié)合,意味著AI進(jìn)展不會進(jìn)入寒冬,相反,未來一兩年內(nèi)可能會迎來非常劇烈的突破。這確實令人敬畏,甚至讓人感到一絲恐懼。

關(guān)于突破時機(jī):推理模型的出現(xiàn)時機(jī)非常精準(zhǔn),正好填補(bǔ)了傳統(tǒng)大模型Scaling收益放緩的空白。半導(dǎo)體領(lǐng)域有個類比,摩爾定律之所以能維持40年,是因為每隔幾年就有一次關(guān)鍵的技術(shù)突破。當(dāng)這種突破多次發(fā)生時,就不能再歸結(jié)為偶然。我們四年前就開始研究推理模型,因為當(dāng)時就能預(yù)見到純粹靠規(guī)模堆出來的模型在經(jīng)濟(jì)上是不可持續(xù)的,必須尋找新范式。我們曾發(fā)表過關(guān)于數(shù)學(xué)驗證器的論文,分析顯示如果沿用舊范式,模型參數(shù)需要達(dá)到數(shù)千萬億級才能解決簡單的數(shù)學(xué)題。這在數(shù)據(jù)量和經(jīng)濟(jì)性上都是行不通的。Scaling law依然有效,只是在大規(guī)模擴(kuò)展時變得不再務(wù)實。通過RLHF以及現(xiàn)在的強(qiáng)化學(xué)習(xí),我們真正破解了下一步該往哪里擴(kuò)展的難題。

06 Transformer誕生記

2017年那篇極具影響力的論文發(fā)布時,你是核心作者之一。作為那八位作者之一是什么感覺?當(dāng)時你們在Google的協(xié)作狀態(tài)是怎樣的?當(dāng)時你們意識到這項研究的重大意義了嗎?

?ukasz Kaiser: 當(dāng)時我們大部分作者都在Google,Ilya也是在那段時間前后離職的,大家都在同一個技術(shù)生態(tài)中。在當(dāng)時看來,這更像是日常的研究工作;叵肫饋恚(dāng)時循環(huán)神經(jīng)網(wǎng)絡(luò)是主流,展示了神經(jīng)網(wǎng)絡(luò)具備處理翻譯任務(wù)的潛力,這在當(dāng)時對傳統(tǒng)翻譯界是個巨大沖擊。到了2017年,我們已經(jīng)意識到循環(huán)神經(jīng)網(wǎng)絡(luò)在處理長文本時的序列化瓶頸。當(dāng)時注意力機(jī)制已經(jīng)出現(xiàn)并證明能幫助模型處理更長的句子。同時,卷積神經(jīng)網(wǎng)絡(luò)也在并行化處理上展現(xiàn)了優(yōu)勢。在那個背景下,嘗試用注意力機(jī)制完全取代卷積,只是當(dāng)時眾多科研方案中的一個,但它的效果遠(yuǎn)超所有人的預(yù)期。

想法本身可能并不昂貴,讓它真正跑通才是最難的。Transformer的成功在于一系列細(xì)節(jié)的完美融合,包括前饋層的參數(shù)分布、多頭機(jī)制的設(shè)計,以及訓(xùn)練時必不可少的一系列學(xué)習(xí)率優(yōu)化手段。如果你獨自研究,漏掉任何一個細(xì)節(jié)可能都會導(dǎo)致失敗。正是因為有一個跨團(tuán)隊的頂尖群體,每個人都對自己負(fù)責(zé)的細(xì)節(jié)精益求精,不斷跑實驗迭代,才最終磨合出了這個劃時代的架構(gòu)。這不僅是一個小改進(jìn),它確實是一個遠(yuǎn)超前代技術(shù)的飛躍。

關(guān)于發(fā)現(xiàn)還是發(fā)明:這很難界定,我會說兩者兼而有之。其中確實有發(fā)現(xiàn)的成分,我覺得核心的自注意力機(jī)制絕對是一項發(fā)現(xiàn),它看起來像是一種非常本質(zhì)的規(guī)律。但話又說回來,它本身無法獨立運(yùn)作,為了讓它真正大放異彩,必須加入各種調(diào)整和優(yōu)化,從某種意義上說,那部分更像是發(fā)明。

關(guān)于數(shù)據(jù)效率:論文里還有一個語法解析的例子。我把它放進(jìn)去主要是覺得很有趣。那是我之前研究過的一個數(shù)據(jù)集,以前必須大幅擴(kuò)充數(shù)據(jù)規(guī)模才能讓循環(huán)神經(jīng)網(wǎng)絡(luò)跑通。如果只用其中一小部分?jǐn)?shù)據(jù)訓(xùn)練,循環(huán)神經(jīng)網(wǎng)絡(luò)完全不起作用。但如果換成Transformer,即便只用那一丁點數(shù)據(jù),它也能表現(xiàn)得非常好。我一直覺得這一點很有意思,雖然它可能沒被引起太多關(guān)注,因為現(xiàn)在的趨勢是在海量數(shù)據(jù)集上訓(xùn)練大語言模型,模型規(guī)模越大,所需的數(shù)據(jù)就越多。但事實上,Transformer在小規(guī)模數(shù)據(jù)上的訓(xùn)練表現(xiàn)也優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò),它們其實具有更高的數(shù)據(jù)效率,這一點在某種程度上被大家忽視了,所以我當(dāng)時堅持要把這個例子寫進(jìn)論文。

關(guān)于后續(xù)發(fā)展:在那之后不久,如果當(dāng)時我們中有人堅定地認(rèn)為這就是未來,一切都將歸于語言模型,那一定是Noam。他總是說我們要把它規(guī);运芸炀烷_始研究語言模型了。甚至在論文發(fā)表期間,他的下一個訓(xùn)練目標(biāo)就不再局限于翻譯,而是轉(zhuǎn)向了語言建模。他當(dāng)時就有了應(yīng)該直接堆規(guī)模的想法,這個苗頭一直都在。只是對于當(dāng)時的學(xué)術(shù)會議來說,翻譯是一個非常成熟的基準(zhǔn)測試,更有利于論文發(fā)表,但應(yīng)該在語言數(shù)據(jù)上進(jìn)行訓(xùn)練的想法確實早已存在。

07 從Transformer到推理模型

Transformer到ChatGPT之間有哪些重要突破?你們什么時候開始研究推理模型的?

?ukasz Kaiser: 在Transformer論文和ChatGPT出現(xiàn)之間,其實有很多不容忽視的突破。在Transformer之后,模型開始在全網(wǎng)數(shù)據(jù)上進(jìn)行大規(guī)模訓(xùn)練,出現(xiàn)了BERT和GPT-2等模型。Scaling Law的出現(xiàn)則揭示了如何科學(xué)地提升模型規(guī)模。此外還有大量關(guān)于模型增長方式、注意力層、激活函數(shù)從ReLU演進(jìn)到GELU,以及專家混合模型的研究。正是這一系列的科研積累,才讓我們從基礎(chǔ)的Transformer跨越到GPT-4。這凝聚了無數(shù)人的心血,并非一蹴而就。人們常說因為GPU算力夠了,深度學(xué)習(xí)革命就爆發(fā)了,我并不認(rèn)同。Transformer也是如此,并不是說論文一發(fā),生成式AI就誕生了,那是許多天才經(jīng)過極其艱苦的努力才實現(xiàn)的。

關(guān)于推理模型時間線:GPT-2大約出現(xiàn)在2019年。推理模型直到2024年才對公眾發(fā)布,比如o1應(yīng)該是第一個。我們可能在發(fā)布前兩年半就開始了,是在GPT-4之前,甚至是在ChatGPT發(fā)布之前,我們就已經(jīng)在研究推理模型了。我的團(tuán)隊確實在研究一些非常超前的技術(shù)。當(dāng)然,其中一些可能永遠(yuǎn)都不會成功。研究中有很多嘗試是永遠(yuǎn)不會見光的,但它們同樣重要。我經(jīng)常開玩笑說,在《Attention is all you need》發(fā)表前,我有一篇論文甚至被NeurIPS接收了,那篇論文的主旨基本是在說你不需要注意力機(jī)制,結(jié)果那篇論文完全被大家遺忘了。

08 推理模型的本質(zhì)

所謂的舊式大語言模型和推理模型之間到底有什么區(qū)別?

?ukasz Kaiser: 舊式大語言模型的核心是預(yù)測下一個單詞。它在表征層處理信息,然后告訴你下一個Token出現(xiàn)的概率是多少,你從中采樣一個Token,然后不斷重復(fù)這個過程。而推理模型會為自己生成一些不展示給用戶的內(nèi)部Token,這些Token的數(shù)量是可變的,它實際上是在進(jìn)行思考。關(guān)鍵在于,它在思考過程中甚至可以調(diào)用工具。比如它可以進(jìn)行網(wǎng)頁搜索,查詢Google或Bing,讀取返回的結(jié)果,生成更多內(nèi)部Token。直到完成這一系列過程后,它才會輸出你最終看到的那些Token。

關(guān)于工具調(diào)用:雖然最初的生產(chǎn)模型里可能沒有,但在研究階段早就有相關(guān)的嘗試了。很久以前有一篇叫Toolformer的論文就在討論這類訓(xùn)練,所以利用工具的想法早已有之。將其產(chǎn)品化的難點在于,除了語言模型,你還得為每個用戶提供運(yùn)行這些工具的執(zhí)行環(huán)境,這在工程上非常復(fù)雜。但現(xiàn)在的推理模型絕對可以進(jìn)行搜索、運(yùn)行Python代碼。其實Python運(yùn)行能力在ChatGPT推出推理模型之前就有了,也就是當(dāng)時的數(shù)據(jù)分析功能,那是用普通模型實現(xiàn)的。你讓它寫代碼,它就運(yùn)行,F(xiàn)在的推理模型則能支持更多工具,比如通過MCP服務(wù)器,也就是Anthropic推出的一種模型上下文協(xié)議。你甚至可以告訴Chat,這是我的工具地址和功能說明。它在思考過程中就會根據(jù)需要調(diào)用你的工具,這個工具可以訪問你的私有數(shù)據(jù),或者幫你記筆記。這種協(xié)議允許在統(tǒng)一界面下處理各種工具,我相信未來還會有更多工具。

關(guān)于思維鏈訓(xùn)練:思維鏈的概念早在推理模型問世前兩年就出現(xiàn)了。當(dāng)時大家發(fā)現(xiàn),即使是舊式模型,只要告訴它請一步步思考,它就會進(jìn)行一些推理,這在預(yù)料之中。但真正的突破在于,我們可以通過訓(xùn)練讓它思考得更好。這種訓(xùn)練不能只靠梯度下降,而必須引入強(qiáng)化學(xué)習(xí)。這是一種更敏感的訓(xùn)練方法。梯度下降只要優(yōu)化器夠好,即便從隨機(jī)權(quán)重開始也能跑通,但強(qiáng)化學(xué)習(xí)不行,你不能從一個連英語都不會說的隨機(jī)狀態(tài)開始,你必須給它一個已經(jīng)具備一定思考基礎(chǔ)的先驗。你還得非常小心地處理策略內(nèi)和策略外的訓(xùn)練細(xì)節(jié)。打磨這套流程花了很長時間,特別是在不確定它是否可行的情況下,這種打磨非常磨人。我認(rèn)為這是深度學(xué)習(xí)研究中的一大難題,在還沒看到成效之前,你必須投入海量精力去鉆研一個可能根本無法成功的東西。

但這就是深度學(xué)習(xí)的魅力,一旦它開始起作用,表現(xiàn)就會極其驚艷。以前你讓模型一步步思考,它雖然在思考,但如果中間出錯了,它很難意識到并退回去重來。而通過強(qiáng)化學(xué)習(xí)訓(xùn)練后,它突然學(xué)會了這種行為。它會嘗試某種路徑,發(fā)現(xiàn)行不通,然后會意識到錯誤并換個思路。它思考的時間變長了,因為它在權(quán)衡不同的選項,嘗試不同的路徑并驗證結(jié)果。它在思考過程中展現(xiàn)出了許多這類美妙的特質(zhì),甚至學(xué)會了調(diào)用工具。比如它在搜索時發(fā)現(xiàn)兩個來源的信息不一致,它就會去第三個地方驗證。它學(xué)會這些技能,僅僅是因為我們給了它一個必須得到正確答案的信號,而對于復(fù)雜的學(xué)習(xí)過程來說,這其實是一個非常微弱的反饋信號。

回應(yīng)Richard Sutton:我認(rèn)為推理模型確實做到了這一點。Richard Sutton當(dāng)時的論點可能更多是針對舊式大語言模型,那些模型確實只是被訓(xùn)練來模仿出現(xiàn)的單詞。但推理模型截然不同,它們知道最終目標(biāo)是什么,然后通過內(nèi)部思考來達(dá)成。從這個意義上說,推理模型是一個全新的類別。如果你把整個思考過程看作一種正在學(xué)習(xí)的潛在建模行為,那么它們與舊式大語言模型就有著本質(zhì)的區(qū)別。雖然底層可能還是Transformer,甚至共用預(yù)訓(xùn)練權(quán)重,但推理模型的學(xué)習(xí)方式是顛覆性的。

如果你認(rèn)同Richard Sutton的觀點,你會發(fā)現(xiàn)推理模型的學(xué)習(xí)方式其實更高效、更接近人類。就像Transformer在語法解析任務(wù)上表現(xiàn)出的那樣,推理模型所需的數(shù)據(jù)量又下降了一個數(shù)量級。它們訓(xùn)練用的數(shù)學(xué)題目與整個互聯(lián)網(wǎng)數(shù)據(jù)相比微不足道,但邏輯能力卻提升巨大。這種極低的數(shù)據(jù)需求意味著它們開始具備更強(qiáng)的泛化能力,能處理從未見過的問題。這是一個巨大的范式轉(zhuǎn)變,雖然表面上看起來還是大語言模型,但內(nèi)在早已不同。我認(rèn)為這解決了很多人的質(zhì)疑,盡管總會有人持保留意見。我不認(rèn)為這是最后的范式,但它絕對是一個里程碑,將帶我們走向極具價值的實踐應(yīng)用。

09 推理模型的未來應(yīng)用

推理模型已經(jīng)幫我們贏得了數(shù)學(xué)和編程奧林匹克競賽,代碼生成能力更是驚人。你認(rèn)為它們最終能帶我們走到哪里?

?ukasz Kaiser: 這很難預(yù)測。就像你在2021年問GPT-3.5能帶我們走多遠(yuǎn)一樣,當(dāng)時它主要被用來寫文案。雖然底層模型已經(jīng)足夠強(qiáng)大,但由于還沒做強(qiáng)化學(xué)習(xí)優(yōu)化,它還沒變成后來那種能聊天的ChatGPT。當(dāng)時我們也覺得這是驚人的技術(shù),但并不知道它具體會如何改變世界。我記得ChatGPT發(fā)布那天,OpenAI內(nèi)部還做了打賭,我當(dāng)時賭它不會火,顯然我輸?shù)煤軕K。所以,我可能最不適合預(yù)測產(chǎn)品路徑的人。

我認(rèn)為CEO Sam Altman有一個非常可貴的特質(zhì),那就是他敢于不斷嘗試。雖然他選擇的許多路徑未必能立即獲得認(rèn)可,但其中總有成功的可能。對于推理模型,我認(rèn)為爆發(fā)的臨界點尚未到來。目前,這些模型主要在辦公、編程、文檔編輯等領(lǐng)域發(fā)揮作用。對我而言,AI能夠調(diào)用的搜索工具極具價值。例如ChatGPT中的連接器功能,它可以關(guān)聯(lián)Slack或Google Docs。這在辦公場景下表現(xiàn)出色,因為它能整合搜索我的所有信息。無論是Slack記錄、郵件還是文檔內(nèi)容,我只需詢問AI是否記得最近關(guān)于某事的討論,它就能跨平臺調(diào)取資料。我還可以繼續(xù)追問如何編寫相關(guān)代碼。這已經(jīng)成為我日常工作中不可或缺的一部分。雖然我不確定這是否會成為主流普及的關(guān)鍵,與未來可能出現(xiàn)的重大突破相比,這或許只是一個小切口。但在科研層面,這確實是一個真正的突破,是范式級別的變革,而非簡單的微調(diào)。至于它最終如何呈現(xiàn)給世界,也許界面會維持Chat形式并不斷迭代,也許界面會發(fā)生徹底改變。目前沒人能給出定論,但實現(xiàn)這一目標(biāo)的底層能力已經(jīng)具備。

10 AI與科學(xué)發(fā)現(xiàn)

推理模型是否能賦予AI真正的創(chuàng)造力,去發(fā)現(xiàn)人類在現(xiàn)有數(shù)據(jù)集中尚未察覺的規(guī)律?AI是否能憑相同的信息找到人類無法察覺的東西,甚至更進(jìn)一步,創(chuàng)造出人類無法想象的新事物?

?ukasz Kaiser: 我不確定這種界限是否真的如此清晰。人類的研究都是站在巨人的肩膀上,很多想法在特定的歷史背景和語境下,其嘗試的方向是顯而易見的。以Transformer為例,在那個時期,提升序列到序列模型并行性的想法已經(jīng)出現(xiàn),注意力機(jī)制也在其他領(lǐng)域有所應(yīng)用。因此,嘗試將其結(jié)合幾乎是水到渠成的事。我認(rèn)為當(dāng)時的推理模型完全有能力提出這種嘗試,但難題在于有了總體思路后,如何通過完美的實現(xiàn)和細(xì)節(jié)打磨使其落地。如果你翻閱當(dāng)時的論文,會發(fā)現(xiàn)很多思路其實已經(jīng)在那了。人們常說或許可以嘗試某個方向,但執(zhí)行過程異常艱難,測試這些主意需要耗費(fèi)巨大精力。如果AI能自主完成大部分執(zhí)行工作,科學(xué)進(jìn)程將會極速飆升?茖W(xué)發(fā)展的瓶頸固然包含創(chuàng)意,但更多是卡在執(zhí)行和測試上。相比之下,計算機(jī)科學(xué)的執(zhí)行過程相對瑣碎,而在物理學(xué)領(lǐng)域需要建造加速器,在生物學(xué)領(lǐng)域則需要長年的生長周期。

但在所有這些領(lǐng)域,機(jī)器都能承擔(dān)大量的重復(fù)性工作。以機(jī)器學(xué)習(xí)論文為例,我們正接近一個臨界點。Claude或Codex已經(jīng)能重現(xiàn)部分論文的代碼并進(jìn)行實測。雖然如果復(fù)現(xiàn)失敗,修改邏輯使其運(yùn)行依然很有挑戰(zhàn),但最終一定能實現(xiàn)。屆時,我不再擔(dān)心創(chuàng)意枯竭,因為產(chǎn)生靈感是研究者最快樂的事,永遠(yuǎn)不缺有想法的人。隨著實驗的大規(guī)模執(zhí)行,有些路徑行不通,而有些效果拔群,我們只需順應(yīng)實驗結(jié)果的客觀反饋就能輕松判斷下一步方向。研究者最大的痛苦在于資源有限,只能做極少數(shù)實驗,不得不憑直覺在黑暗中摸索。如果能將大部分執(zhí)行工作交給AI,前進(jìn)的方向就會清晰得多。因此,我認(rèn)為推理模型如果能接入實驗室等工具,無論是自動化實驗室還是與人類協(xié)作,都將極大加速科學(xué)進(jìn)程。這種提升可能不像機(jī)器人搬運(yùn)物體那樣具有視覺沖擊力,而更多表現(xiàn)為研究員通過與模型對話做出更明智的科研決策。這種隱形的影響力依然非常巨大。

11 AI自我迭代現(xiàn)狀

AI學(xué)習(xí)新知識并自我強(qiáng)化,不斷變得更強(qiáng),從而實現(xiàn)所謂的智能爆炸。你目前在工作中多大程度上使用AI?AI在你的日常生活中扮演什么角色,它是你工作中不可或缺的一部分嗎?

?ukasz Kaiser: 正如我提到的,幾個月前我和團(tuán)隊開始大規(guī)模使用Codex,因為它已經(jīng)進(jìn)化到了不再是負(fù)擔(dān)、而是能提供實際幫助的程度,F(xiàn)在,大部分代碼的第一版都由它完成。雖然在復(fù)雜的代碼庫中仍需人工介入修復(fù)Bug或調(diào)整邏輯,但它確實是得力的編程助手。我相信它會越來越強(qiáng),承擔(dān)更多的編程任務(wù),而編程正是我們工作的核心部分。另一項重要工作是在大型分布式集群上跑實驗。實驗過程經(jīng)常出錯,AI在運(yùn)行實驗、加速流程以及輔助理解問題方面大有可為。它還為模型生成數(shù)據(jù),合成數(shù)據(jù)通常由推理模型生成,其輸出結(jié)果比以前更適合訓(xùn)練。這與推理模型的進(jìn)展緊密相關(guān),我們正利用它們來訓(xùn)練預(yù)訓(xùn)練模型。

這些進(jìn)展雖然正面,但我認(rèn)為它們本身不一定會直接導(dǎo)致爆炸式的突變。目前的現(xiàn)狀更像是效率的穩(wěn)步提升,比如快了兩倍,但這種提速還沒到爆炸的程度。

關(guān)于蒸餾技術(shù):這涉及到蒸餾技術(shù),即通過大模型指導(dǎo)小模型思考使其更高效。這些方法很棒,但都有極限。你可以把大模型蒸餾成小模型,但不能無限減少層數(shù),否則模型的質(zhì)量就會崩潰。優(yōu)秀的模型必須具備一定的復(fù)雜度。而且,即便AI能幫我們編程、排實驗,實驗本身還是要在GPU上運(yùn)行。算力資源是有限的。當(dāng)你自動化了某個環(huán)節(jié),瓶頸就會轉(zhuǎn)移。目前的終極瓶頸依然是GPU和能源。

這是最終的瓶頸。即使是現(xiàn)在,我們的很多研究也受制于此。我們本可以并行運(yùn)行更多實驗,但由于沒有足夠的GPU,所有實驗室都面臨這種困境。雖然AI模型可以優(yōu)化實驗流程,比如在更小的模型上測試方案,從而降低算力需求,但任何優(yōu)化都有上限。大規(guī)模實驗終究需要海量算力支持,而我們正在全力建設(shè)基礎(chǔ)設(shè)施。我認(rèn)為進(jìn)步將呈現(xiàn)階梯式,效率先提升兩倍,通過模型小型化再提升三倍。從外界看這像是一場大爆炸,但身處其中的人知道,這背后是無數(shù)艱苦的工程實踐,包含優(yōu)化代碼、清洗數(shù)據(jù)、精進(jìn)蒸餾技術(shù)、在小模型上驗證。在通往下一個大想法之前,往往會經(jīng)歷一段平臺期。遠(yuǎn)觀如爆炸,近看則是攻克一個又一個具體挑戰(zhàn)的過程。每當(dāng)你接近極限時,新的思路總會應(yīng)運(yùn)而生。

你提到需要突破來實現(xiàn)更好的未來,但你似乎并不擔(dān)心這些突破是否會出現(xiàn)。這是因為歷史規(guī)律,還是因為你們在實戰(zhàn)中總能化解難題?

?ukasz Kaiser: 其實是因為目前的系統(tǒng)還遠(yuǎn)不完善。我先后在Google和OpenAI工作過,我們的軟件系統(tǒng)雖然號稱頂尖,但其實還有巨大的優(yōu)化空間。我們把大量時間花在調(diào)試上,而在理想狀態(tài)下,這些Bug本不該存在。我們跑程序時機(jī)器會宕機(jī),雖然有恢復(fù)系統(tǒng),但仍有很多故障類型無法捕捉。機(jī)器學(xué)習(xí)的日常充滿了技術(shù)的苦活累活,這才是工作的常態(tài),而非每天都有驚世駭俗的科研點子。它是極高強(qiáng)度的工程實踐。通過構(gòu)建更好的框架和工具,我們能不斷提升效率。這就是為什么我們確信AI能幫我們做得更好,這不是假設(shè),而是正在發(fā)生的事。AI開始表現(xiàn)得像頂尖程序員,幫我們構(gòu)建工具。它會犯錯,我們就糾錯。

合成數(shù)據(jù)也是如此,我們知道目前的數(shù)據(jù)還很糟糕,所以有巨大的提升空間。外界可能覺得這些模型已經(jīng)神乎其神了,但在內(nèi)部開發(fā)者眼中,大家經(jīng)常會吐槽代碼太爛或到處是Bug。很多訓(xùn)練跑了一半就出故障,導(dǎo)致部分?jǐn)?shù)據(jù)訓(xùn)練效果偏差,但因為成本太高,我們只能繼續(xù)運(yùn)行。每次模型跑完,我們都能總結(jié)出許多改進(jìn)點。目前的瓶頸絕不是沒東西可優(yōu)化,而是問題太多。

關(guān)于進(jìn)步空間:有些修補(bǔ)帶來的提升微乎其微,但有些則是質(zhì)變。目前推理模型還處于非常早期,未來的改進(jìn)將是革命性的,F(xiàn)在的推理是逐個Token生成的,非常線性,這讓我想起了早期的RNN。它必須進(jìn)化得更加并行。雖然我們還不確定哪種方案最優(yōu),但這種范式遷移必然會發(fā)生,就像當(dāng)年社區(qū)意識到RNN必須向并行化演進(jìn)一樣。

關(guān)于并行化:Pro只是一個起步,它的確可以調(diào)用多個實例。它并行運(yùn)行多個思維鏈,并行運(yùn)行,然后互相討論得出最優(yōu)解。實現(xiàn)路徑有很多,目前還不確定哪種是最終的最優(yōu)解,或者是否會是多種方案的結(jié)合。我們需要將并行機(jī)制整合進(jìn)訓(xùn)練流程,GPT-5 Pro正在進(jìn)行此類嘗試,但由于目前的訓(xùn)練范式仍偏傳統(tǒng),這還不是主流操作。不過,部分方法已經(jīng)初見成效,F(xiàn)在還無法斷言這只是帶來些許提速,還是會演變?yōu)橹卮蟮姆妒礁锩,但我們正在全力研究。推理模型目前最大的課題是如何從任意數(shù)據(jù)中學(xué)習(xí)。

目前的訓(xùn)練高度依賴正確與錯誤的標(biāo)注,但現(xiàn)實世界中的數(shù)據(jù)大多并非考卷形式,這反而是件好事。人們閱讀書籍時,重點在于理解,而非判斷每一段話的絕對正確性。你會在閱讀過程中投入大量思考。許多實驗室都有一個共識,即模型應(yīng)當(dāng)具備從非驗證性數(shù)據(jù)中學(xué)習(xí)的能力,而不應(yīng)僅僅局限于那些正確性可驗證的內(nèi)容。

關(guān)于Pulse功能:ChatGPT只是一個界面,但對于新一代模型來說,它未必是最佳的交互形式。如果你問更多GPU能否換來更好的答案,事實證明是可以的。如果算力充足,你本可以實時拿到那個深度回復(fù)。但目前的思考過程仍具有序列性,所以需要等待。如果你當(dāng)下不愿等,系統(tǒng)會先給出初版答案,隨后再推送優(yōu)化版,F(xiàn)在的難點在于如何設(shè)計這種模式的界面。Pulse只是初步嘗試,未來它可能會變成一個在即時通訊軟件上告訴你,需要10分鐘來深入思考的朋友。我們需要探索如何將這種模式轉(zhuǎn)化為真正的價值。

12 多模態(tài)訓(xùn)練現(xiàn)狀

多模態(tài)會如何改變訓(xùn)練范式?視頻包含的信息密度顯然更高。如果我們用視頻、音頻等原生多模態(tài)數(shù)據(jù)訓(xùn)練AI,是否會徹底改變訓(xùn)練數(shù)據(jù)的范式?

?ukasz Kaiser: 我們已經(jīng)在進(jìn)行多模態(tài)訓(xùn)練了。GPT-4以及之后的GPT-5和推理模型,都是基于文本、圖像和音頻訓(xùn)練的。至于視頻,目前更多被視為一種圖像序列,但原生化是必然趨勢。是原生的。通過神經(jīng)網(wǎng)絡(luò)將音頻編碼為某種離散形式,比如音頻Token和圖像Token,并非將整個圖像視為一個Token,而是切分成碎片。然后讓模型預(yù)測下一個Token。通過這種方式,模型可以直接生成音頻和圖像。這種方法的效果好得令人驚訝。此前研究人員在編碼器上投入了巨大精力,解決諸如如何防止圖像中的微小文字丟失等難題。結(jié)果證明這條路完全走得通。

曾幾何時,生成的圖像里人手有六根手指,也無法生成文字,但隨著訓(xùn)練數(shù)據(jù)的增加和編碼器的微調(diào),底層的大型Transformer架構(gòu)保持不變,效果卻突飛猛進(jìn),F(xiàn)在的生成圖令人嘆為觀止,甚至能完整呈現(xiàn)報紙上的文字,音頻也能表現(xiàn)出各種語言的口音、低語甚至歌唱。雖然還不是完美無缺,但其成熟度非常驚人。我相信視頻領(lǐng)域很快也會看到類似的突破。

關(guān)于機(jī)器人與推理:Google最新的機(jī)器人模型也開始融入推理能力。這非常關(guān)鍵,因為在物理世界中,你需要極快的反應(yīng)速度,容不得深度推理,就像我們的本能動作。但在決策層面,又需要推理介入。如何結(jié)合本能與理性,需要一套層級結(jié)構(gòu)。目前這種Token編碼加大型模型的層級結(jié)構(gòu)還不夠完善,我們多是靠工程手段在維護(hù),缺乏底層原則,未來需要更好的損失函數(shù)和更系統(tǒng)的方法。

關(guān)于視頻信息量:對信息量需要保持謹(jǐn)慎。視頻數(shù)據(jù)雖多,但很大一部分是可以高度壓縮的。即使壓縮后,很多信息如桌子的紋理或顏色,雖然客觀存在,但對物理規(guī)律或邏輯推理以外的學(xué)習(xí)并無大用。如果目標(biāo)是學(xué)習(xí)視頻,難點在于如何過濾掉冗余信息,專注于相關(guān)事物。文本的優(yōu)勢在于每個詞幾乎都承載語義。而在視頻中,絕大部分內(nèi)容與數(shù)學(xué)推理無關(guān)。當(dāng)然,如果要訓(xùn)練機(jī)器人,視頻信息就至關(guān)重要了。所以我認(rèn)為視頻訓(xùn)練更多是補(bǔ)齊短板。我不指望視頻訓(xùn)練能讓模型的數(shù)學(xué)能力產(chǎn)生飛躍,盡管空間想象力對數(shù)學(xué)有一定遷移作用,但這種期待目前還比較遙遠(yuǎn)。

關(guān)于世界模型:世界其實有很多種。對于讓機(jī)器人在房間行走,視頻確實是完美的模型。但如果你想理解文學(xué)世界,讀原著比看視頻更管用。如果你想鉆研組合數(shù)學(xué),文字才是核心。語言模型已經(jīng)掌握了人類大部分抽象世界,目前最大的短板在于對物理世界的理解。填補(bǔ)這一空缺將極大提升機(jī)器人的表現(xiàn)。但在辦公軟件等領(lǐng)域,其重要性可能不如推理并行化。

關(guān)于相對論推導(dǎo):一個頂尖的推理模型或許能實現(xiàn)這一目標(biāo)。相對論的推導(dǎo)更多依賴邏輯而非物理直覺,因此未必需要視頻數(shù)據(jù)。雖然目前的Transformer存在上下文限制,但未來我們會通過更新權(quán)重等方式實現(xiàn)跨越。如果將AGI定義為具備普通人的行動能力,那么視頻訓(xùn)練就不可或缺。模型需要消除對物理世界理解的代差。目前的模型如果想推理物理現(xiàn)象,可能得寫一段Python模擬運(yùn)行一下,這跟人類的直覺完全不同。這種直覺應(yīng)當(dāng)存在于神經(jīng)網(wǎng)絡(luò)的權(quán)重中。我們在2017年開發(fā)Transformer時,受限于算力,大多實驗只能在64個GPU上運(yùn)行,根本無法處理視頻,F(xiàn)在隨著算力的爆發(fā),我們已經(jīng)看到了能隨動作生成的交互式視頻模型。隨著模型迭代,這種理解會越來越深,這將徹底解決機(jī)器人的大腦問題。

關(guān)于機(jī)器人普及:大腦會很快就位,但從實驗室到真實世界的跨越仍具挑戰(zhàn)。畢竟戶外環(huán)境比工廠車間復(fù)雜得多。硬件總是很難,就像自動駕駛,我們曾以為它會很快普及,結(jié)果多花了十幾年。雖然它終究還是實現(xiàn)了。在機(jī)器人真正普及前,我想視頻生成技術(shù)會先帶給我們很多驚喜。

13 幻覺問題突破

模型產(chǎn)生幻覺的最核心機(jī)制是什么?你們在GPT-5中似乎取得了重大突破。

?ukasz Kaiser: 模型產(chǎn)生幻覺的最核心機(jī)制在于,其訓(xùn)練目標(biāo)是回答問題。過去,模型很少被訓(xùn)練去表達(dá)"我不知道"。雖然現(xiàn)在情況有所改善,但互聯(lián)網(wǎng)上的海量語料庫中極少包含"我不知道"這類表述。人類傾向于給出確定的答案,模型也自然習(xí)得了這種行為模式。例如,當(dāng)你詢問舊金山動物園的開放時間,模型在訓(xùn)練中讀到過相關(guān)信息,便會傾向于直接回答上午10點。然而,這些信息可能源自五年前的舊網(wǎng)頁,或者屬于另一家動物園。

在預(yù)測下一個詞的概率時,模型或許考慮過回答"我不知道",但由于這個選項在海量動物園信息中非常罕見,當(dāng)模型對互聯(lián)網(wǎng)數(shù)據(jù)建模時,它會判定給出具體時間比承認(rèn)不知道的概率更高。此外,模型本身也無法理解你查詢的是當(dāng)前這一刻的信息,而非幾年前的舊聞。對于單純模擬互聯(lián)網(wǎng)語言的大語言模型而言,給出一個具體的數(shù)字要自然得多。

現(xiàn)在業(yè)界已經(jīng)意識到了這個問題。包括我們在內(nèi)的許多實驗室,都在訓(xùn)練數(shù)據(jù)的特定部分中增加了"我不知道"的占比,以補(bǔ)償互聯(lián)網(wǎng)語料中缺失的真實社交常識。另一方面,推理模型變得更加敏銳。當(dāng)你詢問動物園開放時間時,推理模型會主動通過網(wǎng)絡(luò)搜索動物園官網(wǎng)并提取最新信息。如果無法獲取,它會明確告知未找到網(wǎng)站。在給出最終答案之前,模型會進(jìn)行這一系列推理,使得"我不知道"的產(chǎn)出變得更加符合邏輯。當(dāng)搜索無果或發(fā)現(xiàn)記憶信息不匹配時,承認(rèn)不知道成了最自然的選擇。通過調(diào)整訓(xùn)練數(shù)據(jù)和強(qiáng)化推理能力,AI已經(jīng)能更準(zhǔn)確地識別知識邊界,但人類有時也會隨口編造自認(rèn)為正確的信息。

關(guān)于技術(shù)手段:這主要源于有意識地調(diào)整數(shù)據(jù),并確保推理過程能如實反映模型的置信度。這很大程度上取決于訓(xùn)練方式的改良。我們現(xiàn)在更側(cè)重于推理強(qiáng)化學(xué)習(xí)。在重視正確答案的框架下,我們可以構(gòu)建專門的數(shù)據(jù)集,將"我不知道"設(shè)為唯一正確答案。為了通過測試,模型必須學(xué)會識別不確定性,這種信號遠(yuǎn)比之前的微弱反饋更強(qiáng)。

14 思維鏈真實性

模型在思維鏈中展示的內(nèi)容與其真實思考過程是否一致?我們看到的思維鏈和你們研究人員看到的是同一個東西嗎?

?ukasz Kaiser: 這些屬于針對特殊場景設(shè)計的極端案例。這種"心口不一"的行為雖然存在潛在危險,但目前僅出現(xiàn)在高度人工干預(yù)的工程案例中。在處理常規(guī)查詢時,模型并不會產(chǎn)生這類隱瞞行為。

原始的思維鏈通常非常冗長且雜亂。用戶看到的內(nèi)容是由另一個模型進(jìn)行總結(jié)后的版本,更具可讀性和結(jié)構(gòu)感。目前在訓(xùn)練推理模型時,除了要求最終結(jié)果正確外,我們盡量不對其思考方式施加約束。我們不會強(qiáng)制要求思維鏈寫得漂亮,因為那會限制模型的性能。因此,原始思維鏈并不總是賞心悅目的,有時會出現(xiàn)語言混合的情況。在DeepSeek的產(chǎn)品中可以看到一些原始記錄,但在面向普通用戶的產(chǎn)品中展示那一團(tuán)亂麻確實不符合審美。

起初人們擔(dān)心展示原始思維鏈可能會被黑客利用,存在安全隱患。但現(xiàn)在,這種擔(dān)憂更多讓位給了用戶體驗層面,畢竟雜亂且超長的文本并不易讀。確實,所以我們決定展示摘要而非未經(jīng)審查的完整思維鏈。

關(guān)于對齊問題:目前的情況是,這些錯位在思維鏈中依然有跡可循,只是在最終答案里被隱藏了。模型也可能學(xué)會在思維鏈中隱瞞真實意圖,畢竟那也是模型的一種輸出。在目前的訓(xùn)練中,我們并沒有給思維鏈?zhǔn)┘尤魏螇毫颡剟。由于答案的質(zhì)量直接決定了強(qiáng)化學(xué)習(xí)的獎勵權(quán)重,模型為了獲得更高獎勵,可能會在答案中采取某種策略,但對于思維鏈,它目前沒有任何動機(jī)去掩飾。OpenAI的論文也呼吁各實驗室保持這種"無壓力狀態(tài)",以確保思維鏈的真實可讀性。不過也有觀點認(rèn)為,即使沒有明確獎勵,模型也可能自發(fā)地省略某些內(nèi)容。這將是一個長期的學(xué)術(shù)爭論。思維鏈無疑是監(jiān)控AI運(yùn)行的重要工具,但并非終極手段。

幸運(yùn)的是,目前這還是一個非常小眾的問題。對于日常查詢,AI并沒有動機(jī)去撒謊。相比這種深層的對齊問題,現(xiàn)在的重點依然應(yīng)該是提高模型的實際正確率并減少幻覺。

15

頂尖實驗室的研發(fā)生態(tài)

你在 Google 和 OpenAI 都待過,在這些背負(fù)巨大壓力的頂尖 AI 公司工作,內(nèi)部氛圍是怎樣的?目前你們正處于極度激烈的全球競爭中,巨額資金涌入,新的實驗室層出不窮。這種競爭環(huán)境是什么樣的?你如何看待其他實驗室,比如 Anthropic?

?ukasz Kaiser: 與其說是公司變了,不如說是時代變了。2013 年我剛進(jìn) Google 時,AI 領(lǐng)域的壓力還沒那么大,大家只是純粹地潛心鉆研。我加入 Google Brain 時團(tuán)隊只有幾十人,加入 OpenAI 時也才百人規(guī)模。而現(xiàn)在,這些組織都已成長為數(shù)千人的龐大機(jī)構(gòu)。以前的小團(tuán)隊可以坐在一起吃午飯,現(xiàn)在的規(guī)模必然帶來了更復(fù)雜的架構(gòu)。但我們成功避免了將外界壓力直接轉(zhuǎn)嫁給研究人員。在很多方面,我們依然能像在實驗室里那樣鉆研。做前沿研究必須學(xué)會暫時忘記壓力,否則無法產(chǎn)出。

關(guān)于競爭環(huán)境:我并不覺得競爭壓力是壞事。大家的研究方向其實非常相似,雖然路徑各異,但目標(biāo)都是為了構(gòu)建更強(qiáng)大、更可靠的模型。灣區(qū)的信息流動非常頻繁,雖然我們不會向?qū)κ滞嘎逗诵臋C(jī)密,但人才的流動意味著先進(jìn)技術(shù)不會永遠(yuǎn)是秘密。某個公司領(lǐng)先幾個月只是常態(tài),并非生死之戰(zhàn)。Sam Altman 曾提議讓研究人員親眼去看看數(shù)據(jù)中心,這樣當(dāng)他們按下運(yùn)行按鈕時,才能真正理解背后的物理規(guī)模。那些占地如小城市般的設(shè)施、驚人的能耗和昂貴的成本,對研究人員來說往往只是抽象的數(shù)字。貝爾實驗室早期在研發(fā)晶體管時,每天都會消耗極其昂貴的物料,研究人員做完實驗后,這些東西就變成了廢料。這就是進(jìn)步的代價。前沿研究離不開昂貴機(jī)器的支撐。雖然大部分實驗都會失敗,但這正是研究的本質(zhì)。作為研究者,你永遠(yuǎn)希望能做出更準(zhǔn)確的預(yù)判,雖然這很難。未來 AI 也許會幫助我們做出更好的決策,通過更智能的計算來減少資源的浪費(fèi)。

關(guān)于其他實驗室:從第一性原理來看,我認(rèn)為各大實驗室其實非常相似。雖然每家實驗室都有獨特的文化和人才,但我曾在 Google 工作多年,對那里更熟悉。我認(rèn)為這些實驗室的精神內(nèi)核是一致的,都在努力開展大量研究并開發(fā)頂級模型。有時他們會在不同的技術(shù)方向上下注,偶爾也會取得成效。你甚至能從模型中察覺到它們略有不同的性格。但總的來說,那里的研究人員和工程師都在傾盡全力去打造下一個最優(yōu)秀的模型。

16

AI倫理與風(fēng)險

目前 “AI 垃圾內(nèi)容” 這個概念正變得流行,作為一名致力于讓世界變得更美好的研究人員,看到大量資金涌入這些在我看來非常有毒的領(lǐng)域,你有什么感受?這就是我們利用 AI 能做到的極致了嗎?

?ukasz Kaiser: 這就是現(xiàn)實。任何研究成果都可能被以各種方式利用,你無法完全控制它的用途。AI 是一項極其強(qiáng)大的技術(shù),我們必須接受它會被用于一些我們不愿看到的地方。作為研究人員,我們無法阻止這一切,唯一能干預(yù)的實體是政府。相比于 “AI 垃圾內(nèi)容”,我其實更擔(dān)心 AI 武器。人類社會已經(jīng)挺過了那么多平庸垃圾信息的沖刷,AI 生成的內(nèi)容不至于造成毀滅性后果。直到現(xiàn)在人們才意識到社交媒體對孩子的影響,我們本該更早建立防護(hù)機(jī)制。

關(guān)于社會防護(hù):我認(rèn)為現(xiàn)在的防護(hù)重心有所偏移。比如美國一些學(xué)校開始禁止學(xué)生使用手機(jī),這種簡單的物理限制反而很有效。問題的核心不在于是用 TikTok 還是 AI,而在于使用習(xí)慣。我始終認(rèn)為 AI 武器化比媒體領(lǐng)域的問題更嚴(yán)峻。雖然大語言模型在這方面影響有限,但物理模型確實具備這種風(fēng)險。我希望社會能對此建立約束。

17

商業(yè)模式的取舍

近期有趨勢顯示 OpenAI 正在招聘廣告主管,這是否意味著未來會在免費(fèi)賬戶中加入廣告?如果 AI 推薦的產(chǎn)品是基于合作伙伴關(guān)系的,比如和 Etsy 的合作。如果我搜索木制架子,由于分成關(guān)系,它只顯示 Etsy 的選項,那公平性如何保證?

?ukasz Kaiser: 在數(shù)字領(lǐng)域我確實看到了一些希望。轉(zhuǎn)向 AI 時代,我們或許能把事情做得更好。在 OpenAI,無論是員工還是領(lǐng)導(dǎo)層,我們非常自豪的一點是采用了訂閱模式。當(dāng)初這完全可能走向另一條路。這既源于早期的決策,也帶有一點運(yùn)氣。最初 ChatGPT 只是一個研究預(yù)覽。但除了運(yùn)氣,我們確實考慮過不想把用戶參與度作為核心指標(biāo)。雖然那種模式能賺到錢,但那不是我們的方向。當(dāng)時外界認(rèn)為靠訂閱模式無法盈利,但事實證明用戶愿意為沒有廣告、不刻意誘導(dǎo)停留的高質(zhì)量服務(wù)買單。正因如此,我們可以專注研究,而不需要強(qiáng)迫用戶留存。

關(guān)于內(nèi)部共識:我認(rèn)為大家現(xiàn)在對此有很強(qiáng)的警覺意識。在 OpenAI 內(nèi)部,至少在員工和部分領(lǐng)導(dǎo)層中,有一種強(qiáng)烈的共識,即我們不想走那條路。當(dāng)然,公司仍需盈利。我在 Google 工作過七年,那時 Larry Page 曾嘗試推行訂閱模式以減少廣告,但在當(dāng)時的環(huán)境下徹底失敗了,因為用戶已經(jīng)習(xí)慣了免費(fèi)模式。訂閱模式的前提是必須有人愿意付費(fèi)。ChatGPT 的訂閱模式目前運(yùn)作得很好,雖然未來走向仍待觀察。最近我們推出了商店結(jié)算模式,用戶可以直接在 AI 界面購物并即時下單。我們不需要向你展示廣告,而合作伙伴也愿意讓我們抽取分成。這種模式讓我們在不強(qiáng)迫用戶停留的情況下也能盈利。

關(guān)于推薦公正性:不會的。協(xié)議中明確規(guī)定這不會影響公正性。這其實也是技術(shù)特性帶來的好處,很難通過干擾語言模型來定向展示特定內(nèi)容。在以廣告排名為核心的系統(tǒng)中,通過增加權(quán)重信號來提升排名非常簡單。但在語言模型中,如果你為了特定商業(yè)目的進(jìn)行后訓(xùn)練,可能會導(dǎo)致模型表現(xiàn)變得非常詭異。此外,在與合作伙伴的協(xié)議中我們也清晰標(biāo)注了不會影響公正性。但我也必須說,為了讓公司生存,這種模式必須行得通。否則,如果其他競爭對手靠廣告賺了大錢,而 OpenAI 持續(xù)虧損,壓力遲早會來。

市場確實是現(xiàn)實,但它也在很大程度上取決于人們的信念。我不認(rèn)為用戶真的想要那么多廣告。目前我們的免費(fèi)賬戶沒有任何廣告。雖然算力成本高昂,但我們會盡力保持這種純粹性。我不覺得指責(zé)廣告是解決問題的捷徑,并非所有廣告都是壞的。核心問題在于為參與度做優(yōu)化,強(qiáng)迫人們把生命耗費(fèi)在數(shù)字設(shè)備上是錯誤的。無論是視頻流還是其他形式都一樣。視頻本身不壞,廣告有時也能滿足需求,但錯在優(yōu)化方向。我們有很強(qiáng)的承諾不去走那條路。

18

AI 是解決現(xiàn)實難題的杠桿

你如何看待未來?會有《星際迷航》那種豐饒的世界嗎?作為一個樂觀主義者,當(dāng)你面對 Gary Marcus 這樣質(zhì)疑一切的人時,你有什么感受?

?ukasz Kaiser: 我還沒看那么遠(yuǎn)。這個世界還有很多更現(xiàn)實的問題。我不認(rèn)為必須工作是人類最大的問題,真正的挑戰(zhàn)是即便在工作,很多人依然負(fù)擔(dān)不起基本生活。我們還有環(huán)境、醫(yī)療等諸多難題?茖W(xué)家們有很多解決方案,只是缺乏執(zhí)行力。我希望 AI 能加速這些已有方案的落地。此外,在信息處理方面,AI 或許能幫我們更高效地利用技術(shù)。

關(guān)于日常生活:我更期待 AI 能解決日,嵤。最初的變化可能并不宏大,但我希望通過 AI 讓生活質(zhì)量得到實質(zhì)提升,比如獲得更科學(xué)的建議、生活得更健康。AI 很擅長給建議,但建議是否及時、是否適用、是否會產(chǎn)生副作用,這些都需要深耕。此外,在信息不對稱的領(lǐng)域如教育,它既可以是頂尖的導(dǎo)師,也可能成為完美的作弊工具。我曾與一些貧困國家的非政府組織合作,我們想,如果每個孩子都有手機(jī),AI 就能充當(dāng)導(dǎo)師。但隨后有人提出這可以用來削減教師崗位,這完全背離了初衷。這種風(fēng)險確實存在,如何引導(dǎo)技術(shù)走向,需要全社會共同面對。

(關(guān)于懷疑論者)我們太忙了,并不會被這些言論影響。人們當(dāng)然可以保持懷疑。但作為研究人員,我認(rèn)為對技術(shù)的這種懷疑是找錯了對象,技術(shù)本身的進(jìn)步是實實在在的。我們真正應(yīng)該警惕的是如何使用它。要用好 AI 需要全社會去適應(yīng)。雖然 AI 是第一個能引導(dǎo)用戶使用它的技術(shù),但這需要社會共同承擔(dān)責(zé)任。確實存在很多誤用的可能,這才是挑戰(zhàn)所在。正如互聯(lián)網(wǎng)誕生后的幾十年里都沒有直接體現(xiàn)在生產(chǎn)力統(tǒng)計中一樣,AI 也不會瞬間創(chuàng)造天堂。

AI 作為一項技術(shù),會承擔(dān)越來越多的工作任務(wù)。自動駕駛汽車會普及,技術(shù)將持續(xù)迭代。但這能否轉(zhuǎn)化為每個人的福祉,不是科技公司能獨立完成的。這很難,因為連研究人員甚至行業(yè)領(lǐng)袖都不確定技術(shù)的最終走向。我們需要面對現(xiàn)實,在技術(shù)持續(xù)改進(jìn)的同時,善用現(xiàn)有的成果。如果有人對技術(shù)能否在短期內(nèi)帶來收益持懷疑態(tài)度,我認(rèn)為這種可能性必須被嚴(yán)肅對待。有些門一旦開啟就無法再關(guān)上。就算沒有 ChatGPT,還有其他開源模型。我們需要尋找更聰明的方式來化解陣痛?v觀歷史,人類最終總能找到出路。

| 文章來源:數(shù)字開物

【AI技術(shù)與應(yīng)用交流群|僅限受邀加入】

AI算力領(lǐng)域TOP級從業(yè)者專屬圈層

√ 與頭部算力企業(yè)深度對話

√ 與AI上下游企業(yè)深度對話

√ 獲取一手全球AI與算力產(chǎn)業(yè)信息

√ 獲取AI熱點及前沿產(chǎn)業(yè)獨家信息

√ 隨時了解全球AI領(lǐng)域高管最新觀點及實錄全文

√ 有機(jī)會參與AI主題產(chǎn)業(yè)交流活動

掃碼驗證身份(需備注姓名/公司/職務(wù)

不止有 DeepSeek,更有 AI產(chǎn)業(yè)的未來!

? END ?

【專欄】精品再讀

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
第一個房價回升的城市出現(xiàn)了!

第一個房價回升的城市出現(xiàn)了!

新浪財經(jīng)
2025-12-26 00:23:14
四川最長8車道高速公路12月底通車 記者提前試跑探路

四川最長8車道高速公路12月底通車 記者提前試跑探路

封面新聞
2025-12-27 11:53:05
志愿軍功臣隱姓埋名當(dāng)農(nóng)民,55 年授銜漏評,朱德上報毛主席

志愿軍功臣隱姓埋名當(dāng)農(nóng)民,55 年授銜漏評,朱德上報毛主席

磊子講史
2025-12-25 16:36:00
馬筱梅媽媽被贊情商高,汪小菲宴請好友,她陪著小楊阿姨不上桌

馬筱梅媽媽被贊情商高,汪小菲宴請好友,她陪著小楊阿姨不上桌

振華觀史
2025-12-27 11:20:01
“飛人”劉翔徹底躺平,42歲每天游山玩水,看他曬世界各地游玩照

“飛人”劉翔徹底躺平,42歲每天游山玩水,看他曬世界各地游玩照

可樂談情感
2025-12-25 15:47:33
“第三次世界大戰(zhàn)”導(dǎo)火索?如果中國攔截售臺武器,會發(fā)生什么?

“第三次世界大戰(zhàn)”導(dǎo)火索?如果中國攔截售臺武器,會發(fā)生什么?

扶蘇聊歷史
2025-12-27 10:30:21
2025年,解放軍實現(xiàn)“大躍進(jìn)”,福建艦只是開胃菜

2025年,解放軍實現(xiàn)“大躍進(jìn)”,福建艦只是開胃菜

空天時代視頻
2025-12-27 19:05:48
沖上熱搜,湖人內(nèi)訌爆發(fā)!矛頭直指詹姆斯,名嘴:他走人最佳方案

沖上熱搜,湖人內(nèi)訌爆發(fā)!矛頭直指詹姆斯,名嘴:他走人最佳方案

阿泰希特
2025-12-27 12:11:28
徐湖平父子只是沾光的小卒,真正害怕的幕后“大人物”是他

徐湖平父子只是沾光的小卒,真正害怕的幕后“大人物”是他

李博世財經(jīng)
2025-12-26 14:26:17
慘敗之后!全隊心態(tài)崩了!湖人最快速度交易

慘敗之后!全隊心態(tài)崩了!湖人最快速度交易

籃球教學(xué)論壇
2025-12-26 19:34:39
雖遠(yuǎn)必誅,永不忘記——以色列抓捕與羅恩·阿拉德有關(guān)的黎巴嫩前軍官

雖遠(yuǎn)必誅,永不忘記——以色列抓捕與羅恩·阿拉德有關(guān)的黎巴嫩前軍官

老王說正義
2025-12-25 00:07:02
極品領(lǐng)導(dǎo)人高市早苗,創(chuàng)下十年最快紀(jì)錄

極品領(lǐng)導(dǎo)人高市早苗,創(chuàng)下十年最快紀(jì)錄

陸棄
2025-11-12 08:55:03
食堂承包商舉報校領(lǐng)導(dǎo)兩年拿走三百余萬現(xiàn)金,校方:給老師發(fā)津貼

食堂承包商舉報校領(lǐng)導(dǎo)兩年拿走三百余萬現(xiàn)金,校方:給老師發(fā)津貼

新京報
2025-12-26 11:36:10
明日,河南又一國家區(qū)域中心開診:總投資15億,床位1500張

明日,河南又一國家區(qū)域中心開診:總投資15億,床位1500張

金水路7號站
2025-12-27 12:47:26
陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

民間平哥
2025-12-25 14:54:58
1981年,華國鋒并未辭去所有職位,仍留著一個關(guān)鍵職務(wù)直到2002年

1981年,華國鋒并未辭去所有職位,仍留著一個關(guān)鍵職務(wù)直到2002年

賈文彬的史書
2025-12-25 17:28:15
下周行情(12.29-31日)要點早知道

下周行情(12.29-31日)要點早知道

玉名W
2025-12-27 09:55:08
將耳朵寄養(yǎng)在腳背5個多月,山東女子的離斷左耳成功回植

將耳朵寄養(yǎng)在腳背5個多月,山東女子的離斷左耳成功回植

人民日報健康客戶端
2025-12-25 20:06:24
表演“死亡飛輪” 演員不慎高空墜落;最新情況:送醫(yī)檢查無大礙

表演“死亡飛輪” 演員不慎高空墜落;最新情況:送醫(yī)檢查無大礙

大風(fēng)新聞
2025-12-27 14:20:11
離開申花后 !還能聽到消息的外援 除了馬萊萊 還有巴索戈他們

離開申花后 !還能聽到消息的外援 除了馬萊萊 還有巴索戈他們

80后體育大蜀黍
2025-12-26 22:53:01
2025-12-27 20:39:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
本地
公開課
軍事航空

藝術(shù)要聞

日本建筑大師出手,為臺灣孩子打造知識地標(biāo)!

數(shù)碼要聞

銘凡DEG2顯卡塢發(fā)布,開放式設(shè)計且多接口配置

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

英法德三國領(lǐng)導(dǎo)人通話 重申對烏支持

無障礙瀏覽 進(jìn)入關(guān)懷版