国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Dwarkesh最新播客:2025年AI進(jìn)展總結(jié)

0
分享至

Dwarkesh 這個(gè)名字,可能很多人有點(diǎn)陌生。但關(guān)注 AI 的朋友,一定在最近一段時(shí)間里,看到過(guò) Ilya Sutskever 跟 Andrej Karpathy 的播客采訪。 他們上的就是 Dwarkesh 的播客。

這兩人上播客的次數(shù)屈指可數(shù),能采訪到這兩個(gè)人,大概能說(shuō)明 Dwarkesh 在美國(guó) AI 圈的地位。

這篇文章基于他最新一期播客,匯總了一些他關(guān)于 AI 進(jìn)展的想法。

在這之前,他其實(shí)已經(jīng)在個(gè)人網(wǎng)站上更新過(guò)相關(guān)內(nèi)容,所以我在文章最后還從那里精選了幾個(gè)評(píng)論。

因?yàn)殛P(guān)于 AI 進(jìn)展,乃至 AGI 的時(shí)間線,都是非常主觀的話題,所以除了作者的看法,評(píng)論區(qū)的反饋也很有價(jià)值。



Dwarkesh 的一些核心判斷:

1. 以強(qiáng)化學(xué)習(xí)為核心的“中訓(xùn)練”,正在成為 LLM 的重點(diǎn)突破方向。前沿科技公司正通過(guò)所謂的“中訓(xùn)練”(mid-training)把大量具體技能預(yù)先塞進(jìn)模型里。

Dwarkesh 認(rèn)為這恰恰是 AGI 還很遠(yuǎn)的證據(jù),因?yàn)槿绻P头夯芰軓?qiáng),那就不需要單獨(dú)構(gòu)建那么多強(qiáng)化學(xué)習(xí)環(huán)境,教它操作瀏覽器或者 Excel。

2. 預(yù)置技能的想法是很奇怪的,人類勞動(dòng)力之所以有價(jià)值,恰恰是因?yàn)橛?xùn)練成本并不笨重。

可以根據(jù)需要,靈活掌握一些新的技能。每天你都要做上百件需要判斷力、情境感知、以及在工作中習(xí)得的技能和背景知識(shí)的事情。如果全部依賴預(yù)置技能,很可能的結(jié)果是我們連最簡(jiǎn)單的工作都無(wú)法完全自動(dòng)化。

3. AI 經(jīng)濟(jì)擴(kuò)散滯后,本質(zhì)是為能力不足找借口。企業(yè)招聘這個(gè)過(guò)程其實(shí)非常tricky,因?yàn)樯婕皩?duì)人的能力和品格等做估計(jì)。

而 AI 員工完全不存在這個(gè)問(wèn)題,經(jīng)過(guò)驗(yàn)證的 AI 員工可以無(wú)損無(wú)限復(fù)制。

換句話說(shuō),企業(yè)有很強(qiáng)的動(dòng)機(jī)去雇傭 AI 勞動(dòng)力?,F(xiàn)在這事沒(méi)有發(fā)生,只能證明模型能力差得太遠(yuǎn)。

4. 回應(yīng)對(duì) AI 空頭的批評(píng)。過(guò)去發(fā)生過(guò)的事情是,經(jīng)常有人說(shuō) AI 現(xiàn)在這不行那不行,比如通用理解、少樣本能力、推理能力。

但隨著技術(shù)發(fā)展,這些問(wèn)題 AI 都能解決了。但是空頭還是會(huì)提出新的標(biāo)準(zhǔn),論證 AI 的能力不限。

作者認(rèn)為這種標(biāo)準(zhǔn)調(diào)整是有道理的,因?yàn)槲覀儗?duì)于 AGI 的理解在深化,智能和勞動(dòng)比我們?cè)?jīng)的理解要復(fù)雜得多。

5. 預(yù)訓(xùn)練階段的 scaling law 非常清晰,只要算力數(shù)量級(jí)提升,損失函數(shù)就會(huì)穩(wěn)定下降。

但現(xiàn)在大家正在把這種在預(yù)訓(xùn)練上獲得的經(jīng)驗(yàn),轉(zhuǎn)移到圍繞強(qiáng)化學(xué)習(xí)(RLVR)的中訓(xùn)練上。

這種技術(shù)樂(lè)觀并沒(méi)有依據(jù),有人根據(jù) o 系列做了研究,結(jié)論是:要獲得類似 GPT 級(jí)別的提升,強(qiáng)化學(xué)習(xí)的總算力規(guī)??赡苄枰嵘揭话偃f(wàn)倍。

6. 與人類分布的對(duì)比,會(huì)先讓我們高估 AI,然后再低估它。

由于知識(shí)工作中相當(dāng)大一部分價(jià)值來(lái)自最頂尖的那一小撮人,如果我們把 AI 模型的智能水平與“中位數(shù)人類”相比,就會(huì)系統(tǒng)性地高估它們能創(chuàng)造的價(jià)值。

但反過(guò)來(lái)說(shuō),一旦模型真正達(dá)到了頂級(jí)人類的水平,其影響力可能會(huì)是爆炸式的。

7. 持續(xù)學(xué)習(xí)(continual learning)會(huì)是 AGI 之后,模型能力提升的主要驅(qū)動(dòng)力。

他預(yù)估明年前沿團(tuán)隊(duì)就會(huì)發(fā)布一些持續(xù)學(xué)習(xí)的雛形功能,但要達(dá)到人類水平的持續(xù)學(xué)習(xí),可能還需要 5 到 10 年。持續(xù)學(xué)習(xí)的解決不會(huì)是一蹴而就的,所以不會(huì)有模型因?yàn)樵谶@點(diǎn)上取得突破后就獲得失控式的領(lǐng)先優(yōu)勢(shì)。

以下為原文:

我們?cè)赟caling什么?

我一直很困惑:為什么有些人一方面認(rèn)為 AGI 的時(shí)間線很短,另一方面卻又對(duì)當(dāng)前在大語(yǔ)言模型之上大規(guī)模擴(kuò)展強(qiáng)化學(xué)習(xí)持極度樂(lè)觀態(tài)度。

如果我們真的已經(jīng)接近一種類人學(xué)習(xí)者,那么這種基于“可驗(yàn)證結(jié)果”的訓(xùn)練路徑,從根本上就是走不通的。

目前,各家正試圖通過(guò)所謂的“中訓(xùn)練”(mid-training)把大量具體技能預(yù)先塞進(jìn)模型里。

圍繞這一點(diǎn),甚至已經(jīng)形成了一整條產(chǎn)業(yè)鏈:有公司專門構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境,教模型如何操作網(wǎng)頁(yè)瀏覽器,或者使用 Excel 來(lái)搭建財(cái)務(wù)模型。

要么,這些模型很快就能以自我驅(qū)動(dòng)的方式在工作中學(xué)習(xí),那所有這些“預(yù)烘焙”技能就毫無(wú)意義;要么它們做不到,那就說(shuō)明 AGI 并非近在咫尺。

人類并不需要經(jīng)歷一個(gè)特殊的訓(xùn)練階段,把未來(lái)可能用到的每一個(gè)軟件都提前練一遍。

Beren Millidge 在最近的一篇博客中對(duì)這一點(diǎn)提出了很有意思的看法:

當(dāng)我們看到前沿模型在各種基準(zhǔn)測(cè)試上取得進(jìn)步時(shí),不應(yīng)該只想到算力規(guī)模的提升或巧妙的機(jī)器學(xué)習(xí)研究思路,還應(yīng)該意識(shí)到:背后是數(shù)十億美元的投入,用來(lái)支付博士、醫(yī)生以及其他專家,讓他們圍繞這些特定能力編寫問(wèn)題、給出示例答案和推理過(guò)程。從某種意義上說(shuō),這就像是專家系統(tǒng)時(shí)代的一次大規(guī)模重演,只不過(guò)這一次不是讓專家把思維直接寫成代碼,而是讓他們提供大量被形式化、被追蹤的推理樣本,然后我們通過(guò)行為克隆把這些蒸餾進(jìn)模型里。這讓我對(duì) AI 時(shí)間線略微傾向于更長(zhǎng),因?yàn)槿绱司薮蟮呐Σ拍転榍把叵到y(tǒng)設(shè)計(jì)出高質(zhì)量的人類軌跡和環(huán)境,恰恰說(shuō)明它們?nèi)匀蝗狈σ粋€(gè)真正 AGI 所必須具備的關(guān)鍵學(xué)習(xí)核心。

這種張力在機(jī)器人領(lǐng)域表現(xiàn)得尤為明顯。從根本上說(shuō),機(jī)器人是一個(gè)算法問(wèn)題,而不是硬件或數(shù)據(jù)問(wèn)題。

人類只需要很少的訓(xùn)練,就能學(xué)會(huì)遠(yuǎn)程操控現(xiàn)有硬件去完成有用的工作。所以,如果我們真的擁有一種類人的學(xué)習(xí)者,機(jī)器人問(wèn)題在很大程度上就已經(jīng)解決了。

但正因?yàn)槲覀儧](méi)有這樣的學(xué)習(xí)者,才不得不跑到成千上萬(wàn)戶家庭里,去學(xué)習(xí)如何端盤子、如何疊衣服。

我聽(tīng)過(guò)一個(gè)來(lái)自“五年內(nèi)起飛”陣營(yíng)(極度技術(shù)樂(lè)觀派)的反駁觀點(diǎn):我們之所以要搞這些笨拙的強(qiáng)化學(xué)習(xí),是為了先造出一個(gè)超人類的 AI 研究員,然后讓一百萬(wàn)個(gè)自動(dòng)化的 Ilya 去想辦法解決如何從經(jīng)驗(yàn)中進(jìn)行穩(wěn)健而高效的學(xué)習(xí)。

這讓我想起那個(gè)老笑話:我們每賣一單都在虧錢,但可以靠走量把錢賺回來(lái)。一個(gè)連兒童都具備的基本學(xué)習(xí)能力都沒(méi)有的自動(dòng)化研究員,卻要解決人類花了將近一個(gè)世紀(jì)都沒(méi)解決的 AGI 算法問(wèn)題?我覺(jué)得這極其不可信。

此外,即便你認(rèn)為 RLVR 的規(guī)?;芸炀湍軒椭覀冏詣?dòng)化 AI 研究,實(shí)驗(yàn)室的實(shí)際行動(dòng)卻表明它們并不相信這一點(diǎn)。

要自動(dòng)化 Ilya,并不需要提前把做 PowerPoint 的咨詢顧問(wèn)技能塞進(jìn)模型里。而現(xiàn)在它們這么做,清楚地暗示了這樣一種看法:這些模型在泛化能力和在崗學(xué)習(xí)(on-the-job learning)方面仍然表現(xiàn)糟糕,因此才必須提前內(nèi)置那些他們希望在經(jīng)濟(jì)上有價(jià)值的技能。

RLVR:Reinforcement Learning with Verifiable Rewards,指帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)

另一種反駁是,即使模型能夠在工作中學(xué)會(huì)這些技能,把它們一次性在訓(xùn)練階段學(xué)好,總比為每個(gè)用戶或每家公司反復(fù)學(xué)習(xí)要高效得多。

確實(shí),把對(duì)瀏覽器、終端等常用工具的熟練度預(yù)先內(nèi)置進(jìn)去是很合理的。AGI 的一個(gè)關(guān)鍵優(yōu)勢(shì),本來(lái)就是不同實(shí)例之間可以共享知識(shí)。

但人們嚴(yán)重低估了大多數(shù)工作對(duì)公司特定、情境特定技能的依賴程度,而目前 AI 并不存在一種穩(wěn)健且高效的方法來(lái)習(xí)得這些技能。

人類勞動(dòng)力之所以有價(jià)值,恰恰是因?yàn)橛?xùn)練成本并不笨重

有一次我和一位 AI 研究員以及一位生物學(xué)家一起吃飯。那位生物學(xué)家說(shuō)她認(rèn)為 AI 的時(shí)間線很長(zhǎng)。我們問(wèn)她覺(jué)得 AI 會(huì)在哪些地方遇到困難。

她說(shuō)她最近的工作加入了看切片的部分,判斷某個(gè)小點(diǎn)到底是真正的巨噬細(xì)胞,還是只是看起來(lái)像。AI 研究員則回應(yīng)說(shuō):圖像分類是深度學(xué)習(xí)的教科書級(jí)問(wèn)題,這個(gè)很容易訓(xùn)練。

我覺(jué)得這段對(duì)話非常有意思,因?yàn)樗沂玖宋液湍切┢诖磥?lái)幾年出現(xiàn)顛覆性經(jīng)濟(jì)影響的人之間的一個(gè)關(guān)鍵分歧。人類工作者之所以有價(jià)值,正是因?yàn)槲覀儾恍枰獮樗麄児ぷ鞯拿恳粋€(gè)小環(huán)節(jié)都搭建笨重的訓(xùn)練閉環(huán)。

針對(duì)某個(gè)實(shí)驗(yàn)室特定的切片制備方式,單獨(dú)訓(xùn)練一個(gè)模型來(lái)識(shí)別巨噬細(xì)胞,然后再為下一個(gè)實(shí)驗(yàn)室、下一個(gè)微任務(wù)重復(fù)一遍,這在整體上是得不償失的。真正需要的是一種 AI,能夠像人類一樣,從語(yǔ)義反饋或自我驅(qū)動(dòng)的經(jīng)驗(yàn)中學(xué)習(xí),并且實(shí)現(xiàn)泛化。

每天,你都要做上百件需要判斷力、情境感知,以及在工作中習(xí)得的技能和背景知識(shí)的事情。這些任務(wù)不僅在不同人之間不同,甚至同一個(gè)人前后兩天做的事情都不一樣。

僅靠預(yù)先內(nèi)置一組固定技能,連一份工作都無(wú)法完全自動(dòng)化,更不用說(shuō)所有工作了。

事實(shí)上,我認(rèn)為人們嚴(yán)重低估了真正 AGI 的沖擊力,因?yàn)樗麄冎皇前熏F(xiàn)在這一套無(wú)限延展。他們沒(méi)有意識(shí)到,真正的 AGI 意味著服務(wù)器上運(yùn)行著數(shù)十億個(gè)類人智能體,能夠復(fù)制、融合彼此的全部學(xué)習(xí)成果。

說(shuō)清楚一點(diǎn),我確實(shí)預(yù)計(jì)這種意義上的 AGI 會(huì)在未來(lái)一二十年內(nèi)出現(xiàn)。這實(shí)在是太瘋狂了。

所謂經(jīng)濟(jì)擴(kuò)散滯后,其實(shí)是在為能力不足找借口

有時(shí)候人們會(huì)說(shuō),AI 之所以還沒(méi)有在企業(yè)中廣泛部署、在編程之外創(chuàng)造大量?jī)r(jià)值,是因?yàn)榧夹g(shù)擴(kuò)散本來(lái)就需要很長(zhǎng)時(shí)間。

我認(rèn)為這是一種自我安慰,是在掩蓋一個(gè)事實(shí):這些模型根本就缺乏創(chuàng)造廣泛經(jīng)濟(jì)價(jià)值所必需的能力。

Steven Byrnes 就這一點(diǎn)以及許多相關(guān)問(wèn)題寫過(guò)一篇非常出色的文章:

新技術(shù)需要很長(zhǎng)時(shí)間才能融入經(jīng)濟(jì)體系?那你不妨問(wèn)問(wèn)自己:那些高技能、有經(jīng)驗(yàn)、有創(chuàng)業(yè)精神的移民,為什么能夠立刻融入經(jīng)濟(jì)體系?想清楚這個(gè)問(wèn)題之后你就會(huì)發(fā)現(xiàn),AGI 也能做到同樣的事情。

如果這些模型真的相當(dāng)于“服務(wù)器上的人類”,它們的擴(kuò)散速度會(huì)快得驚人。事實(shí)上,它們比普通人類員工更容易整合和入職,可以在幾分鐘內(nèi)讀完你的 Slack 和 Drive,并立刻提煉出你其他 AI 員工掌握的全部技能。

而且,招聘本身就很像一個(gè)檸檬市場(chǎng),很難判斷誰(shuí)是好員工,招錯(cuò)人的成本也非常高。但當(dāng)你只是啟動(dòng)另一個(gè)已經(jīng)驗(yàn)證過(guò)的 AGI 實(shí)例時(shí),這種問(wèn)題根本不存在。

檸檬市場(chǎng)是指在信息不對(duì)稱條件下,消費(fèi)者難以辨別商品質(zhì)量而傾向壓低支付價(jià)格,結(jié)果優(yōu)質(zhì)商品退出、市場(chǎng)逐步被劣質(zhì)商品主導(dǎo)的現(xiàn)象。

因此,我預(yù)計(jì)把 AI 勞動(dòng)力引入企業(yè)會(huì)比招聘人類容易得多。而企業(yè)一直在不斷招人。

如果能力真的達(dá)到了 AGI 水平,人們完全愿意每年花費(fèi)數(shù)萬(wàn)億美元購(gòu)買 token,因?yàn)橹R(shí)工作者每年的總薪酬本身就高達(dá)數(shù)十萬(wàn)億美元。

實(shí)驗(yàn)室當(dāng)前收入差了四個(gè)數(shù)量級(jí),原因只有一個(gè):模型距離人類知識(shí)工作者的能力還差得太遠(yuǎn)。

調(diào)整目標(biāo)標(biāo)準(zhǔn)是合理的

AI 多頭經(jīng)常批評(píng) AI 空頭不斷調(diào)整目標(biāo)標(biāo)準(zhǔn)。這種批評(píng)在很多時(shí)候是成立的。過(guò)去十年,AI 確實(shí)取得了巨大的進(jìn)展,人們很容易忽視這一點(diǎn)。

但在某種程度上,調(diào)整目標(biāo)標(biāo)準(zhǔn)是合理的。如果你在 2020 年給我看 Gemini 3,我一定會(huì)確信它能夠自動(dòng)化一半的知識(shí)工作。

我們不斷攻克那些曾被認(rèn)為是通往 AGI 的關(guān)鍵瓶頸,比如通用理解、少樣本學(xué)習(xí)、推理能力,但我們依然沒(méi)有 AGI。如果把 AGI 定義為能夠自動(dòng)化 95% 的知識(shí)工作崗位,那理性的反應(yīng)是什么?

一個(gè)完全合理的結(jié)論是:原來(lái)智能和勞動(dòng)比我以前理解的要復(fù)雜得多。盡管我們已經(jīng)非常接近,甚至在很多方面已經(jīng)超過(guò)了我過(guò)去對(duì) AGI 的定義,但模型公司并沒(méi)有賺到數(shù)萬(wàn)億美元這一事實(shí),清楚地說(shuō)明了我之前對(duì) AGI 的定義過(guò)于狹隘。

我預(yù)計(jì)這種情況在未來(lái)還會(huì)不斷發(fā)生。我預(yù)計(jì)到 2030 年,前沿實(shí)驗(yàn)室會(huì)在我一直關(guān)注的持續(xù)學(xué)習(xí)問(wèn)題上取得顯著進(jìn)展,模型的年收入將達(dá)到數(shù)千億美元,但它們?nèi)匀粺o(wú)法自動(dòng)化全部知識(shí)工作。

到那時(shí)我可能會(huì)說(shuō):我們?nèi)〉昧撕艽筮M(jìn)步,但還沒(méi)到 AGI。要實(shí)現(xiàn)萬(wàn)億美元級(jí)別的收入,我們還需要 X、Y、Z 這些東西。

模型在“看起來(lái)很厲害”這件事上的進(jìn)步速度,符合短時(shí)間線派的預(yù)測(cè);但在“真正變得有用”這件事上的進(jìn)展速度,卻更符合長(zhǎng)時(shí)間線派的判斷。

預(yù)訓(xùn)練規(guī)?;慕?jīng)驗(yàn)不一定使用于強(qiáng)化學(xué)習(xí)

在預(yù)訓(xùn)練階段,我們看到的是一種極其干凈、普適的趨勢(shì):隨著算力跨越多個(gè)數(shù)量級(jí),損失函數(shù)穩(wěn)定下降,盡管這是一個(gè)冪律關(guān)系,是指數(shù)增長(zhǎng)的反面(albeit on a power law, which is as weak as exponential growth is strong)。

人們正試圖把這種幾乎像物理定律一樣可預(yù)測(cè)的預(yù)訓(xùn)練規(guī)?;?jīng)驗(yàn)看法,轉(zhuǎn)移到 RLVR 上,用來(lái)支撐對(duì)后者的樂(lè)觀預(yù)測(cè)。

但事實(shí)上,RLVR 并不存在任何擬合良好的公開(kāi)趨勢(shì)。當(dāng)一些勇敢的研究者試圖從零星的公開(kāi)數(shù)據(jù)中拼湊結(jié)論時(shí),得到的結(jié)果往往相當(dāng)悲觀。

比如 Toby Ord 寫過(guò)一篇文章,巧妙地把不同 o 系列基準(zhǔn)圖表聯(lián)系起來(lái),得出的結(jié)論是:要獲得類似 GPT 級(jí)別的提升,強(qiáng)化學(xué)習(xí)的總算力規(guī)模可能需要提升到一百萬(wàn)倍。

與人類分布的對(duì)比,會(huì)先讓我們高估 AI,然后再低估它

不同人類能夠創(chuàng)造的價(jià)值差異巨大,尤其是在存在 O-ring 理論描述的白領(lǐng)工作中。

一個(gè)“村里的傻子”對(duì)知識(shí)工作幾乎沒(méi)有價(jià)值,而頂級(jí) AI 研究員對(duì)馬克·扎克伯格來(lái)說(shuō)可能價(jià)值數(shù)十億美元。

O-ring理論:在由多個(gè)關(guān)鍵環(huán)節(jié)構(gòu)成的高價(jià)值工作中,整體產(chǎn)出是“乘法關(guān)系”,任何一個(gè)環(huán)節(jié)出錯(cuò)都會(huì)讓全部?jī)r(jià)值大幅歸零,因此頂級(jí)能力的價(jià)值會(huì)被極端放大。

但在任何一個(gè)時(shí)間截面上,AI 模型的能力基本是齊平的。人類存在巨大差異,而模型沒(méi)有。

由于知識(shí)工作中相當(dāng)大一部分價(jià)值來(lái)自最頂尖的那一小撮人,如果我們把 AI 模型的智能水平與“中位數(shù)人類”相比,就會(huì)系統(tǒng)性地高估它們能創(chuàng)造的價(jià)值。但反過(guò)來(lái)說(shuō),一旦模型真正達(dá)到了頂級(jí)人類的水平,其影響力可能會(huì)是爆炸式的。

廣泛部署帶來(lái)的智能爆炸

人們花了大量時(shí)間討論純軟件奇點(diǎn)、軟硬件結(jié)合的奇點(diǎn),以及各種變體。

但這些設(shè)想都忽視了我認(rèn)為 AGI 之后能力繼續(xù)提升的主要驅(qū)動(dòng)力:持續(xù)學(xué)習(xí)。再想想人類是如何在任何領(lǐng)域變得更強(qiáng)的,主要來(lái)源就是相關(guān)領(lǐng)域的經(jīng)驗(yàn)。

在一次交流中,Beren Millidge 提出了一個(gè)很有意思的設(shè)想:未來(lái)可能是持續(xù)學(xué)習(xí)的智能體走出去做具體工作、創(chuàng)造價(jià)值,然后把所有學(xué)習(xí)成果帶回一個(gè)蜂群心智模型,由它對(duì)所有智能體進(jìn)行某種批量蒸餾。

這些智能體本身可以高度專門化,包含 Karpathy 所說(shuō)的“認(rèn)知核心”,再加上與其具體工作相關(guān)的知識(shí)和技能。

持續(xù)學(xué)習(xí)的“解決”不會(huì)是一蹴而就的成就,而更像是上下文學(xué)習(xí)的解決過(guò)程。

GPT-3 展示了上下文學(xué)習(xí)的巨大潛力。但我們并沒(méi)有在 GPT-3 出現(xiàn)時(shí)就“解決”上下文學(xué)習(xí),從理解能力到上下文長(zhǎng)度,仍然有大量改進(jìn)空間。

我預(yù)計(jì)持續(xù)學(xué)習(xí)也會(huì)經(jīng)歷類似的演進(jìn)過(guò)程。

實(shí)驗(yàn)室很可能在明年發(fā)布一些他們稱之為持續(xù)學(xué)習(xí)的功能,這確實(shí)算是向持續(xù)學(xué)習(xí)邁進(jìn)了一步,但要達(dá)到人類水平的持續(xù)學(xué)習(xí),可能還需要 5 到 10 年的進(jìn)一步發(fā)展。

這也是為什么我不認(rèn)為第一個(gè)在持續(xù)學(xué)習(xí)上取得突破的模型會(huì)立刻獲得失控式的領(lǐng)先優(yōu)勢(shì)。

從部署中學(xué)習(xí)(learning-from-deployment)的收益也很可能存在邊際遞減。前一千個(gè)咨詢型智能體會(huì)從部署中學(xué)到很多,接下來(lái)的一千個(gè)就少一些。至于第一百萬(wàn)個(gè)實(shí)例,真的還有可能看到前面 999999 個(gè)都沒(méi)看到的重要東西嗎?

此外,我有一種主觀判斷:競(jìng)爭(zhēng)仍將保持激烈。過(guò)去那些被寄予厚望的飛輪機(jī)制,幾乎都沒(méi)能削弱模型公司之間的競(jìng)爭(zhēng)。

幾乎每個(gè)月,頭部三家都會(huì)在領(lǐng)獎(jiǎng)臺(tái)上輪換位置,其他競(jìng)爭(zhēng)者也并沒(méi)有落后太遠(yuǎn)。似乎存在某種力量,一直在消解任何一家實(shí)驗(yàn)室可能獲得的失控式優(yōu)勢(shì)。

精選評(píng)論

Will Michaels:似乎人類能夠快速學(xué)習(xí)的原因之一是,人類可能產(chǎn)生的誤解空間受到嚴(yán)格限制,并且在很大程度上是可預(yù)測(cè)的。例如,在學(xué)習(xí)微積分時(shí),大多數(shù)容易出錯(cuò)或產(chǎn)生混淆的點(diǎn)都非常常見(jiàn),因此在教授他人時(shí)可以直接指出。

而 AI 所犯的錯(cuò)誤既不可預(yù)測(cè)(同一個(gè) AI 在不同情況下會(huì)犯不同的錯(cuò)誤),又不直觀(我們無(wú)法準(zhǔn)確判斷 AI 什么時(shí)候可靠,什么時(shí)候不可靠)。

這就導(dǎo)致要?jiǎng)?chuàng)建一個(gè)能夠既識(shí)別所有可能錯(cuò)誤,又對(duì)其進(jìn)行正確懲罰的學(xué)習(xí)環(huán)境,變得異常困難。

這當(dāng)然和你關(guān)于持續(xù)學(xué)習(xí)的更廣泛觀點(diǎn)相關(guān)。如果我們能夠設(shè)計(jì)出一種模型架構(gòu),使 AI 的失敗方式變得可預(yù)測(cè),那么這似乎將是邁向持續(xù)學(xué)習(xí)的一大步。

Argos:文章寫得不錯(cuò),但我覺(jué)得你可能有些過(guò)于自信。我感覺(jué)你引用的那些報(bào)告對(duì)你所作出的強(qiáng)烈論斷支持力度很弱,而且也可以有其他解讀。

OpenAI 在其強(qiáng)化學(xué)習(xí)訓(xùn)練流程中使用了大量高度專業(yè)化的技能,這表明強(qiáng)化學(xué)習(xí)訓(xùn)練并不真正具備泛化能力。

實(shí)際上,被引用的文章只是說(shuō) OpenAI 雇了一些華爾街人士來(lái)生成數(shù)據(jù)。我覺(jué)得更可能的情況是,OpenAI 想利用這些數(shù)據(jù)在短期內(nèi)為高付費(fèi)客戶提供專業(yè)化模型,而不是作為他們通向 AGI 的通用方法。相反的證據(jù)可能是 OpenAI 從經(jīng)濟(jì)的更多不同領(lǐng)域獲取類似數(shù)據(jù)。

AI 還沒(méi)有被廣泛部署,這表明我們還沒(méi)有達(dá)到 AGI。

確實(shí)如此,但那些更合理、預(yù)期短時(shí)間內(nèi)會(huì)出現(xiàn) AGI 的人并沒(méi)有說(shuō)我們已經(jīng)達(dá)到了 AGI。如果你有一些表現(xiàn)不錯(cuò)但不夠可靠、無(wú)法完全匹配人類能力的智能體,那么擴(kuò)散緩慢是一個(gè)合理的論據(jù)。據(jù)許多觀點(diǎn)來(lái)看,Claude Code 非常有用,但如果讓它作為自主員工,它就毫無(wú)用處。

注意,Claude Code(CC)釋放了模型的價(jià)值:使用 Claude 的聊天界面來(lái)編程會(huì)大幅減少價(jià)值增益,而且使 CC 達(dá)到目前水平也需要大量工程努力。如果 CC 和其他編程智能體不存在,你就會(huì)錯(cuò)誤地認(rèn)為最前沿的模型在編程上用處沒(méi)那么大。目前很可能,模型在許多其他具有經(jīng)濟(jì)價(jià)值的任務(wù)上的價(jià)值增益,也正受制于有人投入大量資源來(lái)搭建這種“支撐體系”。

Daniel Kokotajlo:精彩的文章!一些想法:(1)在 《AI 2027》 的設(shè)想中,持續(xù)學(xué)習(xí)會(huì)逐漸被解決。在 2027 年初之前,它只是對(duì)現(xiàn)有范式的增量改進(jìn)——例如找到讓模型更頻繁更新的方法,比如每月、每周更新,而不是每幾個(gè)月更新。然后在 2027 年中期,由于研發(fā)自動(dòng)化帶來(lái)的加速效應(yīng),它們會(huì)變得更加系統(tǒng)可靠、實(shí)現(xiàn)范式迭代并且更像人類。

我仍然預(yù)計(jì)類似的事情會(huì)發(fā)生,盡管我認(rèn)為可能需要更長(zhǎng)時(shí)間。你在上文中說(shuō)過(guò)“這些愚蠢、不具備持續(xù)學(xué)習(xí)能力的 LLM 智能體怎么可能學(xué)會(huì)持續(xù)學(xué)習(xí)呢?”我認(rèn)為答案很簡(jiǎn)單:它們只需要顯著加速通常的 AI 研發(fā)過(guò)程。舉個(gè)例子,如果你覺(jué)得以當(dāng)前算法進(jìn)展的速度,持續(xù)學(xué)習(xí)還需要 10-20 年,那么如果你也覺(jué)得 Claude Opus 7.7 基本上能夠自動(dòng)完成所有編碼工作,并且還可以很好地分析實(shí)驗(yàn)結(jié)果、提出消融建議等,那么合理的結(jié)論是:幾年后,原本剩下的 5-15 年時(shí)間可能會(huì)被壓縮到剩下的 1-3 年。

(2)現(xiàn)有范式確實(shí)似乎需要比人類更多的 RLVR 訓(xùn)練數(shù)據(jù)才能在某項(xiàng)任務(wù)上表現(xiàn)良好。確實(shí)如此。然而一旦足夠強(qiáng)大,上下文學(xué)習(xí)(in-context learning)也可能基本上成為一種持續(xù)學(xué)習(xí)形式?也許,通過(guò)足夠多樣化的 RL 環(huán)境,你可以實(shí)現(xiàn)類似預(yù)訓(xùn)練在常識(shí)理解上達(dá)成的效果,但用于智能體的自主能力。你可以獲得通用型智能體,它們可以被直接投放到新環(huán)境中,并在執(zhí)行過(guò)程中自行摸索,同時(shí)在它們的草稿板/鏈?zhǔn)剿季S(CoT)記憶庫(kù)文件系統(tǒng)中做筆記。

也可以考慮集體而非單個(gè) LLM 智能體,就像“公司中的公司”(由智能體集體構(gòu)成的集體)。未來(lái),這個(gè)集體可能會(huì)自主管理一個(gè)龐大的包含數(shù)據(jù)收集、問(wèn)題識(shí)別、RLVR 環(huán)境生成等各方面的處理流程,這個(gè)流程本身就像是集體的持續(xù)學(xué)習(xí)機(jī)制。例如,集體可能自主決定學(xué)習(xí)某項(xiàng)技能 XYZ 很重要(可能是因?yàn)榉治鲕壽E、與客戶交流并了解有限的 XYZ 技能如何阻礙它們的工作),然后它們可以調(diào)動(dòng)相當(dāng)于數(shù)千名工程師的勞動(dòng)力來(lái)搭建相關(guān)環(huán)境、進(jìn)行訓(xùn)練、更新模型等。

集體仍然可能需要例如比人類多 1000 倍的數(shù)據(jù)才能在某項(xiàng)任務(wù)上表現(xiàn)良好,但因?yàn)樗鼡碛袛?shù)萬(wàn)份復(fù)制在外收集數(shù)據(jù),并且智能地管理數(shù)據(jù)收集過(guò)程,它總體上能夠比人類更快速地學(xué)習(xí)新技能和完成工作。(至少對(duì)于那些可以通過(guò)這種方式解決的技能和工作而言。但是其他的,比如贏得一場(chǎng)戰(zhàn)爭(zhēng)的技能,它無(wú)法通過(guò)這種方式學(xué)習(xí),因?yàn)樗荒馨?1000 個(gè)副本投入到 1000 場(chǎng)不同的戰(zhàn)爭(zhēng)中去。)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
武漢市武昌區(qū)政府副區(qū)長(zhǎng),區(qū)公安分局局長(zhǎng)徐舫擬提名為市州副市州長(zhǎng)人選

武漢市武昌區(qū)政府副區(qū)長(zhǎng),區(qū)公安分局局長(zhǎng)徐舫擬提名為市州副市州長(zhǎng)人選

觀星賞月
2026-04-20 18:26:12
男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

國(guó)創(chuàng)漫話
2026-04-19 15:57:41
對(duì)付男人最高明的本事,不是管住他,而是.....

對(duì)付男人最高明的本事,不是管住他,而是.....

十點(diǎn)讀書
2026-04-19 18:38:02
京東股權(quán)曝光:劉強(qiáng)東控制12.7%股權(quán)有73%投票權(quán) 獲1億美元股息

京東股權(quán)曝光:劉強(qiáng)東控制12.7%股權(quán)有73%投票權(quán) 獲1億美元股息

雷遞
2026-04-20 10:11:22
福原愛(ài)官宣三胎僅3天,男方被扒底朝天,前夫江宏杰的做法太體面

福原愛(ài)官宣三胎僅3天,男方被扒底朝天,前夫江宏杰的做法太體面

阿纂看事
2026-04-20 14:51:18
特朗普:由于安全原因,萬(wàn)斯將不再參加談判;伊朗:已做好外交與軍事對(duì)抗兩手準(zhǔn)備

特朗普:由于安全原因,萬(wàn)斯將不再參加談判;伊朗:已做好外交與軍事對(duì)抗兩手準(zhǔn)備

藍(lán)色海邊
2026-04-20 18:19:49
重磅!34歲國(guó)乒世界冠軍換籍復(fù)出 代表哈薩克斯坦參賽 效仿朱雨玲

重磅!34歲國(guó)乒世界冠軍換籍復(fù)出 代表哈薩克斯坦參賽 效仿朱雨玲

念洲
2026-04-20 11:51:43
很多微信群都變成了死群,因?yàn)槿撕茈y對(duì)沒(méi)有利益的事保持長(zhǎng)久熱情

很多微信群都變成了死群,因?yàn)槿撕茈y對(duì)沒(méi)有利益的事保持長(zhǎng)久熱情

大張的自留地
2026-04-20 13:10:12
東風(fēng) - 31 泄密大案:總工程師被美色策反,國(guó)之重器險(xiǎn)遭滅頂之災(zāi)

東風(fēng) - 31 泄密大案:總工程師被美色策反,國(guó)之重器險(xiǎn)遭滅頂之災(zāi)

干史人
2026-04-18 13:44:12
今天才知道:冰箱冷凍室不能放這4樣,放了冰箱容易炸,真可怕

今天才知道:冰箱冷凍室不能放這4樣,放了冰箱容易炸,真可怕

Home范
2026-04-20 11:07:38
首輪8場(chǎng)G1打完!你該明白:總冠軍級(jí)球隊(duì)僅這5支!

首輪8場(chǎng)G1打完!你該明白:總冠軍級(jí)球隊(duì)僅這5支!

運(yùn)籌帷幄的籃球
2026-04-20 14:08:09
“把列車當(dāng)自家客廳!”網(wǎng)友稱買商務(wù)座遇幾人打牌喧鬧,12306回應(yīng)

“把列車當(dāng)自家客廳!”網(wǎng)友稱買商務(wù)座遇幾人打牌喧鬧,12306回應(yīng)

瀟湘晨報(bào)
2026-04-20 17:22:03
全場(chǎng)嘩然!29歲女子在相親舞臺(tái)稱“娶我一定讓你爽”,王婆也懵了

全場(chǎng)嘩然!29歲女子在相親舞臺(tái)稱“娶我一定讓你爽”,王婆也懵了

火山詩(shī)話
2026-04-19 06:42:57
河南一男子因病偏癱,覺(jué)得虧欠妻子主動(dòng)離婚,女兒擺酒席慶祝:他們開(kāi)心就好,離婚不離家,母親繼續(xù)照顧父親,房車等全部財(cái)產(chǎn)都在母親名下

河南一男子因病偏癱,覺(jué)得虧欠妻子主動(dòng)離婚,女兒擺酒席慶祝:他們開(kāi)心就好,離婚不離家,母親繼續(xù)照顧父親,房車等全部財(cái)產(chǎn)都在母親名下

洪觀新聞
2026-04-20 16:20:08
巴鐵1.3萬(wàn)中械師進(jìn)沙特,阿聯(lián)酋提1500億進(jìn)京,中東變天了

巴鐵1.3萬(wàn)中械師進(jìn)沙特,阿聯(lián)酋提1500億進(jìn)京,中東變天了

戰(zhàn)爭(zhēng)史
2026-04-20 11:04:19
女神志玲姐姐已逐漸蔡明化

女神志玲姐姐已逐漸蔡明化

微微熱評(píng)
2026-04-09 11:59:36
山東泰安一男子在減肥訓(xùn)練營(yíng)內(nèi)身亡 當(dāng)?shù)鼐揭呀槿胝{(diào)查 訓(xùn)練營(yíng):其剛?cè)霠I(yíng)還未開(kāi)始訓(xùn)練

山東泰安一男子在減肥訓(xùn)練營(yíng)內(nèi)身亡 當(dāng)?shù)鼐揭呀槿胝{(diào)查 訓(xùn)練營(yíng):其剛?cè)霠I(yíng)還未開(kāi)始訓(xùn)練

紅星新聞
2026-04-20 16:24:29
那番絕境,大帝終究還要面對(duì)

那番絕境,大帝終究還要面對(duì)

虛聲
2026-04-20 08:08:29
“浩浩媽”新作被捆綁!表情嬌羞 身材太難頂

“浩浩媽”新作被捆綁!表情嬌羞 身材太難頂

游民星空
2026-04-19 11:03:24
國(guó)際奧委會(huì)明確表態(tài),對(duì)2036年奧運(yùn)會(huì)的申辦情況很是失望

國(guó)際奧委會(huì)明確表態(tài),對(duì)2036年奧運(yùn)會(huì)的申辦情況很是失望

安安說(shuō)
2026-04-20 11:09:20
2026-04-20 20:31:00
象先志 incentive-icons
象先志
專注互聯(lián)網(wǎng)、電商,聚焦產(chǎn)業(yè)、核心,洞察前沿、趨勢(shì)
143文章數(shù) 9關(guān)注度
往期回顧 全部

科技要聞

華為Pura90逆周期定價(jià),4699元起,未漲價(jià)

頭條要聞

小學(xué)生遭多名中小學(xué)生施暴搜家 家長(zhǎng)以"入室搶劫"報(bào)案

頭條要聞

小學(xué)生遭多名中小學(xué)生施暴搜家 家長(zhǎng)以"入室搶劫"報(bào)案

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂(lè)要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

家居
旅游
教育
游戲
公開(kāi)課

家居要聞

自然慢調(diào) 慢享時(shí)光

旅游要聞

棗莊薛城錦陽(yáng)河畔春光正好 成市民休閑打卡好去處

教育要聞

同一個(gè)詞,AI怎么知道它是什么意思?

PS5新獨(dú)占大作獎(jiǎng)杯列表曝光!難度炸裂 致敬33?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版