国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AlphaGo之父出山:另辟蹊徑,繞過大模型探索超級智能

0
分享至

又一位大佬創(chuàng)業(yè)了。

幾周前,消息確認(rèn)前谷歌 DeepMind 首席科學(xué)家、AlphaGo 核心負(fù)責(zé)人戴維·席爾瓦(David Silver)正式離職,并在倫敦創(chuàng)立人工智能初創(chuàng)公司"Ineffable Intelligence"。據(jù)悉,該公司正在推進(jìn)一輪規(guī)模達(dá) 10 億美元的種子輪融資,目前已接近完成。

這一融資額度,追平了 OpenAI 前首席科學(xué)家伊利亞·蘇茨克維(Ilya Sutskever)2024 年創(chuàng)立 Safe Superintelligence(SSI)時(shí)創(chuàng)下的紀(jì)錄。


圖 | 戴維·席爾瓦 (來源:Youtube)

與當(dāng)前依賴海量文本預(yù)訓(xùn)練的大模型路徑不同,席爾瓦的新公司明確提出:他們要繞過 LLM 既定范式,回歸強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)本源,構(gòu)建一個(gè)不依賴人類既有知識、能自主探索新知的智能系統(tǒng)。

作為 DeepMind 聯(lián)合創(chuàng)始人德米斯·哈薩比斯(Demis Hassabis)自大學(xué)時(shí)代的密友與長期合作伙伴,席爾瓦的離開可以說是該公司歷史上最重要的人事變動之一。DeepMind 發(fā)言人在簡短聲明中確認(rèn)了這一消息:“戴維的貢獻(xiàn)是無價(jià)的,我們非常感謝他對 DeepMind 工作所做出的貢獻(xiàn)。”

席爾瓦不僅是技術(shù)標(biāo)桿,更是強(qiáng)化學(xué)習(xí)路線的堅(jiān)定倡導(dǎo)者。作為圖靈獎(jiǎng)得主查理·薩頓(Charlie Sutton)的學(xué)生,他的論文被引用量已超過 28 萬次,并于 2019 年獲得 ACM 計(jì)算獎(jiǎng)。

他主張回歸強(qiáng)化學(xué)習(xí)的核心思路。2025 年 4 月,席爾瓦與其導(dǎo)師薩頓共同發(fā)表論文《歡迎來到經(jīng)驗(yàn)時(shí)代》(Welcome to the Era of Experience),提出新一代 AI 系統(tǒng)應(yīng)更注重智能體與環(huán)境的交互學(xué)習(xí):通過持續(xù)試錯(cuò)、自我迭代和長期互動積累經(jīng)驗(yàn),而非僅依賴靜態(tài)數(shù)據(jù)訓(xùn)練。這一理念,也是 Ineffable Intelligence 的技術(shù)基石。


(來源:arXiv)

在當(dāng)前創(chuàng)投環(huán)境下,Ineffable Intelligence 高達(dá) 10 億美元的融資目標(biāo)尤為引人注目。接近交易的投資人分析,資本市場愿意為一家尚未發(fā)布產(chǎn)品的公司開出如此巨額支票,主要基于兩點(diǎn):一是對席爾瓦個(gè)人技術(shù)聲望的信任,二是對其所主張的“后大模型時(shí)代”技術(shù)路線的戰(zhàn)略性押注。

目前,包括 OpenAI 的 GPT 系列與谷歌的 Gemini 系列在內(nèi),主流 AI 模型均建立在“預(yù)訓(xùn)練 + 微調(diào)”范式之上。這些模型通過學(xué)習(xí)互聯(lián)網(wǎng)上海量的文本數(shù)據(jù),掌握預(yù)測下一個(gè)詞的統(tǒng)計(jì)規(guī)律,從而展現(xiàn)出強(qiáng)大的對話與生成能力。但席爾瓦認(rèn)為,這一路徑存在本質(zhì)局限:AI 的能力上限被“人類數(shù)據(jù)”本身所鎖定。

席爾瓦曾在私下場合多次表達(dá)對當(dāng)前技術(shù)路線的擔(dān)憂。他指出,大語言模型在后訓(xùn)練階段主要依賴“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF),即通過人類評估員的打分來優(yōu)化模型。這意味著,模型所能達(dá)到的最高水平,難以超越人類評估員的認(rèn)知邊界。

“我們想要超越人類的認(rèn)知,為此需要一種不同的方法?!?025 年 4 月,席爾瓦在一檔播客節(jié)目中罕見公開闡述其理念,“這種方法需要 AI 能夠真正自主探索,發(fā)現(xiàn)人類尚不知道的新事物?!?/p>

Ineffable Intelligence 的核心愿景,正是構(gòu)建一個(gè)擺脫人類知識束縛的系統(tǒng)。據(jù)熟悉該項(xiàng)目的人士透露,新公司將致力于研發(fā)“能夠持續(xù)學(xué)習(xí)的超級智能”——它不僅能處理語言,更能通過在模擬環(huán)境中的自我博弈與試錯(cuò),從第一性原理出發(fā),推導(dǎo)解決問題的最優(yōu)解。

席爾瓦的堅(jiān)持,有扎實(shí)的成果支撐。作為 AlphaGo 總設(shè)計(jì)師,他主導(dǎo)了 2016 年那場轟動全球的人機(jī)大戰(zhàn)。在與李世石的第二局比賽中,著名的“第 37 手”曾被所有人類專家判定為失誤,因?yàn)樗环先魏我阎獓宥ㄊ?。然而后續(xù)棋局證明,這正是決定勝負(fù)的關(guān)鍵一手。席爾瓦將此類現(xiàn)象稱為“不可言說”(Ineffable)的智慧。AI 通過計(jì)算,發(fā)現(xiàn)了人類尚未掌握的規(guī)律。這也正是新公司名稱的由來。


(來源:Google Deepmind)

此后,席爾瓦團(tuán)隊(duì)開發(fā)的 AlphaZero 與 MuZero 進(jìn)一步驗(yàn)證了其理論:AlphaZero 在不依賴任何人類棋譜、僅被告知規(guī)則的前提下,通過自我對弈三天便擊敗 AlphaGo;MuZero 甚至無需知曉規(guī)則,就能在圍棋、國際象棋和 Atari 游戲中自主摸索規(guī)律,達(dá)到超人水平。

這些成果構(gòu)成了席爾瓦技術(shù)路線的基石:在規(guī)則明確、可模擬的系統(tǒng)中,純粹的強(qiáng)化學(xué)習(xí)完全有能力超越人類智能。他堅(jiān)信,只要設(shè)計(jì)出合理的獎(jiǎng)勵(lì)機(jī)制,AI 就能在更復(fù)雜的現(xiàn)實(shí)任務(wù)中復(fù)刻 AlphaZero 的成功,無需像大語言模型那樣,通過模仿人類語言來“假裝”思考。

席爾瓦的創(chuàng)業(yè),也折射出 AI 研究圈正在經(jīng)歷一場“路線大分流”。

隨著大語言模型在商業(yè)應(yīng)用中的普及,越來越多頂尖科學(xué)家開始擔(dān)憂技術(shù)發(fā)展的潛在瓶頸。2024 年,OpenAI 前首席科學(xué)家伊利亞·蘇茨克維創(chuàng)辦 Safe Superintelligence(SSI),同樣獲得巨額融資。盡管 SSI 與 Ineffable Intelligence 均以“超級智能”為目標(biāo),但側(cè)重點(diǎn)有所不同:伊利亞傾向于通過擴(kuò)大計(jì)算規(guī)模與優(yōu)化模型結(jié)構(gòu)實(shí)現(xiàn)智能躍遷,席爾瓦則更激進(jìn)地主張改變學(xué)習(xí)范式,由“監(jiān)督學(xué)習(xí)”轉(zhuǎn)向“強(qiáng)化學(xué)習(xí)”。

此外,一些曾參與 AlphaGo、AlphaZero 項(xiàng)目的科學(xué)家,近期也離職創(chuàng)辦了 Reflection AI;Meta 的人工智能部門則在圖靈獎(jiǎng)得主楊立昆(Yann LeCun)帶領(lǐng)下,重組“超級智能實(shí)驗(yàn)室”,探索不同于 Transformer 架構(gòu)的新路徑。

一位行業(yè)觀察家指出:“當(dāng)前局面頗似 2010 年代初深度學(xué)習(xí)爆發(fā)前夜。大家意識到,現(xiàn)有 LLM 雖強(qiáng)大,但可能并非通往 AGI 的終極答案。席爾瓦代表最原教旨主義的一派,他認(rèn)為智能的本質(zhì)是決策與探索,而非語言預(yù)測。”

不過,也有批評者指出,強(qiáng)化學(xué)習(xí)雖在圍棋、游戲等規(guī)則明確的環(huán)境中表現(xiàn)優(yōu)異,但在現(xiàn)實(shí)世界這類規(guī)則模糊、反饋稀疏的開放環(huán)境中,其有效性尚未得到充分驗(yàn)證。大語言模型之所以成功,正因語言本身是人類智慧的高度壓縮。通過學(xué)習(xí)語言,AI 能以較低成本獲得常識。

若完全摒棄這一路徑,Ineffable Intelligence 或需構(gòu)建極其復(fù)雜的數(shù)字孿生系統(tǒng),供 AI 進(jìn)行億萬次試錯(cuò)訓(xùn)練,其算力成本將是天文數(shù)字。這也正是 10 億美元融資需要解決的首要問題。

目前,Ineffable Intelligence 已在倫敦設(shè)立總部,并啟動全球頂尖強(qiáng)化學(xué)習(xí)研究員的招募。雖然公司尚未公布具體產(chǎn)品時(shí)間表,但這家公司的技術(shù)路線與資源投入,或?qū)⒊蔀橛绊?AI 技術(shù)演進(jìn)方向的下一股重要力量。

1. https://www.ft.com/content/dffe72d0-4064-4412-8ebc-50198a30d40e

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
內(nèi)賈德,遇襲身亡

內(nèi)賈德,遇襲身亡

新華社
2026-03-01 22:13:51
歷史首次!中國石油、中國石化、中國海油全部漲停,滬指收漲0.47%丨A股收盤

歷史首次!中國石油、中國石化、中國海油全部漲停,滬指收漲0.47%丨A股收盤

每日經(jīng)濟(jì)新聞
2026-03-02 15:25:10
美軍用AI殺死了哈梅內(nèi)伊?很抱歉,大家都被營銷號騙了

美軍用AI殺死了哈梅內(nèi)伊?很抱歉,大家都被營銷號騙了

互聯(lián)網(wǎng)大觀
2026-03-01 19:29:49
突發(fā)!以色列核反應(yīng)堆被伊朗彈道導(dǎo)彈摧毀,疑似放射性物質(zhì)泄漏

突發(fā)!以色列核反應(yīng)堆被伊朗彈道導(dǎo)彈摧毀,疑似放射性物質(zhì)泄漏

我心縱橫天地間
2026-03-02 15:17:45
突然大跌,15萬人爆倉!伊朗發(fā)射高超音速導(dǎo)彈,并封鎖霍爾木茲海峽,油價(jià)或飆升,國內(nèi)金飾克價(jià)突破1600元

突然大跌,15萬人爆倉!伊朗發(fā)射高超音速導(dǎo)彈,并封鎖霍爾木茲海峽,油價(jià)或飆升,國內(nèi)金飾克價(jià)突破1600元

每日經(jīng)濟(jì)新聞
2026-03-01 01:03:36
一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國人公開發(fā)特朗普的定位

一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國人公開發(fā)特朗普的定位

林中木白
2026-03-02 11:06:13
足協(xié)確認(rèn)將公布第3批禁足名單 2條大魚或上榜 已有136人+13隊(duì)被罰

足協(xié)確認(rèn)將公布第3批禁足名單 2條大魚或上榜 已有136人+13隊(duì)被罰

我愛英超
2026-03-02 12:43:26
36歲副鎮(zhèn)長開會時(shí)腦出血暈倒,除夕當(dāng)天不幸離世:上任僅10余天,最后一條動態(tài)為督促社火排練,留下3個(gè)孩子

36歲副鎮(zhèn)長開會時(shí)腦出血暈倒,除夕當(dāng)天不幸離世:上任僅10余天,最后一條動態(tài)為督促社火排練,留下3個(gè)孩子

極目新聞
2026-03-02 15:45:15
悄無聲息的從21漲到254,因?yàn)橐粋€(gè)概念,近一年低調(diào)的漲了12倍

悄無聲息的從21漲到254,因?yàn)橐粋€(gè)概念,近一年低調(diào)的漲了12倍

有范又有料
2026-03-02 16:16:13
漲價(jià)太狠!100元飆升至2450,縣城天價(jià)酒店正在“勸退”返鄉(xiāng)中產(chǎn)

漲價(jià)太狠!100元飆升至2450,縣城天價(jià)酒店正在“勸退”返鄉(xiāng)中產(chǎn)

毒sir財(cái)經(jīng)
2026-03-01 17:19:11
女兵98年被開除軍籍,問連長知道她奶奶是誰嗎,連長:誰都沒用

女兵98年被開除軍籍,問連長知道她奶奶是誰嗎,連長:誰都沒用

奶茶麥子
2026-03-02 14:23:09
特朗普:哈梅內(nèi)伊接班人,在空襲中喪生!

特朗普:哈梅內(nèi)伊接班人,在空襲中喪生!

揚(yáng)子晚報(bào)
2026-03-02 15:15:28
剛剛,全線暴跌!緊急救市!

剛剛,全線暴跌!緊急救市!

中國基金報(bào)
2026-03-02 17:11:34
外交部:一名中國公民在德黑蘭遇難 ,對遇難同胞表示哀悼

外交部:一名中國公民在德黑蘭遇難 ,對遇難同胞表示哀悼

每日經(jīng)濟(jì)新聞
2026-03-02 17:20:01
歷史上首架F15被擊落,美軍飛行員一死一被俘!

歷史上首架F15被擊落,美軍飛行員一死一被俘!

勝研集
2026-03-02 14:06:57
中歐航線票價(jià)暴漲 上海飛巴黎飆升5倍

中歐航線票價(jià)暴漲 上海飛巴黎飆升5倍

財(cái)聯(lián)社
2026-03-02 17:34:14
加水加糖加廢料,椰子水系統(tǒng)性摻假翻車!網(wǎng)友:真夠歹毒……

加水加糖加廢料,椰子水系統(tǒng)性摻假翻車!網(wǎng)友:真夠歹毒……

柴狗夫斯基
2026-03-02 10:46:05
椰樹女員工胸這么大!椰樹集團(tuán)的“野風(fēng)”究竟要刮到什么時(shí)候?

椰樹女員工胸這么大!椰樹集團(tuán)的“野風(fēng)”究竟要刮到什么時(shí)候?

評底郭
2026-03-01 15:11:06
伊朗新任最高領(lǐng)袖被炸身亡

伊朗新任最高領(lǐng)袖被炸身亡

桂系007
2026-03-02 08:41:31
以情報(bào)部門被曝滲透到伊朗安全高層,伊朗曾組建反間諜機(jī)構(gòu),查來查去沒發(fā)現(xiàn)問題,最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜,其手下還有至少20名雙重間諜

以情報(bào)部門被曝滲透到伊朗安全高層,伊朗曾組建反間諜機(jī)構(gòu),查來查去沒發(fā)現(xiàn)問題,最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜,其手下還有至少20名雙重間諜

揚(yáng)子晚報(bào)
2026-03-02 17:41:48
2026-03-02 19:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16346文章數(shù) 514694關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

伊朗曾組建反間諜機(jī)構(gòu) 結(jié)果最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜

頭條要聞

伊朗曾組建反間諜機(jī)構(gòu) 結(jié)果最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

家居
教育
健康
時(shí)尚
公開課

家居要聞

萬物互聯(lián) 享科技福祉

教育要聞

250都會的解方程,你不會?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

從每天只睡4小時(shí)到8小時(shí):一個(gè)失眠者的自救指南

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版