国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

吳恩達(dá):圖靈測試不夠用了,我會設(shè)計一個AGI專用版

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

新年新氣象!AI大神吳恩達(dá)2026年目標(biāo)公開:

要做一個新的圖靈測試,他稱之為圖靈-AGI測試

光看名字就知道,這個測試專為AGI而生。



去年是AGI水漲船高的一年,吳恩達(dá)在其年度總結(jié)中也曾表示:

  • 2025年或許會被銘記為人工智能工業(yè)時代的開端
  • 創(chuàng)新推動模型性能到達(dá)新的高度,AI驅(qū)動的應(yīng)用變得不可或缺,頂尖企業(yè)人才爭奪激烈,基礎(chǔ)設(shè)施建設(shè)推動社會生產(chǎn)總值增長。

學(xué)術(shù)界和工業(yè)界頻繁提及AGI概念,硅谷的公司也會為搶先AGI定下季度目標(biāo)。

但關(guān)于AGI的定義至今還沒有統(tǒng)一標(biāo)準(zhǔn),現(xiàn)有基準(zhǔn)測試還常常誤導(dǎo)大眾,使其高估當(dāng)前的AI水平。

吳恩達(dá)注意到該趨勢,于是新的圖靈測試將試圖彌補(bǔ)這一空白。



正如網(wǎng)友所言:

  • 要衡量智能首先要定義智能。



圖靈-AGI測試設(shè)想

傳統(tǒng)的圖靈測試在AGI時代顯然不夠用。

它由艾倫·圖靈在上世紀(jì)五十年代提出,提出用人機(jī)對話來測試機(jī)器的智能水平。

在測試過程中,人類評估者需要確定他們是在與人還是與機(jī)器交談。如果機(jī)器能夠成功騙過評估者,那么就算通過了測試。

但現(xiàn)在的AI顯然不再滿足于簡單的對話交互,而是要構(gòu)建起經(jīng)濟(jì)有用的系統(tǒng),所以亟需一個能夠衡量AI工作能力的測試。

而這就是圖靈-AGI測試的核心,要讓AI像人類一樣智能,并完成大部分的知識型工作。

測試對象將會是AI系統(tǒng)或?qū)I(yè)人士,他們將會被提供一臺可以訪問互聯(lián)網(wǎng)并配備瀏覽器和Zoom等軟件的計算機(jī)。



裁判將通過計算機(jī)為測試對象設(shè)計一個多日的體驗任務(wù),比如作為客服,會先被培訓(xùn)一段時間,然后要求執(zhí)行接聽電話的任務(wù),并需要提供持續(xù)的反饋。

只要AI能夠像人類一樣熟練完成工作任務(wù),就會被認(rèn)為通過測試。

該測試將聚焦AGI的經(jīng)濟(jì)性和實(shí)際產(chǎn)出,更接近普世意義下對AGI的初始定義——可用于工作和生產(chǎn)場景的智能。

它也會比基準(zhǔn)測試更考驗AI的通用能力

現(xiàn)在幾乎所有的AI基準(zhǔn)測試,如GPQA、AIME、SWE-bench等,都會預(yù)先確定一個測試集。這意味著AI團(tuán)隊都會直接針對已發(fā)布的測試集來調(diào)整他們的模型。

這就導(dǎo)致很多AI模型榜單排名靠前,但真實(shí)物理世界中又能力不夠。

去年鬧得沸沸揚(yáng)揚(yáng)的Llama 4刷榜丑聞就是其中一個典型,明明數(shù)據(jù)看起來都很不錯,但用戶真正上手后卻傻眼了。



此外,固定測試集只能衡量AI在某一狹窄領(lǐng)域的能力。相比之下,圖靈測試可以由評委自由提出任意問題,沒有提前限定范圍,更能判斷系統(tǒng)在通用任務(wù)上的表現(xiàn)。

在改進(jìn)的圖靈-AGI測試中,延續(xù)了這一設(shè)定,裁判可以任意設(shè)計體驗任務(wù),而受測試的AI或人類測試者均不會事先知道任務(wù)內(nèi)容,這將比基準(zhǔn)測試更能判斷AGI水平。

同時為了校準(zhǔn)社會對AI的期望,吳恩達(dá)表示,或許他將舉辦一場圖靈-AGI測試,讓所有AI參與其中。

即便最后的結(jié)果會是所有AI系統(tǒng)均未能達(dá)到標(biāo)準(zhǔn),但也能平息長期以來對AGI的過度炒作。

這種降溫將會為AI領(lǐng)域創(chuàng)造更穩(wěn)健的環(huán)境,讓行業(yè)重新聚焦于非AGI級別的實(shí)際進(jìn)步,比如開發(fā)有實(shí)用價值的應(yīng)用,而不是沉迷于實(shí)現(xiàn)AGI的營銷噱頭。

從長期來說,圖靈-AGI測試也會為AI團(tuán)隊設(shè)定一個具體的努力目標(biāo),而非模糊地實(shí)現(xiàn)人類級智能。

倘若真有某一家公司能夠通過測試,其成果也必定具備真實(shí)價值,圖靈-AGI測試將會為真正的AGI突破提供可信的判定依據(jù)。

所以接下來,只需拭目以待。


[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20
[2]https://www.deeplearning.ai/the-batch/issue-334/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
唏噓!國羽又一新星突然宣布退出國家隊,年僅23歲,原因令人無奈

唏噓!國羽又一新星突然宣布退出國家隊,年僅23歲,原因令人無奈

二瘋說球
2026-01-11 11:37:39
廣東一貨車撞落限高架致路人死亡,司機(jī)獲刑后家屬質(zhì)疑:違規(guī)限高架是主因,事發(fā)前多次被撞壞未整改,已上訴

廣東一貨車撞落限高架致路人死亡,司機(jī)獲刑后家屬質(zhì)疑:違規(guī)限高架是主因,事發(fā)前多次被撞壞未整改,已上訴

大風(fēng)新聞
2026-01-10 11:04:42
注意!蘋果宣布這一服務(wù)即將徹底關(guān)閉

注意!蘋果宣布這一服務(wù)即將徹底關(guān)閉

XCiOS俱樂部
2026-01-10 10:54:32
中國最后一位太監(jiān)孫耀庭自述:晚上伺候娘娘時,鞋底必須藏蒼耳

中國最后一位太監(jiān)孫耀庭自述:晚上伺候娘娘時,鞋底必須藏蒼耳

妙知
2025-08-28 10:19:43
新蔡學(xué)生死亡真相大白!官方再通報,原因曝光,我們冤枉學(xué)校了

新蔡學(xué)生死亡真相大白!官方再通報,原因曝光,我們冤枉學(xué)校了

鋭娛之樂
2026-01-11 16:16:20
慘案誕生!英超豪門踢瘋了:狂轟10球,曼城超級新援處子球

慘案誕生!英超豪門踢瘋了:狂轟10球,曼城超級新援處子球

足球狗說
2026-01-11 00:54:50
“死了么”App爆火,在蘋果付費(fèi)軟件排行榜位列第一,名字引熱議,開發(fā)者回應(yīng)

“死了么”App爆火,在蘋果付費(fèi)軟件排行榜位列第一,名字引熱議,開發(fā)者回應(yīng)

大風(fēng)新聞
2026-01-10 16:18:12
連退31群后,聯(lián)合國不再手軟,正式警告美國,中國前大使一針見血

連退31群后,聯(lián)合國不再手軟,正式警告美國,中國前大使一針見血

博覽歷史
2026-01-10 19:21:25
馬杜羅的落幕:他最可能的四種結(jié)局

馬杜羅的落幕:他最可能的四種結(jié)局

亞哥談古論今
2026-01-06 18:35:27
CBA積分排行讓人看不懂,7勝6負(fù)第5,而7勝4負(fù)第13,看最新勝率榜

CBA積分排行讓人看不懂,7勝6負(fù)第5,而7勝4負(fù)第13,看最新勝率榜

第五才子
2026-01-11 11:13:37
隊記們:楊瀚森好的地方有時強(qiáng)硬!但他吃不了太多上場時間!

隊記們:楊瀚森好的地方有時強(qiáng)硬!但他吃不了太多上場時間!

氧氣是個地鐵
2026-01-11 18:43:43
任素汐下半身欲望失控,終為自己的風(fēng)流行為買單

任素汐下半身欲望失控,終為自己的風(fēng)流行為買單

車窗起霧q
2026-01-01 20:12:16
大豆之戰(zhàn)丨種了5000年的大豆,咋成了中美博弈的“致命武器”?

大豆之戰(zhàn)丨種了5000年的大豆,咋成了中美博弈的“致命武器”?

大道微言
2026-01-11 22:12:49
明朝一男子將私房錢藏于木雕中,藏了600年,幾任收藏家都沒發(fā)現(xiàn)

明朝一男子將私房錢藏于木雕中,藏了600年,幾任收藏家都沒發(fā)現(xiàn)

銘記歷史呀
2025-12-30 18:14:57
官方稱亞運(yùn)“三金”得主舉報基本屬實(shí),還有四個疑問待說清

官方稱亞運(yùn)“三金”得主舉報基本屬實(shí),還有四個疑問待說清

極目新聞
2026-01-11 14:13:44
經(jīng)過8年的談判,貝爾湖的歸屬有了結(jié)果?我國到底拿回多少面積?

經(jīng)過8年的談判,貝爾湖的歸屬有了結(jié)果?我國到底拿回多少面積?

凡人侃史
2026-01-11 11:38:47
經(jīng)濟(jì)越爛,演唱會就越嗨!?。?>
    </a>
        <h3>
      <a href=經(jīng)濟(jì)越爛,演唱會就越嗨?。?! 詩詞中國
2026-01-11 19:37:47
中國大媽回應(yīng)“開羅機(jī)場教外國人練八段錦”:他們很喜歡,結(jié)束后鼓掌,全程沒放音樂怕打擾其他旅客

中國大媽回應(yīng)“開羅機(jī)場教外國人練八段錦”:他們很喜歡,結(jié)束后鼓掌,全程沒放音樂怕打擾其他旅客

極目新聞
2026-01-11 12:38:05
最新 | 岳云鵬透露今年不上央視春晚

最新 | 岳云鵬透露今年不上央視春晚

天津廣播
2026-01-11 12:14:15
爆冷+首勝!U23國足1-0力克澳大利亞,手握亞洲杯出線主動權(quán)!

爆冷+首勝!U23國足1-0力克澳大利亞,手握亞洲杯出線主動權(quán)!

田先生籃球
2026-01-11 22:18:53
2026-01-11 22:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12001文章數(shù) 176358關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

4.5萬株草莓苗停止生長 果農(nóng)急求助1小時后獲專家回應(yīng)

頭條要聞

4.5萬株草莓苗停止生長 果農(nóng)急求助1小時后獲專家回應(yīng)

體育要聞

U23國足形勢:末輪不負(fù)泰國即確保晉級

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

本地
親子
時尚
數(shù)碼
公開課

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

親子要聞

晨時評 | 新生兒疑被助產(chǎn)士剪斷手指,別用孩子亂動推卸責(zé)任

當(dāng)一個57歲的女人,決定從零開始

數(shù)碼要聞

科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版