国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Hacker News熱文|“Jagged AGI”:o3和Gemini 2.5究竟是不是AGI?

0
分享至

我們正在見(jiàn)證一個(gè)奇怪卻真實(shí)的事實(shí):AI 正在變聰明,但它的聰明越來(lái)越“不整齊”。

在一篇近期刷屏 Hacker News 的文章中,沃頓商學(xué)院教授 Ethan Mollick 對(duì) OpenAI 的 o3 和 Google 的 Gemini 2.5 展開(kāi)了實(shí)測(cè)與反思。他提出了一個(gè)令人印象深刻的概念:Jagged AGI(鋸齒式通用智能)。這類(lèi)模型在一些復(fù)雜任務(wù)上“仿佛擁有神力”,卻在一些常識(shí)推理題上“跌倒得毫無(wú)尊嚴(yán)”。我們不再面對(duì)一個(gè)線性增強(qiáng)的系統(tǒng),而是在一個(gè)被能力高峰和認(rèn)知洼地交錯(cuò)編織的“鋸齒邊界”上摸索。

Mollick 在文中寫(xiě)道:“你可能會(huì)在某個(gè)時(shí)刻產(chǎn)生‘AGI 到了’的直覺(jué)感,那不是錯(cuò)覺(jué)——你只是撞上了這道 jagged frontier?!?/p>

這篇文章的價(jià)值不僅在于概念,更在于它結(jié)合了一系列具體場(chǎng)景:比如 o3 如何用一條提示詞自動(dòng)完成奶酪品牌創(chuàng)業(yè)流程,又如何在一道改編的謎語(yǔ)題里輸出令人捧腹的錯(cuò)誤答案;Gemini 2.5 在多模態(tài)推理上表現(xiàn)驚艷,但 Google 也為它配備了手動(dòng)“thinking budget”限制器,以防過(guò)度生成。

我們選擇將這篇文章編譯出來(lái),是因?yàn)樗o了開(kāi)發(fā)者、產(chǎn)品設(shè)計(jì)者乃至 AI 策略制定者一個(gè)現(xiàn)實(shí)的問(wèn)題坐標(biāo)——如何面對(duì)一個(gè)越來(lái)越“擅長(zhǎng)某些事、又不可靠”的 AI?這比“它到底是不是 AGI”更實(shí)際。

以下為編譯全文,原文鏈接:

(《On Jagged AGI: o3, Gemini 2.5, and everything after》)https://www.oneusefulthing.org/p/on-jagged-agi-o3-gemini-25-and-everything

在AI技術(shù)蓬勃發(fā)展的今天,我們?nèi)匀徊恢涝撊绾稳ズ饬恳豢畲竽P彤a(chǎn)品的智力、創(chuàng)造力和情感感知能力。

當(dāng)前的模型測(cè)試在這方面的表現(xiàn)尤其不好,畢竟他們是為了人類(lèi)而不是AI模型而設(shè)計(jì)的。在這些測(cè)試中,僅僅是對(duì)問(wèn)題措辭的理解,就會(huì)讓 AI 模型產(chǎn)生巨大的分歧,導(dǎo)致測(cè)試分?jǐn)?shù)的不同。即使是圖靈測(cè)試這樣知名的測(cè)試方法(即讓人類(lèi)通過(guò)文本來(lái)區(qū)分AI和其他人類(lèi))當(dāng)初也只是一個(gè)思想實(shí)驗(yàn),畢竟在那個(gè)時(shí)代,讓計(jì)算機(jī)完成這樣的任務(wù)近乎是不可能的。但現(xiàn)在,許多論文表明已經(jīng)有越來(lái)越多的AI通過(guò)了圖靈測(cè)試,但我們必須承認(rèn),人們其實(shí)并不明白這意味著什么?

也正因?yàn)槿绱耍鳛槿斯ぶ悄馨l(fā)展中最重要的里程碑之一,人們對(duì)人工通用智能(AGI)的定義不清、爭(zhēng)論不休也就不足為奇了。每個(gè)人都認(rèn)為它與AI能否像人類(lèi)一樣完成任務(wù)的能力有關(guān),但沒(méi)有人統(tǒng)一這個(gè)能力究竟是專家級(jí)還是普通人的水平,也沒(méi)有人給出一個(gè)標(biāo)準(zhǔn),究竟 AI 能完成多少任務(wù),完成哪些任務(wù)才算是符合 AGI 的條件。

鑒于 AGI 的定義混亂不堪,從其最初由Shane Legg、Ben Goertzel和Peter Voss提出時(shí),再到今天的發(fā)展,要闡明其細(xì)微差別和歷史發(fā)展是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。作為一次內(nèi)容與形式上的實(shí)驗(yàn)(并且在談?wù)摑撛诘闹悄軝C(jī)器時(shí)),我將這項(xiàng)工作完全委托給了AI。我讓“Google Deep Research”針對(duì)這一主題整理出了一份非常扎實(shí)的26頁(yè)總結(jié)報(bào)告。然后,我使用HeyGen將其轉(zhuǎn)化為一段對(duì)話式的視頻播客,參與者是一個(gè)略顯緊張的、由AI生成的“我”和一個(gè)AI生成的主持人。這次對(duì)話實(shí)際上并不算差(盡管我不完全同意AI版的“我”所表達(dá)的觀點(diǎn)),但整個(gè)過(guò)程——從研究到視頻制作,再到聲音生成——100%都是由AI完成的。

與此同時(shí),我們看到了知名經(jīng)濟(jì)學(xué)家兼人工智能觀察者Tyler Cowen近日在一篇文章中宣稱,ChatGPT O3 已經(jīng)達(dá)到了AGI水準(zhǔn),而他是怎么看待這個(gè)問(wèn)題的呢?

感受 AGI

首先,介紹一下這篇文章背景。過(guò)去幾周,有兩款新的AI模型發(fā)布,分別是谷歌的Gemini 2.5 Pro 和 OpenAI 的 o3。這些模型以及一系列性能稍差但速度更快、價(jià)格更低的模型(Gemini 2.5 Flash、o4-mini 和 Grok-3-mini),代表了大模型技術(shù)的飛速發(fā)展,但就像Tyler在文章中所指出的,現(xiàn)有的模型評(píng)測(cè)基準(zhǔn)并不代表一切。

用實(shí)例說(shuō)明,我給 GPT-4 的最新繼承者 o3 提出了一個(gè)稍微復(fù)雜一點(diǎn)的問(wèn)題:"為一家新的奶酪店設(shè)計(jì)20個(gè)合適的營(yíng)銷(xiāo)口號(hào)。制定標(biāo)準(zhǔn)并選出最佳標(biāo)語(yǔ)。然后為該店鋪制定財(cái)務(wù)和營(yíng)銷(xiāo)計(jì)劃,根據(jù)需求進(jìn)行修改并分析競(jìng)爭(zhēng)情況。然后生成一個(gè)合適的店鋪Logo,并為商店建立一個(gè)模擬網(wǎng)站,確保網(wǎng)站上有 5-10 種符合營(yíng)銷(xiāo)計(jì)劃的奶酪產(chǎn)品"。僅憑這一條提示,在不到兩分鐘的時(shí)間里,人工智能不僅提供了一份口號(hào)清單,還進(jìn)行了排序和選擇,同時(shí)完成了網(wǎng)絡(luò)調(diào)研,開(kāi)發(fā)了一個(gè)徽標(biāo),制定了營(yíng)銷(xiāo)和財(cái)務(wù)計(jì)劃,并推出了一個(gè)演示網(wǎng)站供參考。

其實(shí)我給出的指令很模糊,而且模型需要根據(jù)一些常識(shí)來(lái)決定如何處理這些指示,但這并不妨礙它出色地完成工作。

除了可能是一個(gè)比 GPT-4 更大的模型之外,o3 還是一個(gè)推理模型,你可以看到它的推理過(guò)程。o3 可以挑選并使用哪種工具來(lái)完成復(fù)雜的工作目標(biāo)。你可以看到它是如何利用多種工具(比如搜索引擎和編碼助手)來(lái)完成任務(wù)的。

除此之外,O3還可以完成許多其他任務(wù)。舉個(gè)例子,只要給它一張圖片并提示 "猜猜這是哪?",o3 就能從照片中猜出準(zhǔn)確的地點(diǎn)。同樣,你也可以看到這個(gè)模型的Agent 能力在起作用,因?yàn)樗鼤?huì)放大圖片的一部分,添加網(wǎng)絡(luò)搜索,并通過(guò)多步驟處理來(lái)獲得正確答案。

再或者,我給了 o3 一個(gè)Excel 形式的機(jī)器學(xué)習(xí)系統(tǒng)的大型數(shù)據(jù)集,并要求它 "找出這是什么,并生成一份報(bào)告,從統(tǒng)計(jì)學(xué)角度研究其影響,并給我一份格式良好的 PDF 文件,其中包含圖表和詳細(xì)信息"。而我只需要交待一個(gè)任務(wù),它就會(huì)給出一份完整的分析報(bào)告(不過(guò),我還是給了它一些反饋意見(jiàn),以改進(jìn) PDF 文件)。

新時(shí)代模型在這方面的表現(xiàn)令人深刻,大家可以自己嘗試一下。Gemini 2.5 pro現(xiàn)在可免費(fèi)使用,它與 o3 一樣表現(xiàn)出色,不過(guò)缺乏Agent能力。如果您還沒(méi)有試用過(guò)它或 o3,現(xiàn)在就花幾分鐘時(shí)間試試吧。比如說(shuō)給 Gemini 一篇論文,讓它根據(jù)這篇論文來(lái)設(shè)計(jì)一款游戲 ,或者讓它和你一起頭腦風(fēng)暴,尋找創(chuàng)業(yè)點(diǎn)子,或者直接讓人工智能為你的行業(yè)做一份研究報(bào)告,或讓它為新產(chǎn)品制定一個(gè)營(yíng)銷(xiāo)計(jì)劃 。

但不論如何,你都可能會(huì)感受到模型不同的能力。畢竟及時(shí)給出的提示詞完全一致,模型所給出的回答也可能不一樣。如果你遇到這種情況,那么你可能就是碰到了Jagged Frontier。

關(guān)于“參差式 AGI”

我和我的同事共同創(chuàng)造了Jagged Frontier這個(gè)概念,并用它來(lái)描述AI的能力出奇地參差不齊這一事實(shí)。

人工智能可能會(huì)在挑戰(zhàn)人類(lèi)專家的任務(wù)上取得成功,但令人難以置信的是,他們可能會(huì)在很多簡(jiǎn)單的工作中失敗。舉個(gè)例子,有一個(gè)很經(jīng)典的謎題,我們只要稍加改變,就能讓大模型陷入邏輯錯(cuò)誤:

一個(gè)在車(chē)禍中受傷的小男孩被緊急送往急診室。當(dāng)看到他時(shí),外科醫(yī)生便說(shuō):“我可以為這個(gè)男孩做手術(shù)!”這是為什么呢?

O3給出的答案是“外科醫(yī)生是男孩的母親?!钡绻汩喿x原文就會(huì)發(fā)現(xiàn)這個(gè)回答完全是錯(cuò)誤的,而作為最先進(jìn)的AI模型,O3為什么會(huì)給出這個(gè)錯(cuò)誤答案呢?因?yàn)檫@個(gè)答案完全是一個(gè)經(jīng)典謎題的回答。

原本的問(wèn)題是“一對(duì)父子遭遇車(chē)禍,父親去世,兒子被緊急送往醫(yī)院。外科醫(yī)生說(shuō):'我不能動(dòng)手術(shù),那孩子是我兒子',請(qǐng)問(wèn)誰(shuí)是外科醫(yī)生?”這道問(wèn)題的答案就是“孩子的母親是外科醫(yī)生”。而在訓(xùn)練過(guò)程中, O3見(jiàn)過(guò)這個(gè)問(wèn)題以及其答案,以至于它直接給出了相關(guān)回答。

這是先進(jìn) AI 模型會(huì)出現(xiàn)幻覺(jué)的一個(gè)例子,但足以說(shuō)明達(dá)到 AGI 水平的模型能力有多不可靠。

雖然AI 經(jīng)常會(huì)在這種特殊的謎題中出錯(cuò),但這并不影響它可以解決難題的能力,也不影響它其他令人印象深刻的表現(xiàn)。而這這就是Jagged Frontier的本質(zhì)。在某些任務(wù)中,AI的能力是不可靠的,而在另一些任務(wù)中,AI則是超越人類(lèi)的存在。但這是否意味著, o3 和 Gemini 2.5這種模型已經(jīng)達(dá)到了 AGI的水平?

鑒于定義上的問(wèn)題,我沒(méi)法給出確定的答案,但我確實(shí)認(rèn)為它們可以被看作是一種Jagged Frontier。即AI模型在很多領(lǐng)域具有超越人類(lèi)的能力,從而真正改變了我們的工作和生活方式,但在某些問(wèn)題上并不可靠,以至于經(jīng)常需要人工干預(yù),已確定人工智能在哪些領(lǐng)域有效,在哪些領(lǐng)域無(wú)效。

當(dāng)然,模型未來(lái)很可能會(huì)變得更加智能,一個(gè)足夠優(yōu)秀的AI模型仍有可能在每項(xiàng)任務(wù)中擊敗人類(lèi),包括他們表現(xiàn)不佳的那部分。

這重要嗎?

回到Tyler 的文章,你會(huì)發(fā)現(xiàn),盡管他認(rèn)為我們已經(jīng)實(shí)現(xiàn)了 AGI,但他并不認(rèn)為這個(gè)臨界點(diǎn) 對(duì)我們近期的生活有多大影響 。Tyler 認(rèn)為,無(wú)論AI技術(shù)多么引人注目或強(qiáng)大,它們都不會(huì)立即改變世界。社會(huì)和組織結(jié)構(gòu)的變化要比技術(shù)發(fā)展緩慢得多,而一項(xiàng)技術(shù)本身的推廣也需要時(shí)間。即使我們今天已經(jīng)擁有了AI技術(shù),我們也需要多年的時(shí)間來(lái)摸索如何將其融入現(xiàn)有的世界中。當(dāng)然,這要假設(shè)人工智能屬于一個(gè)正常的技術(shù),而這種技術(shù)表現(xiàn)參差不齊的問(wèn)題永遠(yuǎn)無(wú)法徹底解決。

事實(shí)有可能并非如此。我們?cè)?o3 等模型中看到的Agent能力(如分解復(fù)雜目標(biāo)、使用工具和獨(dú)立執(zhí)行多步驟計(jì)劃的能力)實(shí)際上可能會(huì)比以前的技術(shù)更快地推廣開(kāi)來(lái)。如果人工智能能夠獨(dú)立有效地駕馭人類(lèi)的系統(tǒng),那么我們可能會(huì)比歷史先例所顯示的更快地達(dá)到采用門(mén)檻。

這里還有一個(gè)更深層次的不確定性:AI是否存在能力門(mén)檻?如果有,那么模型一旦跨越這個(gè)門(mén)檻,他們是否從根本上改變模型融入社會(huì)的方式?還是說(shuō)這一切都只是漸進(jìn)式的發(fā)展?或者說(shuō),未來(lái)的模型是否會(huì)因?yàn)橛|碰技術(shù)壁壘而停止發(fā)展?事實(shí)上我們對(duì)這些問(wèn)題的anana一無(wú)所知。

顯而易見(jiàn)的是,我們對(duì)于模型的發(fā)展仍然處于一個(gè)未知領(lǐng)域,無(wú)論我們是否將其稱為 AGI,這些新模型都與之前的模型有質(zhì)的不同。它們的Agent能力,以及參差不齊的表現(xiàn),都創(chuàng)造了一種新的情況,而且?guī)缀鯖](méi)有可以參考的實(shí)際例子。也許日后歷史將會(huì)現(xiàn)在這個(gè)時(shí)代一個(gè)合適的定義,但弄清楚如何成功應(yīng)用人工智能,并使其在經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)中顯現(xiàn)出來(lái),可能是一個(gè)需要數(shù)十年的過(guò)程。又或者說(shuō),我們正處于某種技術(shù)躍進(jìn)的邊緣,人工智能驅(qū)動(dòng)的變革將突然席卷我們的世界。無(wú)論是哪種情況,那些現(xiàn)在學(xué)會(huì)駕馭這一復(fù)雜局面的人,都將為未來(lái)做好最充分的準(zhǔn)備……無(wú)論未來(lái)會(huì)是什么樣子。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
外媒披露細(xì)節(jié):美以等來(lái)“難得機(jī)會(huì)”,哈梅內(nèi)伊住所被投擲約30枚炸彈

外媒披露細(xì)節(jié):美以等來(lái)“難得機(jī)會(huì)”,哈梅內(nèi)伊住所被投擲約30枚炸彈

環(huán)球網(wǎng)資訊
2026-03-01 13:30:44
定了!2026年3月1日起全國(guó)取消這些費(fèi)用,醫(yī)療政務(wù)殯葬全覆蓋

定了!2026年3月1日起全國(guó)取消這些費(fèi)用,醫(yī)療政務(wù)殯葬全覆蓋

老特有話說(shuō)
2026-03-01 21:43:31
人沒(méi)本事,一看就知:沒(méi)本事的人,每到春節(jié),就會(huì)有3個(gè)通病

人沒(méi)本事,一看就知:沒(méi)本事的人,每到春節(jié),就會(huì)有3個(gè)通病

聚焦最新動(dòng)態(tài)
2026-02-28 09:53:49
太丟人了!米蘭這晚39歲楊冪讓全世界看到,內(nèi)娛85女頂在外零地位

太丟人了!米蘭這晚39歲楊冪讓全世界看到,內(nèi)娛85女頂在外零地位

小娛樂(lè)悠悠
2026-02-28 09:28:50
伊朗向美軍林肯號(hào)航母發(fā)射導(dǎo)彈

伊朗向美軍林肯號(hào)航母發(fā)射導(dǎo)彈

環(huán)球網(wǎng)資訊
2026-03-01 22:42:04
這么多戰(zhàn)功卓著的老同志同框,在C位的老太太是誰(shuí)?有知道的嗎?

這么多戰(zhàn)功卓著的老同志同框,在C位的老太太是誰(shuí)?有知道的嗎?

TVB的四小花
2026-03-02 00:42:22
這種飲料正在摧毀你的胰島細(xì)胞!很多糖尿病,都和這種飲料有關(guān)!

這種飲料正在摧毀你的胰島細(xì)胞!很多糖尿病,都和這種飲料有關(guān)!

蜉蝣說(shuō)
2026-01-29 14:46:50
3月2日消息!大滿貫落幕 國(guó)乒275萬(wàn)獎(jiǎng)金分配:王楚欽68萬(wàn),鰻魚(yú)34萬(wàn)

3月2日消息!大滿貫落幕 國(guó)乒275萬(wàn)獎(jiǎng)金分配:王楚欽68萬(wàn),鰻魚(yú)34萬(wàn)

皮皮觀天下
2026-03-02 03:45:55
賺大了!網(wǎng)友網(wǎng)購(gòu)一條32GB DDR5內(nèi)存 打開(kāi)包裹目瞪口呆:竟收到十條

賺大了!網(wǎng)友網(wǎng)購(gòu)一條32GB DDR5內(nèi)存 打開(kāi)包裹目瞪口呆:竟收到十條

快科技
2026-02-27 09:37:04
成龍安排好身后事才2個(gè)月,翁靜晶再曝大瓜,沒(méi)給他留一絲體面

成龍安排好身后事才2個(gè)月,翁靜晶再曝大瓜,沒(méi)給他留一絲體面

星星沒(méi)有你亮
2026-02-28 20:40:21
迪拜國(guó)際機(jī)場(chǎng)遭襲

迪拜國(guó)際機(jī)場(chǎng)遭襲

財(cái)聯(lián)社
2026-03-01 05:34:14
美伊調(diào)解人發(fā)聲:敦促美國(guó)收手

美伊調(diào)解人發(fā)聲:敦促美國(guó)收手

參考消息
2026-03-01 01:29:04
程瀟為什么被稱為“奶瀟”?看了這張圖片后秒懂,不愧是內(nèi)娛身材數(shù)一數(shù)二的女明星!

程瀟為什么被稱為“奶瀟”?看了這張圖片后秒懂,不愧是內(nèi)娛身材數(shù)一數(shù)二的女明星!

背包旅行
2026-02-02 15:03:55
伊朗伊斯蘭革命衛(wèi)隊(duì)指揮官:伊朗目前使用的只是“廢舊導(dǎo)彈”

伊朗伊斯蘭革命衛(wèi)隊(duì)指揮官:伊朗目前使用的只是“廢舊導(dǎo)彈”

參考消息
2026-03-01 01:29:04
“七十不添衣,八十不祝壽”,這句話指的是啥?看完后漲知識(shí)了

“七十不添衣,八十不祝壽”,這句話指的是啥?看完后漲知識(shí)了

阿龍美食記
2026-02-26 14:30:14
警惕!這種“毒碗”已經(jīng)上黑榜了,檢查一下,家里有的趕緊扔了吧

警惕!這種“毒碗”已經(jīng)上黑榜了,檢查一下,家里有的趕緊扔了吧

削桐作琴
2025-10-24 15:45:22
伊朗外交部最新聲明:伊朗武裝部隊(duì)將對(duì)侵略者作出果斷回應(yīng)

伊朗外交部最新聲明:伊朗武裝部隊(duì)將對(duì)侵略者作出果斷回應(yīng)

環(huán)球網(wǎng)資訊
2026-02-28 19:04:06
不會(huì)哭別尬哭!看央視新劇中孫千淚如雨下,讓假哭演員無(wú)地自容

不會(huì)哭別尬哭!看央視新劇中孫千淚如雨下,讓假哭演員無(wú)地自容

七堇年a
2026-03-01 20:34:04
谷愛(ài)凌這下麻煩了!美國(guó)政客提案,征收她100%個(gè)稅,誓要遣返中國(guó)

谷愛(ài)凌這下麻煩了!美國(guó)政客提案,征收她100%個(gè)稅,誓要遣返中國(guó)

我不叫阿哏
2026-03-01 18:42:43
2026-03-02 07:39:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
243文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

美軍動(dòng)用新型武器:山寨伊朗的

頭條要聞

美軍動(dòng)用新型武器:山寨伊朗的

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂(lè)要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來(lái)襲

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車(chē)要聞

理想汽車(chē)2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

本地
時(shí)尚
親子
房產(chǎn)
教育

本地新聞

津南好·四時(shí)總相宜

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

親子要聞

社會(huì)需要為兒童養(yǎng)育提供公共空間

房產(chǎn)要聞

濱江九小也來(lái)了!集齊海僑北+哈羅、寰島...江東教育要炸了!

教育要聞

切線第1講,一個(gè)視頻學(xué)會(huì)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版