国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

這是AI領(lǐng)域最容易被誤解的一張圖表

0
分享至


(來源:麻省理工科技評論)

每當(dāng) OpenAI、Google 或 Anthropic 推出新一代前沿大語言模型,AI 領(lǐng)域的從業(yè)者都會翹首以盼。大家會一直等待 METR 更新那張如今極具標(biāo)志性的圖表,這份期待才會落下。

METR 是一家人工智能研究非營利機構(gòu),機構(gòu)名稱的英文全稱是 Model Evaluation & Threat Research,即模型評估與威脅研究。這張圖表自去年 3 月首次發(fā)布以來,就在人工智能領(lǐng)域的相關(guān)探討中占據(jù)重要地位。圖表顯示,人工智能的部分能力正呈指數(shù)級發(fā)展,而近期推出的模型,其表現(xiàn)更是超越了這一本就令人矚目的發(fā)展趨勢。

Anthropic 旗下性能最強的模型最新版本 Claude Opus 4.5 就是典型案例,該模型于 11 月末正式推出。12 月,METR 發(fā)布公告稱,這款模型似乎能獨立完成一項人類需要約 5 小時才能完成的任務(wù)。這一表現(xiàn)即便以指數(shù)級發(fā)展趨勢來預(yù)判,也實現(xiàn)了大幅突破。Anthropic 的一名安全研究人員在推特上表示,基于這一研究結(jié)果,他將調(diào)整自己的研究方向。該公司的另一名員工則直白地發(fā)推稱:“媽媽快來接我,我害怕了?!?/p>


(來源:METR.ORG)

但實際情況遠比這些夸張的反應(yīng)所呈現(xiàn)的復(fù)雜。一方面,METR 對特定模型能力的評估結(jié)果存在較大的誤差范圍。METR 曾在 X 平臺明確表示,Claude Opus 4.5 或許只能穩(wěn)定完成人類約 2 小時能做完的任務(wù),也可能能成功完成人類耗時長達 20 小時的任務(wù)。受研究方法本身存在的不確定性影響,目前無法得出確切結(jié)論。

METR 的技術(shù)人員西德妮?馮?阿克斯(Sydney Von Arx)表示:“人們對這張圖表的過度解讀體現(xiàn)在多個方面?!?/p>

更重要的一點是,這張由 METR 制作的圖表并非對人工智能的綜合能力進行測算,該機構(gòu)也從未宣稱過這一點。為制作這張圖表,METR 主要以編程任務(wù)為測試基準(zhǔn)對模型進行評估,通過測算或預(yù)估人類完成每項任務(wù)的耗時來判定任務(wù)難度。這一評估標(biāo)準(zhǔn)并未獲得所有人的認可。

換句話說,Claude Opus 4.5 能完成人類耗時 5 小時的特定任務(wù),并不代表它已接近取代人類工作者的水平。

METR 成立的初衷是評估前沿人工智能系統(tǒng)帶來的風(fēng)險。盡管該機構(gòu)因這張指數(shù)級發(fā)展趨勢圖表聲名遠揚,但它也與多家人工智能企業(yè)合作,對企業(yè)的系統(tǒng)開展更詳盡的評估,同時還發(fā)布了多項獨立研究成果。其中 2025 年 7 月發(fā)布的一項研究引發(fā)了廣泛關(guān)注,該研究指出,人工智能編程助手實際上可能會降低軟件工程師的工作效率。

這張指數(shù)級發(fā)展趨勢圖表為 METR 打響了知名度,而該機構(gòu)對于這張圖表所引發(fā)的一眾狂熱解讀,似乎有著復(fù)雜的態(tài)度。今年 1 月,該圖表相關(guān)論文的主要作者之一托馬斯?奎瓦(Thomas Kwa)發(fā)布了一篇博文,回應(yīng)了外界的部分質(zhì)疑,并明確指出了圖表的局限性。目前 METR 正著手撰寫一份更詳盡的常見問題解答文檔。但奎瓦并不認為這些努力能從根本上改變外界的解讀方式。他表示:“我認為無論我們做什么,那些鼓吹炒作的聲音終究會忽略所有的前提條件和注意事項?!?/p>

盡管如此,METR 的研究團隊仍認為,這張圖表能為人工智能的發(fā)展軌跡提供有價值的參考。阿克斯說:“任何人都絕不能把自身發(fā)展的決策依據(jù)完全寄托在這張圖表上。” 她接著補充道:“但我敢肯定,這一發(fā)展趨勢會持續(xù)下去?!?/p>

這張 METR 圖表之所以容易引發(fā)誤解,部分原因在于它的實際內(nèi)涵遠比表面看起來復(fù)雜。圖表的橫軸設(shè)計十分簡潔,用于標(biāo)注各個人工智能模型的發(fā)布日期。但縱軸的設(shè)計卻暗藏門道,其作用是記錄各模型的時間跨度。這是 METR 獨創(chuàng)的一項特殊評估指標(biāo),奎瓦和阿克斯均表示,這一指標(biāo)一直被外界誤解

想要準(zhǔn)確理解模型時間跨度的含義,了解 METR 測算這一指標(biāo)的全過程會有所幫助。首先,METR 的研究團隊整理了一系列測試任務(wù),這些任務(wù)涵蓋快速選擇題和復(fù)雜的編程挑戰(zhàn),且均與軟件工程領(lǐng)域相關(guān)。隨后,該團隊讓人類程序員嘗試完成其中大部分任務(wù),并統(tǒng)計他們的完成耗時,以此為每項任務(wù)設(shè)定人類完成的基準(zhǔn)時間。部分任務(wù)讓專業(yè)程序員完成僅需數(shù)秒,而有些任務(wù)則需要耗時數(shù)小時。

METR 讓大語言模型完成這一系列測試任務(wù)后發(fā)現(xiàn),先進的模型能輕松完成那些人類耗時短的任務(wù)。但隨著模型嘗試的任務(wù)所需的人類完成時間不斷增加,模型的任務(wù)完成準(zhǔn)確率會開始下降。研究人員會根據(jù)模型的表現(xiàn),在人類任務(wù)耗時的時間尺度上,找到模型能成功完成約 50% 任務(wù)的臨界點,這一臨界點就是該模型的時間跨度。

這些詳細的測算過程,都記錄在 METR 發(fā)布首張時間跨度圖時同步推出的博文和學(xué)術(shù)論文中。但這張圖表在社交媒體上傳播時,往往缺少這些背景信息,時間跨度這一指標(biāo)的真正含義也因此被曲解。其中一種常見的誤讀是,將圖表縱軸的數(shù)值理解為模型能獨立運行的時長,比如 Claude Opus 4.5 對應(yīng)的約 5 小時。但事實并非如此,這些數(shù)值代表的是,模型能成功完成的任務(wù)所需的人類完成耗時??甙l(fā)現(xiàn)這一誤讀現(xiàn)象極為普遍,因此他在近期發(fā)布的博文開頭就專門對此進行了糾正。當(dāng)被問及會為網(wǎng)絡(luò)上傳播的圖表版本補充哪些信息時,他表示會在所有提及任務(wù)完成耗時的地方,都加上 “人類” 這個關(guān)鍵詞。

盡管時間跨度的概念較為復(fù)雜,且一直被外界廣泛誤讀,但這一概念本身具備基礎(chǔ)的參考價值。時間跨度為 1 小時的模型,能將軟件工程師部分簡單的工作實現(xiàn)自動化;而時間跨度為 40 小時的模型,理論上能獨立完成數(shù)天的工作。但有部分專家對將人類的任務(wù)完成耗時作為量化人工智能能力的有效指標(biāo)提出了質(zhì)疑。加州大學(xué)伯克利分校的模型評估方向博士生伊尼奧盧瓦?德博拉?拉吉(Inioluwa Deborah Raji)表示:“我并不認為,一項任務(wù)的完成耗時更長,就必然意味著這項任務(wù)的難度更高,這并非既定事實?!?/p>

阿克斯表示,她最初也對將時間跨度作為評估指標(biāo)的合理性持懷疑態(tài)度。而她和同事的分析結(jié)果,讓她改變了這一看法。研究團隊測算出 2025 年初市面上所有主流模型的 50% 任務(wù)完成時間跨度后,將這些數(shù)據(jù)繪制成圖表,發(fā)現(xiàn)頭部模型的時間跨度正隨著時間推移不斷增加,且提升速度還在加快。這些模型的時間跨度大約每 7 個月就會翻倍,這意味著,2020 年年中,最先進的模型能完成人類耗時 9 秒的任務(wù);2023 年初,能完成人類耗時 4 分鐘的任務(wù);2024 年末,能完成人類耗時 40 分鐘的任務(wù)。阿克斯說:“我可以從理論層面反復(fù)探討這一指標(biāo)是否合理,但實實在在的發(fā)展趨勢就擺在那里。”

正是這一極具沖擊力的發(fā)展趨勢,讓這張 METR 圖表成為了人工智能領(lǐng)域的爆款。很多人都是通過《AI 2027》了解到這張圖表的,這篇爆紅的內(nèi)容融合了科幻故事與量化預(yù)測,提出超級人工智能可能會在 2030 年滅絕人類的觀點?!禔I 2027》的作者將這張 METR 圖表作為部分預(yù)測的依據(jù),并在內(nèi)容中大量引用。用阿克斯的話來說:“當(dāng)大多數(shù)人通過這種主觀性極強的解讀方式了解到你的研究成果時,會讓人感覺有些別扭。”

當(dāng)然,也有很多人引用這張 METR 圖表時,并未聯(lián)想到大規(guī)模的人類滅絕與災(zāi)難。在部分人工智能領(lǐng)域的支持者看來,這一指數(shù)級發(fā)展趨勢預(yù)示著,人工智能將很快引領(lǐng)人類進入經(jīng)濟高速增長的新時代。例如,風(fēng)險投資公司紅杉資本近期發(fā)布了一篇題為《2026 年:通用人工智能時代來臨》的文章,該文以這張 METR 圖表為依據(jù),認為能勝任員工或外包工作者角色的人工智能即將出現(xiàn)。這篇文章的作者之一、紅杉資本普通合伙人索尼婭?黃(Sonya Huang)表示:“我們撰寫這篇文章的初衷,其實是想引發(fā)大家的思考:當(dāng)你的發(fā)展規(guī)劃以百年為時間尺度時,你會作何選擇?”

但模型在 METR 圖表中實現(xiàn)了 1 小時的時間跨度,并不代表它能在現(xiàn)實工作中取代人類 1 小時的工作量。一方面,用于評估模型的這些任務(wù),無法反映出實際工作中的復(fù)雜性和不確定性。在最初的研究中,奎瓦、阿克斯及其同事提出了任務(wù) “復(fù)雜程度” 的量化評估標(biāo)準(zhǔn),評估維度包括模型是否明確知曉自身的評分規(guī)則、模型出現(xiàn)錯誤后是否能輕松重新開始任務(wù)。而對于高復(fù)雜程度的任務(wù),模型在這兩個維度的答案均為否。研究團隊發(fā)現(xiàn),模型在完成高復(fù)雜程度任務(wù)時,表現(xiàn)會明顯變差,不過無論是高復(fù)雜程度還是低復(fù)雜程度的任務(wù),模型的整體表現(xiàn)都呈提升趨勢。

即便 METR 設(shè)定的最高復(fù)雜程度的任務(wù),也無法充分反映出人工智能勝任大部分工作的能力,因為這張圖表的評估依據(jù)幾乎全部是編程任務(wù)。伊利諾伊大學(xué)厄巴納 - 香檳分校的計算機科學(xué)助理教授丹尼爾?康(Daniel Kang)表示:“模型的編程能力可以不斷提升,但并不會憑空掌握其他領(lǐng)域的技能?!?奎瓦及其同事在后續(xù)研究中發(fā)現(xiàn),人工智能在其他領(lǐng)域任務(wù)中的時間跨度同樣呈現(xiàn)指數(shù)級增長趨勢,但這項后續(xù)研究的規(guī)范性遠不及最初的研究。

盡管存在這些局限性,仍有不少專業(yè)人士認可 METR 的這項研究。康表示:“在該領(lǐng)域的現(xiàn)有研究中,METR 的這項研究是設(shè)計最為嚴謹?shù)难芯恐弧!?/strong>就連紐約大學(xué)前教授、長期對大語言模型持批判態(tài)度的加里?馬庫斯(Gary Marcus),也在博文中稱,為制作這張圖表開展的大部分研究工作都堪稱出色。

可以肯定的是,仍會有部分人將這張 METR 圖表解讀為人工智能引發(fā)人類末日的預(yù)言,但實際上它的本質(zhì)十分樸素:這是一個經(jīng)過精心設(shè)計的科學(xué)工具,將人們對人工智能發(fā)展的直觀感受轉(zhuǎn)化為了具體的數(shù)值。METR 的工作人員也坦言,這張圖表絕非完美的評估工具。但在人工智能這一新興且發(fā)展迅猛的領(lǐng)域,即便不夠完美的工具,也能具備巨大的參考價值。

阿克斯表示:“一群研究人員在重重限制下,盡最大努力打造出了這一評估指標(biāo)。它在很多方面都存在明顯的缺陷,但我依然認為,它是同類型工具中最出色的之一。”

https://www.technologyreview.com/2026/02/05/1132254/this-is-the-most-misunderstood-graph-in-ai/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
2月28日,多家上市公司發(fā)布重大利好利空消息

2月28日,多家上市公司發(fā)布重大利好利空消息

A股數(shù)據(jù)表
2026-02-28 06:30:03
央八新劇僅播五晚,就被觀眾要求下架?理由:胡編亂造、假的離譜

央八新劇僅播五晚,就被觀眾要求下架?理由:胡編亂造、假的離譜

TVB的四小花
2026-02-27 20:50:22
日本男籃不敵中國!日媒直言:若非裁判幫忙,日本這次會輸?shù)母鼞K

日本男籃不敵中國!日媒直言:若非裁判幫忙,日本這次會輸?shù)母鼞K

閱微札記
2026-02-27 17:06:50
網(wǎng)傳新能源汽車開征“里程稅”10省市試點 多地回應(yīng):沒有通知也無征收文件|云辟謠

網(wǎng)傳新能源汽車開征“里程稅”10省市試點 多地回應(yīng):沒有通知也無征收文件|云辟謠

封面新聞
2026-02-27 19:17:03
上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

壹月情感
2026-02-27 19:45:48
1男4女五胞胎名字已取好 爸爸稱心情像過山車

1男4女五胞胎名字已取好 爸爸稱心情像過山車

封面新聞
2026-02-27 15:01:02
想關(guān)閱讀燈卻滅了大燈:領(lǐng)克之外,你的車也有同樣隱患嗎?

想關(guān)閱讀燈卻滅了大燈:領(lǐng)克之外,你的車也有同樣隱患嗎?

第一財經(jīng)資訊
2026-02-27 20:20:08
黎智英案再次開審,美方高層在特朗普訪華前,先要求中方放人

黎智英案再次開審,美方高層在特朗普訪華前,先要求中方放人

東極妙嚴
2026-02-27 14:34:31
公開宣稱要創(chuàng)造條件解體俄羅斯,內(nèi)部確實很難!布達諾夫干得不錯

公開宣稱要創(chuàng)造條件解體俄羅斯,內(nèi)部確實很難!布達諾夫干得不錯

鷹眼Defence
2026-02-27 12:52:36
忍無可忍,直搗黃龍!巴基斯坦空襲阿富汗首都

忍無可忍,直搗黃龍!巴基斯坦空襲阿富汗首都

武器縱論
2026-02-27 13:34:35
杉杉集團破產(chǎn),事實證明:美女主持人只會排節(jié)目,對管理無能為力

杉杉集團破產(chǎn),事實證明:美女主持人只會排節(jié)目,對管理無能為力

來科點譜
2026-02-27 07:29:21
北京賣豆汁大爺爆火,小伙質(zhì)疑里面摻糞,現(xiàn)場直接舉報,當(dāng)場帶走

北京賣豆汁大爺爆火,小伙質(zhì)疑里面摻糞,現(xiàn)場直接舉報,當(dāng)場帶走

離離言幾許
2026-02-26 16:20:55
老朋友伊朗,快要退出群聊了

老朋友伊朗,快要退出群聊了

基本常識
2026-02-27 23:10:46
重磅!美國啟動取消中國永久正常貿(mào)易待遇調(diào)查,關(guān)稅或大幅上漲

重磅!美國啟動取消中國永久正常貿(mào)易待遇調(diào)查,關(guān)稅或大幅上漲

壹航運
2026-02-27 14:50:10
首次:烏克蘭激光炮應(yīng)用于戰(zhàn)場!摧毀俄羅斯軍機

首次:烏克蘭激光炮應(yīng)用于戰(zhàn)場!摧毀俄羅斯軍機

項鵬飛
2026-02-27 20:19:25
撿紅包事件陷入僵局!車主不承認,金額難確認,失主做法惹爭議!

撿紅包事件陷入僵局!車主不承認,金額難確認,失主做法惹爭議!

離離言幾許
2026-02-27 14:24:43
160萬粉絲“反詐老陳”抖音賬號已搜索不到,官方:以打假反詐為名,煽動網(wǎng)友對立,侮辱他人人格或企業(yè)聲譽

160萬粉絲“反詐老陳”抖音賬號已搜索不到,官方:以打假反詐為名,煽動網(wǎng)友對立,侮辱他人人格或企業(yè)聲譽

都市快報橙柿互動
2026-02-27 22:39:42
南博通報里“張某”身份的大瓜:被網(wǎng)友爆料系“徐湖平干女兒”?

南博通報里“張某”身份的大瓜:被網(wǎng)友爆料系“徐湖平干女兒”?

穿透
2026-02-27 11:40:39
突然被扣費,連續(xù)數(shù)月不知情! 上海已有多人遭遇! 快查, 你的錢有沒有"消失"?

突然被扣費,連續(xù)數(shù)月不知情! 上海已有多人遭遇! 快查, 你的錢有沒有"消失"?

新浪財經(jīng)
2026-02-27 17:11:04
中朝邊境鴨綠江口現(xiàn)狀:朝鮮領(lǐng)土正在不斷增加,中方卻在逐漸減少

中朝邊境鴨綠江口現(xiàn)狀:朝鮮領(lǐng)土正在不斷增加,中方卻在逐漸減少

普覽
2026-02-26 21:29:19
2026-02-28 08:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16333文章數(shù) 514668關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

160萬粉絲"反詐老陳"被罰 官方:以反詐為名煽動對立

頭條要聞

160萬粉絲"反詐老陳"被罰 官方:以反詐為名煽動對立

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

健康
手機
親子
家居
教育

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機要聞

疑似Vision GT概念超跑現(xiàn)身后,小米宣布MWC還有One more thing

親子要聞

今年過年和父母鬧別扭了嗎?希望小女孩能找到和父母相處最舒服的方式

家居要聞

素色肌理 品意式格調(diào)

教育要聞

四六級考試,今日6時起可查分

無障礙瀏覽 進入關(guān)懷版