国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

沃頓教授警告:老板用AI正偷偷賺錢,而你還在審它做的17份PPT?

0
分享至


新智元報(bào)道

編輯:peter東 KingHZ

【新智元導(dǎo)讀】AI已經(jīng)不只會(huì)「答題」,開始下場(chǎng)「掙錢」了。但它也可能順手給你產(chǎn)出17份PPT,把你淹沒在電子垃圾里。下一代AI也許真能贏過專家,可更刺激的問題是:它會(huì)替你上班,還是讓你轉(zhuǎn)職為「AI監(jiān)工」?

悄然之間,人工智能跨越了一個(gè)關(guān)鍵門檻:它們現(xiàn)在已能完成具有實(shí)際經(jīng)濟(jì)價(jià)值的工作。

但當(dāng)你把一份企業(yè)備忘錄交給Claude,讓它做個(gè) PPT,結(jié)果它一口氣生成了17個(gè)版本。

面對(duì)這種「用力過猛」的 AI,你可能會(huì)懷疑:它真的具有實(shí)用性和經(jīng)濟(jì)價(jià)值嗎?

對(duì)此,賓夕法尼亞大學(xué)沃頓商學(xué)院教授Ethan Mollick給出了他的回答。


智能體能完成特定任務(wù)

但無法取代工作

考慮到開發(fā)新AI所投入的天量資源,無論是字面意義還是象征意義上,我們卻在精確衡量AI「智能」程度這件事上意外地捉襟見肘。

目前,最普遍的做法是將AI視作人類,通過標(biāo)準(zhǔn)化測(cè)試來統(tǒng)計(jì)其答對(duì)題目的數(shù)量。

這類被稱為「基準(zhǔn)測(cè)試」的評(píng)估體系多達(dá)數(shù)十種,已成為衡量AI能力演進(jìn)的核心標(biāo)尺。


但AI真的實(shí)用性?有經(jīng)濟(jì)價(jià)值嗎?

要回答這個(gè)問題,不能光靠感覺,得看數(shù)據(jù)。

OpenAI發(fā)布了一個(gè)名叫GDPVAL的新基準(zhǔn)測(cè)試。它不像以往的數(shù)學(xué)或常識(shí)測(cè)試,而是專門考察大模型在現(xiàn)實(shí)工作場(chǎng)景中能否創(chuàng)造經(jīng)濟(jì)價(jià)值。

這一次,考得很「實(shí)戰(zhàn)」。

OpenAI組了個(gè)高端局:

  • 出題人:來自金融、法律、零售等行業(yè)的資深專家(平均14年經(jīng)驗(yàn))。

  • 題目難度:人類專家平均需要4-7小時(shí)才能完成的真實(shí)業(yè)務(wù)任務(wù)。

  • 評(píng)測(cè)方式:AI和人類專家同臺(tái)競(jìng)技,由第三方專家進(jìn)行盲測(cè)打分。

然后,OpenAI讓各家的大模型和其他專家親自完成這些任務(wù)。第三組專家對(duì)結(jié)果進(jìn)行評(píng)分,評(píng)分的專家不知道哪些答案來自AI,哪些來自人類,每個(gè)問題的評(píng)分時(shí)間大約需要一小時(shí)。

測(cè)試結(jié)果非常耐人尋味:人類專家贏了,但是贏得很難(勉強(qiáng)獲勝)。


圖1:GDPVAL中,不同模型在對(duì)應(yīng)任務(wù)上和人類具有相同或更好水平的比例。

同時(shí),測(cè)試發(fā)現(xiàn)AI進(jìn)步極快:較新的模型得分遠(yuǎn)超舊模型。

輸在哪?有趣的是,大模型輸給人類,并不是因?yàn)椤富糜X」或「胡說八道」,主要是因?yàn)?strong>格式排版不好或沒能精確遵循指令——而這些恰恰是最容易修復(fù)的短板。


圖2:不同領(lǐng)域中,大模型的表現(xiàn)好壞差異較大

如果當(dāng)前趨勢(shì)持續(xù),下一代人工智能模型在這項(xiàng)測(cè)試中應(yīng)超越人類專家。但這意味著AI已做好準(zhǔn)備,來取代人類工作了嗎?

回答是否定

這里的關(guān)鍵在于:GDPVAL測(cè)試的是「任務(wù)」(Task),而我們做的是「工作」(Job)。

  • 任務(wù)是具體的:寫一段代碼、翻譯一篇文章。

  • 工作是復(fù)雜的:它包含了一連串的任務(wù),更包含了人際溝通、決策博弈和對(duì)突發(fā)狀況的處理。

只要AI還做不到像人類一樣處理復(fù)雜互動(dòng),它就無法取代你的崗位。

但在這些高價(jià)值的任務(wù)中,AI什么時(shí)候能達(dá)到人類專家級(jí)水平?理論上,AI落地已無阻礙?

Ethan Mollick教授認(rèn)為,AI智能體突然變得具有落地可能,確實(shí)讓人大吃一驚。部分原因在于大家對(duì)智能體的錯(cuò)誤認(rèn)知 。


智能體,工作「續(xù)航能力」指數(shù)級(jí)增長

以前,大家認(rèn)為,AI想獨(dú)立完成長任務(wù)非常難,比如寫一個(gè)完整的軟件。因?yàn)锳I只要中間錯(cuò)一步,后面就全完了(誤差累積)。

但劍橋大學(xué)等機(jī)構(gòu)聯(lián)手顛覆了這個(gè)認(rèn)知:AI的能力并沒有遇到瓶頸,反而在爆發(fā)。


預(yù)印本鏈接:https://arxiv.org/abs/2509.09677

劍橋大學(xué)Akshit Sinha等研究人員挖掘出四大原因:

1)收益非遞減:變準(zhǔn)一點(diǎn)點(diǎn),能做的事會(huì)暴增

2)自我修正:它會(huì)停下來檢查,不會(huì)被一個(gè)錯(cuò)誤拖死

3)更長上下文:一次對(duì)話就能裝下更長流程

4)更強(qiáng)模型能力:規(guī)劃更穩(wěn),長任務(wù)更不崩

所有這一切意味著,AI 智能體能夠應(yīng)對(duì)那些需要更多步驟才能完成的任務(wù),并且這一過程無需人工干預(yù)。


圖3:大模型性能的提升不會(huì)引起收益遞減的四個(gè)原因

因此,指標(biāo)METR,從GPT-3到GPT-5,在五年間持續(xù)保持了指數(shù)級(jí)增長,顯示出智能體能力增加的速度沒有放緩。


圖4:大模型能夠穩(wěn)定完成的任務(wù)所需的耗時(shí)變化

該指標(biāo)衡量AI能以至少50%幾率獨(dú)立完成的任務(wù)到底多長。

這意味著我們?cè)诓贿h(yuǎn)的未來,就能夠看到AI完成需要專業(yè)人士一天甚至一周時(shí)間才能完成的復(fù)雜任務(wù)。

人類決定AI的未來

然而,真正具有自主性智能體并不存在。

目前,我們需要決定如何使用它們,這將決定未來工作的許多方面。當(dāng)下大多人關(guān)注的重點(diǎn)是用AI取代人類勞動(dòng)所帶來的風(fēng)險(xiǎn),而且不難看出這將在未來幾年成為一個(gè)主要問題,特別是對(duì)于那些只關(guān)注削減成本、而不是利用這些新能力來擴(kuò)展或轉(zhuǎn)型工作的,同時(shí)缺乏想象力的組織。

但在工作中使用AI,會(huì)帶來的另一個(gè)非常有可能發(fā)生的風(fēng)險(xiǎn)是:我們會(huì)無意識(shí)地讓智能體去完成一堆比我們當(dāng)下所做的更多,但完全不必要的任務(wù),例如根據(jù)一個(gè)文檔做17個(gè)PPT。

我們?nèi)绻徽J(rèn)真思考我們?yōu)槭裁匆龉ぷ鳎约肮ぷ鲬?yīng)該是什么樣子,那么會(huì)被AI生成的「電子垃圾」大潮淹沒。

那么,替代方案是什么?

OpenAI建議專家可以通過將任務(wù)委托給 AI ,將AI生成的結(jié)果當(dāng)成初稿,由人類審查,從而與 AI 合作解決問題。如果AI生成的初稿不夠好,用戶可在提示詞中提供糾正或優(yōu)化提示詞再試一次。如果那仍然不起作用,他們應(yīng)該親自完成工作。

如果專家遵循這種工作流程,論文估計(jì)他們可以加快40%的工作速度,降低60%的成本。更重要的是,他們可以保持對(duì) AI 的控制權(quán)。


圖5:不同大模型帶來的速度和成本提升

具有經(jīng)濟(jì)實(shí)用性的智能體已經(jīng)出現(xiàn)。例如通過讓AI智能體去復(fù)現(xiàn)學(xué)術(shù)論文,可以應(yīng)對(duì)學(xué)術(shù)界的「可復(fù)現(xiàn)性危機(jī)」。

盡管智能體能夠完成的任務(wù)仍然有限,但它有經(jīng)濟(jì)價(jià)值,并且價(jià)值正在遞增。

出現(xiàn)哪一個(gè)未來,區(qū)別不在于AI技術(shù)的演變,而在于我們選擇如何使用AI。通過在我們的判斷中決定什么值得做,而不僅僅是能做什么,我們可以確保這些工具使我們變得更有能力,而不僅僅是更有效率。

參考資料:

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
貴州一小區(qū)自來水變藍(lán)8個(gè)月,拆卸的管道內(nèi)發(fā)現(xiàn)油漆狀物質(zhì),20多人檢出身體異常,官方回應(yīng)

貴州一小區(qū)自來水變藍(lán)8個(gè)月,拆卸的管道內(nèi)發(fā)現(xiàn)油漆狀物質(zhì),20多人檢出身體異常,官方回應(yīng)

封面新聞
2025-12-22 22:57:07
中國首次硬剛美國軍售,警告時(shí)代正式結(jié)束!

中國首次硬剛美國軍售,警告時(shí)代正式結(jié)束!

回京歷史夢(mèng)
2025-12-24 00:45:02
劉衛(wèi)東被查前,干了兩件最不要臉的事。

劉衛(wèi)東被查前,干了兩件最不要臉的事。

南權(quán)先生
2025-12-18 16:50:39
曾仕強(qiáng)教授:2026年是一道大坎,很多人恐怕?lián)尾贿^去

曾仕強(qiáng)教授:2026年是一道大坎,很多人恐怕?lián)尾贿^去

心靈短笛
2025-12-03 10:08:19
卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

以茶帶書
2025-12-09 23:33:58
2026元旦起,60歲以上憑身份證享所有優(yōu)待!老年證不用辦了

2026元旦起,60歲以上憑身份證享所有優(yōu)待!老年證不用辦了

復(fù)轉(zhuǎn)這些年
2025-12-24 00:09:02
關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

詩意世界
2025-12-19 12:00:03
臺(tái)北市隨機(jī)攻擊案,犯罪嫌疑人父母下跪向各界道歉

臺(tái)北市隨機(jī)攻擊案,犯罪嫌疑人父母下跪向各界道歉

環(huán)球網(wǎng)資訊
2025-12-23 17:55:54
納斯達(dá)克中國金龍指數(shù)跌幅擴(kuò)大至1%

納斯達(dá)克中國金龍指數(shù)跌幅擴(kuò)大至1%

證券時(shí)報(bào)
2025-12-23 23:27:08
越共十四大臨近,當(dāng)局通過領(lǐng)導(dǎo)人推薦名單,高層權(quán)力將如何重組?

越共十四大臨近,當(dāng)局通過領(lǐng)導(dǎo)人推薦名單,高層權(quán)力將如何重組?

40度觀察
2025-12-23 18:48:20
胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

岐黃傳人孫大夫
2025-12-20 11:45:03
克林頓回應(yīng)愛潑斯坦案新檔案:立即全部公開!

克林頓回應(yīng)愛潑斯坦案新檔案:立即全部公開!

新華社
2025-12-23 20:53:07
中烏在京談妥,澤連斯基已通知全球,烏國撤兵可以,但有2個(gè)條件

中烏在京談妥,澤連斯基已通知全球,烏國撤兵可以,但有2個(gè)條件

影孖看世界
2025-12-23 16:02:56
知名搖滾吉他手歇斯去世,年僅60歲,曾被稱為“六指琴魔”

知名搖滾吉他手歇斯去世,年僅60歲,曾被稱為“六指琴魔”

紅星新聞
2025-12-23 16:30:09
挺著七個(gè)月孕肚跪雪地作畫,繼子女喊“梅媽媽”,撕碎了后媽劇本

挺著七個(gè)月孕肚跪雪地作畫,繼子女喊“梅媽媽”,撕碎了后媽劇本

做一個(gè)合格的吃瓜群眾
2025-12-23 19:02:01
30多名員工聯(lián)名舉報(bào)!這次,82歲徐湖平恐不是"退休養(yǎng)病"這么簡(jiǎn)單

30多名員工聯(lián)名舉報(bào)!這次,82歲徐湖平恐不是"退休養(yǎng)病"這么簡(jiǎn)單

奇思妙想草葉君
2025-12-22 20:02:05
閆妮在華強(qiáng)北送外賣!有深圳人看哭......

閆妮在華強(qiáng)北送外賣!有深圳人看哭......

深圳晚報(bào)
2025-12-23 12:33:55
超50萬噸車?yán)遄佑咳胫袊瑑r(jià)格大跳水

超50萬噸車?yán)遄佑咳胫袊?,價(jià)格大跳水

第一財(cái)經(jīng)資訊
2025-12-23 21:25:06
賴昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國,守著3000平老宅安靜養(yǎng)老

賴昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國,守著3000平老宅安靜養(yǎng)老

古書記史
2025-12-12 11:21:38
目前來看,洋浦港想取代新加坡是不可能的

目前來看,洋浦港想取代新加坡是不可能的

扶蘇聊歷史
2025-12-23 15:14:13
2025-12-24 02:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14167文章數(shù) 66395關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強(qiáng)黑產(chǎn)攻擊

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

體育要聞

楊瀚森連續(xù)5場(chǎng)DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應(yīng)阿信感謝,自曝沒再收到邀約

財(cái)經(jīng)要聞

祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進(jìn)3.0時(shí)代

態(tài)度原創(chuàng)

親子
健康
房產(chǎn)
公開課
軍事航空

親子要聞

嚴(yán)禁引入第三方,管住幼兒園亂收費(fèi) | 新京報(bào)快評(píng)

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

獨(dú)家猛料!16.1億,浙江老板搶下雅居樂清水灣261畝重磅宅地!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突關(guān)鍵人物在莫斯科被炸死 烏方尚未公開認(rèn)領(lǐng)

無障礙瀏覽 進(jìn)入關(guān)懷版