国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

沃頓教授警告:老板用AI正偷偷賺錢,而你還在審它做的17份PPT?

0
分享至


新智元報道

編輯:peter東 KingHZ

【新智元導(dǎo)讀】AI已經(jīng)不只會「答題」,開始下場「掙錢」了。但它也可能順手給你產(chǎn)出17份PPT,把你淹沒在電子垃圾里。下一代AI也許真能贏過專家,可更刺激的問題是:它會替你上班,還是讓你轉(zhuǎn)職為「AI監(jiān)工」?

悄然之間,人工智能跨越了一個關(guān)鍵門檻:它們現(xiàn)在已能完成具有實際經(jīng)濟價值的工作。

但當(dāng)你把一份企業(yè)備忘錄交給Claude,讓它做個 PPT,結(jié)果它一口氣生成了17個版本。

面對這種「用力過猛」的 AI,你可能會懷疑:它真的具有實用性和經(jīng)濟價值嗎?

對此,賓夕法尼亞大學(xué)沃頓商學(xué)院教授Ethan Mollick給出了他的回答。


智能體能完成特定任務(wù)

但無法取代工作

考慮到開發(fā)新AI所投入的天量資源,無論是字面意義還是象征意義上,我們卻在精確衡量AI「智能」程度這件事上意外地捉襟見肘。

目前,最普遍的做法是將AI視作人類,通過標(biāo)準(zhǔn)化測試來統(tǒng)計其答對題目的數(shù)量。

這類被稱為「基準(zhǔn)測試」的評估體系多達(dá)數(shù)十種,已成為衡量AI能力演進(jìn)的核心標(biāo)尺。


但AI真的實用性?有經(jīng)濟價值嗎?

要回答這個問題,不能光靠感覺,得看數(shù)據(jù)。

OpenAI發(fā)布了一個名叫GDPVAL的新基準(zhǔn)測試。它不像以往的數(shù)學(xué)或常識測試,而是專門考察大模型在現(xiàn)實工作場景中能否創(chuàng)造經(jīng)濟價值。

這一次,考得很「實戰(zhàn)」。

OpenAI組了個高端局:

  • 出題人:來自金融、法律、零售等行業(yè)的資深專家(平均14年經(jīng)驗)。

  • 題目難度:人類專家平均需要4-7小時才能完成的真實業(yè)務(wù)任務(wù)。

  • 評測方式:AI和人類專家同臺競技,由第三方專家進(jìn)行盲測打分。

然后,OpenAI讓各家的大模型和其他專家親自完成這些任務(wù)。第三組專家對結(jié)果進(jìn)行評分,評分的專家不知道哪些答案來自AI,哪些來自人類,每個問題的評分時間大約需要一小時。

測試結(jié)果非常耐人尋味:人類專家贏了,但是贏得很難(勉強獲勝)。


圖1:GDPVAL中,不同模型在對應(yīng)任務(wù)上和人類具有相同或更好水平的比例。

同時,測試發(fā)現(xiàn)AI進(jìn)步極快:較新的模型得分遠(yuǎn)超舊模型。

輸在哪?有趣的是,大模型輸給人類,并不是因為「幻覺」或「胡說八道」,主要是因為格式排版不好沒能精確遵循指令——而這些恰恰是最容易修復(fù)的短板。


圖2:不同領(lǐng)域中,大模型的表現(xiàn)好壞差異較大

如果當(dāng)前趨勢持續(xù),下一代人工智能模型在這項測試中應(yīng)超越人類專家。但這意味著AI已做好準(zhǔn)備,來取代人類工作了嗎?

回答是否定。

這里的關(guān)鍵在于:GDPVAL測試的是「任務(wù)」(Task),而我們做的是「工作」(Job)。

  • 任務(wù)是具體的:寫一段代碼、翻譯一篇文章。

  • 工作是復(fù)雜的:它包含了一連串的任務(wù),更包含了人際溝通、決策博弈和對突發(fā)狀況的處理。

只要AI還做不到像人類一樣處理復(fù)雜互動,它就無法取代你的崗位。

但在這些高價值的任務(wù)中,AI什么時候能達(dá)到人類專家級水平?理論上,AI落地已無阻礙?

Ethan Mollick教授認(rèn)為,AI智能體突然變得具有落地可能,確實讓人大吃一驚。部分原因在于大家對智能體的錯誤認(rèn)知 。


智能體,工作「續(xù)航能力」指數(shù)級增長

以前,大家認(rèn)為,AI想獨立完成長任務(wù)非常難,比如寫一個完整的軟件。因為AI只要中間錯一步,后面就全完了(誤差累積)。

但劍橋大學(xué)等機構(gòu)聯(lián)手顛覆了這個認(rèn)知:AI的能力并沒有遇到瓶頸,反而在爆發(fā)。


預(yù)印本鏈接:https://arxiv.org/abs/2509.09677

劍橋大學(xué)Akshit Sinha等研究人員挖掘出四大原因:

1)收益非遞減:變準(zhǔn)一點點,能做的事會暴增

2)自我修正:它會停下來檢查,不會被一個錯誤拖死

3)更長上下文:一次對話就能裝下更長流程

4)更強模型能力:規(guī)劃更穩(wěn),長任務(wù)更不崩

所有這一切意味著,AI 智能體能夠應(yīng)對那些需要更多步驟才能完成的任務(wù),并且這一過程無需人工干預(yù)。


圖3:大模型性能的提升不會引起收益遞減的四個原因

因此,指標(biāo)METR,從GPT-3到GPT-5,在五年間持續(xù)保持了指數(shù)級增長,顯示出智能體能力增加的速度沒有放緩。


圖4:大模型能夠穩(wěn)定完成的任務(wù)所需的耗時變化

該指標(biāo)衡量AI能以至少50%幾率獨立完成的任務(wù)到底多長。

這意味著我們在不遠(yuǎn)的未來,就能夠看到AI完成需要專業(yè)人士一天甚至一周時間才能完成的復(fù)雜任務(wù)。

人類決定AI的未來

然而,真正具有自主性智能體并不存在。

目前,我們需要決定如何使用它們,這將決定未來工作的許多方面。當(dāng)下大多人關(guān)注的重點是用AI取代人類勞動所帶來的風(fēng)險,而且不難看出這將在未來幾年成為一個主要問題,特別是對于那些只關(guān)注削減成本、而不是利用這些新能力來擴展或轉(zhuǎn)型工作的,同時缺乏想象力的組織。

但在工作中使用AI,會帶來的另一個非常有可能發(fā)生的風(fēng)險是:我們會無意識地讓智能體去完成一堆比我們當(dāng)下所做的更多,但完全不必要的任務(wù),例如根據(jù)一個文檔做17個PPT。

我們?nèi)绻徽J(rèn)真思考我們?yōu)槭裁匆龉ぷ鳎约肮ぷ鲬?yīng)該是什么樣子,那么會被AI生成的「電子垃圾」大潮淹沒。

那么,替代方案是什么?

OpenAI建議專家可以通過將任務(wù)委托給 AI ,將AI生成的結(jié)果當(dāng)成初稿,由人類審查,從而與 AI 合作解決問題。如果AI生成的初稿不夠好,用戶可在提示詞中提供糾正或優(yōu)化提示詞再試一次。如果那仍然不起作用,他們應(yīng)該親自完成工作。

如果專家遵循這種工作流程,論文估計他們可以加快40%的工作速度,降低60%的成本。更重要的是,他們可以保持對 AI 的控制權(quán)。


圖5:不同大模型帶來的速度和成本提升

具有經(jīng)濟實用性的智能體已經(jīng)出現(xiàn)。例如通過讓AI智能體去復(fù)現(xiàn)學(xué)術(shù)論文,可以應(yīng)對學(xué)術(shù)界的「可復(fù)現(xiàn)性危機」。

盡管智能體能夠完成的任務(wù)仍然有限,但它有經(jīng)濟價值,并且價值正在遞增。

出現(xiàn)哪一個未來,區(qū)別不在于AI技術(shù)的演變,而在于我們選擇如何使用AI。通過在我們的判斷中決定什么值得做,而不僅僅是能做什么,我們可以確保這些工具使我們變得更有能力,而不僅僅是更有效率。

參考資料:

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
單親媽媽柬埔寨尋子一個月無果,19歲小伙疑被16萬元轉(zhuǎn)賣,與母親視頻通話時曾按“酒窩”暗示“救我”

單親媽媽柬埔寨尋子一個月無果,19歲小伙疑被16萬元轉(zhuǎn)賣,與母親視頻通話時曾按“酒窩”暗示“救我”

極目新聞
2026-01-08 21:08:49
閆學(xué)晶遭遇現(xiàn)世報!代言品牌疑解約,評論區(qū)淪陷,春晚節(jié)目或不保

閆學(xué)晶遭遇現(xiàn)世報!代言品牌疑解約,評論區(qū)淪陷,春晚節(jié)目或不保

銀河史記
2026-01-06 16:09:28
終結(jié)隊史最長13連?。】ㄈR爾1000勝步行者險勝黃蜂 三球33+8

終結(jié)隊史最長13連敗!卡萊爾1000勝步行者險勝黃蜂 三球33+8

醉臥浮生
2026-01-09 10:35:57
雷軍再回應(yīng)"1300公里只充一次電" 水軍想給我貼"虛假營銷"的標(biāo)簽

雷軍再回應(yīng)"1300公里只充一次電" 水軍想給我貼"虛假營銷"的標(biāo)簽

每日經(jīng)濟新聞
2026-01-09 10:29:49
特朗普稱將“掌管”委內(nèi)瑞拉石油產(chǎn)業(yè)

特朗普稱將“掌管”委內(nèi)瑞拉石油產(chǎn)業(yè)

財聯(lián)社
2026-01-09 11:25:01
哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

岐黃傳人孫大夫
2026-01-08 10:06:20
以為是假新聞其實是真新聞,從袁立到王星,件件離譜又驚人

以為是假新聞其實是真新聞,從袁立到王星,件件離譜又驚人

上官晚安
2026-01-06 08:08:35
四川省河湖保護(hù)和監(jiān)管事務(wù)中心原主任劉剛被“雙開”

四川省河湖保護(hù)和監(jiān)管事務(wù)中心原主任劉剛被“雙開”

界面新聞
2026-01-09 11:04:57
終于輪到日本“強烈抗議”了:80年了,日本從未像今天這樣憋屈

終于輪到日本“強烈抗議”了:80年了,日本從未像今天這樣憋屈

梁訊
2026-01-09 01:43:03
全球用戶大面積中招:鼠標(biāo)突然就“壞了”!不少人按到“手抽筋”,重裝卸載也不管用,羅技回應(yīng)

全球用戶大面積中招:鼠標(biāo)突然就“壞了”!不少人按到“手抽筋”,重裝卸載也不管用,羅技回應(yīng)

每日經(jīng)濟新聞
2026-01-08 20:15:12
特朗普威脅“將付出慘痛代價”,伊朗會步委內(nèi)瑞拉后塵?

特朗普威脅“將付出慘痛代價”,伊朗會步委內(nèi)瑞拉后塵?

上游新聞
2026-01-09 12:19:30
中央決定:曲光吉履新職

中央決定:曲光吉履新職

新京報
2026-01-09 12:22:20
中鐵五局被停業(yè)整頓180日

中鐵五局被停業(yè)整頓180日

第一財經(jīng)資訊
2026-01-09 10:22:53
對重傷球員施暴!阿森納紅星遭狂噴:可恥逃紅 利物浦全隊該揍他

對重傷球員施暴!阿森納紅星遭狂噴:可恥逃紅 利物浦全隊該揍他

我愛英超
2026-01-09 07:51:15
三星長公主沒想到,自己下嫁保安丟的面子,竟被18歲兒子找了回來

三星長公主沒想到,自己下嫁保安丟的面子,竟被18歲兒子找了回來

削桐作琴
2026-01-08 21:22:07
涉嫌嚴(yán)重違紀(jì)違法!丹陽市水利局原黨組副書記、副局長許立新接受紀(jì)律審查和監(jiān)察調(diào)查

涉嫌嚴(yán)重違紀(jì)違法!丹陽市水利局原黨組副書記、副局長許立新接受紀(jì)律審查和監(jiān)察調(diào)查

揚子晚報
2026-01-08 17:48:33
網(wǎng)傳某國產(chǎn)操作系統(tǒng)大廠老董開除核心工程師,理由竟是 “沒穿西裝”

網(wǎng)傳某國產(chǎn)操作系統(tǒng)大廠老董開除核心工程師,理由竟是 “沒穿西裝”

可達(dá)鴨面面觀
2026-01-08 19:48:13
有點失控了!

有點失控了!

子木聊房
2026-01-09 11:52:39
感謝邵佳一!李昊最后時刻3次世界級撲救:中國足球真不缺門將

感謝邵佳一!李昊最后時刻3次世界級撲救:中國足球真不缺門將

邱澤云
2026-01-09 01:07:50
2299元波司登商務(wù)羽絨服充絨量僅86克,網(wǎng)友質(zhì)疑品牌溢價過高,客服回應(yīng)

2299元波司登商務(wù)羽絨服充絨量僅86克,網(wǎng)友質(zhì)疑品牌溢價過高,客服回應(yīng)

極目新聞
2026-01-08 22:29:38
2026-01-09 14:00:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14293文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

更智能更豪華 樂道L90加配置會貴多少?

態(tài)度原創(chuàng)

家居
本地
親子
公開課
軍事航空

家居要聞

木色留白 演繹現(xiàn)代自由

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

親子要聞

從5樓掉下來被洗衣機接???腰斷了腿骨折了,肚子里還多了一個娃

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進(jìn)入關(guān)懷版