国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,Anthropic內(nèi)部考題開源!年薪百萬工程師,被AI秒了

0
分享至


新智元報道

編輯:Aeneas 好困

【新智元導(dǎo)讀】史上最強(qiáng)模型Claude Opus 4.5發(fā)布后,全面碾壓了人類頂尖工程師,逼得Anthropic不得不被迫放棄招聘筆試!現(xiàn)在,內(nèi)部考題已經(jīng)全面開源了。

就在剛剛,人類程序員最后的堡壘崩塌了。

曾經(jīng),Anthropic為自己應(yīng)聘者準(zhǔn)備了一份出了名困難的考題,讓他們在家完成。

這份考題一直效果不錯,直到Claude Opus 4.5的出現(xiàn)。

有了這個史上最強(qiáng)模型的加持,人類應(yīng)聘者輕松做出各種考題,因而這份考卷也就失效了。

今天,因?yàn)闊o法再通過傳統(tǒng)技術(shù)筆試篩選人才,Anthropic被迫開源了舊版試題,并且向全世界求助:有沒有辦法,讓我們真正測試出人類的編程能力?


作為告別,Anthropic選擇將把最初版本的測試題發(fā)布,作為一個面向大眾的公開挑戰(zhàn)。


地址:https://github.com/anthropics/original_performance_takehome

在這個測試題中,候選人需要逐步進(jìn)行多核并行優(yōu)化、SIMD向量化、VLIW指令打包優(yōu)化,并用Perfetto trace做分析。


他們依然相信:在無限時間下,最強(qiáng)人類依然能超越Claude的極限。

同時他們強(qiáng)調(diào):如果哪個人類能擊敗Claude Opus 4.5,請務(wù)必聯(lián)系A(chǔ)nthropic!

剛剛,Claude Opus 4.5把我們的筆試題秒了

在AI時代,究竟該如何進(jìn)行軟件工程師的面試?

Anthropic在這篇博客里,進(jìn)行了細(xì)致的探索。


博客地址:https://www.anthropic.com/engineering/AI-resistant-technical-evaluations

要知道,曾經(jīng)Anthropic有一套完美的篩選考題。

可隨著AI能力的指數(shù)級提升,今天還能完美區(qū)分菜鳥和大神的試題,明天就可能被新模型秒殺,這套考題就瞬間失去意義了!

比如,自2024年初,他們的性能工程團(tuán)隊一直在用下面這套題:要求候選人為一個模擬加速器優(yōu)化代碼。

這套題在1000多名面試者中,篩出了幾十個最頂尖的工程師。正是這些人,點(diǎn)亮了Anthropic的Trainium集群,發(fā)布了從Claude 3 Opus至今的每一個模型。

結(jié)果,每個新版本的Claude,都在讓這套題失效!

同樣的時間里,Claude Opus 4已經(jīng)優(yōu)于大多數(shù)人類申請者,Anthropic勉強(qiáng)還能篩出最強(qiáng)的人類。

結(jié)果Claude Opus 4.5的橫空出世,直接追平了最強(qiáng)人類天花板!

如果給無限的時間,人類或許還能險勝,但在面試時間限制下,已經(jīng)根本無法區(qū)分誰是頂尖候選人,誰是最強(qiáng)模型了。

為此,Anthropic已經(jīng)把這套題迭代了三個版本,甚至越來越「劍走偏鋒」。

這套測試的誕生

2023年11月,Anthropic正準(zhǔn)備發(fā)布Claude Opus 3。

新的TPU和GPU集群就位,大Trainium集群即將上線,公司在算力上的投入是過去的數(shù)倍,但性能工程師卻嚴(yán)重緊缺。

為此,Anthropic公司績效優(yōu)化團(tuán)隊負(fù)責(zé)人Tristan Hume在Twitter上發(fā)帖求賢,雖然收到了大量簡歷,但標(biāo)準(zhǔn)的面試流程太耗時了。


于是,他花了兩個星期設(shè)計了一個Take-home測試,從而精準(zhǔn)識別出真正硬核的候選人。

設(shè)計初衷

為了做出一個好玩的、能讓候選人興奮的東西,并且能以「高分辨率」掃描他們的技術(shù)實(shí)力,Tristan Hume做了精心設(shè)計。

相比現(xiàn)場面試,這種形式在評估性能工程技能上更有優(yōu)勢:

  • 時間更充裕:4小時(后改為2小時)的窗口比50分鐘的面試更能反映真實(shí)工作狀態(tài)。

  • 環(huán)境更真實(shí):沒有面試官盯著,候選人在自己的編輯器里干活,零干擾。

  • 深度考察:性能優(yōu)化需要理解系統(tǒng)、造工具,這在短面試?yán)锖茈y體現(xiàn)。

  • 兼容AI輔助:明確允許使用AI。因?yàn)閷τ陂L線難題,AI很難直接給出完美解。

另外,Tristan還構(gòu)建了一個Python模擬器,模擬了一個具有TPU特征的假加速器。

候選人需要優(yōu)化在這臺機(jī)器上運(yùn)行的代碼,并通過一個支持熱重載的Perfetto trace來觀察執(zhí)行過程,該trace會展示每一條指令,效果類似公司在Trainium上使用的工具鏈。


這臺模擬機(jī)器包含了一些讓加速器優(yōu)化變得很有挑戰(zhàn)性的特性,包括:

  • 手動管理的scratchpad內(nèi)存(不同于CPU,加速器通常需要顯式進(jìn)行內(nèi)存管理)

  • VLIW架構(gòu)(每個周期可以并行運(yùn)行多個執(zhí)行單元,需要高效地進(jìn)行指令打包)

  • SIMD(一條指令同時對多個數(shù)據(jù)元素進(jìn)行向量化運(yùn)算)

  • 多核架構(gòu)(需要將工作負(fù)載合理地分配到多個核心上)

這些硬核要素,都讓底層優(yōu)化變得更有趣。


這個任務(wù)是一個并行的樹遍歷問題,刻意設(shè)計成不帶深度學(xué)習(xí)背景的形式,因?yàn)榇蠖鄶?shù)性能工程師并沒有做過深度學(xué)習(xí)工作,具體知識可以在入職后再學(xué)習(xí)。

該問題的靈感來自于無分支的SIMD決策樹推理——這是一個經(jīng)典的機(jī)器學(xué)習(xí)優(yōu)化挑戰(zhàn)。

候選人一開始拿到的是一個完全串行的實(shí)現(xiàn),需要逐步挖掘并利用這臺機(jī)器的并行能力。

早期戰(zhàn)果:它曾完美工作

最初的效果非常好。

一位得分遙遙領(lǐng)先的候選人入職后,立即開始優(yōu)化算子,并解決了一個阻礙發(fā)布的編譯器Bug。

在之后的一年半里,這套題幫忙組建了核心團(tuán)隊,甚至發(fā)掘了幾位本科剛畢業(yè)但實(shí)力超群的天才。

許多候選人甚至因?yàn)橛X得太好玩,在超時后還在繼續(xù)優(yōu)化。最強(qiáng)的一份提交,甚至包含了一個完整的迷你優(yōu)化編譯器。

第一輪崩潰:Claude Opus 4進(jìn)場

到了25年5月,Claude 3.7 Sonnet已經(jīng)進(jìn)化到讓一半的候選人只要把題丟給它,就能拿高分。

隨后,Tristan用Claude Opus 4的預(yù)發(fā)布版本試了一下。結(jié)果令人絕望:在4小時內(nèi),它的代碼比幾乎所有人類都要好。

這并非他第一次被Claude擊敗。早在2023年,Claude 3 Opus和3.5 Sonnet就先后攻破了他們精心準(zhǔn)備的現(xiàn)場面試題。

對于這次崩潰,Tristan做了緊急修復(fù):既然問題深度不夠,那就加碼。他重寫了啟動代碼,增加了機(jī)器特性的復(fù)雜度,并把時間縮短到2小時。

第二版?zhèn)戎乜疾烨擅畹膬?yōu)化洞察力,而非單純的代碼量。這招奏效了——但是,也只撐了幾個月而已。

第二輪崩潰:Claude Opus 4.5的降維打擊

后來,當(dāng)Tristan拿到Claude Opus 4.5的預(yù)發(fā)布版本時,他眼睜睜看著Claude Code跑了2小時。它像個老練的工程師,先解決了初始瓶頸,搞定了所有常規(guī)微優(yōu)化。

然后它卡住了,遇到了一個看似不可逾越的內(nèi)存帶寬瓶頸——大多數(shù)人類也卡在這里。但當(dāng)他提示「理論極限」時,它思考片刻,竟然找到了那個只有極少數(shù)人類能發(fā)現(xiàn)的巧妙技巧。

最終,它的得分與人類歷史最高紀(jì)錄持平(而那個人類考生還是在重度依賴 Claude 4 的情況下完成的)。


更可怕的是,Anthropic在內(nèi)部的「測試時計算」框架中驗(yàn)證發(fā)現(xiàn),它不僅能在2小時內(nèi)擊敗人類,甚至隨著思考時間的增加,分?jǐn)?shù)還在不斷上漲。

大麻煩來了:即將發(fā)布的模型,將徹底摧毀公司招聘這個模型開發(fā)者的測試題。所以,他們只能采用這個策略——把工作直接外包給Claude Code。

艱難的抉擇

有人建議禁止AI,但當(dāng)Tristan并未采納。因?yàn)樵谡鎸?shí)工作中,人類就是需要和 AI協(xié)作。

也有人建議提高及格線,但這會導(dǎo)致候選人淪為AI的看客,甚至因跟不上AI的思路而不知所措。

性能工程師的真實(shí)工作其實(shí)更多是艱難的調(diào)試、系統(tǒng)設(shè)計、分析,以及讓AI生成的代碼更優(yōu)雅。這些很難通過客觀測試來考察。

到底該怎樣設(shè)計一個「像真實(shí)工作」的面試題?這個任務(wù)從未如此艱難。

嘗試1:換個題型?被秒殺

首先,Tristan試圖設(shè)計一個更難的內(nèi)核優(yōu)化問題:2D TPU寄存器上的高效數(shù)據(jù)轉(zhuǎn)置,且要避免Bank沖突。這是一個非常棘手的真實(shí)難題。



然而,Claude Opus 4.5發(fā)現(xiàn)了一個他都沒想到的絕佳優(yōu)化路徑:它重寫了整個計算過程,直接繞過了轉(zhuǎn)置的難點(diǎn)。即便他修補(bǔ)了漏洞,Claude Code配合深度思考(Ultrathink)功能,依然能找出修復(fù)Bank沖突的技巧。

這讓他意識到,這類問題在已有代碼庫中太常見,Claude已經(jīng)擁有了海量的訓(xùn)練數(shù)據(jù)「經(jīng)驗(yàn)」。

嘗試2:變得更古怪

既然「真實(shí)」行不通,他只能追求「分布外(Out of distribution)」——即AI沒見過的數(shù)據(jù)。

他想到了Zachtronics的編程解謎游戲。這類游戲使用極度受限的指令集,迫使你用非傳統(tǒng)方式編程。




于是,他設(shè)計了一套全新的測試:使用微小且極度受限的指令集,目標(biāo)是指令數(shù)最小化。沒有可視化工具,沒有調(diào)試器——候選人必須自己造工具(比如讓AI生成調(diào)試器)。

他把這套題丟給Claude Opus 4.5,它終于失敗了。

這套新題效果不錯,分?jǐn)?shù)與候選人的實(shí)際能力高度相關(guān)。但Tristan心中仍有遺憾:他們放棄了原版試題的「真實(shí)感」和「多樣性深度」。

但這或許就是代價。

「真實(shí)感」已經(jīng)成為了奢侈品。原版試題之所以有效,因?yàn)樗褚郧暗墓ぷ;現(xiàn)在的試題之所以有效,因?yàn)樗M了一個全新的、AI尚未涉足的領(lǐng)域。

公開向人類挑戰(zhàn):原版測試題開源!

最終,Anthropic宣布:將原版測試題開源。雖然Claude很強(qiáng),但在無限時間下,人類專家的極限仍高于AI。


目前,Claude的戰(zhàn)績?nèi)缦拢ㄖ芷跀?shù)越低越好):

  • 2164:Claude Opus 4

  • 1790:Claude Opus 4.5(隨手一跑)

  • 1487:Claude Opus 4.5(11.5小時超長思考后)

  • 1363:Claude Opus 4.5(改進(jìn)框架后)

Tristan表示:如果你能優(yōu)化到1487周期以下,擊敗Claude的最佳表現(xiàn),請一定聯(lián)系他們!

同時,他也歡迎大家通過常規(guī)流程申請,體驗(yàn)一下人類要靠多久才能被攻破的「防Claude」新考題。

參考資料:

https://www.anthropic.com/engineering/AI-resistant-technical-evaluations


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黃仁勛:AI將顛覆就業(yè)市場,電工水管工薪酬可達(dá)六位數(shù)!

黃仁勛:AI將顛覆就業(yè)市場,電工水管工薪酬可達(dá)六位數(shù)!

荊楚寰宇文樞
2026-01-22 22:55:17
紅棗就這樣吃太厲害了,我才吃了3天超管用,做法簡單,誰用誰好

紅棗就這樣吃太厲害了,我才吃了3天超管用,做法簡單,誰用誰好

今日養(yǎng)生之道
2026-01-22 07:32:02
1982年河南200槍支失竊,多年未破,一退休干警查出真相,遭滅口

1982年河南200槍支失竊,多年未破,一退休干警查出真相,遭滅口

文史道
2026-01-21 18:08:19
西方媒體:中國不可怕,可怕的是中國用垃圾發(fā)電,拿下全球第一!

西方媒體:中國不可怕,可怕的是中國用垃圾發(fā)電,拿下全球第一!

書紀(jì)文譚
2026-01-23 14:22:40
事實(shí)證明,70后注定是,中國有史以來,人生經(jīng)歷最豐富的一代

事實(shí)證明,70后注定是,中國有史以來,人生經(jīng)歷最豐富的一代

阿器談史
2026-01-22 22:43:30
曝火箭想用電風(fēng)扇換后衛(wèi),但不會交易范喬丹,也不削謝潑德角色

曝火箭想用電風(fēng)扇換后衛(wèi),但不會交易范喬丹,也不削謝潑德角色

只扣籃的教練
2026-01-23 16:02:27
重返英超?阿爾瓦雷斯不滿馬競,阿森納、切爾西同時開啟談判

重返英超?阿爾瓦雷斯不滿馬競,阿森納、切爾西同時開啟談判

夜白侃球
2026-01-23 16:19:43
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
廣東程序員高廣輝去世!僅32歲,妻子曝死因,死后不能進(jìn)祖墳

廣東程序員高廣輝去世!僅32歲,妻子曝死因,死后不能進(jìn)祖墳

八斗小先生
2026-01-22 13:38:12
周六利空,10個中字頭年報暴雷,中國中冶利潤腰斬,8個陷入虧損

周六利空,10個中字頭年報暴雷,中國中冶利潤腰斬,8個陷入虧損

鵬哥投研
2026-01-23 10:04:23
頂級陽謀:普京的一記“劇毒”回馬槍,把白宮逼到了懸崖邊

頂級陽謀:普京的一記“劇毒”回馬槍,把白宮逼到了懸崖邊

宇視天下
2026-01-22 23:20:10
安東尼奧看人真準(zhǔn)!棄用2大國腳后,中國隊成奪冠熱門

安東尼奧看人真準(zhǔn)!棄用2大國腳后,中國隊成奪冠熱門

何老師呀
2026-01-22 23:11:08
何慶魁風(fēng)波升級! 稱當(dāng)年寫劇本累傷,趙本山表態(tài)令人意外

何慶魁風(fēng)波升級! 稱當(dāng)年寫劇本累傷,趙本山表態(tài)令人意外

林雁飛
2026-01-23 14:18:52
不許報復(fù)美國,美方話音剛落,歐盟作出決定,將逐步淘汰中國制造

不許報復(fù)美國,美方話音剛落,歐盟作出決定,將逐步淘汰中國制造

明天見灌裝冰塊
2026-01-23 03:31:46
烏克蘭無人機(jī)突襲,俄軍導(dǎo)彈基地被炸得灰飛煙滅!

烏克蘭無人機(jī)突襲,俄軍導(dǎo)彈基地被炸得灰飛煙滅!

世界探索者探索
2026-01-23 17:24:53
2026泰晤士世界學(xué)科排名揭曉:北京大學(xué)、浙江大學(xué)、中山大學(xué)分別有11個學(xué)科上榜

2026泰晤士世界學(xué)科排名揭曉:北京大學(xué)、浙江大學(xué)、中山大學(xué)分別有11個學(xué)科上榜

TOP大學(xué)來了
2026-01-21 17:42:38
馮瀟霆老婆原來是她,曾是央視編導(dǎo)才貌雙全,卻甘愿當(dāng)丈夫的后盾

馮瀟霆老婆原來是她,曾是央視編導(dǎo)才貌雙全,卻甘愿當(dāng)丈夫的后盾

削桐作琴
2026-01-23 16:45:09
徹底崩盤!基輔上演“大逃亡”,美軍M270被俄打爆,小澤幻想破滅

徹底崩盤!基輔上演“大逃亡”,美軍M270被俄打爆,小澤幻想破滅

紀(jì)中百大事
2026-01-23 16:26:34
陳光標(biāo)怒撕遮羞布:梁小龍哪里是病死,分明是被折騰死的!

陳光標(biāo)怒撕遮羞布:梁小龍哪里是病死,分明是被折騰死的!

冷紫葉
2026-01-23 16:30:24
注意!個人所得稅不能再零申報!

注意!個人所得稅不能再零申報!

祥順財稅俱樂部
2026-01-23 09:07:03
2026-01-23 18:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14392文章數(shù) 66525關(guān)注度
往期回顧 全部

科技要聞

TikTok守住了算法"靈魂" 更握緊了"錢袋子"

頭條要聞

21歲女孩確診白血病后急尋親生父母:已簽病危通知書

頭條要聞

21歲女孩確診白血病后急尋親生父母:已簽病危通知書

體育要聞

跑個步而已,他們在燃什么?

娛樂要聞

劉大錘曝料 將王星越的“體面”撕粉碎

財經(jīng)要聞

茂名首富,這次糟了

汽車要聞

主打家庭大六座 奕境首款SUV將北京車展亮相

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
旅游
健康
時尚

藝術(shù)要聞

現(xiàn)在的春聯(lián)太俗了,還是過去的“老對聯(lián)”高雅!

手機(jī)要聞

小米REDMI Turbo 5 Max手機(jī)“下周見”,全球首發(fā)天璣9500s

旅游要聞

走進(jìn)伊春冰雪森林,赴一場童話之約

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

告別臃腫!這種簡約的高級穿法,別拒絕

無障礙瀏覽 進(jìn)入關(guān)懷版