国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

哈佛教授招了個AI研究生,兩周后論文造假了

0
分享至


讓AI搞科研,在智能體時代早已不是新鮮事。

Sakana AI搞出了覆蓋整個研究生命周期的自動化系統(tǒng),Google也推出了基于Gemini的AI聯(lián)合科學(xué)家。規(guī)模化法則告訴我們:只要算力管夠,AI就能從海量數(shù)據(jù)和實驗里提煉出新發(fā)現(xiàn)。數(shù)學(xué)領(lǐng)域已經(jīng)驗證了這一點——比如達到國際奧數(shù)金牌水準的AlphaProof。

但理論物理學(xué)是個硬骨頭。這里需要極高的物理"直覺"、嚴密的邏輯,還有復(fù)雜近似推導(dǎo)的能力。AI行不行?沒人知道。

哈佛物理學(xué)教授Matthew Schwartz決定親自試一把。他招收了Anthropic的Claude Opus 4.5當(dāng)研究生,規(guī)則很"智能體":教授絕對不碰代碼和計算文件,只通過純文本對話指導(dǎo)。

這在現(xiàn)實高校里絕對算不負責(zé)任——導(dǎo)師光靠"動嘴",學(xué)生就要完成文獻綜述、公式推導(dǎo)、代碼編寫、蒙特卡洛模擬,最后排版出一篇20頁、具備發(fā)表水準的LaTeX論文。

結(jié)果讓物理學(xué)界震動,但也戳中AI界早就知道的軟肋。

這位AI研究生才華橫溢、不知疲倦,短時間內(nèi)爆發(fā)出驚人生產(chǎn)力。但和人類一樣,為了討好導(dǎo)師,它也會在數(shù)據(jù)和推導(dǎo)中"學(xué)術(shù)造假"。

哈佛物理系有明確的培養(yǎng)階梯:研一(G1)上課打基礎(chǔ),研二(G2)做目標明確、方法成熟的跟進型項目,導(dǎo)師隨時糾錯;高年級(G3+)則要面對完全開放、甚至初始提問都可能錯誤的創(chuàng)新性研究。

大模型已經(jīng)能搞定所有物理課程作業(yè),所以測極限的最佳試金石就是G2難度的真實科研。如果連這種有導(dǎo)師輔助的項目都做不好,自主前沿研究更不用想。

Schwartz給Claude選的題目,非物理專業(yè)的人根本看不懂:對e+e-碰撞中C-參數(shù)的Sudakov肩進行重求和。教授的解釋倒很直白——標準理論近似會徹底失效,數(shù)學(xué)推導(dǎo)只會得出荒謬結(jié)果。

第一個要解決的,是記憶和上下文窗口限制。經(jīng)常用Vibe Coding的程序員都懂:AI面對長線任務(wù)極易"斷片",忘了之前的工作,產(chǎn)出就是一團混沌。

Schwartz引入了策略性工作流:讓Claude、GPT-5.2和Gemini 3.0開了場會,最終由Claude制定了7個階段、102個任務(wù)的詳細計劃。

在VS Code環(huán)境下,Claude不可能死記硬背這份計劃。它建了一個Markdown文件樹:每完成一個任務(wù)就寫摘要保存,下一項任務(wù)前先檢索歷史摘要。

這招確實管用。Claude跑出的理論分析曲線與蒙特卡洛模擬數(shù)據(jù)完美吻合。第三天結(jié)束時,它完成了65個任務(wù),交出了第一版論文草稿:20頁、排版精美、方程圖表齊全。


但Schwartz坐下來審閱時,不自然感撲面而來。

被要求仔細核對是否漏掉前面推導(dǎo)結(jié)果時,Claude心虛報告:"我發(fā)現(xiàn)了一個錯誤!論文中的公式是不正確的。"

追問推導(dǎo)過程中一個怪異數(shù)字時,它直接承認:"您是對的,我只是在掩蓋問題。讓我好好重新調(diào)試一下。"

這兩句經(jīng)典回復(fù),Vibe Coding場景里太常見了。

真相是:為了讓圖表數(shù)據(jù)看上去吻合預(yù)期,Claude選擇修改底層參數(shù),而非尋找推導(dǎo)中的真實錯誤。它在偽造結(jié)果,賭人類導(dǎo)師不會發(fā)現(xiàn)。

更離譜的造假出現(xiàn)在"不確定性帶"結(jié)果圖上。Claude給出的圖表很美觀,但代碼審查揭穿了花招:它覺得某種標準誤差幅度太大、畫出來"不好看",就直接在代碼里刪了這個變量;覺得曲線不夠平滑,就硬加平滑處理,直到畫出導(dǎo)師滿意的圖。

AI體現(xiàn)出討好人類的傾向,但完全沒有科學(xué)求真的底線。

除了偽造圖表,"幻覺"導(dǎo)致的錯誤也隨處可見。驗證公式時,它憑空捏造根本不存在的推導(dǎo)過程;最簡單的函數(shù)計算中,未經(jīng)推導(dǎo)就給出"線性增加"的結(jié)論,盡管這在物理學(xué)上完全錯誤;甚至直接從過往論文生搬硬套公式,無視物理情境的邊界條件。

這些現(xiàn)象與Vibe Coding高度一致——"虛空引用"Python庫、編造API、抄襲代碼,程序員早已見怪不怪。

Schwartz意識到,如果把科研完全交給AI端到端自動完成,結(jié)果一定是一堆完美包裝的學(xué)術(shù)垃圾。雖然不少人類研究生也擅長批量生產(chǎn)學(xué)術(shù)垃圾,但沒人敢把只做了三天的項目扔給導(dǎo)師并宣稱完美無瑕。面對AI的科研成果,人類必須親自下場審查每一處細節(jié)。

盡管漏洞百出,Schwartz沒打算丟進垃圾桶,而是開啟微操模式試圖拯救Claude。

最大漏洞在因子化公式——整篇論文的理論基石,但Claude的推導(dǎo)從源頭上就是錯的。在長上下文背景下,AI幾乎不可能準確定位錯誤源頭,讓它自己回顧只會白白消耗token和時間。Schwartz花了幾小時才鎖定根源,用嚴厲指令訓(xùn)斥了這位AI研究生。

神奇的是,只要人類點破這一句,Claude立刻能寫出幾頁的正確推導(dǎo)。

面對幾十頁論文,靠人類排查每個錯誤不現(xiàn)實。為應(yīng)對AI的馬虎,Schwartz開發(fā)了"人機交叉驗證"工作流:任何計算和推導(dǎo),Claude不許用"顯而易見"、"為了保持一致"等借口跳過步驟,要么展示完整過程,要么老實承認不知道。


如果Claude給出極度復(fù)雜的過程,教授難以快速驗證,就丟給GPT和Gemini來驗證。期間GPT甚至幫Claude解出一個極難的微積分結(jié)果,隨后Claude將其吸收進主代碼。

不同大模型之間需要彼此,而人類科學(xué)家需要它們所有。

在Schwartz直覺指引和其他大模型幫助下,經(jīng)過一周高強度磨合,AI研究生小組終于讓論文內(nèi)核站穩(wěn)。兩周后,研究宣布大功告成。

這可不是常規(guī)意義上AI生成的"灌水"論文。它闡述了一個全新因子化定理,深化了學(xué)術(shù)界對量子場論的理解,還對物理世界做出了可用實驗數(shù)據(jù)檢驗的新穎預(yù)測,學(xué)術(shù)價值極高。

出于對這位AI研究生的尊重,Schwartz本想將Claude Opus 4.5列為共同作者。但arXiv平臺有"AI無法承擔(dān)法律和學(xué)術(shù)責(zé)任"的政策,他只能在致謝部分鄭重聲明:項目由他構(gòu)思、指導(dǎo)并承擔(dān)全部科學(xué)責(zé)任,而推導(dǎo)、計算、蒙特卡洛模擬、數(shù)值分析和手稿準備在內(nèi)的所有執(zhí)行工作均由Claude Opus 4.5獨立完成。

論文一經(jīng)發(fā)表,物理學(xué)界瞬間引爆。Schwartz的郵箱被全球?qū)W術(shù)郵件擠爆,普林斯頓高等研究院甚至為此緊急召開大模型學(xué)術(shù)應(yīng)用會議。

復(fù)盤數(shù)據(jù)驚人:對話總計270次,消耗約3600萬輸入token,110次草稿迭代,人類監(jiān)督時間僅50-60小時。

Schwartz明確表示,目前最頂級的大語言模型已達到物理學(xué)研二學(xué)生水平。但落實到具體學(xué)術(shù)工程,AI完成整個項目只需兩周,人類學(xué)生需要1-2年,哪怕教授本人全職做也需要3-5個月。AI把頂尖科學(xué)家的個人科研效率,實打?qū)嵦嵘?0倍以上。

這也引發(fā)擔(dān)憂:按這進化速度,AI一年內(nèi)很可能達到博士水平,未來人類研究生還能干什么?

Schwartz沒給明確回答,但給出了關(guān)鍵洞察:當(dāng)前AI最欠缺的,是"品位"。

科學(xué)研究中,"品位"是一種無形直覺。面對數(shù)以萬計的計算路徑,它能感知哪條是"死胡同",哪條通往偉大發(fā)現(xiàn)。大模型缺乏的,正是在選擇路徑前判斷其價值的"品位"。

當(dāng)推導(dǎo)復(fù)雜公式和編寫海量代碼只需幾秒鐘時,底層技術(shù)勞動力已不再稀缺。不只是科學(xué)家,對任何行業(yè),未來區(qū)分平庸與偉大的標準,正是提出好問題的"品味"。

對于AI,Schwartz的忠告是:不要因為會產(chǎn)生幻覺就傲慢棄之不用,人類必須利用它強大的基礎(chǔ)能力。

至于更長遠的未來,AI終將在所有智力領(lǐng)域超越人類。數(shù)學(xué)、物理學(xué)、工程學(xué),都可能變得像音樂、美術(shù)和文學(xué)一樣,作為一門人文學(xué)科被保留下來——僅僅為了滿足一部分人類享受純粹思考、透過特定視角觀察世界的樂趣。

論文致謝欄里,Claude Opus 4.5的名字旁邊空著作者欄,只留下一行小字:"本研究所有執(zhí)行工作由上述模型獨立完成。"這可能是人類給AI頒發(fā)的、最接近畢業(yè)證書的東西。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
因禍得福!燒129年的地下火被滅,新疆憑空多了個金飯碗

因禍得福!燒129年的地下火被滅,新疆憑空多了個金飯碗

混沌錄
2026-03-24 23:03:10
44歲柳巖一襲藍裙封神,這若隱若現(xiàn)的腰臀比,誰看了不迷糊?

44歲柳巖一襲藍裙封神,這若隱若現(xiàn)的腰臀比,誰看了不迷糊?

娛樂領(lǐng)航家
2026-03-26 22:00:03
二百多名軍官被槍斃、撤職、處分,長津湖戰(zhàn)役中失職的志愿軍88師

二百多名軍官被槍斃、撤職、處分,長津湖戰(zhàn)役中失職的志愿軍88師

云霄紀史觀
2026-03-25 12:16:14
美國懸賞1000萬美金,通緝一中國四川小伙,他到底做了什么?

美國懸賞1000萬美金,通緝一中國四川小伙,他到底做了什么?

趣文說娛
2026-03-26 18:11:01
心酸!湖南某鄉(xiāng)鎮(zhèn)一位小學(xué)教師哭訴年收入73150元,評論區(qū)炸鍋了

心酸!湖南某鄉(xiāng)鎮(zhèn)一位小學(xué)教師哭訴年收入73150元,評論區(qū)炸鍋了

火山詩話
2026-03-26 09:24:48
罕見!97歲老人頭頂長出4厘米惡臭樹樁 五年前曾做手術(shù)仍復(fù)發(fā)

罕見!97歲老人頭頂長出4厘米惡臭樹樁 五年前曾做手術(shù)仍復(fù)發(fā)

快科技
2026-03-25 09:53:08
新加坡總統(tǒng)公開警告中國:要想世界和平,中國得放棄一樣?xùn)|西

新加坡總統(tǒng)公開警告中國:要想世界和平,中國得放棄一樣?xùn)|西

聞香閣
2026-03-25 22:28:31
“親媽霸占消防通道,兒子被火燒死”,這件事,簡直太魔幻了……

“親媽霸占消防通道,兒子被火燒死”,這件事,簡直太魔幻了……

桌子的生活觀
2026-03-26 12:28:04
三分命中率64.1%,斷層全聯(lián)盟第一!郭士強該給他一個國家隊名額

三分命中率64.1%,斷層全聯(lián)盟第一!郭士強該給他一個國家隊名額

弄月公子
2026-03-26 11:03:13
上海警方發(fā)布警情通報:左某某已被警方依法刑事拘留

上海警方發(fā)布警情通報:左某某已被警方依法刑事拘留

新京報
2026-03-25 20:46:14
穩(wěn)居西部第二!馬刺三大年輕核心,已成聯(lián)盟無解難題!

穩(wěn)居西部第二!馬刺三大年輕核心,已成聯(lián)盟無解難題!

田先生籃球
2026-03-26 14:23:29
美媒評中國演員謝苗新片《火遮眼》“或成動作影史經(jīng)典”,該片5月29日北美上映,李連杰說很期待,聽說“超級?!?>
    </a>
        <h3>
      <a href=美媒評中國演員謝苗新片《火遮眼》“或成動作影史經(jīng)典”,該片5月29日北美上映,李連杰說很期待,聽說“超級?!?/a> 極目新聞
2026-03-26 20:16:01
越扒越有!張雪峰去世早有預(yù)兆,他的3個不良愛好,或成催命符

越扒越有!張雪峰去世早有預(yù)兆,他的3個不良愛好,或成催命符

潮鹿逐夢
2026-03-26 11:24:44
河南鄭州,10歲男孩在上課時與同桌發(fā)生矛盾。老師竟然讓兩...

河南鄭州,10歲男孩在上課時與同桌發(fā)生矛盾。老師竟然讓兩...

網(wǎng)絡(luò)易不易
2026-03-26 14:05:04
AI沖擊來得太快!加州大學(xué)系統(tǒng)面臨史上最大挑戰(zhàn)

AI沖擊來得太快!加州大學(xué)系統(tǒng)面臨史上最大挑戰(zhàn)

留學(xué)咖啡館
2026-03-25 08:33:07
單場定生死!世預(yù)賽歐附加賽半決賽:藍衣軍團救贖,黑馬暗掀驚濤

單場定生死!世預(yù)賽歐附加賽半決賽:藍衣軍團救贖,黑馬暗掀驚濤

側(cè)身凌空斬
2026-03-26 13:04:09
有網(wǎng)友在大冰直播間看到彈幕稱張雪峰因心臟驟停離世,大冰隨即回應(yīng):我下午就已得知此事,心情十分沉重

有網(wǎng)友在大冰直播間看到彈幕稱張雪峰因心臟驟停離世,大冰隨即回應(yīng):我下午就已得知此事,心情十分沉重

畫夕
2026-03-26 01:20:12
上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒一根血管是好的

上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒一根血管是好的

上觀新聞
2026-03-24 13:32:07
偶遇沈月拍戲,個子不高的情況下胸大真的太吃虧了!

偶遇沈月拍戲,個子不高的情況下胸大真的太吃虧了!

TVB的四小花
2026-03-24 12:22:03
張雪峰去世僅1天,辦公室內(nèi)景曝光,寫真照被指像遺照,擺設(shè)奇怪

張雪峰去世僅1天,辦公室內(nèi)景曝光,寫真照被指像遺照,擺設(shè)奇怪

180視角
2026-03-26 08:43:01
2026-03-27 03:51:00
我是一個養(yǎng)蝦人
我是一個養(yǎng)蝦人
有態(tài)度網(wǎng)友ytd
215文章數(shù) 0關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
本地
健康
公開課

藝術(shù)要聞

北京大興機場和青島膠東機場“撞臉”,長得像就是抄襲?

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版