国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

228小時(shí)狂飆100篇論文、燒光114億Token:FARS殺瘋了

0
分享至



編輯|Sia

這個(gè)春節(jié),AI 圈最硬核的一場「真人秀」,悄然完成了階段性收官。

主角不是動(dòng)漫人物,也不是舞槍弄棒的機(jī)器人,而是一位 7×24 小時(shí)從不疲倦的 AI 科學(xué)家 FARS( Fully Automated Research System )。

這套由 Analemma(日行跡)打造的全自動(dòng)研究系統(tǒng),在長達(dá) 228 小時(shí) 28 分 33 秒的連續(xù)公開運(yùn)行中,自己提假設(shè)、做實(shí)驗(yàn)、寫論文,共生成 244 個(gè)研究假設(shè),「肝」出 100 篇短論文( short paper )。

算下來,在這座流水線式的「科研工廠」中,每隔約 2 小時(shí)就有一篇論文產(chǎn)出。



讓 AI 自己寫 100 篇論文目標(biāo)達(dá)成,花了 228 個(gè)小時(shí)。目前,計(jì)劃持續(xù)一個(gè)月的直播仍在進(jìn)行中。直播地址:https://analemma.ai/fars

這種跳出傳統(tǒng)科研范式的工業(yè)級(jí)吞吐量,很快讓圍觀網(wǎng)友坐不住了。













首批深度「驗(yàn)貨」的專業(yè)網(wǎng)友給出了一個(gè)頗為一致的判斷:結(jié)果超過預(yù)期、相當(dāng)出色。

如果把它當(dāng)作人類頂會(huì)論文,還不夠驚艷;但如果考慮到這是一個(gè)全自動(dòng)系統(tǒng)的階段性產(chǎn)出,其完成度已經(jīng)明顯超出很多人的事前預(yù)期。

「考慮到這只是一個(gè) AI 的自主起步,能 7×24 小時(shí)穩(wěn)定產(chǎn)出到這個(gè)質(zhì)量,還要啥自行車?」



而且,真 work 沒有通篇幻覺。



至少在當(dāng)前階段,F(xiàn)ARS 已經(jīng)完成了一次關(guān)鍵跨越。它首次證明,一條無人值守的科研「流水線」不僅能跑,而且能在相對穩(wěn)定條件下,持續(xù)產(chǎn)出具備一定學(xué)術(shù)競爭力的 short paper 級(jí)工作。



「發(fā)論文這件事本身的稀缺性」被摧毀了。

恐怖的「工業(yè)節(jié)拍」,算力正在轉(zhuǎn)化為知識(shí)

FARS 并不是一個(gè)單體模型,而是一套多智能體系統(tǒng),包括四個(gè)功能模塊:

  • Ideation(構(gòu)思):負(fù)責(zé)文獻(xiàn)調(diào)研與假設(shè)生成
  • Planning(規(guī)劃):負(fù)責(zé)實(shí)驗(yàn)方案設(shè)計(jì)
  • Experiment(實(shí)驗(yàn)):負(fù)責(zé)代碼編寫與執(zhí)行
  • Writing(寫作):負(fù)責(zé)論文撰寫

從實(shí)時(shí)運(yùn)行界面可以直觀看到,F(xiàn)ARS 以項(xiàng)目隊(duì)列的方式并行推進(jìn)多個(gè)研究任務(wù)。每個(gè)課題依次穿過 Ideation → Planning → Experiment → Writing 四個(gè)階段,流程高度模塊化,呈現(xiàn)出明顯的「科研裝配線」特征。



FARS 實(shí)時(shí)運(yùn)行界面:從假設(shè)生成到論文寫作,自動(dòng)化科研流水線首次以可觀測形態(tài)完整展開。

為了讓它心無旁騖的做研究,Analemma(日行跡)還給它搭建了一個(gè) 160 張顯卡的計(jì)算集群,并允許它調(diào)用幾乎任何開源和閉源大模型,實(shí)驗(yàn)條件遠(yuǎn)超大部分高校實(shí)驗(yàn)室。

而這條「流水線」的產(chǎn)能,已經(jīng)到了讓人很難忽視的程度。在約228 小時(shí)(≈9.5 天)的連續(xù)運(yùn)行周期內(nèi):

  • 系統(tǒng)生成244 個(gè)研究假設(shè)
  • 完成100 篇 short paper
  • 累計(jì)消耗114 億 Token
  • 總成本約10.4 萬美元(≈75 萬元人民幣)

全程無人干預(yù)。

進(jìn)一步歸一化后,這套系統(tǒng)的「工業(yè)節(jié)拍」變得更加直觀:平均每隔約 2 小時(shí) 17 分就有一篇研究論文完成,平均每篇論文成本大約 1000 美元,花費(fèi) 1 億多Token。

對比人類科研常見的 3–6 個(gè)月 / 篇的周期,這種吞吐差距幾乎是數(shù)量級(jí)級(jí)別的,成本也極為低廉。



不過,如果把目光從吞吐轉(zhuǎn)向效率,約 1.14 億 Token / 篇的消耗,已經(jīng)明顯高于普通寫作生成(通常百萬級(jí) Token )以及常見復(fù)雜 Agent 任務(wù)(通常百萬、千萬級(jí) Token )的開銷。

這表明,F(xiàn)ARS 仍處于「算力換智能」的階段,其表現(xiàn)更多來自計(jì)算密度,而非算法效率的極限壓縮。

綜合來看, 一方面,F(xiàn)ARS 已經(jīng)用實(shí)測結(jié)果證明,端到端自動(dòng)化科研流水線在吞吐層面是切實(shí)可行的。另一方面,其當(dāng)前的 Token 與成本結(jié)構(gòu),距離「足夠便宜地大規(guī)模跑」還有工程空間。

質(zhì)量:它寫得快,那寫得好嗎?

量大,從來不自動(dòng)等于質(zhì)優(yōu)。FARS 寫出來的東西,到底處在什么水平?

為此,研究團(tuán)隊(duì)使用斯坦福大學(xué)開發(fā)的 AI 審稿系統(tǒng)Agentic Reviewer( paperreview.ai ),按照 ICLR 的評審標(biāo)準(zhǔn),對這 100 篇論文進(jìn)行了統(tǒng)一打分。

根據(jù)開發(fā)者公開評估,Agentic Reviewer 在審稿一致性上,已達(dá)到人類審稿人的判斷水平。



開發(fā)者在 ICLR 2025 審稿數(shù)據(jù) 上做了對比評測,使用的是 Spearman 相關(guān)系數(shù)。人類 vs 人類:0.41;AI vs 人類:0.42。開發(fā)者認(rèn)為 agentic reviewing 正在逼近人類水平。

從整體評分結(jié)果來看,F(xiàn)ARS 產(chǎn)出的 100 篇論文中,平均得分為5.05(區(qū)間 3.0–6.3)。

少量論文處于 3.0–4.5 的低分段,也有極少數(shù)突破 6.0 分。



FARS 論文分?jǐn)?shù)主要堆在 5 分附近,說明產(chǎn)出質(zhì)量并不是隨機(jī)波動(dòng),而是已經(jīng)形成相對穩(wěn)定的「質(zhì)量帶」。少量樣本進(jìn)入 6 分以上區(qū)間,意味著系統(tǒng)偶爾能產(chǎn)出超強(qiáng)作品。

這個(gè)成績,與人類戰(zhàn)績相比,又如何呢?

作為參照,ICLR 2026 人類投稿的平均分為 4.21,而最終被接收論文的平均分為 5.39。

對照來看,F(xiàn)ARS 的平均分 5.05,已經(jīng)明顯高于人類投稿的整體平均水平,但距離「平均中稿線」仍存在差距。

可謂比下有余,比上未滿。



FARS 生成的學(xué)術(shù)論文平均分超過人類投稿者的平均水平,但與平均中稿分?jǐn)?shù)仍有差距。

需要再次強(qiáng)調(diào)的是,本次自動(dòng)化生產(chǎn)以短論文為主,并未以當(dāng)前學(xué)術(shù)會(huì)議的評審標(biāo)準(zhǔn)作為優(yōu)化目標(biāo)。因此,無論是斯坦福大學(xué) Agentic Reviewer 還是其他基于現(xiàn)有特定審稿標(biāo)準(zhǔn)的 AI 審稿結(jié)果,都只能作為一種參照,而非蓋棺定論。

據(jù)團(tuán)隊(duì)透露,除 AI 審稿外,目前也在同步開展人工質(zhì)量評審,并將在評估完成后形成綜合質(zhì)量報(bào)告。

即便在這一審慎前提下,將前后兩部分?jǐn)?shù)據(jù)合并觀察,整體信號(hào)仍然較為清晰:在接近人類評審尺度的評價(jià)體系中,F(xiàn)ARS 已然一臺(tái)穩(wěn)定的中分段輸出機(jī)器

論文深讀:

從「極速跟進(jìn)」到「直面失敗」

如果說前面的數(shù)據(jù)與評分只能給出一條宏觀刻度,那么具體論文樣本,才真正暴露出 FARS 的研究成色。

已有網(wǎng)友拆解其中一篇 LLM-as-a-Judge 工作后評價(jià),這類論文在摘要組織與問題切入上已經(jīng)相當(dāng)工整。

考慮這是 AI 自動(dòng)產(chǎn)出,完成度已經(jīng)「超出預(yù)期」??蚣軋D、結(jié)果圖、分析基本都齊全,「像那么回事」

也有人覺得編號(hào)為 FA0008 的項(xiàng)目「 make sense 」。



接下來,我們選擇一成一敗兩篇代表作,一探究竟。

先看「做成」的一篇 FA0042。它瞄準(zhǔn)的是文本embedding 里一個(gè)老矛盾:

雙向注意力質(zhì)量高,但會(huì)破壞 KV-cache;因果注意力能流式推理,但表示能力吃虧。



FA0042 的解法非常工程導(dǎo)向——訓(xùn)練階段用雙向拿質(zhì)量,推理階段用因果保效率。具體路徑是先訓(xùn)一個(gè)雙向 teacher,再把能力蒸餾進(jìn) causal student。為了避免直接切雙向帶來的分布漂移,論文還引入了剛發(fā)布不久的 GG-SM 做漸進(jìn)過渡。



結(jié)果也確實(shí)「能打」, 這條工程折中路線被驗(yàn)證是 work 的。



MTEB-slice 主要結(jié)果



流式推理延遲對比



LoCoV1 長文檔檢索結(jié)果。student 模型以 0.284 的 NDCG@10 大幅領(lǐng)先所有 baseline(包括 teacher 的 0.212 ),出人意料。

當(dāng)然,short paper 氣質(zhì)也很足:細(xì)粒度成對任務(wù)提升有限,長文檔檢索反超 teacher 的機(jī)制還沒完全講透。

但更值得注意的是,螞蟻集團(tuán)的 GG-SM 發(fā)布 3 天就被接入實(shí)驗(yàn)流程,這種緊跟前沿的速度,本身就是 FARS 系統(tǒng)敏捷性的一個(gè)信號(hào)。

再看一篇「沒做成」的 FA0121。

它的文獻(xiàn)調(diào)研很給力,盯上了 DeepSeek 新提出的 Engram 稀疏架構(gòu),并抓到了一個(gè)很研究味的問題——

hot-to-cold advantage flip , 即 Engram 中的門控( gate )在訓(xùn)練過程中難以準(zhǔn)確根據(jù) n-gram embedding 的實(shí)際效用進(jìn)行調(diào)整,存在高頻( hot )和低頻( cold )偏置。



為了打破這種「馬太效應(yīng)」,F(xiàn)ARS 嘗試了一個(gè)直覺上非常硬核的方案:試圖通過「反事實(shí)門控監(jiān)督( CGS )」修復(fù) DeepSeek Engram 架構(gòu)中的「冷熱偏置」問題。

在特定訓(xùn)練步驟中分別強(qiáng)制 gate 全開和全關(guān),計(jì)算兩種情況下的 loss 差值來估計(jì)當(dāng)前 n-gram embedding 的實(shí)際效用,以此作為輔助監(jiān)督信號(hào)來訓(xùn)練 gate。



FA0121 方法示意圖



主實(shí)驗(yàn)結(jié)果

思路很直覺。但結(jié)果很誠實(shí)——基本沒救回來。

CGS 帶來的那點(diǎn)提升,甚至不如讓模型多訓(xùn)練幾步來得實(shí)在。這說明,要解決 AI 的偏見,光靠「教練現(xiàn)場打分」是不夠的,得從更深層的制度(架構(gòu))上下功夫。

論文給出的復(fù)盤也很到位:Gate 和 n-gram embedding 的訓(xùn)練是一個(gè)相互耦合的系統(tǒng)動(dòng)力學(xué)問題,不是簡單加監(jiān)督就能補(bǔ)的。

這篇工作的價(jià)值正在于:它沒有試圖掩蓋負(fù)面結(jié)果,沒有為了追求正面結(jié)果而篡改數(shù)據(jù)或強(qiáng)行解釋,而是通過一套嚴(yán)密的診斷性實(shí)驗(yàn)(Diagnostic Experiments ),反思 CGS 的失敗。

這種「算法誠實(shí)」是當(dāng)前學(xué)術(shù)界稀缺的品質(zhì)。



輿論場:

從「又一個(gè) Demo」到「科研流水線雛形」

隨著 FARS 「直播真人秀」數(shù)據(jù)披露,社區(qū)討論也迅速升溫,高頻指向一個(gè)關(guān)鍵詞——生產(chǎn)線。

不少圍觀者很快抓住了真正的沖擊點(diǎn):這次引發(fā)不安的,并不是某一篇論文寫得多驚艷,而是系統(tǒng)所展現(xiàn)出的連續(xù)科研運(yùn)轉(zhuǎn)能力。

當(dāng)一個(gè)系統(tǒng)能夠穩(wěn)定提出假設(shè)、自動(dòng)完成實(shí)驗(yàn)、并持續(xù)吐出成稿時(shí),評價(jià)坐標(biāo)其實(shí)已經(jīng)悄然移動(dòng)。問題不再是「 AI 會(huì)不會(huì)寫論文」,而是更具結(jié)構(gòu)性的那一句—— AI 是否開始具備科研工業(yè)產(chǎn)能的雛形。

這種敘事重心的變化,本身就意味著社區(qū)對 AI 科研系統(tǒng)的預(yù)期正在抬升。一些技術(shù)討論甚至認(rèn)為,LLM 在 AI 方向論文寫作上的能力已「基本夠用」,剩余差距更多體現(xiàn)在工程細(xì)節(jié)層面。

「 3 個(gè)月內(nèi)就可能出現(xiàn)非常成熟可用的自動(dòng) paper pipeline?!?/p>



換言之,大多數(shù)人幾乎已經(jīng)默認(rèn):科研流水線時(shí)代,遲早會(huì)來。真正懸而未決的問題反而是,當(dāng)科研開始規(guī)?;詣?dòng)生產(chǎn),人類的不可替代性究竟還剩下什么?

對此,也有人給出答案:決定上限的,或許仍是研究者個(gè)人品味。



當(dāng)然,社區(qū)并非只有單一聲音。

有人認(rèn)為,與其關(guān)注單純 scale 出大量「普通 conference paper 」,不如將算力與模型能力投入到真正困難的開放問題上,這或許才是更具長期價(jià)值的方向。



無限心智的起點(diǎn)

FARS 的這 100 篇論文,并不是終點(diǎn),更像是一枚被釘下的坐標(biāo)點(diǎn)。

它證明了一件很重要的事:端到端自動(dòng)科研流水線,已經(jīng)能夠在相對穩(wěn)定的運(yùn)行條件下,持續(xù)產(chǎn)出具備一定學(xué)術(shù)競爭力的 short paper,并且開始展現(xiàn)出基礎(chǔ)的自我糾錯(cuò)與負(fù)結(jié)果報(bào)告能力。

這意味著,自動(dòng)化科研第一次以一種可連續(xù)運(yùn)轉(zhuǎn)的系統(tǒng)形態(tài),正式進(jìn)入現(xiàn)實(shí)。

但如果把放大鏡再壓近一層,當(dāng)前階段的天花板同樣清晰可見。

FARS 很會(huì)把一條合理路徑走通,卻還不夠擅長在復(fù)雜假設(shè)空間中做出真正具有突破性的研究取舍;能完成結(jié)構(gòu)完整的論證,但在思想壓強(qiáng)和機(jī)制洞察上仍有提升空間;而在算力利用率上,系統(tǒng)也還停留在明顯的「算力換智能」階段。

此刻的 FARS,更像一位極度勤奮、訓(xùn)練有素且從不疲倦的初級(jí)研究員,距離那種能夠穩(wěn)定打出頂會(huì)級(jí)工作的成熟研究者,仍有一段需要跨越的進(jìn)化距離。

不過,真正重要的或許并不是它此刻已經(jīng)多強(qiáng),而是那條「無限心智生產(chǎn)線」,已經(jīng)可以穩(wěn)定地跑起來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
抗美援朝被彭總火線撤職的5位師級(jí)將領(lǐng),后來都授了什么軍銜

抗美援朝被彭總火線撤職的5位師級(jí)將領(lǐng),后來都授了什么軍銜

鶴羽說個(gè)事
2026-03-01 18:26:08
伊朗劇變24小時(shí):談判煙霧彈下的美以突襲如何沖擊全球穩(wěn)定

伊朗劇變24小時(shí):談判煙霧彈下的美以突襲如何沖擊全球穩(wěn)定

南方都市報(bào)
2026-03-01 13:46:17
哈梅內(nèi)伊被精準(zhǔn)斬首,為何伊朗人民載歌載舞?

哈梅內(nèi)伊被精準(zhǔn)斬首,為何伊朗人民載歌載舞?

歷史總在押韻
2026-03-01 11:59:19
別罵內(nèi)托了!切爾西 1-2 輸球真兇曝光,球迷怒噴:他毀了一切!

別罵內(nèi)托了!切爾西 1-2 輸球真兇曝光,球迷怒噴:他毀了一切!

瀾歸序
2026-03-02 04:26:30
一個(gè)人最愚蠢的10種行為

一個(gè)人最愚蠢的10種行為

洞見
2026-02-27 21:10:13
伊朗導(dǎo)彈摧毀美軍雷達(dá)中心,讓中國明白:解放軍武器布局走對路

伊朗導(dǎo)彈摧毀美軍雷達(dá)中心,讓中國明白:解放軍武器布局走對路

墨羽怪談
2026-03-01 03:27:27
美國變天信號(hào)出現(xiàn)!特朗普支持率暴跌,美媒:輸?shù)淖顟K的是臺(tái)灣!

美國變天信號(hào)出現(xiàn)!特朗普支持率暴跌,美媒:輸?shù)淖顟K的是臺(tái)灣!

青煙小先生
2026-03-01 11:28:53
曾是京城第一名媛,嫁葉劍英兒子僅24天便離婚,如今已成資本大佬

曾是京城第一名媛,嫁葉劍英兒子僅24天便離婚,如今已成資本大佬

小熊侃史
2026-03-01 17:29:14
驚人的家庭鐵律:對兄弟姐妹家的孩子“不聞不問” 才是真正的

驚人的家庭鐵律:對兄弟姐妹家的孩子“不聞不問” 才是真正的

戶外阿毽
2026-03-01 12:15:16
大S一對子女去醫(yī)院探望馬筱梅,11歲玥兒抱小弟弟的畫面好溫馨!

大S一對子女去醫(yī)院探望馬筱梅,11歲玥兒抱小弟弟的畫面好溫馨!

娛樂團(tuán)長
2026-02-27 12:27:55
肝癌后才懂放手!孫志浩全部遺產(chǎn)歸梧桐妹,這結(jié)局誰也沒料到

肝癌后才懂放手!孫志浩全部遺產(chǎn)歸梧桐妹,這結(jié)局誰也沒料到

小椰的奶奶
2026-03-01 10:32:16
張維伊難以承擔(dān)董璇與小酒窩奢華消費(fèi),三亞之行顯現(xiàn)真相

張維伊難以承擔(dān)董璇與小酒窩奢華消費(fèi),三亞之行顯現(xiàn)真相

動(dòng)物奇奇怪怪
2026-03-01 20:54:36
斯諾克最新積分排名|霍金斯躍居前9,火箭跌至12,吳宜澤創(chuàng)新高

斯諾克最新積分排名|霍金斯躍居前9,火箭跌至12,吳宜澤創(chuàng)新高

越嶺尋蹤
2026-03-02 06:42:04
罵戰(zhàn)升級(jí)!因一場演唱會(huì),東南亞10國網(wǎng)民抱團(tuán),集體圍攻韓國

罵戰(zhàn)升級(jí)!因一場演唱會(huì),東南亞10國網(wǎng)民抱團(tuán),集體圍攻韓國

八斗小先生
2026-02-28 18:42:47
谷愛凌比基尼寫真大片 野性十足 性感迷人 不愧是九億少女的夢

谷愛凌比基尼寫真大片 野性十足 性感迷人 不愧是九億少女的夢

阿廢冷眼觀察所
2026-03-02 00:37:04
踏俄之土,充俄之軍?俄羅斯要求18至65歲外國男性服兵役,到底意味著什么?

踏俄之土,充俄之軍?俄羅斯要求18至65歲外國男性服兵役,到底意味著什么?

靜夜史君
2026-02-27 23:56:22
造車新勢力2月交付承壓:零跑跌至3萬輛以下,多家車企加碼促銷

造車新勢力2月交付承壓:零跑跌至3萬輛以下,多家車企加碼促銷

澎湃新聞
2026-03-01 22:10:31
人到中年才明白:如果女人對一個(gè)男人越來越好,越來越熱情、包容

人到中年才明白:如果女人對一個(gè)男人越來越好,越來越熱情、包容

木言觀
2026-03-01 21:20:23
汪小菲首次回應(yīng)包機(jī)事件,談到S家直呼無語,對黑粉毫不客氣

汪小菲首次回應(yīng)包機(jī)事件,談到S家直呼無語,對黑粉毫不客氣

小徐講八卦
2026-03-01 06:14:05
中國軍號(hào):我們不期待,但絕不懼怕

中國軍號(hào):我們不期待,但絕不懼怕

上觀新聞
2026-03-02 06:59:20
2026-03-02 07:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

美軍動(dòng)用新型武器:山寨伊朗的

頭條要聞

美軍動(dòng)用新型武器:山寨伊朗的

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財(cái)經(jīng)要聞

中東局勢升級(jí) 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

態(tài)度原創(chuàng)

健康
旅游
親子
藝術(shù)
公開課

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

唐風(fēng)演出、手作體驗(yàn) 沉浸式花燈游變身文旅消費(fèi)新熱點(diǎn)

親子要聞

社會(huì)需要為兒童養(yǎng)育提供公共空間

藝術(shù)要聞

清代豪門過年儀式感

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版