奧特曼預(yù)言與現(xiàn)實(shí)相差幾何？12個(gè)頂級模型“創(chuàng)業(yè)”一年，僅3個(gè)存活

2026-04-03 17:11:08　來源: 鈦媒體APP

北京舉報(bào)

分享至

“在 AI 時(shí)代，一個(gè)人有可能創(chuàng)辦一家估值 10 億美元的獨(dú)角獸公司。”2024 年初，OpenAI CEO 山姆·奧特曼（Sam Altman）拋出考慮了這個(gè)后來被廣泛引用的判斷。

數(shù)據(jù)似乎也正驗(yàn)證這一趨勢。據(jù)股權(quán)管理平臺Carta 統(tǒng)計(jì)的2025 年數(shù)據(jù)顯示：超過三分之一的新公司由單人創(chuàng)始人創(chuàng)辦。從 2019 年的 23.7% 到 2025 年上半年的 36.3% ，獨(dú)立創(chuàng)始人創(chuàng)立公司的比例在六年間增長了 53% 。不僅不需要聯(lián)合創(chuàng)始人了，甚至一個(gè)人、一套 AI 工具就能打天下的“一人公司”案例也開始出現(xiàn)在科技媒體的報(bào)道中。

AI越來越強(qiáng)，但一個(gè)人+AI，真的等于一家公司嗎？AI能做到什么程度？

Collinear AI（專注企業(yè)級AI Agent的初創(chuàng)公司）的研究團(tuán)隊(duì)認(rèn)為，整個(gè)行業(yè)正在快速邁向長周期、多步驟的Agent工作流，但可靠性并沒有跟上這一進(jìn)程。因此，他們發(fā)布了YC-Bench（首個(gè)帶有模擬時(shí)鐘的開源長時(shí)序 Agent 評測基準(zhǔn)）試圖用科學(xué)的方式回答這個(gè)問題——不是靠感覺和案例，而是把“一個(gè)人能做的事”拆解成可量化的任務(wù)，然后用全球最強(qiáng)的 AI 模型逐一去測試。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)高擬真度的模擬創(chuàng)業(yè)環(huán)境，AI 在里面扮演 CEO，讓 AI Agent 從零運(yùn)營一家公司：管理員工、挑選項(xiàng)目合同、應(yīng)付難纏的客戶、維持公司賬上的現(xiàn)金流。一年后，從起始資金 20 萬美元，到最終能活下來且賺錢的，12 個(gè)頂級模型里，只有 3 個(gè)做到了。

論文來源： YC-Bench: Benchmarking AI Agents for Long-Term Planning and Consistent Execution https://arxiv.org/abs/2604.01212

YC-Bench 怎么測的？

前沿模型能經(jīng)營一家創(chuàng)業(yè)公司嗎？

帶著這樣的疑問，研究團(tuán)隊(duì)發(fā)布了 YC Bench。其核心設(shè)計(jì)思路是：給一個(gè)前沿模型種子資金、一支小團(tuán)隊(duì)和一個(gè)任務(wù)市場，讓它模擬經(jīng)營一家 AI 初創(chuàng)公司——管理員工、按時(shí)交付、分配資源，在一年內(nèi)實(shí)現(xiàn)利潤最大化。

核心挑戰(zhàn)有三層：

不確定性下的規(guī)劃：市場是部分可觀察的，AI 不能“偷看答案”，必須基于不完整信息做決策。
延遲反饋：很多決策的后果要幾周甚至幾個(gè)月才顯現(xiàn)，AI 必須從延遲的信號中學(xué)習(xí)和調(diào)整。
錯(cuò)誤累積：早期的一個(gè)糟糕決策會在后期放大，最終導(dǎo)致破產(chǎn)——這正是現(xiàn)實(shí)創(chuàng)業(yè)中最殘忍的規(guī)律。

其中，研究團(tuán)隊(duì)增加了對抗性壓力：環(huán)境里有意設(shè)置了難纏的客戶、不斷上漲的人力成本，讓 AI 在壓力下做出判斷。

評估的方法，是12 個(gè)模型（含閉源和開源），每個(gè)模型跑 3 次（不同隨機(jī)種子數(shù)據(jù)集），唯一允許在回合間“記事”的工具是 Scratchpad（草稿本）——相當(dāng)于 AI 的內(nèi)部筆記本，這是它跨回合保持記憶的唯一方式。

在這個(gè)評測中，Agent = LLM + 工具 + 決策框架，LLM 是大腦，框架是手腳。

每個(gè)被測模型都被套上了一層 Agent 框架，讓它們能：

查看公司當(dāng)前狀態(tài)（財(cái)務(wù)報(bào)表、員工情況）
根據(jù)看到的信息做推理和決策
調(diào)用工具執(zhí)行動作（分配任務(wù)、招聘員工、推進(jìn)時(shí)間）

這 12 個(gè)模型做的就是這個(gè) Agent 循環(huán)，不是單純地回答問題。YC-Bench 測的不是"哪個(gè)大模型答卷考得好"，而是"哪個(gè)模型當(dāng)老板當(dāng)?shù)煤?。

12 個(gè)模型，同一場壓力測試，結(jié)果：三個(gè)沒想到

研究團(tuán)隊(duì)挑選了 12 個(gè)來自不同公司的主流 AI 模型，放在同一套環(huán)境里進(jìn)行三輪獨(dú)立測試。

模型在模擬環(huán)境里的行為差異極大，主要體現(xiàn)在四個(gè)維度。其中，Scratchpad 寫入頻率反映了 AI 在長程任務(wù)中進(jìn)行主動規(guī)劃和自我反思的強(qiáng)度；任務(wù)檢查比例反映了 AI 是否主動核實(shí)客戶可信度；并發(fā)任務(wù)數(shù)反映 AI 是否存在“過度并行”問題。

在計(jì)算成本與穩(wěn)定性上，API成本差異極為懸殊，而結(jié)果卻并不與成本正相關(guān)。

圖中可以看到不同模型之間運(yùn)行時(shí)間差異巨大。同樣跑完一年模擬，Claude Opus 4.6 用了70分鐘，GPT-5.4 Nano只用了3分鐘。深入拆解，有以下幾個(gè)原因：

首先，運(yùn)行時(shí)間和Token量強(qiáng)相關(guān)，這意味著AI在每個(gè)決策回合“想了多久”。Claude Opus 4.6 產(chǎn)生了16.7M token，而GPT-5.4 Nano只有2.0M token。這背后源于兩個(gè)行為：Scratchpad的寫入量（記錄各種情況）和每輪發(fā)出的命令數(shù)（與環(huán)境交互）。
其次，不同模型本身推理速度和吞吐量差別也很大，比如Gemini Flash系列是專為速度優(yōu)化，推理極快，其他GPT-5.4 Nano/Mini也是輕量級小模型，參數(shù)少、推理快，而Claude Opus 4.6是旗艦大模型，參數(shù)量大，每個(gè)Token計(jì)算量高，自然也就慢了。
此外，還存在API網(wǎng)絡(luò)延遲的疊加效應(yīng)。YC-Bench中跑了幾百個(gè)回合，每輪都要調(diào)用API，旗艦款模型的響應(yīng)延遲高于輕量模型，再乘以幾百輪，延遲就會被大幅放大。

綜合來看，結(jié)論還是有不少讓人意外之處。

1. 頂級模型的差距，比想象中大得多

在三輪測試中，12 個(gè)模型里，只有 3 個(gè)能持續(xù)跑贏 20 萬美元起始資金。剩下 9 個(gè)，要么勉強(qiáng)持平，要么在一年內(nèi)走向破產(chǎn)。

但更有意思的是始終存活下來的前三名對比：

Top 3 模型最終資金對比

其中，GLM-5 以極低成本接近 Claude Opus 的表現(xiàn)，可以說是 Claude Opus 的“性價(jià)比殺手”——差距極小，但算力消耗天差地別。這對那些想用 AI 運(yùn)營公司的人來說，是個(gè)重要信號：最貴的模型不一定是最優(yōu)的。

2. Scratchpad 是生死線

這是整個(gè)論文最反直覺的發(fā)現(xiàn)：決定輸贏的并不完全是參數(shù)量，而是Scratchpad 的使用方式。

例如，在前文表格中，Gemini 3.1pro 作為旗艦款的Pro模型，按慣例來講應(yīng)該是同系列中參數(shù)最大的，但在三次測試中破產(chǎn)兩次；反觀其輕量版模型Gemini 3 Flash一次都沒有破產(chǎn)，雖然最終資金不多，但至少活下來了。

而其他能持續(xù)、規(guī)律地使用 Scratchpad 做規(guī)劃和自我反思的 AI（如 Opus 4.6、GLM-5、GPT-5.4），表現(xiàn)遠(yuǎn)優(yōu)于那些"走一步看一步"的 AI。GPT-5.4 雖然 Scratchpad 使用頻率極高（10.6次/100輪），但其高任務(wù)檢查率使其也維持了穩(wěn)定盈利。

這像極了人類創(chuàng)業(yè)者：那些隨時(shí)記筆記、復(fù)盤決策、做長期打算的人，往往比那些憑直覺行動的人走得更遠(yuǎn)。AI 也不例外。

3. 第一道坎，來自最難纏的客戶

47% 的破產(chǎn)都始于對抗性客戶——AI 在沒有充分核實(shí)背景的情況下接受了不利條款，或者沒有識別出客戶的惡意意圖。其他主要失敗原因包括：員工分配不當(dāng)（26%）、過度并行化（17%）以及其他因素（10%）。

這個(gè)數(shù)字令人意外：人們通常認(rèn)為 AI 在邏輯推理和數(shù)據(jù)分析上很強(qiáng)，但識別意圖和風(fēng)險(xiǎn)，恰恰是它最薄弱的地方。

更諷刺的是，論文還發(fā)現(xiàn)前沿模型有一種獨(dú)特的失敗模式：過度并行化——Claude Sonnet 4.6 平均同時(shí)承接 7.2 個(gè)任務(wù)，遠(yuǎn)超其他模型，但這種"多線程"策略反而導(dǎo)致資源分散、每條線都做不深。

這不只是論文，更像是現(xiàn)實(shí)的壓力測試

看完這些實(shí)驗(yàn)數(shù)據(jù)，你會發(fā)現(xiàn) YC-Bench 測的，其實(shí)就是"一個(gè)人 + AI 工具"能否真正成為一家公司的核心能力。

換句話說，YC-Bench 用代碼模擬的，正是每一個(gè)想靠 AI 創(chuàng)業(yè)的"超級個(gè)體"每天都在面對的真實(shí)挑戰(zhàn)。

山姆·奧特曼說，一個(gè)人可以創(chuàng)辦一家獨(dú)角獸。

YC-Bench 的研究說明，前提是這個(gè)人得比 AI 更懂什么時(shí)候不該聽 AI 的。這不是對 AI 的否定，恰恰是對 AI 時(shí)代“一人公司”最誠實(shí)的定義：一個(gè)人 + AI，不是降低了對創(chuàng)業(yè)者的要求，而是把要求從“你會多少技能”變成了“你有多擅長做判斷”。

YC-Bench 的價(jià)值，不在于告訴我們 AI 能做什么，而在于誠實(shí)地揭示了 AI 現(xiàn)在還不能做什么——以及在那些縫隙里，一個(gè)人必須自己補(bǔ)上的那些能力。

最后，綜合這份論文中的判斷，或許可以給在做“一人公司”的人提供幾個(gè)提示：

不要被 AI 的“智商”騙了——模型在各項(xiàng)評測榜單上分?jǐn)?shù)很高，但在長程任務(wù)里，堅(jiān)持用筆記、持續(xù)復(fù)盤、主動識別風(fēng)險(xiǎn)的做事習(xí)慣，比純粹的推理能力更重要。目前沒有哪個(gè)模型在這一點(diǎn)上做到完美，包括測試中的大贏家Claude Opus。
“最貴的”不等于“最合適的”——GLM-5 的出現(xiàn)說明，模型選擇上存在被嚴(yán)重低估的性價(jià)比路線。一人公司本就在資源有限的前提下運(yùn)營，沒必要為最貴的模型付溢價(jià)。
早期的一個(gè)失誤，真的會殺死你——這是YC-Bench最殘酷的發(fā)現(xiàn)：AI 在前幾個(gè)月的決策質(zhì)量，直接決定了后期的發(fā)展空間。一個(gè)人創(chuàng)業(yè)也是如此——最初的合同、人員、方向選擇，會在12個(gè)月后被放大成巨大的優(yōu)勢或劣勢。
AI 的盲點(diǎn)，在人際判斷上——47%的破產(chǎn)源于客戶識別失誤，這不是技術(shù)問題，而是 AI 缺乏“社會經(jīng)驗(yàn)”的系統(tǒng)性弱點(diǎn)。在現(xiàn)實(shí)中，這意味著一個(gè)人用 AI 跑公司，必須自己在關(guān)鍵決策上保持判斷力，而不是完全依賴 AI 的建議。

（文｜數(shù)智達(dá)觀，作者｜蓋虹達(dá)，編輯丨楊林）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.