国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

不怕你走,就怕你不用AI寫代碼!OpenAI Codex負(fù)責(zé)人親口承認(rèn):內(nèi)部已很少再打開IDE

0
分享至

  

  整理|冬梅

  2 月初,OpenAI 正式發(fā)布了其最新一代編程智能體GPT-5.3-Codex,這是目前 OpenAI 在 AI 編程領(lǐng)域的最新旗艦?zāi)P?,?biāo)志著該公司在“智能體變成實(shí)際協(xié)作者”這條路線上的一次重要升級(jí)。官方發(fā)布中指出,GPT-5.3-Codex 在原有 GPT-5.2-Codex 能力基礎(chǔ)上進(jìn)行了全面提升,包括更強(qiáng)的推理能力、更高的效率和更廣的工作流支持,同時(shí)提升了用戶交互體驗(yàn)和長(zhǎng)期任務(wù)處理能力,目標(biāo)是讓智能體像人類同事一樣在整個(gè)開發(fā)流程中協(xié)作。

  在權(quán)威評(píng)測(cè)上,新版本在多個(gè)行業(yè)相關(guān) benchmark 上表現(xiàn)卓越,例如在軟件工程綜合評(píng)測(cè) SWE-Bench Pro 和系統(tǒng)操作評(píng)測(cè) Terminal-Bench2.0 上大幅領(lǐng)先前代,在 OSWorld 和其他能力指標(biāo)上也表現(xiàn)顯著,更重要的是整體推理速度提升約 25%。官方強(qiáng)調(diào),這些改進(jìn)不僅體現(xiàn)在代碼生成能力,還包括調(diào)試、審查、架構(gòu)設(shè)計(jì)等工程師真實(shí)需要的工作流環(huán)節(jié)。

  在 Reddit、技術(shù)論壇等開發(fā)者社區(qū)中,GPT-5.3-Codex 的反饋呈現(xiàn)出明顯的兩極分化。一部分開發(fā)者分享了正面的經(jīng)驗(yàn),例如模型在 CLI 與 IDE 插件中帶來的更流暢操作、新版計(jì)劃模式提供的更清晰步驟反饋等,這與官方提出的“交互式協(xié)作和實(shí)時(shí)指導(dǎo)”方向一致。

  但也有不小比例的用戶發(fā)出了批評(píng):有用戶指出目前 GPT-5.3-Codex尚未通過 API 向所有開發(fā)者開放,部分平臺(tái)(如通過 API key)無法直接調(diào)用最新模型,這讓許多開發(fā)者難以在自定義環(huán)境中集成。

  

  另一些用戶反映新模型在某些編輯器里表現(xiàn)尚不成熟,例如在 Zed 編輯器中體驗(yàn)不佳,偶爾中斷或無法按預(yù)期編輯文件,甚至有人因此重新回退使用老版本。

  

  還有開發(fā)者表示,他們并不總是能獲得“官方宣傳的強(qiáng)大師任務(wù)表現(xiàn)”,尤其在 Web 生成等任務(wù)上出現(xiàn)停滯,并認(rèn)為其它競(jìng)爭(zhēng)模型(如某些 Claude 系列)在某些日常任務(wù)上體驗(yàn)更順暢。

  近日,OpenAI Codex 的產(chǎn)品負(fù)責(zé)人 Alexander Embiricos 做客了一檔訪談節(jié)目,談及了 Codex 的產(chǎn)品方向,目標(biāo)并不只是“讓 AI 寫得更好”,而是將 AI 打造成一種貫穿軟件工程全生命周期的主動(dòng)型工程隊(duì)友——能夠理解任務(wù)、制定計(jì)劃、執(zhí)行實(shí)現(xiàn)、完成交付,甚至參與審查。

  與許多模型負(fù)責(zé)人不同,Alexander 的視角明顯更偏向“工作流”和“真實(shí)使用場(chǎng)景”。

  在加入 OpenAI 之前,Alexander 曾聯(lián)合創(chuàng)立協(xié)作工具公司 Multi 并成功退出,長(zhǎng)期關(guān)注的不是技術(shù)極限,而是工具是否真的被人全天候使用、是否改變了人的工作方式。也正因?yàn)槿绱耍@場(chǎng)對(duì)話沒有圍繞參數(shù)規(guī)?;蚧鶞?zhǔn)測(cè)試展開,而是反復(fù)回到一個(gè)更具現(xiàn)實(shí)沖擊力的問題:當(dāng)工程師開始把完整任務(wù)交給 AI,軟件工程這件事,正在發(fā)生什么變化?

  在對(duì)話中,Alexander 明確否定了“AI 會(huì)減少工程師數(shù)量”的判斷。他認(rèn)為,未來五年工程師和創(chuàng)造者只會(huì)更多,而不是更少。原因并不復(fù)雜:歷史上,“計(jì)算機(jī)”“程序員”這些詞本身就被多次重定義,而“軟件工程師”也正站在下一次重定義的門檻上。

  真正發(fā)生變化的,是人才棧的壓縮。在 Codex 團(tuán)隊(duì)內(nèi)部,傳統(tǒng)的前端、后端、基礎(chǔ)設(shè)施等分工正在迅速模糊,每個(gè)人都被要求具備更強(qiáng)的全棧能力,甚至同時(shí)參與設(shè)計(jì)與產(chǎn)品判斷。在這樣的背景下,“工程師”不再只是執(zhí)行者,而更像是問題定義者與結(jié)果把關(guān)者。Alexander 甚至半開玩笑地表示,某些情況下,產(chǎn)品經(jīng)理這個(gè)角色是否仍然必要,都是一個(gè)值得重新討論的問題。

  他的判斷很清晰:分工會(huì)被壓縮,但人類作為創(chuàng)造者的地位不會(huì)被削弱。

  如果說對(duì)未來的判斷仍帶有主觀色彩,那么 Alexander 描述的OpenAI 內(nèi)部變化,則更像是一種已經(jīng)發(fā)生的事實(shí)。

  他反復(fù)提到一個(gè)關(guān)鍵節(jié)點(diǎn):GPT-5.2 Codex 的發(fā)布。在那之前,AI 更多扮演的是“輔助工具”的角色——自動(dòng)補(bǔ)全、結(jié)對(duì)編程,人仍然需要坐在編輯器前,驅(qū)動(dòng)整個(gè)過程。但從 GPT-5.2 Codex 開始,工作方式發(fā)生了本質(zhì)變化:工程師不再“和 AI 一起寫代碼”,而是把整個(gè)任務(wù)直接委托給 AI

  在 OpenAI 內(nèi)部,許多工程師幾乎不再打開傳統(tǒng) IDE,而是全天候運(yùn)行Codex。會(huì)議期間如果沒有讓 Codex 同步處理任務(wù),反而會(huì)被認(rèn)為是在浪費(fèi)時(shí)間。Alexander 沒有給出一個(gè)精確比例,但他的判斷非常明確:現(xiàn)在 OpenAI 內(nèi)部,絕大多數(shù)代碼都是由 AI 寫出來的。這并不意味著工程師“無事可做”,而是他們的注意力,已經(jīng)從實(shí)現(xiàn)細(xì)節(jié),轉(zhuǎn)移到任務(wù)拆解、計(jì)劃評(píng)估和結(jié)果審查上。

  在對(duì)話的最后,Alexander 回答了一位頂尖高校學(xué)生的提問:如何在未來五年成為 AI 生態(tài)中有價(jià)值的工程師?他的態(tài)度出人意料地樂觀——這是一個(gè)前所未有適合做工程師的時(shí)代。工具極其強(qiáng)大,理解復(fù)雜系統(tǒng)和代碼庫的成本被大幅壓縮。但正因?yàn)椤皹?gòu)建變得容易”,真正稀缺的東西反而更加清晰:主動(dòng)性、審美,以及對(duì)質(zhì)量的執(zhí)念

  他的建議只有一句話:去構(gòu)建高質(zhì)量的東西。一個(gè)有思想、有完成度的項(xiàng)目,比任何標(biāo)準(zhǔn)化簡(jiǎn)歷都更有說服力。

  以下為完整對(duì)話內(nèi)容,經(jīng) AI 前線編輯整理:

  

  主持人:我的第一個(gè)問題可能有點(diǎn)奇怪,但我還是想問下。我對(duì)人們的動(dòng)機(jī)特別著迷:你行動(dòng)的動(dòng)力更多是來自對(duì)失敗的恐懼,還是對(duì)勝利的興奮與渴望?

  Alexander:我是個(gè)追求極致的人。比起害怕失敗,勝利的渴望絕對(duì)更能驅(qū)動(dòng)我。不過我得跟你坦白一件事:在加入 OpenAI 之前經(jīng)營(yíng)創(chuàng)業(yè)公司時(shí),曾經(jīng)歷過至暗時(shí)刻——實(shí)際上那段日子黑暗時(shí)刻比比皆是——我突然意識(shí)到過去幾個(gè)月自己一直在拼命避免失敗。那一刻恍然大悟:天啊,原來這就是我如此痛苦的原因,很可能也是公司止步不前的根源。所以我得不斷自我調(diào)整,重新聚焦于爭(zhēng)取勝利的初心。但說到底,比成功欲望更強(qiáng)烈的,大概是我天生熱愛創(chuàng)造,特別是為人們打造新事物。想到今年就無比振奮,因?yàn)閷⒂袩o數(shù)尚未存在的精彩之作被創(chuàng)造出來,交付到眾人手中。

  主持人:馬斯克曾預(yù)言編程會(huì)成為首批被大規(guī)模自動(dòng)化的職業(yè)之一。基于你的職位和日常觀察,你認(rèn)同這個(gè)觀點(diǎn)嗎?

  Alexander:我完全認(rèn)同編程會(huì)是最早被大語言模型深度滲透的領(lǐng)域之一。不過說到“編程被自動(dòng)化”這個(gè)說法,其實(shí)值得細(xì)品——這就像當(dāng)年我們不再寫匯編語言,轉(zhuǎn)向高級(jí)語言編程時(shí),能說編程被自動(dòng)化了嗎?并非如此。

  我們只是得以用更高效率編寫更多代碼,結(jié)果反而是市場(chǎng)對(duì)代碼的需求激增,需要更多軟件工程師來創(chuàng)造價(jià)值。這種自動(dòng)化更像是工具進(jìn)化帶來的職能轉(zhuǎn)變,就像“計(jì)算機(jī)”這個(gè)詞的起源:據(jù)說在布萊切利公園破譯德國(guó)恩尼格瑪密碼時(shí),需要專人打孔卡、操作機(jī)器、做大量表格運(yùn)算——這些繁瑣的機(jī)械操作后來被自動(dòng)化了。甚至最早的電子表格軟件,靈感就源于辦公室里格子間工位排成矩陣,人們各自計(jì)算后將表格傳給下個(gè)人的場(chǎng)景。這些具體操作確實(shí)被技術(shù)取代了,但每次這樣的變革后,對(duì)最終成果的需求都會(huì)呈指數(shù)級(jí)增長(zhǎng),即便具體的工作形態(tài)已徹底改變,整個(gè)行業(yè)反而需要更多從業(yè)者參與其中。

  主持人:所以你認(rèn)為五年后工程師數(shù)量會(huì)增加而非減少,對(duì)嗎?

  Alexander:沒錯(cuò),其實(shí)我們也在不斷重新定義術(shù)語的內(nèi)涵——比如“計(jì)算機(jī)”這個(gè)詞現(xiàn)在指代的東西早已不同,而如今我們又有了“軟件工程師”這個(gè)頭銜。所以我堅(jiān)信未來會(huì)有更多創(chuàng)造者。

  現(xiàn)在有個(gè)很有趣的觀察:人才棧正在發(fā)生壓縮現(xiàn)象。雖然當(dāng)前我們?nèi)匀恍枰浖こ處?、軟件設(shè)計(jì)師,以及像我這樣的產(chǎn)品經(jīng)理——關(guān)于 PM 這個(gè)角色你們可以盡情調(diào)侃,說實(shí)話我也覺得未必需要——但或許當(dāng)人們談?wù)摗肮こ處煛睍r(shí),腦海中浮現(xiàn)的已經(jīng)是比過去更全能的形態(tài)。倒退幾年,絕大多數(shù)團(tuán)隊(duì)還嚴(yán)格區(qū)分后端工程師和前端工程師;而現(xiàn)在至少在 Codex 團(tuán)隊(duì),這種界限已經(jīng)非常模糊,每個(gè)人都更趨向全棧。因此我認(rèn)為人才棧確實(shí)會(huì)持續(xù)壓縮,但人類作為創(chuàng)造者的本質(zhì)不會(huì)改變。

  主持人:為什么你認(rèn)為在這個(gè)世界里我們不需要產(chǎn)品經(jīng)理?你這是在吊人胃口啊。

  Alexander:首先我覺得產(chǎn)品經(jīng)理這個(gè)角色本身就極難定義——它本質(zhì)上就是個(gè)沒有固定范式的崗位,目標(biāo)就是靈活適配團(tuán)隊(duì)或業(yè)務(wù)的需求。比如當(dāng)一群人正全力沖刺開發(fā)時(shí),產(chǎn)品經(jīng)理的價(jià)值在于后退幾步,用前瞻性視野預(yù)判方向,協(xié)調(diào)各方資源推進(jìn)市場(chǎng)落地,同時(shí)擔(dān)任團(tuán)隊(duì)的頭號(hào)啦啦隊(duì)長(zhǎng)和質(zhì)量把關(guān)人。

  但仔細(xì)想想,這些我描述的(可能也是我當(dāng)前做的)所有工作,完全可以由一位兼具產(chǎn)品思維的資深技術(shù)負(fù)責(zé)人或設(shè)計(jì)師來完成。所以產(chǎn)品經(jīng)理這個(gè)角色確實(shí)常常能發(fā)揮作用,但在團(tuán)隊(duì)規(guī)模真正變得龐大之前,可能并不需要配置太多這樣的崗位

  AGI 的瓶頸是什么?

  主持人:過去幾天我可沒少狂扒你的“底褲”——把你的文章、推文、過往采訪翻了個(gè)底朝天,這趟探索簡(jiǎn)直樂趣無窮。你曾在某處提到,人類驗(yàn)證工作的速度和輸入效率才是制約 AGI 發(fā)展的關(guān)鍵瓶頸,而非模型算力或架構(gòu)本身。然后這話就撂在那兒沒下文了,快給我解解惑:為什么說人類打字速度和驗(yàn)證工作會(huì)成為核心瓶頸?你這句話到底藏著什么深意?

  Alexander:確實(shí)如此。這個(gè)話題很有意思。我認(rèn)為現(xiàn)在存在多個(gè)瓶頸,但這或許是最能吸引眼球的一個(gè)。如果不介意的話,我們不妨用蘇格拉底式問答來探討:你目前每天使用 AI 的頻率大概是多少?

  主持人:每天 30 多次吧。

  Alexander:那假設(shè)你完全不需要耗費(fèi)任何精力,你覺得 AI 每天能幫到你多少次?

  主持人:我認(rèn)為在所有事務(wù)中,AI 將會(huì)全天候覆蓋每一件事。

  Alexander:確實(shí)如此?,F(xiàn)在無論是 OpenAI 內(nèi)部還是外部的工程師都在告訴我:他們?nèi)旌蜷_著 Codex,從不合上筆記本電腦。開會(huì)期間若沒讓它運(yùn)行著,簡(jiǎn)直就是在浪費(fèi)時(shí)間——必須確保 Codex 隨時(shí)在為我處理工作。

  這確實(shí)很酷也很令人興奮,但反過來說,要管理這些智能體、確保它們持續(xù)運(yùn)轉(zhuǎn)本身也是個(gè)龐大的工作量?;氐絼偛耪f的每天 30 次使用頻率,我們觀察 Codex 用戶的使用數(shù)據(jù)也大致在這個(gè)區(qū)間。但在我看來,AI 本應(yīng)每天為我們提供上萬次幫助——只要算力允許,這個(gè)目標(biāo)終將實(shí)現(xiàn)。問題在于,即便像我這樣專門研究這個(gè)領(lǐng)域的人,明知該用 AI 處理所有事務(wù),但我實(shí)在太懶,懶得敲那么多提示詞;也缺乏足夠的創(chuàng)意去發(fā)掘 AI 能幫忙的所有場(chǎng)景。結(jié)果我的使用頻率和你相差無幾。

  直到現(xiàn)在,當(dāng)我用 AI 完成像準(zhǔn)備這次對(duì)話這樣有趣的任務(wù)時(shí),還會(huì)暗自得意:“不錯(cuò),又解鎖了 AI 的新用法?!边@對(duì)你我這樣熱衷此道的人倒無妨,但我們不能指望普通人為享受通用人工智能的紅利而付出太多學(xué)習(xí)成本。

  理想狀態(tài)應(yīng)該是:使用 AI 無需琢磨提示詞技巧,它就該簡(jiǎn)單到不費(fèi)吹灰之力;你甚至無需意識(shí)到需要 AI 幫助,它自會(huì)理解你的處境,適時(shí)給予貼心的協(xié)助。

  主持人:這正是我認(rèn)為 Claude 做得好的地方——他們針對(duì)法律、Excel 等場(chǎng)景推出了定制化版本,讓用戶能直接上手建立 DCF 模型(雖然我對(duì)模型不感冒,但不得不承認(rèn)比過去的操作強(qiáng)多了)。那么你認(rèn)為你的職責(zé)是否就是將提示詞和人工操作產(chǎn)品化,從而消除這一瓶頸?

  Alexander:沒錯(cuò),這正是我們要做的——既要確保模型具備卓越能力,最終更要讓 AI 高度產(chǎn)品化,可能是神奇的對(duì)話框、語音輸入,甚至直接加入群聊就能自動(dòng)提供幫助。

  不過中間階段其實(shí)藏著更深的門道,我認(rèn)為當(dāng)前最大的價(jià)值恰恰就藏在這個(gè)過渡期。具體來說,你可以嘗試針對(duì)特定市場(chǎng)將 AI 的某個(gè)功能產(chǎn)品化,雖然很多公司都在這么做,但真正找準(zhǔn)有效形態(tài)并不容易。之前你播客有位嘉賓說得特別在理:企業(yè)沒有付費(fèi)門檻根本沒法落地 AI。

  主持人:對(duì),就是 Invisible AI 的 Matt Fitzpatrick 提到的這個(gè)觀點(diǎn)。

  Alexander:確實(shí),從財(cái)務(wù)角度看是這樣,但我其實(shí)完全不同意企業(yè)級(jí)優(yōu)先的自動(dòng)化路徑。

  我認(rèn)為當(dāng)前最重要的是為真實(shí)用戶打造工具。正如 Matt 在播客中提到的,通過全職員工構(gòu)建自動(dòng)化流程當(dāng)然可行,但這會(huì)受制于自上而下的視角局限和人力配置的邊界。

  而我憧憬的 AI 未來,是讓每個(gè)人都成為被 AI 賦能的超級(jí)個(gè)體。要實(shí)現(xiàn)這個(gè)愿景,我們需要打造面向個(gè)人用戶、能讓所有人輕松上手的工具。當(dāng)前最有趣的階段,恰恰是為那些熱衷于探索 AI 應(yīng)用場(chǎng)景的先行者構(gòu)建工具?;叵?Cognition 的 Code 工具初次發(fā)布時(shí)的精妙之處,正是提供了一個(gè)能在終端中無縫使用的開放工具,激發(fā)用戶自發(fā)探索應(yīng)用場(chǎng)景。這啟示我們,在將 AI 拓展到編程之外的工作領(lǐng)域時(shí),最重要的不是過度定制垂直場(chǎng)景工具,而是打造足夠開放的創(chuàng)作平臺(tái),讓用戶能針對(duì)任何任務(wù)進(jìn)行創(chuàng)造性應(yīng)用

  智能體開發(fā)的三個(gè)階段

  主持人:但這不就把責(zé)任和精力又推回給用戶了嗎?這恰恰回到了你之前說的“人類行動(dòng)瓶頸”問題——如果連任務(wù)都不定義,等于把定義權(quán)完全交給了人類,而人類既缺乏這種定義能力,也缺少這樣做的意愿。

  Alexander:是的,我是這么認(rèn)為的,這也是我覺得它是瓶頸所在的原因。

  在我看來,整個(gè)過程基本分為三個(gè)階段:首先,先讓智能體在軟件工程和編碼領(lǐng)域做到足夠出色,因?yàn)榇笳Z言模型本身就擅長(zhǎng)這方面;其次,我們會(huì)意識(shí)到,要讓智能體在更廣泛的場(chǎng)景中發(fā)揮作用,讓它能夠操作計(jì)算機(jī)是非常有價(jià)值的,同時(shí)我們也會(huì)發(fā)現(xiàn),所有智能體本質(zhì)上其實(shí)都是編碼智能體,因?yàn)榫幋a是智能體使用計(jì)算機(jī)的最佳方式。

  所以我們可以沿用這個(gè)極具靈活性的思路,把它開放給所有樂于探索和嘗試的人,我們已經(jīng)看到有人開始通過類似 Codex 這類應(yīng)用這么做了,這類應(yīng)用原本是為開發(fā)者設(shè)計(jì)的,但開發(fā)者們卻用它來完成各種非編碼類的任務(wù);最后,等我們驗(yàn)證出有效的方案后,就進(jìn)行你所說的產(chǎn)品化,打造出功能高度專一、用戶能夠開箱即用的產(chǎn)品。我認(rèn)為我們會(huì)在未來幾個(gè)月里快速走完這一整個(gè)過程。

  主持人:你剛才提到的關(guān)于企業(yè)內(nèi)全職員工部署和實(shí)施的問題,關(guān)鍵還在于數(shù)據(jù)安全敏感性、權(quán)限配置和訪問條款——這些實(shí)際操作難如登天,而大多數(shù)人其實(shí)并沒有我們想象的那么聰明和自信。尤其是在大型企業(yè)環(huán)境中更是如此。我認(rèn)為確實(shí)需要全職員工深入介入,為各種橫向解決方案進(jìn)行定制化適配才能落地運(yùn)行。我錯(cuò)了嗎?

  Alexander:我覺得你的判斷是對(duì)的。如果你一開始就試圖從零直接跳到一,腦子里又有一個(gè)宏大的愿景——比如構(gòu)建一個(gè)覆蓋所有流程的終極自動(dòng)化系統(tǒng)——那確實(shí)會(huì)立刻撞上大量現(xiàn)實(shí)障礙。

  我這里并不是貶義地說“宏大”,而是說這類項(xiàng)目不可避免地要處理安全、合規(guī)等問題,而這些問題都是真實(shí)存在的。你還需要打通各種數(shù)據(jù)系統(tǒng)、系統(tǒng)記錄、執(zhí)行系統(tǒng)等等。要完成這些,你基本上需要一個(gè)完整的、企業(yè)級(jí)的 IT 或數(shù)據(jù)基礎(chǔ)設(shè)施團(tuán)隊(duì)來支撐。

  但我們觀察到,如果完全采用這種自上而下(top-down)的方式,結(jié)果往往是:嚴(yán)重低估、甚至浪費(fèi)了 AI 在幫助企業(yè)中的潛力。

  相比之下,更好的方式可能是并行推進(jìn)。一方面繼續(xù)解決系統(tǒng)層面的難題,另一方面,把 AI 先交到真正干活的人手里——那些每天在一線工作的員工。

  當(dāng)員工開始實(shí)際使用 AI,他們會(huì)逐漸建立起一種“心理模型”,理解 AI 能幫自己做什么、不能做什么。然后,他們會(huì)自然地把 AI 拉進(jìn)自己的工作流中。

  我舉個(gè)例子:假設(shè)你在做客服工作,公司開始用 AI 自動(dòng)化你工作中一些重要環(huán)節(jié),但你自己從來沒用過 ChatGPT,甚至被禁止使用。那么在這種情況下,你對(duì)“AI 到底是什么”是沒有直覺的。

  但如果是在另一種世界里,你一邊日常使用 ChatGPT 工作,一邊看到 LLM 正在自動(dòng)化你的一部分任務(wù),那你對(duì) AI 的理解會(huì)深刻得多。你會(huì)覺得自己是被“加速”的,是有控制權(quán)的,甚至能影響自動(dòng)化往哪個(gè)方向發(fā)展,而不是被一個(gè)“從天而降的黑箱系統(tǒng)”所取代。后者其實(shí)是非常令人無力的。

  所以回到你提的問題:你提到的數(shù)據(jù)控制問題確實(shí)存在,也非常現(xiàn)實(shí)。但歸根結(jié)底,每一個(gè)工具、每一個(gè)功能、每一個(gè)工作流,最終都是服務(wù)于某個(gè)具體的人——某個(gè)員工。而這些員工,最終都是通過瀏覽器、文件系統(tǒng)等接口在使用工具。換句話說,一切最終都會(huì)收斂到一個(gè)“界面”,而這個(gè)界面是可以被運(yùn)行在本地計(jì)算機(jī)上的智能體(agent)所操作的。這也是為什么 OpenAI 會(huì)去做一件在外界看來有點(diǎn)“反?!钡氖隆?strong>我們?cè)跇?gòu)建自己的瀏覽器(Atlas)。

  你可能會(huì)問為什么要這么做,原因有很多,但其中一個(gè)關(guān)鍵原因是:當(dāng)我們從端到端嚴(yán)格控制瀏覽器時(shí),就能為企業(yè)構(gòu)建安全的、可控的智能體式瀏覽體驗(yàn)。

  這樣,智能體就可以“代理式”地訪問那些企業(yè)還沒有通過 API 或 FD(功能部門)完全開放的系統(tǒng)和流程。

  GPT-5.3 Codex效率大幅提升,

  我們?nèi)绾巫龅降模?/strong>

  主持人:你之前提到,有些工程師甚至不愿意合上電腦,因?yàn)樗麄儾幌胫袛嘤?Codex 構(gòu)建的效率。你們和 Cerebras 建立了合作,而 Cerebras 目前被認(rèn)為是推理速度最快的算力提供方之一。這是一次非常漂亮的合作。那么,推理速度對(duì)使用 Codex 的開發(fā)者到底有多重要?

  Alexander:簡(jiǎn)單來說:非常重要。

  主持人:那這會(huì)不會(huì)形成一種“推理能力的壟斷”?比如你們現(xiàn)在有了,競(jìng)爭(zhēng)對(duì)手沒有。

  Alexander:這只是我的個(gè)人看法,但我不認(rèn)為最終會(huì)走向一種壟斷式的格局。市場(chǎng)上的競(jìng)爭(zhēng)壓力非常大,未來一定會(huì)出現(xiàn)多種不同的解決方案。

  不過我可以透露的是:關(guān)于這次合作,我們很快會(huì)有新消息公布,而且我對(duì)此非常興奮。這些東西一旦上線,會(huì)非常棒。

  即便不談?dòng)布献?,僅從模型本身來看,比如 GPT-5.3 Codex,相比之前的模型,在效率上已經(jīng)有了顯著提升。我們收到的反饋是:開發(fā)者明顯感覺到它比以前快得多,而且是“有競(jìng)爭(zhēng)力的快”。此外,你還可以在多個(gè)層面做優(yōu)化:模型本身的效率以及推理方式的改進(jìn)。

  舉個(gè)具體的例子:我們最近在 API 層面做了一次更新,相關(guān)模型的響應(yīng)速度提升了大約40%;而在 Codex 產(chǎn)品里,速度也提升了大約25%。所以,速度真的很重要,我們基本是在硬件、推理方式、模型層三個(gè)方向同時(shí)推進(jìn)。

  主持人:你剛才提到把 AI 交到用戶手里,這讓我想到推理成本的問題。我有位朋友 Jason Lemkin(來自 SaaStr)提出一個(gè)觀點(diǎn):“推理就是新的銷售和市場(chǎng)”。意思是說,與其養(yǎng)龐大的銷售和市場(chǎng)團(tuán)隊(duì),不如把錢花在推理上,讓用戶更快上手、看到價(jià)值,最終甚至不再需要傳統(tǒng)的銷售和市場(chǎng)團(tuán)隊(duì)。這有點(diǎn)像下一代的 PLG(產(chǎn)品驅(qū)動(dòng)增長(zhǎng))。你怎么看?

  Alexander:說實(shí)話,我對(duì)這個(gè)觀點(diǎn)是有些保留的。在這樣一個(gè)“人人都能構(gòu)建產(chǎn)品、構(gòu)建門檻越來越低”的世界里,真正困難的事情并沒有消失。什么是難的?是與客戶建立真正良好的關(guān)系 并理解他們真正需要什么。

  而且我認(rèn)為,這些事情甚至比以前更難了,因?yàn)槭袌?chǎng)上的選擇變得更多、軟件數(shù)量爆炸式增長(zhǎng)。

  另外,構(gòu)建“正確的東西”和“高質(zhì)量的東西”依然非常難。

  所以回到銷售和市場(chǎng)這個(gè)問題,我并不認(rèn)為它們會(huì)消失。相反,隨著市場(chǎng)競(jìng)爭(zhēng)加劇,它們的難度其實(shí)是在上升的,而不是下降。

  在 OpenAI,

  很多人不再打開 IDE 了

  主持人:能不能聊點(diǎn)更具體的?比如在 OpenAI 內(nèi)部,現(xiàn)在有多少代碼是由 Codex 生成的?我記得之前 Claude for Work 的負(fù)責(zé)人 Boris 說他們內(nèi)部幾乎 100% 都是 AI 寫代碼。

  Alexander:我先說我個(gè)人的感受,再說團(tuán)隊(duì)整體情況。基本上,我認(rèn)識(shí)的大多數(shù)人現(xiàn)在已經(jīng)很少再打開傳統(tǒng)代碼編輯器了

  這種變化是逐步發(fā)生的,但一個(gè)非常明顯的“拐點(diǎn)”出現(xiàn)在GPT-5.2 Codex發(fā)布之后。那一代模型突然在以下幾個(gè)方面變得非常強(qiáng):

  能持續(xù)運(yùn)行更長(zhǎng)時(shí)間

  能端到端完成任務(wù)

  能管理上下文

  能更好地遵循指令

  這也是我們后來決定做 Codex App 的重要原因之一。在 GPT-5.2 Codex 之前,我們更多是在用 AI 做自動(dòng)補(bǔ)全 或者“結(jié)對(duì)編程”(pair programming)。 那時(shí)候,你仍然需要坐在電腦前,手放在鍵盤上,AI 可能幫你做一點(diǎn)點(diǎn)事情,但整體節(jié)奏還是你在“開車”。

  而從 2024 年 12 月 GPT-5.2 Codex 開始,我們切換到了一種完全不同的工作方式:我不再和 AI 一起寫代碼,而是把整個(gè)任務(wù)直接委托給它。流程變成了一起制定計(jì)劃、確認(rèn)規(guī)格、然后我就“放手讓它跑”

  這是一次非常本質(zhì)的轉(zhuǎn)變。

  這也是為什么我們?cè)谏现馨l(fā)布了 Codex App——我們想打造一種更適合“委托(delegation)”而不是“結(jié)對(duì)”的產(chǎn)品形態(tài),讓你可以同時(shí)把任務(wù)分配給多個(gè)智能體。

  即便在 OpenAI 內(nèi)部,這種變化也非常劇烈。我沒有一個(gè)精確的百分比數(shù)據(jù),但可以說:絕大多數(shù)代碼現(xiàn)在都是由 AI 寫的。很多人甚至不再打開 IDE。即便打開,更多也是為了設(shè)計(jì)模塊之間的接口 或協(xié)助規(guī)劃方案, 真正的代碼實(shí)現(xiàn),已經(jīng)不再由人類直接完成了。

  Codex App 為什么

  不是一個(gè)傳統(tǒng) IDE?

  主持人:那你覺得 24 個(gè)月后,IDE 還會(huì)是開發(fā)棧的一部分嗎?

  Alexander:這要看你怎么定義 IDE?!凹砷_發(fā)環(huán)境”這個(gè)詞本身就非常模糊,幾乎什么都能算 IDE。如果按這個(gè)定義,那你甚至可以說 Codex App 也是 IDE。但我個(gè)人并不這么看。在我心里,IDE 是一個(gè)極其強(qiáng)大的編輯器。而我們?cè)谠O(shè)計(jì) Codex App 時(shí),刻意沒有加入文本編輯功能,就是為了讓使用方式足夠清晰。

  Codex App 的核心能力在于:管理多個(gè)智能體、委托任務(wù)以及審查變更。它還有一個(gè)非常顯眼的“Skills”系統(tǒng),這是一個(gè)開放標(biāo)準(zhǔn),能支持大量非編碼任務(wù),比如:任務(wù)分流和部署監(jiān)控。但它沒有文本編輯器,這是我們有意為之的設(shè)計(jì)選擇。

  主持人:如果大量代碼都是由 Codex 生成的,那你們內(nèi)部現(xiàn)在是怎么做代碼審查的?AI 會(huì)參與內(nèi)部的代碼審查嗎?

  Alexander:這里其實(shí)有幾個(gè)層面。首先,你想做什么這件事的“規(guī)格說明(spec)”或“計(jì)劃(plan)”,變得前所未有地重要。你需要從架構(gòu)層面去思考:這段代碼應(yīng)該如何工作。最近我們上線了一個(gè)非常重要的“計(jì)劃模式(Plan Mode)”。它的工作方式和其他系統(tǒng)不太一樣:智能體會(huì)先獨(dú)立提出一個(gè)完整的執(zhí)行方案,通常是一個(gè)相當(dāng)長(zhǎng)、相當(dāng)詳細(xì)的計(jì)劃,然后再回來問你:

  你是否同意這種實(shí)現(xiàn)方式? 是否希望對(duì)某些部分提出修改意見?

  這其實(shí)非常像現(xiàn)實(shí)中的場(chǎng)景:假設(shè)你招了一個(gè)剛加入團(tuán)隊(duì)、對(duì)代碼庫還不熟的新工程師。在正式開始寫代碼之前,他需要先向團(tuán)隊(duì)提交一份類似 RFC(Request for Comments)的方案,征求大家的意見。所以,即便這還不是傳統(tǒng)意義上的代碼審查,但“對(duì)計(jì)劃的審查”正在變得越來越重要。這是因?yàn)槲覀円呀?jīng)進(jìn)入了一個(gè)更偏向“委托(delegation)”而不是“協(xié)作編寫”的工作階段。

  這一點(diǎn)往往被低估了。接下來才是更傳統(tǒng)意義上的代碼審查。我聽到的一個(gè)非常常見的問題,尤其是在開源社區(qū),是所謂的“AI 垃圾代碼(AI slop)”。很多人直接把 AI 生成的代碼提交成 PR,這些 PR 質(zhì)量很差,提交者可能根本沒有測(cè)試過,甚至沒有真正審過代碼。這是一個(gè)真實(shí)存在的問題。

  因此,在使用 Codex 時(shí),一個(gè)非常常見的做法是:讓 Codex 審查它自己生成的 PR 或代碼改動(dòng)。而 Codex 在這方面表現(xiàn)得非常好。我們是明確訓(xùn)練過模型去做代碼審查的。訓(xùn)練目標(biāo)包括:給出高信噪比的反饋、盡量減少“誤報(bào)式批評(píng)”(false positives)。這意味著:當(dāng) Codex 提出修改意見時(shí),你是可以高度信任它的。

  所以在 OpenAI 內(nèi)部,以及我們推薦給外部用戶的做法是:主動(dòng)讓 Codex 做代碼審查,甚至可以設(shè)置為自動(dòng)審查。

  事實(shí)上,在 OpenAI,幾乎所有代碼在推送到主倉(cāng)庫時(shí),都會(huì)自動(dòng)經(jīng)過 Codex 的審查。一個(gè)挺有意思的現(xiàn)象是:有些人為了“測(cè)試模型有多強(qiáng)”,會(huì)讓 Codex 去審查其他模型寫的代碼。結(jié)果往往是:“好吧,那我可能干脆直接用 Codex 寫代碼算了。”

  主持人:你剛才提到,對(duì)于那些還沒用過 Codex,或者很久沒回來用的用戶,你怎么看“留存”這件事?我記得 YC 合伙人 Tom Blomfield 之前發(fā)過一條推文,提到不同代碼智能體之間的切換成本——不管是 Cursor、Claude Code 還是 Codex。在這種情況下,用戶到底有多“黏”?你們是如何思考留存的?

  Alexander:我們?cè)?Codex 上采取了一種相當(dāng)反直覺的策略把它做得盡可能開放。比如 Codex 的核心執(zhí)行框架(harness)是開源的,我們一直在努力降低用戶在不同工具之間切換的成本。舉個(gè)例子:去年我們剛發(fā)布 Codex 時(shí),做了一件很簡(jiǎn)單的事——我們只是“確立”了一個(gè)約定,而不是強(qiáng)推一個(gè)品牌化標(biāo)準(zhǔn)。這個(gè)約定叫agents.md。它是一個(gè)文件,你可以在里面寫給智能體的指令。

  我們刻意沒有叫它codex.md,而是希望它成為一個(gè)所有智能體都能用的通用約定?,F(xiàn)在,幾乎所有智能體都在使用agents.md,這其實(shí)是一件很棒的事情。就在上周,我們還推動(dòng)了另一件事:把Skills(技能)——也就是給智能體用的腳本和指令——放進(jìn)一個(gè)中性的目錄里,叫agents/,而不是放進(jìn)codex/這樣的私有命名空間。

  同樣,除了“那個(gè)熟悉的例外”,大家基本都跟進(jìn)了。從開發(fā)者角度來說,這意味著:選擇更多 并且試錯(cuò)成本更低。當(dāng)然,目前來看,代碼生成這類任務(wù)本身是高度“封閉”的(hermetic)。你可以把它理解成美劇里的“單元?jiǎng) 保褐悄荏w讀取一個(gè)通用的 agents 文件、使用通用的 skills、生成一個(gè)補(bǔ)丁、補(bǔ)丁提交進(jìn) Git。

  從輸入到輸出,都是高度廠商中立的,所以切換成本很低。但未來會(huì)發(fā)生變化。當(dāng)智能體不再只是寫代碼,而是開始接入 Sentry、操作 Google Docs 或連接企業(yè)內(nèi)部系統(tǒng),這時(shí),“連接某個(gè)系統(tǒng)”本身就變成了一次高度粘性的決策。尤其在企業(yè)場(chǎng)景下,你必須信任:智能體能訪問這些系統(tǒng),同時(shí)又有足夠嚴(yán)格的安全護(hù)欄、沙箱和權(quán)限控制。而這些事情,你是不愿意反復(fù)做很多次的。

  所以我們?cè)跇?gòu)建 Codex 時(shí),其實(shí)已經(jīng)提前預(yù)判了這一階段的到來。這也是為什么我們采用了極其保守的沙箱策略——本質(zhì)上是操作系統(tǒng)級(jí)別的控制。我個(gè)人很喜歡一本書叫《Seven Powers》,講的是企業(yè)構(gòu)建長(zhǎng)期價(jià)值和可持續(xù)性的七種方式,其中之一就是“留存與黏性”。但對(duì)我們來說,這件事的優(yōu)先級(jí)其實(shí)有點(diǎn)不一樣。

  “贏”的決定性因素:

  算力優(yōu)勢(shì) + 最好的模型

  主持人:但如果從商業(yè)角度看,你們肯定還是會(huì)關(guān)心:如何讓用戶留在 Codex,而不是在 Cursor 或 Claude Code 出現(xiàn)更好模型時(shí)立刻切走?

  Alexander:這是個(gè)很好的問題。當(dāng)然,我們是在經(jīng)營(yíng)一家公司,但從根本上說,我們的使命是“安全地把 AGI 的收益帶給全人類”。所以對(duì)很多人來說很反直覺的一點(diǎn)是:我們花了巨大的精力訓(xùn)練模型,然后把這些模型提供給競(jìng)爭(zhēng)對(duì)手使用。我知道,從風(fēng)險(xiǎn)投資的視角來看,這幾乎是難以理解的。

  主持人:這在 VC 視角里確實(shí)非常反常。

  Alexander:是的,但這正是 OpenAI 非常獨(dú)特的地方。我們?cè)谕嬉粓?chǎng)極其長(zhǎng)期的博弈。當(dāng)競(jìng)爭(zhēng)對(duì)手變強(qiáng)時(shí),我們是能學(xué)到東西的,這反而對(duì)我們有幫助。如果他們是封閉的、黑箱式地進(jìn)步,我們反而學(xué)不到。

  舉個(gè)例子:今天早上我還轉(zhuǎn)推了 Warp 的一個(gè)新發(fā)布。我和他們沒有任何商業(yè)關(guān)系,但他們?cè)凇霸贫?+ 本地智能體協(xié)作”這件事上的一些設(shè)計(jì)思路,真的很有啟發(fā)性。這個(gè)領(lǐng)域有意思的地方就在于:大家在不同公司、不同路徑上,正在同時(shí)得出相似的結(jié)論,然后把它們實(shí)現(xiàn)出來。

  當(dāng)然,從現(xiàn)實(shí)角度講,我們也并不是沒有優(yōu)勢(shì):ChatGPT 帶來的巨大分發(fā)優(yōu)勢(shì)、自研模型與自有執(zhí)行框架的深度耦合、對(duì)新模型的提前訪問權(quán)。所以我們確實(shí)是在“為了贏而競(jìng)爭(zhēng)”,而且我們有很多優(yōu)勢(shì)。但與此同時(shí),我們也在堅(jiān)持把模型服務(wù)提供給整個(gè)生態(tài),同時(shí)推動(dòng)開放標(biāo)準(zhǔn)。

  主持人:如果一定要用投資語言來問一句:最終決定勝負(fù)的關(guān)鍵是什么?是 GTM?是品牌?是產(chǎn)品執(zhí)行?還是算力和推理速度?

  Alexander:如果從公司整體角度說——當(dāng)然這已經(jīng)遠(yuǎn)遠(yuǎn)超出我的職級(jí)了——我會(huì)說是:算力優(yōu)勢(shì) + 最好的模型。

  為了實(shí)現(xiàn)這一點(diǎn),我們需要成功的商業(yè)模式來支撐持續(xù)投入。而 Codex 這種“研究 + 產(chǎn)品”高度融合的團(tuán)隊(duì),其實(shí)會(huì)反過來倒逼模型進(jìn)步得更快。但如果從產(chǎn)品層面來說,我認(rèn)為最重要的一點(diǎn)只有一個(gè):做出一個(gè)真正好用、讓人愿意用的產(chǎn)品。我們一直強(qiáng)調(diào)先服務(wù)好個(gè)人,讓人真正“熟練”地使用這些工具,再自然地把自動(dòng)化引入工作流。這條路徑看起來有點(diǎn)反直覺,但我認(rèn)為它的長(zhǎng)期影響力會(huì)更大。至于企業(yè)市場(chǎng),GTM 非常重要。我學(xué)到的一個(gè)慘痛教訓(xùn)是:你不能只是對(duì)企業(yè)說一句“你們隨便用吧”。

  你需要做大量教育、支持復(fù)雜配置、和負(fù)責(zé)人(比如開發(fā)者體驗(yàn)負(fù)責(zé)人)一起設(shè)計(jì)工作方式,再把這種工作方式復(fù)制到整個(gè)組織中。

  主持人:那你們內(nèi)部衡量成功的核心指標(biāo)是什么?是收入嗎?

  Alexander:不是。最核心的指標(biāo)是活躍用戶數(shù)。

  主持人:具體是 DAU 還是 WAU?

  Alexander:目前我們主要看 WAU(周活躍用戶)。標(biāo)準(zhǔn)是:這個(gè)人是否真的在產(chǎn)品里完成過一次交互,比如發(fā)送過一個(gè) prompt。

  主持人:如果 Codex 是要替代 IDE 的,DAU 會(huì)不會(huì)更合理?

  Alexander:我同意。DAU 很快會(huì)更合理。我們現(xiàn)在用 WAU,更多是歷史原因。我理想中的狀態(tài)是:任何一個(gè)任務(wù),你的第一反應(yīng)都是“讓一個(gè)智能體來幫我”。

  就像查信息打卡 Google,問問題打開 ChatGPT。

  下一階段是人們做任何事先打開一個(gè)輸入框,然后智能體開始行動(dòng),哪怕它只幫你完成其中一小步。

  主持人:你認(rèn)為 Chat 會(huì)成為 AI 與人類交互的長(zhǎng)期主界面嗎?

  Alexander:簡(jiǎn)短答案是:會(huì)。

  但更準(zhǔn)確地說,是“對(duì)話界面 + 專用界面”的組合。如果你看科幻電影,未來的 AI 往往是一個(gè)你可以用任何方式、聊任何事的存在。你不應(yīng)該需要區(qū)分這是我的編程 AI 或者這是我的銷售 AI。

  你只是“跟一個(gè)東西說話”,它就會(huì)幫你。但對(duì)高階用戶來說,只靠聊天會(huì)很煩。就像你有一個(gè)助理,但你所有事情都必須通過“對(duì)話”才能完成,那是低效的。

  所以最終形態(tài)會(huì)是 Chat / 語音作為通用入口,針對(duì)不同角色的專用 GUI。比如我:用聊天做播客準(zhǔn)備,用 Codex App 深入看代碼。而一個(gè)市場(chǎng)人員用聊天問產(chǎn)品問題,用專門的分析界面看廣告數(shù)據(jù)。

  構(gòu)建高質(zhì)量代碼模型的

  數(shù)據(jù)是充足的

  主持人:我在 LinkedIn 上提到過這檔節(jié)目,有一位來自另一家公司的優(yōu)秀投資人留言說——

  他用了一個(gè)“哈利·波特”的比喻,說某家公司就像伏地魔,“那個(gè)不能被提及名字的人”。他說:“你應(yīng)該問問他,代碼數(shù)據(jù)的護(hù)城河到底怎么看?現(xiàn)在是不是 Anthropic 已經(jīng)拿走了所有數(shù)據(jù)?”

  Alexander:從我們目前看到的情況來看——當(dāng)然,這一點(diǎn)我也會(huì)更多地參考我們研究團(tuán)隊(duì)的判斷——我們認(rèn)為用于構(gòu)建高質(zhì)量代碼模型的數(shù)據(jù)是充足的。我反而覺得,現(xiàn)在更有意思、也更困難的數(shù)據(jù)來源,在于知識(shí)型工作(knowledge work)任務(wù)。這類數(shù)據(jù)在互聯(lián)網(wǎng)上幾乎不存在,比如戰(zhàn)略分析、復(fù)雜決策、跨角色協(xié)作,實(shí)際業(yè)務(wù)判斷過程。

  所以你會(huì)開始產(chǎn)生一些很有意思的想法,比如:是否需要付費(fèi)讓人去“模擬完成任務(wù)”,從而學(xué)習(xí)這些完整的任務(wù)軌跡,是否應(yīng)該收購(gòu)一些已經(jīng)倒閉、但沉淀了大量協(xié)作數(shù)據(jù)的公司,比如使用 Slack 的組織。總體來說,知識(shí)型工作的任務(wù)分布,比編碼復(fù)雜得多,也稀缺得多

  主持人:既然這些數(shù)據(jù)如此稀缺,那你們?nèi)绾慰创蛿?shù)據(jù)服務(wù)商的關(guān)系?比如 McCor、Turing、Invisible、Scale 這類公司。你們會(huì)在這方面投入 10 倍資源,還是反而覺得“數(shù)據(jù)太貴了,不如自己做”?

  Alexander:我們的判斷標(biāo)準(zhǔn)其實(shí)只有一個(gè):哪種方式能讓我們跑得最快。在內(nèi)部搭建完整的數(shù)據(jù)采集體系,時(shí)間成本和人力成本都非常高,而我們是一個(gè)相對(duì)精干的小團(tuán)隊(duì)。所以到目前為止,我的觀察是:一旦我們需要大規(guī)模跑數(shù)據(jù)項(xiàng)目,通常會(huì)選擇和這些公司合作,把精力集中在模型和產(chǎn)品本身。

  Codex 會(huì)走向低端消費(fèi)者市場(chǎng)嗎?

  主持人:在消費(fèi)端,Codex 會(huì)不會(huì)和 Lovable、Replit 這類工具正面競(jìng)爭(zhēng)?比如一年或兩年后,是否會(huì)下沉到“任何人都能做一個(gè) about me 頁面或小企業(yè)網(wǎng)站”的層級(jí)?

  Alexander:目前來看,我們并不覺得自己在和它們直接競(jìng)爭(zhēng)。如果你看過我們的超級(jí)碗廣告,口號(hào)是:“You can just build things.”(你可以直接開始構(gòu)建)。通過這個(gè)應(yīng)用,我們注意到:越來越多技術(shù)背景不強(qiáng)的人,也開始用 Codex 來做東西了。他們做的事情通常很“Hello World”級(jí)別,但確實(shí)在發(fā)生。而且我們最近有一個(gè)很大的變化:開始向免費(fèi) ChatGPT 用戶和 Go 計(jì)劃用戶提供部分 Codex 功能。這在“可用性”層面是一次巨大的擴(kuò)展。所以我確實(shí)預(yù)期,會(huì)有一些用戶原本可能會(huì)去用專門的低代碼工具,但現(xiàn)在因?yàn)?Codex 就在他們手邊,于是直接用 Codex 做一些簡(jiǎn)單的構(gòu)建。

  主持人:如果讓你說一件“最想做得不一樣、但目前還沒法做的事”,會(huì)是什么?

  Alexander:這是個(gè)有意思的問題。老實(shí)說,最近這幾周對(duì)我們來說非常好,我對(duì)當(dāng)前發(fā)生的一切都挺興奮的。

  主持人:這種“風(fēng)向變化”的感覺,團(tuán)隊(duì)內(nèi)部能明顯感受到嗎?

  Alexander:絕對(duì)能。我們對(duì)這種變化非常敏感。如果回看 Codex 的歷史:去年我們第一個(gè)發(fā)布的產(chǎn)品,是一個(gè)聽起來非常驚艷的想法——給每個(gè)智能體一臺(tái)云端電腦,可以并行完成任務(wù)。

  坦白說,它并沒有像我們后來發(fā)布的產(chǎn)品那樣成功。從去年 8 月 GPT-5 之后,我們開始全力推進(jìn)交互式編程,而這正是當(dāng)下市場(chǎng)競(jìng)爭(zhēng)最激烈的方向。公開數(shù)據(jù)上看從 8 月開始,我們大約增長(zhǎng)了 20 倍,到年底,又幾乎翻了一倍。但真正的變化發(fā)生在上周。我們一直認(rèn)為自己擁有最智能的模型(Codex 5.3),但用戶反饋是模型偏慢、不夠“好玩” 、在工作過程中溝通感不強(qiáng)

  我們正面解決了這些問題。

  即便對(duì)比某個(gè)在我們之前 20 分鐘發(fā)布、短暫“state-of-the-art”的競(jìng)品模型,我們也明顯感覺到了變化。

  同時(shí),我們一直被詬病的一點(diǎn)是:IDE 插件體驗(yàn)很好,但 CLI(命令行)不夠精致。而現(xiàn)在這個(gè) App 的反饋幾乎是一邊倒的正向評(píng)價(jià)——簡(jiǎn)單、直覺,甚至“出乎意料地簡(jiǎn)單”。很多曾經(jīng)的批評(píng)者也被轉(zhuǎn)化成了用戶。再加上超級(jí)碗廣告、免費(fèi)開放策略——所以回到你的問題,我現(xiàn)在最想做的兩件事是:

  第一,我想重新回到云端智能體(cloud agent)。去年我們從云端轉(zhuǎn)向交互式編程,是一個(gè)非常理性的決策:如果用戶還不能流暢地使用工具、還不能簡(jiǎn)單地讓它跑起來,就貿(mào)然推進(jìn)自動(dòng)化工作流,那只會(huì)變成“只有極少數(shù)高級(jí)用戶能用的空想”。

  但現(xiàn)在不一樣了。當(dāng)用戶每天都在用、每次使用都會(huì)配置得更好,那么讓它獨(dú)立在云端運(yùn)行,就不再是一個(gè)巨大跨越。

  第二,是關(guān)注真正的瓶頸?,F(xiàn)在,寫代碼本身幾乎已經(jīng)變得“廉價(jià)”。真正難的是:如何做代碼評(píng)審、如何判斷質(zhì)量以及如何確認(rèn)方向是對(duì)的。這些問題仍然被嚴(yán)重低估、投入不足。

  我的目標(biāo)是:最終讓一個(gè)你信任的智能體,可以端到端負(fù)責(zé)一個(gè)微服務(wù)或內(nèi)部工具,完成完整的迭代閉環(huán),甚至直接接收用戶反饋,而不需要人類審查。這在智能、在安全、在控制層面,都是極其困難的問題。

  市場(chǎng)終局:少數(shù)超級(jí)智能體,

  而不是十幾個(gè)工具

  主持人:你認(rèn)為 Benchmark 和評(píng)測(cè)到底該占多大權(quán)重?

  Alexander:這是個(gè)可能讓你不太滿意的答案:兩者都重要。Benchmark 能很好地衡量“智能水平”,尤其是在評(píng)測(cè)還沒被刷爆之前,進(jìn)步非常有參考價(jià)值。但你必須把它和使用體驗(yàn)結(jié)合起來。而體驗(yàn),本質(zhì)上是“感覺(vibes)”。不管是內(nèi)部同事還是客戶,我總是驚訝于:人們對(duì)模型的評(píng)價(jià)有多么依賴感覺。人生本來就很“vibes based”。我對(duì)孩子說的教訓(xùn)是:人們更愿意和他們喜歡的人一起工作。

  主持人:投資角度看,你如何判斷這個(gè)市場(chǎng)的最終形態(tài)?

  Alexander:我認(rèn)為,最終會(huì)是更少的玩家,捕獲更多的價(jià)值。我們現(xiàn)在處在一個(gè)“過渡期”:目前真正實(shí)現(xiàn)產(chǎn)品市場(chǎng)匹配的,幾乎只有編碼智能體。但這是暫時(shí)的。長(zhǎng)期來看,智能體會(huì)變成什么都能幫你做的超級(jí)助手

  在那樣的世界里你不會(huì)希望公司里有 12 個(gè)不同的智能體,讓員工自己去想“該和誰說話” 。那樣他們就無法形成熟練度,也就無法真正把自動(dòng)化融入工作。相反,如果你只有一個(gè)可以聊任何事情的智能體,員工的 onboarding 就是一句話:“有事就找它?!?它會(huì)成為工作的重力中心。

  我以前在 Dropbox 工作。在 Slack 崛起之前,我們?cè)懻撨^:人們是該在文檔里評(píng)論,還是去 Slack 里討論?文檔內(nèi)評(píng)論更高效,但現(xiàn)實(shí)是:Slack 成了溝通的中心引力場(chǎng)。哪怕效率更低,人們也更愿意在那里交流。我認(rèn)為,未來的智能體,也會(huì)發(fā)生同樣的事情。

  SaaS 是否會(huì)被模型公司“吃掉”?

  主持人:現(xiàn)在的人才爭(zhēng)奪有多激烈?我常對(duì)公司說:與其在舊金山,不如在歐洲建團(tuán)隊(duì),因?yàn)?SF 的人才又貴又難留。我錯(cuò)了嗎?

  Alexander:人才戰(zhàn)爭(zhēng)現(xiàn)在非常激烈。即便是在OpenAI,我們品牌很強(qiáng),也依然要花大量精力去“贏下”心儀的候選人。沒人是“免費(fèi)送上門”的。

  主持人:在股權(quán)定價(jià)下,最頂尖的人才還覺得有吸引力嗎?

  Alexander:目前沒有人向我表達(dá)過相反的看法

  主持人:你剛才提到,目前智能體真正大規(guī)模使用的場(chǎng)景,主要還是編碼,少量擴(kuò)展到比如客服。但從投資角度看,我今天在尋找那些能長(zhǎng)期積累價(jià)值、為客戶持續(xù)提供卓越產(chǎn)品的公司。

  現(xiàn)在市場(chǎng)上有一種很強(qiáng)的觀點(diǎn):大型 SaaS 公司的收入耐久性接近于零,SaaS 已死,因?yàn)槟P吞峁┥蹋銈?、Anthropic 等)會(huì)“來吃我們的午餐”。 你會(huì)如何建議?

  Alexander:我的第一反應(yīng)其實(shí)非常樸素:所有東西最終都是為人服務(wù)的,否則意義何在?

  即便是 SaaS,本質(zhì)上也是為人設(shè)計(jì)的。所以我會(huì)反問幾個(gè)問題:這家公司是否真正擁有與“人”的關(guān)系? 或者,它是否掌握了一個(gè)極其關(guān)鍵的系統(tǒng)記錄(system of record)?

  如果答案是“是”,那我并不認(rèn)為這家公司會(huì)輕易消失。事實(shí)上,在 AI 時(shí)代,這兩點(diǎn)——

  人與系統(tǒng)的交互入口 + 核心記錄系統(tǒng),可能比以往任何時(shí)候都更重要。

  反過來,如果一家 SaaS 公司只是一個(gè)“膠水層”:不直接面對(duì)人也不擁有系統(tǒng)級(jí)記錄,那我會(huì)更謹(jǐn)慎。我不是這方面的終極專家,但這種公司讓我更不安。

  Alexander:如果基于這種邏輯再看市場(chǎng),比如Salesforce、ServiceNow股價(jià)下跌 20%、30%、甚至 40%,我認(rèn)為這種反應(yīng)被嚴(yán)重夸大了。

  確實(shí)有一些公司處境艱難。坦率說,我認(rèn)為Dropbox正面臨非常困難的局面。

  但像Monday.com這樣的公司——對(duì)其主要用戶群體(大量中小企業(yè)和消費(fèi)者)來說:你能不能用 AI 臨時(shí)“vibe coding”一個(gè)待辦清單?可以。

  但成本是否劃算?并不劃算。

  一個(gè)待辦清單的需求本身非常穩(wěn)定、簡(jiǎn)單:添加任務(wù)、完成任務(wù)、查看歷史、分配成員。

  并不值得反復(fù)用 AI 定制。所以現(xiàn)實(shí)是:大多數(shù)人會(huì)繼續(xù)用現(xiàn)成工具。市場(chǎng)的恐慌情緒,更多是條件反射式的過度反應(yīng)。

  不過我確實(shí)認(rèn)為:客服會(huì)成為被強(qiáng)烈沖擊的領(lǐng)域。老實(shí)說,我不太愿意站在那個(gè)賽道上。

  給下一代工程師的建議

  主持人:最后,請(qǐng)您回答幾個(gè)網(wǎng)友的提問。有位學(xué)生提問是這樣的我是 CS 學(xué)生,在斯坦福 / 劍橋 / ETH。如果我想在未來 5 年成為 AI 生態(tài)中有價(jià)值的工程師,你會(huì)怎么建議?

  Alexander:說實(shí)話,從未有過比現(xiàn)在更好的時(shí)代來當(dāng)工程師。你擁有前所未有強(qiáng)大的工具能快速理解復(fù)雜代碼庫、能讓 AI 幫你規(guī)劃改動(dòng),甚至能把過去幾天的研究壓縮到幾個(gè)小時(shí)。所以首先,你應(yīng)該非常樂觀。

  但問題變成:既然構(gòu)建變得容易,什么變得稀缺?我給出的答案是:主動(dòng)性(agency)、審美(taste)和質(zhì)量(quality)。

  我的建議只有一句話:去構(gòu)建東西,而且是高質(zhì)量的東西。當(dāng)有人帶著有思想的項(xiàng)目來找我,那比一份標(biāo)準(zhǔn)簡(jiǎn)歷有吸引力得多。

  https://www.youtube.com/watch?v=S1rQngjpUdI

  聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

  會(huì)議推薦

  InfoQ 2026 全年會(huì)議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術(shù)前沿到行業(yè)應(yīng)用,全面覆蓋 AI 與軟件開發(fā)核心賽道!集結(jié)全球技術(shù)先鋒,拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn),探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能,獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),搶占 2026 智能升級(jí)發(fā)展先機(jī)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認(rèn)哈梅內(nèi)伊位置,會(huì)沒開完就溜了

俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認(rèn)哈梅內(nèi)伊位置,會(huì)沒開完就溜了

蕭鑟科普解說
2026-03-07 00:30:38
地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

甜檸聊史
2026-03-08 01:56:33
張籽萱受傷,吳夢(mèng)潔霸氣救主!砍27分助江蘇逆襲浙江,山東進(jìn)四強(qiáng)

張籽萱受傷,吳夢(mèng)潔霸氣救主!砍27分助江蘇逆襲浙江,山東進(jìn)四強(qiáng)

金毛愛女排
2026-03-07 23:54:37
昨晚跟閨蜜去洗澡,一脫衣服我才明白,女人和女人,真的不一樣

昨晚跟閨蜜去洗澡,一脫衣服我才明白,女人和女人,真的不一樣

i書與房
2026-03-04 16:26:24
高手在民間,小伙將國(guó)家一級(jí)保護(hù)植物種得遍地都是,被警方跨省查

高手在民間,小伙將國(guó)家一級(jí)保護(hù)植物種得遍地都是,被警方跨省查

山股長(zhǎng)
2026-03-05 15:15:01
1986年春晚,薄一波來到晚會(huì)現(xiàn)場(chǎng)為一對(duì)夫妻證婚,新郎是戰(zhàn)斗英雄

1986年春晚,薄一波來到晚會(huì)現(xiàn)場(chǎng)為一對(duì)夫妻證婚,新郎是戰(zhàn)斗英雄

帝哥說史
2026-03-07 06:30:03
央八首播!34集諜戰(zhàn)巨制來襲,僅播出一天,收視率直接登頂

央八首播!34集諜戰(zhàn)巨制來襲,僅播出一天,收視率直接登頂

樂楓電影
2026-03-07 15:39:58
出人意料的狠招:伊朗直擊西方,“數(shù)字心臟”。

出人意料的狠招:伊朗直擊西方,“數(shù)字心臟”。

縱擁千千晚星
2026-03-08 01:01:19
爭(zhēng)四格局亂了!法布雷加斯神了:意甲黑馬3連勝,奔向歐冠區(qū)

爭(zhēng)四格局亂了!法布雷加斯神了:意甲黑馬3連勝,奔向歐冠區(qū)

足球狗說
2026-03-07 23:59:14
伊朗小學(xué)遭襲,美媒曝光最新細(xì)節(jié)

伊朗小學(xué)遭襲,美媒曝光最新細(xì)節(jié)

環(huán)球時(shí)報(bào)國(guó)際
2026-03-07 00:18:51
假騎馬別尬演,《鏢人》5歲小演員一出手,才知道什么叫尊重觀眾

假騎馬別尬演,《鏢人》5歲小演員一出手,才知道什么叫尊重觀眾

八卦南風(fēng)
2026-03-05 10:22:35
5000萬磅!皇馬簽1米96天才逆襲封神,羅馬棄將征服伯納烏太震撼

5000萬磅!皇馬簽1米96天才逆襲封神,羅馬棄將征服伯納烏太震撼

卿子書
2026-03-07 09:14:13
玄學(xué)提醒:如果一個(gè)人還在穿著10年前的衣服,只說明3個(gè)問題

玄學(xué)提醒:如果一個(gè)人還在穿著10年前的衣服,只說明3個(gè)問題

洞讀君
2026-03-04 14:30:12
外媒:澤連斯基向歐爾班發(fā)出直接威脅,歐爾班、歐盟回應(yīng)

外媒:澤連斯基向歐爾班發(fā)出直接威脅,歐爾班、歐盟回應(yīng)

環(huán)球網(wǎng)資訊
2026-03-06 22:22:31
萬億煙草市場(chǎng)正在漏水?你常買的煙可能已經(jīng)不值錢了!

萬億煙草市場(chǎng)正在漏水?你常買的煙可能已經(jīng)不值錢了!

老特有話說
2026-03-07 16:09:02
震驚,武漢某設(shè)計(jì)院被員工血淚控訴!

震驚,武漢某設(shè)計(jì)院被員工血淚控訴!

黯泉
2026-03-07 20:44:34
四線狂飆爭(zhēng)冠!馬杜埃凱破僵埃澤制勝,阿森納2-1晉級(jí)足總杯8強(qiáng)

四線狂飆爭(zhēng)冠!馬杜埃凱破僵埃澤制勝,阿森納2-1晉級(jí)足總杯8強(qiáng)

釘釘陌上花開
2026-03-07 22:17:08
78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

洲洲影視娛評(píng)
2026-01-28 12:23:18
1949年此人想投降,毛主席直接拒絕:他是千古罪人!蔣介石:我也想殺他

1949年此人想投降,毛主席直接拒絕:他是千古罪人!蔣介石:我也想殺他

歷史回憶室
2026-02-17 22:05:10
不聲不響從23漲到270,因?yàn)橐粋€(gè)概念,股價(jià)近兩年悄悄的漲了12倍

不聲不響從23漲到270,因?yàn)橐粋€(gè)概念,股價(jià)近兩年悄悄的漲了12倍

有范又有料
2026-03-07 11:55:39
2026-03-08 02:55:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1347文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

選舉24小時(shí)內(nèi)舉行 伊朗今天或選出最高領(lǐng)袖

頭條要聞

選舉24小時(shí)內(nèi)舉行 伊朗今天或選出最高領(lǐng)袖

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

汪小菲曝親媽猛料,張?zhí)m公開財(cái)產(chǎn)分配

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

游戲
手機(jī)
藝術(shù)
數(shù)碼
公開課

外媒:Xbox新主機(jī)恐成微軟絕唱!失敗即退出硬件市場(chǎng)

手機(jī)要聞

網(wǎng)曝OPPO Find N6渲染圖,或有橙色版本

藝術(shù)要聞

1.61億天價(jià)!陳丹青的《牧羊人》如何震撼藝術(shù)界?

數(shù)碼要聞

英特爾 Core Ultra 3 “Panther Lake-H” 結(jié)構(gòu)細(xì)節(jié)曝光

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版