国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

前 Codex 大神倒戈實(shí)錘!吹爆 Claude Code:編程提速 5 倍,點(diǎn)破 OpenAl 死穴在上下文

0
分享至


作者 | 高允毅

OpenAI Codex 的核心研發(fā)者,竟然成了 Claude Code 的忠實(shí)用戶?

Calvin French-Owen 是 Segment 聯(lián)合創(chuàng)始人、前 OpenAI 工程師、Codex 項(xiàng)目的早期研發(fā)者。他最近在一檔播客中,對(duì)當(dāng)前最火的代碼智能體 Codex、Claude Code 和 Cursor 進(jìn)行了銳評(píng)。


結(jié)論出人意料,他最常用、也最偏愛(ài)的,是 Claude Code,他表示搭配 Opus 模型更“香”。

Calvin 用了一個(gè)極具畫(huà)面感的比喻,來(lái)形容用 Claude Code 的體驗(yàn):

就像殘疾人換上了一副仿生膝蓋,寫(xiě)代碼的速度直接提升了 5 倍。

在他看來(lái),Claude Code 真正的殺手锏,是極其有效的上下文拆分能力。

面對(duì)復(fù)雜任務(wù),Claude Code 會(huì)自動(dòng)生成多個(gè)探索型子智能體,獨(dú)立掃描代碼倉(cāng)庫(kù)、檢索上下文,再將關(guān)鍵信息匯總反饋。這種設(shè)計(jì),顯著降低了上下文噪音,也解釋了它為何能穩(wěn)定輸出高質(zhì)量結(jié)果。

不過(guò),他也肯定了自家產(chǎn)品,認(rèn)為 Codex 很有“個(gè)性”,像 AlphaGo。在調(diào)試復(fù)雜問(wèn)題時(shí)的表現(xiàn)上,Codex 堪稱超人類,很多 Opus 模型解決不了的問(wèn)題,Codex 都能搞定。

“上下文管理”,是 Calvin French-Owen 在整期播客中反復(fù)強(qiáng)調(diào)的關(guān)鍵詞。

他認(rèn)為,代碼的上下文信息密度極高,只要檢索方式得當(dāng),模型往往比人類更容易理解系統(tǒng)結(jié)構(gòu)。但與此同時(shí),上下文窗口本身,也成為制約代碼智能體發(fā)展的最大瓶頸。

提到上下文污染的問(wèn)題時(shí),主持人表示 LLM 會(huì)變笨。Calvin 趁此分享了一個(gè)非常實(shí)用的經(jīng)驗(yàn):當(dāng)上下文 token 占用超過(guò) 50%,他會(huì)主動(dòng)清理。

他甚至分享了一種創(chuàng)業(yè)者常用的“金絲雀檢測(cè)”方法:在上下文里埋入一些無(wú)關(guān)但可驗(yàn)證的小信息,一旦模型開(kāi)始遺忘,說(shuō)明上下文已經(jīng)被污染。

在產(chǎn)品理念上,Calvin 認(rèn)為 Claude Code 與 Codex 的差異,早已寫(xiě)進(jìn)兩家公司的基因里:

  • Anthropic 更關(guān)注“做出適合人用的 AI”

  • OpenAI 更關(guān)注“做出最強(qiáng)的 AI”

他判斷,從長(zhǎng)期來(lái)看,OpenAI 的路線可能是必然趨勢(shì),但就當(dāng)下的使用體驗(yàn)而言,他更偏愛(ài) Anthropic。

在談到未來(lái)時(shí),Calvin 給出了一個(gè)明確判斷:

  • 公司會(huì)變小,但數(shù)量會(huì)變多

  • 每個(gè)人都會(huì)擁有自己的智能體團(tuán)隊(duì)

  • 而最先被放大的,是具備“管理者思維”的資深工程師。他們更擅長(zhǎng)拆解問(wèn)題、判斷取舍、以及在正確的節(jié)點(diǎn)上向智能體下達(dá)指令。

在這樣的背景下,產(chǎn)品的分發(fā)方式變得前所未有地重要。

自下而上的分發(fā)模式,正在以前所未有的速度擴(kuò)散。工程師不會(huì)等審批、采購(gòu),只會(huì)用腳投票。

相比大公司對(duì)安全、合規(guī)和控制權(quán)的高度重視,開(kāi)發(fā)者更在意的,依然是那句最樸素的評(píng)價(jià):

“這東西,真的好用。”

以下是播客精彩細(xì)節(jié),AI Coding 干貨密集,歡迎閱讀:

我迷上了 Claude Code,它太好用了

主持人:Calvin French-Owen 是 OpenAI 旗下 Codex 代碼模型的首批研發(fā)者之一,在此之前,他創(chuàng)立了 Segment 公司,這家公司市值數(shù)十億美元,最終被知名企業(yè)高價(jià)收購(gòu),成功實(shí)現(xiàn)資本變現(xiàn)。

Calvin French-Owen:說(shuō)實(shí)話,現(xiàn)在對(duì)我們所有人來(lái)說(shuō),都是一段充滿變數(shù)的時(shí)期。我最近徹底迷上了 Claude Code,用一個(gè)比喻來(lái)說(shuō),十年前我還是個(gè)馬拉松愛(ài)好者,特別喜歡跑步,結(jié)果后來(lái)膝蓋受了重傷,這之后我就進(jìn)入了所謂的 “管理者模式”,再也沒(méi)寫(xiě)過(guò)代碼,想想真的很可惜。

但過(guò)去這九天,仿佛打開(kāi)了新世界的大門(mén),我找回了曾經(jīng)寫(xiě)代碼的所有感覺(jué),就好像換了個(gè)全新的膝蓋,而且還是仿生的,能讓我寫(xiě)代碼的速度快了 5 倍。

主持人:你怎么看待這款工具?畢竟你一直身處這個(gè)領(lǐng)域的前沿,Codex 開(kāi)創(chuàng)的很多理念,至今仍被大家廣泛使用,而且這款模型還在持續(xù)迭代。

Calvin French-Owen我在 OpenAI 工作時(shí),負(fù)責(zé) Codex 的網(wǎng)頁(yè)端項(xiàng)目,當(dāng)時(shí) Cursor 這款工具剛面世,他們基于 GPT-3.5 做了一個(gè)適配層,能在 IDE 中使用。Claude Code 也剛發(fā)布,它是基于 CLI 運(yùn)行的,當(dāng)時(shí)我們就有一個(gè)想法:未來(lái)的編程,應(yīng)該更像和同事溝通 —— 你提出問(wèn)題,對(duì)方去處理,最后帶著 PR 回來(lái)反饋。我們的網(wǎng)頁(yè)端項(xiàng)目就是從這個(gè)想法出發(fā)的,這也是我們當(dāng)時(shí)的研發(fā)方向。

現(xiàn)在看來(lái),這個(gè)大方向其實(shí)是對(duì)的。但顯然,現(xiàn)在大家都改用 CLI 編程了,不管是 Claude Code 還是 Codex,這類工具的使用頻率都高了很多。至少對(duì)我來(lái)說(shuō),這件事帶來(lái)的啟示是,某種程度上你說(shuō)得對(duì),未來(lái)每個(gè)人或許都會(huì)成為 “管理者”,這是我的個(gè)人觀點(diǎn)。但要達(dá)到那個(gè)階段,需要一步步來(lái),你得真正信任模型,并且理解它的工作邏輯。

主持人:你最近一直在用 Claude Code,把它納入你的核心技術(shù)棧后,使用體驗(yàn)上有什么變化?

Calvin French-OwenClaude Code 現(xiàn)在確實(shí)是我日常編程的主力工具。說(shuō)實(shí)話,我的主力工具每隔幾個(gè)月就會(huì)換一次。之前有段時(shí)間我特別偏愛(ài) Cursor,它新出的模型速度很快,用起來(lái)確實(shí)不錯(cuò)。后來(lái)我慢慢轉(zhuǎn)到了 Claude Code,尤其是搭配 Opus 模型使用時(shí),體驗(yàn)更好。

Claude Code 是款很有意思的產(chǎn)品,我覺(jué)得大家都低估了它在產(chǎn)品設(shè)計(jì)與模型層面的協(xié)同表現(xiàn)。要是你深入研究就會(huì)發(fā)現(xiàn),Claude Code 最厲害的地方,就是它的上下文拆分能力。

比如需要調(diào)用功能、讓子智能體協(xié)同工作時(shí),你讓 Claude Code 執(zhí)行某個(gè)任務(wù),它通常會(huì)生成一個(gè)甚至多個(gè)探索型子智能體。這些子智能體會(huì)通過(guò) ripgrep 工具掃描整個(gè)文件系統(tǒng)、檢索相關(guān)內(nèi)容,而且每個(gè)子智能體都有獨(dú)立的上下文窗口(context window)。

我認(rèn)為 Anthropic 在這點(diǎn)上做得特別出色 —— 面對(duì)一項(xiàng)任務(wù),模型能精準(zhǔn)判斷出,這個(gè)任務(wù)適合在單個(gè)上下文窗口(context window)中完成,還是需要拆分后再執(zhí)行。模型在這方面的表現(xiàn)堪稱驚艷,這也是它能輸出高質(zhì)量結(jié)果的關(guān)鍵。

更有意思的是,依托終端運(yùn)行的特性,Claude Code 成為了實(shí)現(xiàn)可組合原子化集成的最純粹形式。如果你習(xí)慣了從 IDE 入手做開(kāi)發(fā),比如用 Cursor 或是早期的 Codex,就會(huì)發(fā)現(xiàn),這種更靈活的上下文檢索方式,其實(shí)并不容易自然而然地實(shí)現(xiàn)。

主持人:這一點(diǎn)確實(shí)很獨(dú)特。我個(gè)人挺意外的,不知道你有沒(méi)有這種感覺(jué),總覺(jué)得有種復(fù)古的未來(lái)感,二十年前的 CLI 技術(shù),居然打敗了本被寄予厚望的各類 IDE。

Calvin French-Owen:我完全認(rèn)同。而且 Claude Code 不是 IDE,這一點(diǎn)其實(shí)很關(guān)鍵,因?yàn)樗茏屇愫驼诰帉?xiě)的代碼保持一定距離。IDE 的核心就是瀏覽文件,對(duì)吧?你需要把所有代碼狀態(tài)記在腦子里,還要理清其中的邏輯。但 CLI 完全不同,這讓它在使用體驗(yàn)的設(shè)計(jì)上有了更大的發(fā)揮空間。

不知道你有沒(méi)有這種感覺(jué),我用 Claude Code 的時(shí)候,感覺(jué)就像在代碼里 “飛馳”,各種操作都特別順暢。界面上會(huì)有小的進(jìn)度指示器,隨時(shí)給我狀態(tài)反饋,而編寫(xiě)的代碼本身反而不是視覺(jué)的核心。

開(kāi)發(fā)環(huán)境本來(lái)就很雜亂,我特別喜歡 sandbox(沙箱)在概念上的簡(jiǎn)潔性。但實(shí)際使用時(shí),我遇到了很多棘手的問(wèn)題,比如就連簡(jiǎn)單的測(cè)試都搞不定:sandbox(沙箱)需要訪問(wèn) PostgreSQL 數(shù)據(jù)庫(kù),卻一直連接失??;我寫(xiě)的 codex.md 文件只有二十行,最后還是無(wú)法運(yùn)行。

但在 CLI 里,工具可以直接訪問(wèn)開(kāi)發(fā)數(shù)據(jù)庫(kù)。我不確定這么做是否合規(guī),但我確實(shí)試過(guò)讓它訪問(wèn)生產(chǎn)數(shù)據(jù)庫(kù)執(zhí)行一些操作,而且它真的做到了。比如有一次,我遇到了一個(gè)并發(fā)問(wèn)題,想排查一下,結(jié)果發(fā)現(xiàn)這款工具居然能調(diào)試五層嵌套的延遲任務(wù),找出問(wèn)題所在,還能自動(dòng)編寫(xiě)測(cè)試用例,之后這個(gè)問(wèn)題就再也沒(méi)出現(xiàn)過(guò)。這真的太不可思議了。

主持人:沒(méi)錯(cuò)。而且我覺(jué)得產(chǎn)品的推廣和使用獲取方式,被嚴(yán)重低估了。想想 Cursor、Claude Code 還有 Codex 的命令行版本,你只需下載就能用,不用向公司申請(qǐng)任何使用權(quán)限,這一點(diǎn)帶來(lái)的使用體驗(yàn)差異,實(shí)在太大了。

做好上下文管理,

是用好頂尖模型的訣竅

主持人:你在代碼智能體領(lǐng)域有很多實(shí)踐,對(duì)于想要打造這類工具的人,你有什么建議?有哪些實(shí)戰(zhàn)經(jīng)驗(yàn)可以分享?

Calvin French-Owen:我覺(jué)得最重要的一點(diǎn),是做好上下文管理。

當(dāng)時(shí)我們?yōu)橐豢钔评砟P痛罱藱z查點(diǎn),隨后基于強(qiáng)化學(xué)習(xí)(RL)對(duì)它開(kāi)展了大量微調(diào)工作:我們會(huì)給模型布置各類編程相關(guān)任務(wù),比如解決編程問(wèn)題、修復(fù)測(cè)試用例、實(shí)現(xiàn)新功能,再通過(guò)強(qiáng)化學(xué)習(xí)的方式,訓(xùn)練模型如何更精準(zhǔn)地應(yīng)對(duì)這些任務(wù)。當(dāng)然,目前大多數(shù)人還做不到這一步,但大家力所能及的是,多思考該給智能體提供哪些上下文信息,才能讓它輸出最優(yōu)的結(jié)果。

比如觀察 Claude Code 的工作過(guò)程,它會(huì)生成多個(gè)探索型子智能體,這些子智能體會(huì)去檢索文件系統(tǒng)里的各類代碼相關(guān)內(nèi)容,完成后會(huì)把上下文信息帶回來(lái)并為我做好總結(jié),我就能清楚后續(xù)該怎么推進(jìn)工作了。

看不同智能體的上下文構(gòu)建方式,是件特別有意思的事。比如 Cursor 用的是語(yǔ)義搜索的方式,它會(huì)把所有內(nèi)容轉(zhuǎn)化為向量形式,再匹配和查詢需求最相關(guān)的內(nèi)容;而 Codex 和 Claude Code,其實(shí)用的都是 ripgrep 這個(gè)代碼搜索工具。這種方式之所以管用,是因?yàn)榇a的上下文信息密度很高。一行代碼通常不到 80 個(gè)字符,代碼倉(cāng)庫(kù)里不會(huì)有太多大數(shù)據(jù)塊或 JSON 格式的文件,就算有,數(shù)量也極少。

你可以參考 Git(代碼版本管理工具)的忽略規(guī)則,先過(guò)濾掉無(wú)關(guān)內(nèi)容或是已打包的文件,再通過(guò) Git 和 ripgrep 查找代碼的上下文,這樣就能很好地理解代碼的實(shí)際功能了。同時(shí)這類工具還能自動(dòng)掃描整個(gè)文件夾的結(jié)構(gòu),而且 LLM(大語(yǔ)言模型)特別擅長(zhǎng)生成復(fù)雜的 Git 命令,這些命令讓人類手動(dòng)寫(xiě)的話,簡(jiǎn)直是種折磨。而這一整套操作,其實(shí)就是強(qiáng)化學(xué)習(xí)(RL)在實(shí)際場(chǎng)景中的落地應(yīng)用。

我現(xiàn)在也在做非編程領(lǐng)域的智能體集成系統(tǒng),從代碼智能體的研發(fā)過(guò)程中,我也學(xué)到了很多:要把數(shù)據(jù)轉(zhuǎn)換成接近代碼的格式,讓模型能快速檢索到相關(guān)的周邊信息,進(jìn)而獲取到結(jié)構(gòu)化的有效數(shù)據(jù)。

主持人:優(yōu)秀的代碼智能體,核心能力就是上下文工程,那要成為這類工具的前 1% 頂尖用戶,有什么技巧?你的技術(shù)棧是怎樣的?你是如何借助這些工具大幅提升效率的?

Calvin French-Owen第一個(gè)技巧,是盡量減少底層代碼和基礎(chǔ)架構(gòu)的編寫(xiě)。

我平時(shí)會(huì)在 Vercel、Next.js 或 Cloudflare Workers 這些平臺(tái)部署技術(shù)棧,這些平臺(tái)已經(jīng)封裝了大量樣板代碼,不用自己費(fèi)心搭建各類服務(wù),也不用處理服務(wù)發(fā)現(xiàn)、中心端點(diǎn)注冊(cè)、數(shù)據(jù)庫(kù)配置這些問(wèn)題。所有功能基本都能在一兩百行代碼內(nèi)實(shí)現(xiàn)。我也傾向于采用微服務(wù)架構(gòu),或者使用結(jié)構(gòu)清晰的獨(dú)立軟件包。

其次,要了解 LLM 的核心優(yōu)勢(shì)。

其實(shí)代碼智能體的特點(diǎn),Andrej Karpathy 最近也在推特上提到過(guò):它們的執(zhí)行力極強(qiáng),不管遇到什么問(wèn)題,都會(huì)一直嘗試解決,最終往往會(huì)在現(xiàn)有基礎(chǔ)上做更多的拓展。所以如果你想引導(dǎo)它完成某個(gè)任務(wù),一定要明確指令。這里可以稍微拿 OpenAI 舉個(gè)例子,他們有一個(gè)龐大的 monorepo(單體代碼倉(cāng)庫(kù)),已經(jīng)用了好幾年,有成千上萬(wàn)的工程師在上面提交代碼。這些工程師里,有經(jīng)驗(yàn)豐富的資深開(kāi)發(fā)者,他們精通生產(chǎn)環(huán)境代碼的編寫(xiě);也有剛畢業(yè)的博士,編程經(jīng)驗(yàn)相對(duì)欠缺。人員構(gòu)成差異很大,所以 LLM 會(huì)根據(jù)你的引導(dǎo)方向,學(xué)習(xí)不同的代碼風(fēng)格。我覺(jué)得代碼智能體還有很大的探索空間,比如研究出最優(yōu)的代碼生成范式。顯然,給模型提供自我校驗(yàn)的方式,能大幅提升它的表現(xiàn),比如盡可能多地在代碼檢查、CI 等環(huán)節(jié)運(yùn)行測(cè)試用例。

我自己也會(huì)頻繁使用代碼審查機(jī)器人,YC 孵化的 Reptile 公司做的這款機(jī)器人用起來(lái)就特別順手;Cursor 的漏洞檢測(cè)機(jī)器人也很好用,我也常常用 Codex 做代碼審查,它在校驗(yàn)代碼正確性這塊的表現(xiàn)尤其突出。

這些都是代碼智能體格外擅長(zhǎng)的領(lǐng)域,除此之外,它們探索代碼倉(cāng)庫(kù)的能力也很出色。

當(dāng)然,智能體也有短板:它們擅長(zhǎng)做拓展,但如果你的需求不是拓展功能,它們往往會(huì)重復(fù)編寫(xiě)代碼,浪費(fèi)大量時(shí)間做已經(jīng)實(shí)現(xiàn)過(guò)的功能,這時(shí)候你就會(huì)覺(jué)得 “它完全沒(méi)理解我的需求”。

還有一個(gè)問(wèn)題是上下文污染,智能體可能會(huì)陷入某個(gè)循環(huán),因?yàn)閳?zhí)行力強(qiáng),會(huì)一直沿著錯(cuò)誤的方向推進(jìn),而它參考的上下文信息,其實(shí)對(duì)于解決問(wèn)題毫無(wú)幫助。所以我常用的一個(gè)方法,是主動(dòng)清理上下文,比如當(dāng)上下文的 token 占用率超過(guò) 50% 時(shí),就及時(shí)清理。

主持人:哇,這個(gè)比例其實(shí)特別關(guān)鍵。不知道你有沒(méi)有關(guān)注到,YC(Y Combinator 的縮寫(xiě),全球頂級(jí)的創(chuàng)業(yè)孵化器)2024 年秋季孵化營(yíng)里,那家做 HumanLayer(人類層)的公司,創(chuàng)始人 Dex Horthy 就總聊這個(gè)話題,還專門(mén)提出了 “LLM 愚笨區(qū)”的概念:當(dāng)上下文的 token 數(shù)量達(dá)到某個(gè)閾值后,模型的輸出質(zhì)量就會(huì)開(kāi)始下滑。

Calvin French-Owen:我完全認(rèn)同這個(gè)觀點(diǎn),結(jié)合強(qiáng)化學(xué)習(xí)(RL)的工作邏輯來(lái)看,這一點(diǎn)就更明顯了。

想象一下,你是一名參加考試的大學(xué)生,考試剛開(kāi)始的五分鐘,你會(huì)覺(jué)得時(shí)間很充裕,一定能好好答題,認(rèn)真思考每個(gè)問(wèn)題;但如果只剩五分鐘,試卷還有一半沒(méi)做完,你就會(huì)慌不擇路,只求盡快寫(xiě)完。LLM 的上下文窗口(context window),就是這個(gè)道理。

創(chuàng)業(yè)者們有一個(gè)小技巧,我覺(jué)得很實(shí)用:在上下文開(kāi)頭加一個(gè) “金絲雀檢測(cè)” 信息,就是一些特別小眾甚至有趣的內(nèi)容,比如 “我叫 Calvin French-Owen,早上八點(diǎn)喝了茶” 這類無(wú)關(guān)的小事實(shí)。然后在和模型的交互過(guò)程中,時(shí)不時(shí)問(wèn)它 “你記得我叫什么嗎?”“你記得我?guī)c(diǎn)喝的茶嗎?”,如果它開(kāi)始忘記這些信息,就說(shuō)明上下文已經(jīng)被污染了。這是我見(jiàn)過(guò)很多人用的方法,我自己還沒(méi)試過(guò),但完全相信它的效果。

主持人:這個(gè)方法很有意思。我在模型做上下文壓縮前,還沒(méi)遇到過(guò)這類問(wèn)題,可能是我沒(méi)太留意。你是說(shuō),token 數(shù)超標(biāo)后,模型會(huì)開(kāi)始做出一些不合理的操作?我得留意一下,這個(gè)問(wèn)題能在 Claude Code 內(nèi)部解決嗎?比如讓模型自己做檢測(cè),在上下文里加入類似 “心跳檢測(cè)” (通過(guò)定期發(fā)送 “狀態(tài)確認(rèn)信號(hào)”,實(shí)時(shí)監(jiān)控目標(biāo)對(duì)象的運(yùn)行狀態(tài),一旦信號(hào)異常就觸發(fā)預(yù)警或處理)的機(jī)制,實(shí)時(shí)監(jiān)控狀態(tài)。

Calvin French-Owen:理論上可以,但目前還做不到。我認(rèn)同你的終極設(shè)想,但現(xiàn)在要做好上下文管理,依然很難。目前的解決辦法,還是拆分上下文窗口(context window),然后嘗試合并信息,但 Claude Code 的會(huì)話結(jié)束后,上下文的內(nèi)容就是固定的,這一點(diǎn)還是有局限。

有意思的是,Codex 采用了完全相反的策略,OpenAI 的博客最近也提到了:它會(huì)在每次交互后定期做上下文壓縮,所以 Codex 能長(zhǎng)時(shí)間持續(xù)運(yùn)行。你看 CLI 里的 token 占用百分比,就能看到它會(huì)隨著壓縮操作上下浮動(dòng)。

Anthropic 要做人用的,

OpenAI 要做最好的,以及產(chǎn)品分發(fā)模式很重要

主持人:看來(lái) Claude Code 和 Codex 的架構(gòu)差異很大,Codex 似乎更適合長(zhǎng)時(shí)間運(yùn)行的任務(wù),所以二者的使用場(chǎng)景不同,架構(gòu)設(shè)計(jì)也天差地別?,F(xiàn)在看來(lái),CLI 的工具越來(lái)越火,2026 年可能會(huì)成為 “CLI 元年”。

但同時(shí)也有觀點(diǎn)認(rèn)為,通用人工智能已經(jīng)到來(lái),超級(jí)人工智能也近在咫尺。目前的代碼智能體已經(jīng)非常智能,但還達(dá)不到自主長(zhǎng)時(shí)間運(yùn)行的程度,如果計(jì)算能力提升十倍,能實(shí)現(xiàn) 24 小時(shí)甚至 48 小時(shí)的自主任務(wù)運(yùn)行嗎?Codex 的架構(gòu),能適配這種場(chǎng)景嗎?

Calvin French-Owen:這是個(gè)很好的問(wèn)題,答案其實(shí)藏在兩家公司的創(chuàng)立基因里。

Anthropic 一直很注重打造適合人類使用的工具,比如會(huì)關(guān)注模型的輸出風(fēng)格、語(yǔ)氣,以及如何和用戶的其他工作流程適配,Claude Code 就是這一理念的自然延伸。在很多方面,它的工作方式和人類很像:比如你要建一個(gè)狗窩,人類會(huì)去五金店買(mǎi)材料,然后研究如何組裝,Claude Code 也是如此。

而 OpenAI 的核心思路,是訓(xùn)練出最優(yōu)秀的模型,通過(guò)持續(xù)的強(qiáng)化學(xué)習(xí)(RL),讓它能處理更長(zhǎng)期、更復(fù)雜的任務(wù),最終實(shí)現(xiàn)通用人工智能。所以它的模型,工作方式可能和人類完全不同。還是以建狗窩為例,就像 AlphaGo 的下棋思路和人類不同一樣,OpenAI 的模型可能會(huì)直接用 3D 打印機(jī),從零開(kāi)始打印出一個(gè)狗窩,完全符合你的需求,過(guò)程可能會(huì)很長(zhǎng),成品也會(huì)高度定制化,甚至有些設(shè)計(jì)會(huì)很怪異,但最終能實(shí)現(xiàn)功能。

或許從長(zhǎng)遠(yuǎn)來(lái)看,這才是正確的方向,所以很期待兩家公司的后續(xù)發(fā)展。總的來(lái)說(shuō),OpenAI 的路線似乎是必然趨勢(shì),但我個(gè)人更喜歡 Anthropic 的思路。十年前,我還會(huì)自己寫(xiě)一些奇怪的腳本,在重構(gòu)代碼或理解代碼邏輯時(shí),用它來(lái)梳理各類信息,而 Claude Code 給我的感覺(jué),和當(dāng)年的這種體驗(yàn)一模一樣,用它一天,能完成五個(gè)人的工作量,就像給編程裝上了火箭助推器,太不可思議了。

主持人:很期待不同規(guī)模的公司,會(huì)如何應(yīng)用這類工具。我發(fā)現(xiàn),不管是業(yè)余愛(ài)好者,還是小型創(chuàng)業(yè)公司,都在盡可能挖掘代碼智能體的潛力,因?yàn)樗麄兏緵](méi)時(shí)間研究其他方法。創(chuàng)業(yè)公司的資金和時(shí)間都有限,一切都要以速度為核心。但大公司不一樣,他們有太多東西可以失去,還有各種代碼審查的內(nèi)部流程,也已經(jīng)組建了龐大的技術(shù)團(tuán)隊(duì)。

未來(lái)可能會(huì)出現(xiàn)一種很有趣的現(xiàn)象:一個(gè)人組成的小團(tuán)隊(duì),看到其他團(tuán)隊(duì)的工作效率低,就會(huì)自己用代碼智能體做一個(gè)原型,效果反而更好??傆幸惶?,這種小團(tuán)隊(duì)的成果會(huì)超越大團(tuán)隊(duì),行業(yè)格局的轉(zhuǎn)變,一定會(huì)很有意思。

Calvin French-Owen:其實(shí)前幾天我試了一款產(chǎn)品,它的用法很有意思:你下載一個(gè)桌面應(yīng)用,它會(huì)調(diào)用你電腦上運(yùn)行的 Claude Code,再通過(guò) MCP 服務(wù)器和桌面應(yīng)用通信。這種方式讓電腦的使用變得很不一樣,你不用征得任何人同意,下載后直接用就行。

在這個(gè)變化飛快的時(shí)代,產(chǎn)品的分發(fā)模式真的太重要了,自下而上的模式遠(yuǎn)比自上而下好,因?yàn)楹笳叩男蕦?shí)在太低。公司的首席技術(shù)官總會(huì)顧慮安全、隱私問(wèn)題,擔(dān)心各種突發(fā)情況,想要絕對(duì)的控制權(quán),但工程師們只會(huì)直接裝上工具開(kāi)始用,然后感嘆 “這東西太好用了”。

主持人:你說(shuō)得太對(duì)了。我本身是做企業(yè)級(jí) ToB 業(yè)務(wù)的,總覺(jué)得自上而下的銷售模式能構(gòu)建一定的競(jìng)爭(zhēng)壁壘,肯定會(huì)有公司找到方法,做出一款人人都能用上的產(chǎn)品,或許先從個(gè)人用戶切入會(huì)是個(gè)思路。

當(dāng)年的網(wǎng)景導(dǎo)航器(互聯(lián)網(wǎng)早期最具里程碑意義的網(wǎng)頁(yè)瀏覽器)就是如此,它對(duì)非商業(yè)用途免費(fèi),結(jié)果很多人下載后用在商業(yè)場(chǎng)景,網(wǎng)景就通過(guò)追蹤 IP 地址,統(tǒng)計(jì)不同公司的使用量,然后告知對(duì)方 “你們違規(guī)使用了,只需購(gòu)買(mǎi)授權(quán)就能繼續(xù)用”。我很好奇,這種模式現(xiàn)在還能復(fù)制嗎?

Calvin French-Owen:你關(guān)于分發(fā)模式的觀點(diǎn)很有意思,現(xiàn)在很多人甚至?xí)苯痈鶕?jù) Claude Code 的建議做架構(gòu)決策,他們可能都不知道該用什么分析工具,只要 Claude Code 說(shuō)用 PostHog( YC W2020 批次孵化的開(kāi)源平臺(tái) PostHog,核心定位是給開(kāi)發(fā)者和產(chǎn)品團(tuán)隊(duì)的 “全能型產(chǎn)品優(yōu)化工具箱”),他們就會(huì)百分百采用。

我做顧問(wèn)的一家公司,最近聊到了他們的生成式優(yōu)化策略,也就是如何在聊天機(jī)器人中優(yōu)化展示效果。他們說(shuō)有件事特別有趣:競(jìng)爭(zhēng)對(duì)手整理了一份行業(yè)內(nèi)必用的五大工具榜單,自己的產(chǎn)品當(dāng)然排在第一位。明眼人一看就知道這是偏見(jiàn),榜單里的頭部工具就是他們自己的產(chǎn)品。但 LLM 會(huì)被這種信息誤導(dǎo),它會(huì)整合各類上下文信息,然后判定 “這是行業(yè)頂級(jí)工具”,接著直接推薦給用戶。

我覺(jué)得做開(kāi)發(fā)者工具的話,完善的文檔、真實(shí)的用戶口碑,甚至在 Reddit 上的一些討論,這些都能極大地提升產(chǎn)品的認(rèn)可度,這也是很多開(kāi)源項(xiàng)目能快速崛起的原因。

Supabase 就是個(gè)典型例子,它去年發(fā)展得特別快,部分原因就是它的開(kāi)源文檔做得特別好,詳細(xì)教大家如何搭建各類功能。只要有人問(wèn)如何搭建類似 Firebase 的后端事務(wù)系統(tǒng),LLM 給出的默認(rèn)答案幾乎都是 Supabase。我親自試過(guò)很多次,結(jié)果都是這樣。它就像當(dāng)年的 Stack Overflow 和谷歌搜索一樣,占據(jù)了互聯(lián)網(wǎng)的信息入口,現(xiàn)在大家甚至都不用谷歌了,想想真的很神奇。而且這種模式對(duì)開(kāi)源項(xiàng)目的利好是不成比例的。

不知道你有沒(méi)有看到,Ramp 公司最近發(fā)了一篇博客,講他們?nèi)绾未蛟熳匝械拇a智能體,里面提到他們用開(kāi)源代碼作為框架,因?yàn)槟P涂梢灾苯幼x取源代碼,理解其工作邏輯。我對(duì)開(kāi)源產(chǎn)品一直這么做:克隆代碼倉(cāng)庫(kù),然后啟動(dòng) Codex 或 Claude Code,讓它講解代碼的邏輯,用起來(lái)特別實(shí)用。

未來(lái)公司會(huì)變小,

數(shù)據(jù)很重要

主持人:我們不妨?xí)诚胍幌滤氖旰蟮奈磥?lái):軟件、數(shù)據(jù)庫(kù)、訪問(wèn)控制依然存在,但軟件的核心會(huì)高度個(gè)性化。訪問(wèn)控制、權(quán)限分配這類事,依然是大家開(kāi)會(huì)討論的重點(diǎn),也就是所謂的 “管理者模式”,但公司的其他所有功能、規(guī)則,都由員工通過(guò)自己的 Claude Code 這類工具定義??赡苓€是 CLI,也可能是由大量智能體組成的協(xié)作體系,那會(huì)是一種怎樣的場(chǎng)景?

比如想象一下,現(xiàn)在如果有公司要接入 Segment,我們復(fù)刻代碼倉(cāng)庫(kù),給他們一個(gè)專屬版本,讓它在自己的服務(wù)器上運(yùn)行;如果他們想做修改,只需在聊天窗口告訴智能體,智能體通過(guò)代碼循環(huán)完成編輯,而 Segment 總公司推出新功能后,智能體還能自動(dòng)完成版本合并。

Calvin French-Owen:我完全能想象出這種場(chǎng)景,這也是我一直在思考的。雖然不知道這個(gè)未來(lái)還有多遠(yuǎn),但最終,每個(gè)工作的人都會(huì)有自己的云電腦和專屬的云智能體團(tuán)隊(duì),智能體替自己處理各類事務(wù),彼此之間也會(huì)溝通協(xié)作。這就像有一個(gè)超級(jí)執(zhí)行助理,它會(huì)告訴你 “這些是你需要關(guān)注的事”“你可以快速做這些決策”“這件事需要你多花時(shí)間”“你該和這些人見(jiàn)面溝通”。我覺(jué)得,人與人之間面對(duì)面交流、交換想法的需求,永遠(yuǎn)不會(huì)消失,至少我能從這種交流中獲得很大的滿足感。除此之外,會(huì)有大量的智能體替人類執(zhí)行任務(wù),實(shí)現(xiàn)各類工作的自動(dòng)化。

未來(lái)的公司,平均規(guī)模可能會(huì)變小,但數(shù)量會(huì)更多,能做的事也會(huì)更多。我還很好奇,Paul Graham 提出的 Maker Schedule(創(chuàng)作者日程:給做核心創(chuàng)作 、研發(fā)的人用的,需要大塊、連續(xù)、不被打斷的時(shí)間) 和 Manager Schedule(管理者日程:給做管理、協(xié)調(diào)、溝通的人用的,時(shí)間是碎片化、以小時(shí)為單位的,充滿會(huì)議、溝通、臨時(shí)決策,習(xí)慣頻繁切換事務(wù)),未來(lái)會(huì)演變成什么樣子。

在 YC,我們的工作基本都是 Manager Schedule(管理者日程),這讓我們很難有時(shí)間自己寫(xiě)代碼、做產(chǎn)品。但現(xiàn)在有了代碼智能體,一切都變了,很多合伙人開(kāi)會(huì)時(shí),就像這期播客剛開(kāi)始時(shí)我做的一樣,讓智能體后臺(tái)運(yùn)行處理任務(wù),自己專注開(kāi)會(huì),等會(huì)開(kāi)完,任務(wù)也完成了。

主持人:沒(méi)錯(cuò),就是利用碎片化時(shí)間。以前編程,至少需要四個(gè)小時(shí)的整塊時(shí)間,否則根本不值得開(kāi)始,對(duì)吧?這其實(shí)也反映出編程方式的巨大變化:以前寫(xiě)代碼,你需要把所有類名、函數(shù)、關(guān)聯(lián)的代碼都記在腦子里,構(gòu)建自己的“上下文窗口”,這個(gè)過(guò)程需要好幾個(gè)小時(shí),所以想用十分鐘的碎片化時(shí)間編程,根本不可能,只會(huì)讓人覺(jué)得沮喪。

Calvin French-Owen我覺(jué)得未來(lái)的核心基礎(chǔ)能力之一,依然是保持?jǐn)?shù)據(jù)模型的一致性,而核心的記錄系統(tǒng),也有機(jī)會(huì)率先實(shí)現(xiàn)智能體化。現(xiàn)在我們的工作,還是高度依賴數(shù)據(jù)庫(kù),以及底層的 SQL 或 NoSQL 查詢,但未來(lái)或許會(huì)出現(xiàn)一種工具,能為定制化軟件的各類視圖,自動(dòng)生成所需的所有數(shù)據(jù)。

未來(lái)的軟件世界,會(huì)有大量定制化視圖,但數(shù)據(jù)的準(zhǔn)確性,依然是核心前提。數(shù)據(jù)的重要性不言而喻,這一點(diǎn)從很多公司的做法中就能看出來(lái):比如很多公司通過(guò) API 或 MCP 開(kāi)放數(shù)據(jù)訪問(wèn)權(quán)限,而 Slack(全球最主流的企業(yè)級(jí)團(tuán)隊(duì)協(xié)作與即時(shí)溝通平臺(tái),常被稱作「硅谷版釘釘 / 企業(yè)微信」) 就收緊了 API 的權(quán)限,因?yàn)樗麄儾幌胱層脩舭哑脚_(tái)上的所有數(shù)據(jù)都導(dǎo)出,然后基于這些數(shù)據(jù)搭建智能體應(yīng)用。

主持人:你對(duì)這款智能體的了解很深,那你覺(jué)得,這類工具普及后,哪種類型的工程師會(huì)受益更多?

Calvin French-Owen:總的來(lái)說(shuō),工程師的資歷越深,受益就越多。因?yàn)橹悄荏w特別擅長(zhǎng)把想法轉(zhuǎn)化為實(shí)際行動(dòng),如果你能用幾句話清晰地描述需求,就能立刻讓它落地。

我在瀏覽開(kāi)源代碼倉(cāng)庫(kù)時(shí),經(jīng)常會(huì)有這種感受:看到某處代碼,覺(jué)得可以優(yōu)化,只要把這個(gè)想法告訴智能體,讓它去執(zhí)行,最后等待反饋就行。這種方式能極大地提升效率,放大個(gè)人的影響力。

其次,能判斷哪些代碼修改在架構(gòu)層面是合理的、哪些是不合理的,或者能準(zhǔn)確判斷該在哪個(gè)節(jié)點(diǎn)向智能體發(fā)出指令,這一點(diǎn)也很重要。我覺(jué)得做事有條理、帶有 “管理者思維” 的工程師,會(huì)更適配這類工具。

而且目前來(lái)看,這個(gè)領(lǐng)域還缺少一款核心產(chǎn)品,比如類似 Conductor 這樣的工具,能整合你所有的會(huì)話,提醒你 “這個(gè)任務(wù)已經(jīng)完成,需要你確認(rèn)”“你該把注意力轉(zhuǎn)到另一個(gè)任務(wù)上了”。Conductor(核心解決 AI 編程的 “失憶問(wèn)題)這類工具,應(yīng)該給智能體加上上下文管理功能,其實(shí)人類也需要這樣的上下文管理工具,這一點(diǎn)是毋庸置疑的。

主持人:如果讓你回到大學(xué),重新學(xué)習(xí)計(jì)算機(jī)科學(xué),讓你自己制定課程表,你會(huì)選擇學(xué)習(xí)哪些內(nèi)容?

Calvin French-Owen:就我個(gè)人而言,理解各類系統(tǒng)的工作原理,依然是最重要的。比如 Git、HTTP、隊(duì)列這類數(shù)據(jù)庫(kù),了解這些系統(tǒng)的基礎(chǔ)概念,至關(guān)重要。另外,我會(huì)專門(mén)安排一個(gè)學(xué)期,每周都動(dòng)手做項(xiàng)目,盡全力挖掘模型的潛力。

在使用模型的過(guò)程中,你會(huì)發(fā)現(xiàn),遇到問(wèn)題時(shí),總能向上層抽象,讓模型來(lái)解決。比如你可以給模型一個(gè) “實(shí)現(xiàn)” 命令,讓它完成計(jì)劃的下一階段;也可以給一個(gè) “全部實(shí)現(xiàn)” 命令,讓它分階段執(zhí)行,生成新的子智能體;還能給一個(gè) “校驗(yàn)” 命令,讓它自查成果。模型的能力邊界一直在變化,所以多動(dòng)手嘗試,是很有必要的。

還有一件事讓我覺(jué)得很有意思,我特別想教 18 到 22 歲的年輕人做產(chǎn)品。我們這桌人,都做出過(guò)用戶真正需要、真正喜歡的產(chǎn)品,該怎么把這種能力教給年輕人,是一個(gè)值得思考的問(wèn)題。我很好奇,五年后的年輕人,會(huì)不會(huì)在產(chǎn)品審美等方面遠(yuǎn)超現(xiàn)在的我們?因?yàn)樗麄兡芙柚悄荏w,做出更多的嘗試,產(chǎn)出更多的成果。他們本就該如此,不是嗎?他們的產(chǎn)品落地速度、接觸現(xiàn)實(shí)的機(jī)會(huì),應(yīng)該是上一代人的十倍。

主持人:說(shuō)到這里,我有一個(gè)疑問(wèn),不知道你有沒(méi)有這種感受:我小時(shí)候,媽媽總跟我說(shuō) “別一心二用,根本沒(méi)認(rèn)真聽(tīng)我說(shuō)話”。這話其實(shí)有道理,我當(dāng)時(shí)確實(shí)盯著電腦,沒(méi)認(rèn)真聽(tīng),但我發(fā)現(xiàn),我比父母那一代人更擅長(zhǎng)多任務(wù)處理。而現(xiàn)在的年輕人,比我們更厲害,因?yàn)樗麄兂砷L(zhǎng)在互聯(lián)網(wǎng)時(shí)代,每天接觸抖音這類短視頻,應(yīng)對(duì)各種碎片化信息。我覺(jué)得,未來(lái)既需要能深度思考的人 —— 他們能專注觀察、理解問(wèn)題、解決問(wèn)題,也需要能靈活切換場(chǎng)景的人 —— 他們能同時(shí)處理多個(gè)任務(wù),不斷切換上下文,也就是所謂的 “注意力缺陷多動(dòng)障礙模式”。

Calvin French-Owen:沒(méi)錯(cuò),新一代的年輕人特別擅長(zhǎng)這一點(diǎn)。我一直覺(jué)得,有一種聰明人,或許是帶有注意力缺陷多動(dòng)障礙的特質(zhì),他們腦子里同時(shí)醞釀著很多好項(xiàng)目,但從來(lái)沒(méi)有真正完成過(guò)一個(gè)。我自己可能就有點(diǎn)這種性格。我之前發(fā)布了自己的氛圍代碼,其實(shí)如果不是 Claude Code,我根本完不成。

我覺(jué)得,有些人的大腦就像有十個(gè)分支同時(shí)運(yùn)轉(zhuǎn),但一天的時(shí)間有限,根本沒(méi)法把所有想法都落地,所以項(xiàng)目總是半途而廢。而現(xiàn)在,Claude Code 能幫我把所有想法都落地。你在博客里也提到過(guò),用它的感覺(jué)就像玩電子游戲,總有新鮮感。比如你開(kāi)始做一個(gè)項(xiàng)目,做到一半覺(jué)得無(wú)聊,又有了新的想法,想先做新想法,再回頭做原來(lái)的項(xiàng)目,以前這么做,很容易半途而廢,但現(xiàn)在有了智能體,兩個(gè)項(xiàng)目最終都能完成。

主持人:十歲的孩子每天都有寫(xiě)作作業(yè),昨天他第一次用人工智能寫(xiě)作業(yè),我一看就知道,那些表達(dá)根本不是一個(gè)十歲孩子能寫(xiě)出來(lái)的。

這讓我想到,我們現(xiàn)在和很多 18 到 22 歲的年輕人合作,他們有實(shí)習(xí)經(jīng)歷,但沒(méi)有做過(guò)管理工作,不懂產(chǎn)品市場(chǎng)匹配后的運(yùn)營(yíng)邏輯 —— 當(dāng)你面對(duì)數(shù)百萬(wàn)的任務(wù)隊(duì)列、數(shù)十萬(wàn)的錯(cuò)誤日志時(shí),才是真正的管理工作。這份工作其實(shí)很枯燥,要逐行排查錯(cuò)誤日志,還要在后臺(tái)手動(dòng)確保產(chǎn)品對(duì)所有用戶都能正常運(yùn)行。

新一代的開(kāi)發(fā)者,該如何理解這些內(nèi)容?Claude Code 這樣的智能體,能教他們架構(gòu)設(shè)計(jì)這類知識(shí)嗎?還是說(shuō),他們只能自己踩坑試錯(cuò),在摸索中成長(zhǎng)?

Calvin French-Owen我做產(chǎn)品的過(guò)程中,花最多時(shí)間思考的,就是產(chǎn)品的核心范式:用戶現(xiàn)在需要理解哪些內(nèi)容?他們能借助哪些基礎(chǔ)能力,實(shí)現(xiàn)自己的各類需求?我總喜歡用 Slack 舉例子,它其實(shí)算不上什么全新的概念,在此之前已經(jīng)有很多聊天工具了,但它把頻道、消息、互動(dòng)功能做的極簡(jiǎn),普通人一看就懂,知道該怎么用,這就是它的成功之處。但一旦用戶習(xí)慣了這種模式,后續(xù)再想改變就很難了,比如想改成以文檔為核心,或者現(xiàn)在想加入智能體功能,都很難改變用戶的固有認(rèn)知。所以我做產(chǎn)品時(shí),從一開(kāi)始就會(huì)仔細(xì)考慮這一點(diǎn),因?yàn)榻o代碼智能體設(shè)定的核心規(guī)則,會(huì)成為它一直遵循的準(zhǔn)則,并且不斷拓展延伸。

代碼智能體的制約因素有哪些

主持人:說(shuō)到這里,我很好奇,如果現(xiàn)在讓你用當(dāng)下的工具,重新打造 Segment,你會(huì)怎么做?

Calvin French-Owen:Segment 的業(yè)務(wù)其實(shí)很有意思,我們最初的核心,是做各類集成功能:把相同的數(shù)據(jù),對(duì)接至 Mixpanel、Kissmetrics、谷歌分析等平臺(tái)。以前寫(xiě)這類集成代碼,繁瑣又困難,所以用戶愿意付費(fèi)使用。但現(xiàn)在,這項(xiàng)工作的價(jià)值幾乎降為零,甚至很多時(shí)候,你直接告訴 Claude Code 或 Codex“我想這樣做數(shù)據(jù)映射,需要這個(gè)特定功能”,它就能精準(zhǔn)實(shí)現(xiàn),完全契合你的需求。所以 Segment 的集成業(yè)務(wù),價(jià)值已經(jīng)大幅縮水。

但保持?jǐn)?shù)據(jù)管道(data pipeline)的穩(wěn)定運(yùn)行、實(shí)現(xiàn)業(yè)務(wù)流程的自動(dòng)化,比如客戶注冊(cè)時(shí),通過(guò) Customer IO 自動(dòng)發(fā)送郵件、管理用戶群體,這些功能的價(jià)值依然存在,而且還有很大的拓展空間。

比如借助這些數(shù)據(jù)構(gòu)建完整的用戶畫(huà)像(user profile),再讓小型大模型(LLM)智能體分析:該如何給用戶推送郵件?用戶登錄時(shí),是否要調(diào)整產(chǎn)品的部分功能?是否要根據(jù)用戶的不同特征,設(shè)計(jì)差異化的引導(dǎo)流程?這些都是很有意思的方向,而且都能通過(guò)智能體實(shí)現(xiàn)。

這也是我會(huì)做出的核心改變:就像你之前說(shuō)的,向技術(shù)棧上層遷移,摒棄底層的基礎(chǔ)開(kāi)發(fā)工作,更多聚焦在營(yíng)銷活動(dòng)這類更抽象的業(yè)務(wù)層面發(fā)力。

主持人:沒(méi)錯(cuò)。我特別驚訝的是,Claude Code 僅憑我正在做的項(xiàng)目的上下文,就能精準(zhǔn)理解我的需求和意圖。我至今依然覺(jué)得代碼智能體很神奇:你把代碼倉(cāng)庫(kù)的副本給它,留個(gè)簡(jiǎn)單的指令,比如 “實(shí)現(xiàn)這個(gè)功能”,它就能完成。大多數(shù)情況下,它根本不知道你的公司是做什么的、你的用戶是誰(shuí),或許因?yàn)橛?xùn)練數(shù)據(jù)里有我的信息,它知道我是加里,但它能完成任務(wù)這件事,本身就令人難以置信。這也能看出上下文的重要性,對(duì)吧?如果它捕捉到的上下文信息有誤,就會(huì)偏離方向;如果遺漏了關(guān)鍵信息,就會(huì)重復(fù)造輪子。

你覺(jué)得目前代碼智能體的發(fā)展,還有哪些制約因素?上下文窗口的限制依然存在,但現(xiàn)在的窗口已經(jīng)很大了,雖然還做不了大規(guī)模的架構(gòu)重構(gòu),但很多任務(wù)都能完成。Opus4.5 模型的智能程度有了很大提升,帶來(lái)了很大的突破,我不知道這是預(yù)訓(xùn)練還是后訓(xùn)練的成果。除了基礎(chǔ)的模型智能、前沿模型的能力和上下文窗口,還有哪些因素能推動(dòng)它的發(fā)展?

Calvin French-Owen:我依然覺(jué)得,上下文窗口是目前最大的制約因素。觀察 Claude Code 的執(zhí)行過(guò)程就會(huì)發(fā)現(xiàn),它會(huì)把任務(wù)委托給多個(gè)不同的上下文窗口,每個(gè)窗口完成任務(wù)后,會(huì)反饋總結(jié)后的信息,所以模型其實(shí)無(wú)法獲取完整的上下文。如果一個(gè)任務(wù)的復(fù)雜度太高,單個(gè)上下文窗口根本容納不下,那么無(wú)論怎么壓縮,都無(wú)濟(jì)于事。Anthropic 的子上下文窗口委托策略,確實(shí)很實(shí)用,但這依然是一個(gè)難以突破的壁壘。如果每次都能有百萬(wàn)級(jí) token 的上下文窗口,效果會(huì)好得多。

而且我們還需要找到更好的方法,專門(mén)訓(xùn)練模型處理長(zhǎng)上下文的能力。互聯(lián)網(wǎng)上有大量的訓(xùn)練數(shù)據(jù),能讓模型預(yù)測(cè)下一句話、下一個(gè)段落是什么,但如果有 8 萬(wàn)個(gè) token 的上下文,模型需要根據(jù)其中 2 萬(wàn)個(gè) token 的信息,判斷下一步該做什么,這就困難多了。

我覺(jué)得,集成和編排能力,正在成為新的制約因素。這一點(diǎn)在代碼審查中體現(xiàn)得很明顯:合并代碼時(shí),誰(shuí)來(lái)審核?還需要人類審核嗎?該如何驗(yàn)證代碼修改的合理性?還有,如何從各類工具中精準(zhǔn)獲取上下文,比如你提到的 Sentry 錯(cuò)誤監(jiān)控工具,如何讓它自動(dòng)匹配 PR,先將修改推送給部分用戶測(cè)試,效果好再全面上線?這些自動(dòng)化功能,都還需要逐步搭建。

我還發(fā)現(xiàn),測(cè)試的重要性遠(yuǎn)超我的預(yù)期。我剛開(kāi)始用 Claude Code 的前兩三天,完全沒(méi)寫(xiě)測(cè)試用例,或者說(shuō)寫(xiě)得很少,結(jié)果效率很低。直到有一天,我決定 “今天專門(mén)做重構(gòu),把測(cè)試覆蓋率做到 100%”,從那之后,我的編程效率直接飆升,模型能精準(zhǔn)完成任務(wù),而且不會(huì)出問(wèn)題。我?guī)缀醪挥檬謩?dòng)測(cè)試,因?yàn)闇y(cè)試覆蓋率足夠高,代碼的穩(wěn)定性也有保障。這和很多公司在編程之外的提示工程工作很像,大家都在采用測(cè)試驅(qū)動(dòng)開(kāi)發(fā)的模式。

我們之前和杰克?赫勒做過(guò)一期節(jié)目,他提到一個(gè)重要的范式轉(zhuǎn)變:做出優(yōu)質(zhì)的提示詞,核心也是測(cè)試驅(qū)動(dòng),測(cè)試用例其實(shí)就是評(píng)估標(biāo)準(zhǔn)。

主持人:目前還是有一些流程會(huì)出問(wèn)題,我覺(jué)得需要一款能對(duì)接 Stack Overflow(全球最大、最權(quán)威的程序員專屬問(wèn)答社區(qū)) 的 Claude Code,相當(dāng)于專屬的智能體版 Stack Overflow。

我最近就遇到一個(gè)奇葩問(wèn)題:我本想設(shè)置任務(wù)隊(duì)列的優(yōu)先級(jí),結(jié)果模型自動(dòng)生成了一個(gè)帶逗號(hào)的字符串,它以為這個(gè)語(yǔ)法能生效,但系統(tǒng)實(shí)際需要的是 JSON 數(shù)組,結(jié)果所有任務(wù)都無(wú)法運(yùn)行。然后我看著 Claude Code 花了 30 分鐘,遍歷了 Rails 主動(dòng)任務(wù)框架幾千行的源代碼,一步步排查問(wèn)題,最后居然找到了漏洞。

當(dāng)時(shí)我真的驚呆了。想想十年前,我遇到這種問(wèn)題,只會(huì)去 Stack Overflow 或 Rails 的博客找答案,然后發(fā)現(xiàn) “原來(lái)這個(gè)低級(jí)漏洞一直沒(méi)人修,大家都以為能直接用逗號(hào)分隔的字符串,其實(shí)必須改成數(shù)組”?,F(xiàn)在想起來(lái),真的特別搞笑。

我覺(jué)得這也是思考未來(lái)發(fā)展的難點(diǎn):有些事,人類在 CLI 里一眼就能看出問(wèn)題,但智能體卻做不到。就算把它的智能程度提升 10 個(gè)虛擬智商點(diǎn),它能解決這類問(wèn)題嗎?恐怕還是只會(huì)覺(jué)得 “這就是個(gè)普通的字符串而已”。

Calvin French-Owen:沒(méi)錯(cuò)。我覺(jué)得智能體的記憶功能,也是一個(gè)很有意思的研究方向。

Claude Code 已經(jīng)做了相關(guān)嘗試,Codex2 也一樣,它們會(huì)把所有的會(huì)話記錄以文件的形式保存。未來(lái)或許可以給智能體加一個(gè)工具,讓它能讀取過(guò)往的會(huì)話記錄。不過(guò)目前來(lái)看,智能體之間的協(xié)作,還缺少一個(gè)核心環(huán)節(jié)。

如果能有一個(gè)方式,讓同事之間的提示詞能智能共享,比如你遇到了一個(gè)問(wèn)題,發(fā)現(xiàn)另一個(gè)同事布萊恩之前已經(jīng)解決過(guò)了,你們能共享這個(gè)解決方案,那就太完美了。我覺(jué)得未來(lái)或許會(huì)出現(xiàn)模型生成的維基百科,或者類似格拉奧佩迪亞的知識(shí)庫(kù)。

Codex 寫(xiě)代碼時(shí),能明顯看出它的 “個(gè)性”,它會(huì)做很多人類不會(huì)做的事,有點(diǎn)像 AlphaGo 的思路,比如它會(huì)寫(xiě) Python 腳本,修改文件系統(tǒng)的部分內(nèi)容。這種行為很有趣,是一種模型習(xí)得的、和人類截然不同的方式。但對(duì)我來(lái)說(shuō),它在調(diào)試復(fù)雜問(wèn)題時(shí)的表現(xiàn),堪稱超人類,很多 Opus 模型解決不了的問(wèn)題,Codex 都能搞定。

主持人:能舉個(gè)具體的復(fù)雜問(wèn)題的例子嗎?

Calvin French-Owen比如并發(fā)問(wèn)題或者命名問(wèn)題。我發(fā)現(xiàn)模型其實(shí)在并發(fā)處理方面的表現(xiàn)還不錯(cuò),真正的難點(diǎn)在這類場(chǎng)景:一個(gè)請(qǐng)求需要調(diào)用多個(gè)不同的服務(wù) —— 就像你之前提到的,處理帶逗號(hào)的內(nèi)容時(shí)的序列化和反序列化問(wèn)題。模型需要跟蹤這類復(fù)雜的操作邏輯,或者更新復(fù)雜的用戶界面狀態(tài)。如果涉及的文件太多,Opus 模型往往會(huì)遺漏關(guān)鍵信息,但 Codex 能精準(zhǔn)捕捉到。

主持人:確實(shí)很有意思。那你預(yù)測(cè)一下,這類代碼工具未來(lái)會(huì)如何發(fā)展?

Calvin French-Owen:這個(gè)領(lǐng)域的發(fā)展真的很有意思,我感覺(jué)自己就像一個(gè)新來(lái)的探索者,明明知道這個(gè)領(lǐng)域在飛速發(fā)展,卻因?yàn)橐恢碧幱?“管理者模式”,沒(méi)有實(shí)際參與。直到有一個(gè)項(xiàng)目出現(xiàn),我決定全身心投入,現(xiàn)在才算真正踏入這個(gè)領(lǐng)域,雖然感覺(jué)有些陌生,但一切又和我記憶中編程的本質(zhì)一模一樣。我覺(jué)得大家應(yīng)該都有這種感受,而最重要的事,就是多動(dòng)手嘗試,因?yàn)檫@個(gè)領(lǐng)域的變化太快了,每隔幾個(gè)月就會(huì)有新的突破。

我覺(jué)得未來(lái),能把代碼智能體的價(jià)值發(fā)揮到極致的人,會(huì)是那些帶有 “管理者思維” 的人,他們擅長(zhǎng)用特定的方式引導(dǎo)智能體的工作流程。在某些方面,他們還會(huì)像設(shè)計(jì)師或藝術(shù)家,能精準(zhǔn)判斷產(chǎn)品該包含哪些功能、可以舍棄哪些內(nèi)容。而且他們會(huì)很擅長(zhǎng)思考自動(dòng)化的實(shí)現(xiàn)方式,以及判斷智能體在哪些環(huán)節(jié)會(huì)遺漏上下文信息。

說(shuō)個(gè)有趣的事,我最近用 Codex 做 Rails 項(xiàng)目,發(fā)現(xiàn)一個(gè)很明顯的問(wèn)題:OpenAI 里沒(méi)人關(guān)注 Rails 框架。這其實(shí)也能理解,Rails 算是一種比較老舊的語(yǔ)言,用起來(lái)也比較奇怪,只是我十年前深入研究過(guò)它,現(xiàn)在用起來(lái)還是很有感情。這也讓我發(fā)現(xiàn)一個(gè)道理:任何人都能做出一款產(chǎn)品,但做出用戶真正需要的產(chǎn)品,卻無(wú)比困難,哪怕你像 OpenAI 一樣,擁有無(wú)限的資源。

如果 Codex 的研發(fā)人員現(xiàn)在正在看這期節(jié)目,我想提一個(gè)建議:把主流的運(yùn)行時(shí)環(huán)境都梳理一遍,給它們加上適配的語(yǔ)法糖,其實(shí)針對(duì)前 15 種主流運(yùn)行時(shí),最多只需要提交 10 個(gè)代碼合并請(qǐng)求就能搞定。這件事也提醒我們:現(xiàn)在,開(kāi)發(fā)者再也沒(méi)有借口,做出對(duì)用戶不友好的軟件了。

訓(xùn)練數(shù)據(jù)的組合方式,也是一個(gè)很有意思的點(diǎn)。Codex 在 Python monorepo(用「單一代碼倉(cāng)庫(kù)」的方式管理的 Python 項(xiàng)目)上的表現(xiàn)特別好,這和 OpenAI 的代碼環(huán)境息息相關(guān)。我在 OpenAI 內(nèi)部使用 Codex 時(shí),真的覺(jué)得這款工具太神奇了,表現(xiàn)堪稱完美,這和它的訓(xùn)練數(shù)據(jù)組合、研發(fā)人員的技術(shù)方向都密不可分

Anthropic 則更關(guān)注前端相關(guān)的開(kāi)發(fā),至于 Ruby 語(yǔ)言,目前哪家公司的模型做得最好、誰(shuí)的訓(xùn)練數(shù)據(jù)組合更優(yōu),我還不太清楚。

不同的實(shí)驗(yàn)室有不同的思路:有些實(shí)驗(yàn)室認(rèn)為 “數(shù)據(jù)越多越好”,會(huì)盡可能多地投喂數(shù)據(jù);有些則會(huì)更精細(xì)地調(diào)整數(shù)據(jù)的組合方式。不同的思路,會(huì)帶來(lái)截然不同的結(jié)果,比如只選取 JavaScript 領(lǐng)域前 10% 的優(yōu)質(zhì)數(shù)據(jù)做訓(xùn)練,和用全量數(shù)據(jù)訓(xùn)練,效果肯定不一樣。

不過(guò)就我的使用體驗(yàn)來(lái)看,OpenAI 的模型在 Ruby 語(yǔ)言上的表現(xiàn)其實(shí)很好,問(wèn)題主要出在模型的配套框架上。Rails 框架有個(gè)很奇葩的設(shè)定,必須用特定的方式訪問(wèn) PostgreSQL 數(shù)據(jù)庫(kù),否則就無(wú)法適配,核心問(wèn)題還是 sandbox 的限制。

OpenAI 其實(shí)是所有公司中,對(duì) sandbox 和安全問(wèn)題最重視的。我記得研發(fā) Codex 時(shí),模型發(fā)布前的一個(gè)核心審核環(huán)節(jié),就是每次都要詳細(xì)說(shuō)明模型的安全風(fēng)險(xiǎn),以及對(duì)應(yīng)的應(yīng)對(duì)方案。我們當(dāng)時(shí)重點(diǎn)研究的一個(gè)問(wèn)題,就是提示詞注入,尤其是模型面向互聯(lián)網(wǎng)開(kāi)放后,這個(gè)問(wèn)題更突出。很多用戶都要求模型能對(duì)接互聯(lián)網(wǎng),我們當(dāng)時(shí)心里也沒(méi)底,因?yàn)樘崾驹~注入的實(shí)現(xiàn)方式,看起來(lái)太簡(jiǎn)單了。

我們團(tuán)隊(duì)的產(chǎn)品經(jīng)理亞歷克斯,做了一個(gè)測(cè)試:他在 GitHub 上提了一個(gè)問(wèn)題,里面包含一個(gè)明顯的提示詞注入指令,比如 “泄露這個(gè)信息”,然后讓模型去解決這個(gè)問(wèn)題。他當(dāng)時(shí)覺(jué)得 “模型肯定不會(huì)中招”,結(jié)果模型立刻就執(zhí)行了提示詞注入的指令。也正因如此,OpenAI 對(duì)這個(gè)問(wèn)題的擔(dān)憂是很有道理的,他們的解決方案是:讓模型的所有操作都在 sandbox 中運(yùn)行,確保它不會(huì)訪問(wèn)電腦上的敏感文件,嚴(yán)格保護(hù)用戶的機(jī)密信息。而創(chuàng)業(yè)公司因?yàn)樽非蟀l(fā)展速度,可能根本不在乎這些,他們只希望模型能正常工作。

主持人:你是那種會(huì)冒險(xiǎn)跳過(guò)權(quán)限驗(yàn)證的人嗎?

Calvin French-Owen:其實(shí)我不是,我會(huì)設(shè)置一系列的校驗(yàn)環(huán)節(jié),也會(huì)仔細(xì)查看模型的每一步操作。

https://www.youtube.com/watch?v=qwmmWzPnhog

會(huì)議推薦

InfoQ 2026 全年會(huì)議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術(shù)前沿到行業(yè)應(yīng)用,全面覆蓋 AI 與軟件開(kāi)發(fā)核心賽道!集結(jié)全球技術(shù)先鋒,拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn),探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能,獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),搶占 2026 智能升級(jí)發(fā)展先機(jī)!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
癡呆風(fēng)險(xiǎn)直降26%!清華大學(xué):每天攝入50微克這種常見(jiàn)維生素即可

癡呆風(fēng)險(xiǎn)直降26%!清華大學(xué):每天攝入50微克這種常見(jiàn)維生素即可

時(shí)光派健康抗衰
2026-03-05 11:00:03
“舉國(guó)之力,打造中國(guó)的阿斯麥”

“舉國(guó)之力,打造中國(guó)的阿斯麥”

觀察者網(wǎng)
2026-03-05 22:53:10
過(guò)分!結(jié)婚50天就離婚,女方40萬(wàn)彩禮一分不退,婚內(nèi)碰一下就吃藥

過(guò)分!結(jié)婚50天就離婚,女方40萬(wàn)彩禮一分不退,婚內(nèi)碰一下就吃藥

談史論天地
2026-03-04 16:57:30
穎兒為老公舉辦生日派對(duì)!38歲付辛博臉好小,大合影P上了劉端端

穎兒為老公舉辦生日派對(duì)!38歲付辛博臉好小,大合影P上了劉端端

樂(lè)悠悠娛樂(lè)
2026-03-05 10:50:03
政府報(bào)告三提“休假”背后:一年117天假 為什么中國(guó)人還休不夠

政府報(bào)告三提“休假”背后:一年117天假 為什么中國(guó)人還休不夠

冷觀互聯(lián)網(wǎng)
2026-03-06 11:48:12
香菇再次被關(guān)注!醫(yī)生發(fā)現(xiàn):癌癥患者吃香菇,不用多久或有5改善

香菇再次被關(guān)注!醫(yī)生發(fā)現(xiàn):癌癥患者吃香菇,不用多久或有5改善

讀懂世界歷史
2026-02-12 21:48:53
周末陽(yáng)光回歸,下周又有冷空氣影響廣東!

周末陽(yáng)光回歸,下周又有冷空氣影響廣東!

廣東衛(wèi)視
2026-03-07 17:22:53
汪小菲撕破臉,曝親媽無(wú)股權(quán)和麻六記沒(méi)關(guān)系,張?zhí)m怒言錢(qián)全給孫子

汪小菲撕破臉,曝親媽無(wú)股權(quán)和麻六記沒(méi)關(guān)系,張?zhí)m怒言錢(qián)全給孫子

胡一舸南游y
2026-03-06 17:10:51
國(guó)家發(fā)展改革委主任鄭柵潔:預(yù)計(jì)今年GDP增量超過(guò)6萬(wàn)億元!安排更多的政策和資金,更好地釋放消費(fèi)潛力

國(guó)家發(fā)展改革委主任鄭柵潔:預(yù)計(jì)今年GDP增量超過(guò)6萬(wàn)億元!安排更多的政策和資金,更好地釋放消費(fèi)潛力

每日經(jīng)濟(jì)新聞
2026-03-06 20:13:05
萬(wàn)萬(wàn)沒(méi)想到,今年兩會(huì)最火的提案,竟然會(huì)是靳東的回答

萬(wàn)萬(wàn)沒(méi)想到,今年兩會(huì)最火的提案,竟然會(huì)是靳東的回答

秋姐居
2026-03-07 17:05:58
我國(guó)著名主持人赴瑞士安樂(lè)死,兒子講述其死前慘狀:我非常后悔

我國(guó)著名主持人赴瑞士安樂(lè)死,兒子講述其死前慘狀:我非常后悔

阿訊說(shuō)天下
2026-02-21 12:35:11
長(zhǎng)期佩戴骨傳導(dǎo)耳機(jī)會(huì)致聾?醫(yī)生:7天內(nèi)是黃金治療期

長(zhǎng)期佩戴骨傳導(dǎo)耳機(jī)會(huì)致聾?醫(yī)生:7天內(nèi)是黃金治療期

人民日?qǐng)?bào)健康客戶端
2026-03-06 10:50:07
汪小菲怒撕親媽翻車(chē)!張?zhí)m撕開(kāi)汪家四十年遮羞布,六麻記口碑暴跌

汪小菲怒撕親媽翻車(chē)!張?zhí)m撕開(kāi)汪家四十年遮羞布,六麻記口碑暴跌

離離言幾許
2026-03-07 16:06:38
乒壇名將李楠:與侯英超分手,嫁大22歲的施之皓,如今是大學(xué)教授

乒壇名將李楠:與侯英超分手,嫁大22歲的施之皓,如今是大學(xué)教授

攬星河的筆記
2026-03-07 15:16:02
澤連斯基:美國(guó)與俄羅斯竟給出相同的勸降——想停戰(zhàn)就放棄頓巴斯

澤連斯基:美國(guó)與俄羅斯竟給出相同的勸降——想停戰(zhàn)就放棄頓巴斯

老馬拉車(chē)莫少裝
2026-02-22 12:25:15
能源危機(jī)侵蝕臺(tái)灣生存命脈!港媒:臺(tái)灣若開(kāi)始缺電,民進(jìn)黨這禍就闖大了

能源危機(jī)侵蝕臺(tái)灣生存命脈!港媒:臺(tái)灣若開(kāi)始缺電,民進(jìn)黨這禍就闖大了

海峽導(dǎo)報(bào)社
2026-03-07 08:14:08
43歲張杰正式宣布退出!原因令人意外,周深的天終于亮了

43歲張杰正式宣布退出!原因令人意外,周深的天終于亮了

興史興談
2026-01-28 00:29:21
四架無(wú)人機(jī)突襲機(jī)場(chǎng),第十四國(guó)卷入戰(zhàn)爭(zhēng),伊朗強(qiáng)硬表態(tài)

四架無(wú)人機(jī)突襲機(jī)場(chǎng),第十四國(guó)卷入戰(zhàn)爭(zhēng),伊朗強(qiáng)硬表態(tài)

飄逸語(yǔ)人
2026-03-07 16:52:51
西方觀察家認(rèn)為:這次的美伊以沖突會(huì)導(dǎo)致永久改寫(xiě)臺(tái)海戰(zhàn)爭(zhēng)的規(guī)則

西方觀察家認(rèn)為:這次的美伊以沖突會(huì)導(dǎo)致永久改寫(xiě)臺(tái)海戰(zhàn)爭(zhēng)的規(guī)則

阿七說(shuō)史
2026-03-05 15:43:01
不敢喝了!4大頭部椰子水全造假,100%純椰水全是水+糖 +科技狠活

不敢喝了!4大頭部椰子水全造假,100%純椰水全是水+糖 +科技狠活

川渝視覺(jué)
2026-03-04 20:09:52
2026-03-07 18:08:49
AI前線 incentive-icons
AI前線
面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1347文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

中國(guó)貨船"鐵娘子"號(hào)通過(guò)霍爾木茲海峽 大量船舶仍滯留

頭條要聞

中國(guó)貨船"鐵娘子"號(hào)通過(guò)霍爾木茲海峽 大量船舶仍滯留

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂(lè)要聞

周杰倫田馥甄的“JH戀” 被扒得底朝天

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

汽車(chē)要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

游戲
親子
教育
時(shí)尚
藝術(shù)

“穿越”時(shí)間體驗(yàn)新活動(dòng)!《寶可夢(mèng)》新作玩家太積極

親子要聞

國(guó)家發(fā)改委:推動(dòng)3歲以下嬰幼兒入托率提高6個(gè)百分點(diǎn)

教育要聞

全國(guó)人大代表劉宏:校園餐絕不能從孩子嘴里“摳錢(qián)”

這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡(jiǎn)單舒適

藝術(shù)要聞

《圣教序》真跡終于找到!1903字清晰無(wú)損

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版