四木專訪｜AIGCode：訓(xùn)練自己的AGI模型，才能做出好的AI編程產(chǎn)品

2024-11-28 14:00:55　來源: 四木相對論

北京舉報(bào)

分享至

2024年快要結(jié)束了，大模型有什么方向驗(yàn)證了PMF？

AI Coding（AI 編程）肯定算一個。

從2024年年初起，不僅Devin、Cursor、Bolt.new等AI Coding產(chǎn)品不斷刷屏，各家初創(chuàng)公司的融資也節(jié)節(jié)攀升。

截止目前，這一領(lǐng)域至少跑出了Poolside、Cognition、Magic、Codeium、Replit5家獨(dú)角獸。而AI Coding的"老大哥"，GitHub Copilot 已擁有130萬名付費(fèi)開發(fā)者用戶、7.7萬個機(jī)構(gòu)用戶，收入也暴漲至 3 億美元。

在國內(nèi)，AI Coding同樣成為必爭之地。

不論是阿里的通義靈碼、字節(jié)的MarsCode，還是百度的文心快碼，押注AI的巨頭幾乎人手一個AI Coding。創(chuàng)業(yè)公司中，智譜AI、硅心科技、Gru.ai、新言意碼同樣活躍。

「四木相對論」最近深度交流過的「AIGCode」（蔻町智能），也是一家專注AI Coding的創(chuàng)業(yè)公司。

AIGCode于今年正式成立，核心團(tuán)隊(duì)20余人，來自清華、微軟、騰訊、字節(jié)、百度、華為等一流高校和企業(yè)。

這家公司的核心團(tuán)隊(duì)，對創(chuàng)業(yè)并不陌生。

AIGCode的創(chuàng)始人兼CEO宿文，博士畢業(yè)于清華大學(xué)，曾在「數(shù)益工聯(lián)」擔(dān)任COO。更早前，他在華創(chuàng)資本、嘉實(shí)投資做投資。

聯(lián)合創(chuàng)始人兼CTO陳秋武是算法專家。他曾在微軟、騰訊、百度等公司從事算法與架構(gòu)工作。

創(chuàng)立AIGCode前，陳秋武在多個垂直行業(yè)公司擔(dān)任算法負(fù)責(zé)人和CTO，重點(diǎn)進(jìn)行大模型落地。

*宿文和陳秋武

在宿文和陳秋武的眼中，AI Coding的迅速火爆在意料之中。

"Coding是最適合AGI的路。如果Coding都無法實(shí)現(xiàn)AGI，其他領(lǐng)域更不可能。"宿文告訴「四木相對論」。

陳秋武補(bǔ)充，在嘗試落地垂類模型后，他認(rèn)為絕大多數(shù)的垂類模型受制于行業(yè)Know-How和價(jià)值觀，無法達(dá)成貼近AGI的效果，但Coding由于天生適配到了最多的大模型人才，是最適合AGI的切入點(diǎn)。

和Coding這個切入點(diǎn)一起確定的還有，他們要訓(xùn)練一個自己的通用大模型，并基于這個模型提供AI Coding產(chǎn)品。

是否要在代碼領(lǐng)域訓(xùn)練通用模型，是一個非共識。

目前在行業(yè)中，存在不訓(xùn)練模型直接做應(yīng)用、訓(xùn)練垂直代碼模型和訓(xùn)練通用大模型三種路徑。

Cursor，是基于Claude 3.5 Sonnet直接做應(yīng)用的代表；而Magic、Poolside，則不想依賴其他LLM，開始在代碼數(shù)據(jù)中訓(xùn)練自己的代碼模型。

AIGCode想走的是第三條路，也就是訓(xùn)練一個通用大模型，并以Coding為切入點(diǎn)打開局面。

"生成代碼的模型，本質(zhì)上應(yīng)該是以AGI為目標(biāo)的。這個模型里要有所有的數(shù)據(jù)，而不是只有代碼數(shù)據(jù)。它們的底層都是 AGI。"宿文認(rèn)為，現(xiàn)在的通用大模型存在幻覺、學(xué)習(xí)能力不強(qiáng)等問題，這也是阻礙AI Coding和AGI落地的原因之一。

也就是說，為解決通用大模型現(xiàn)在的問題，并提供最能證明AGI價(jià)值的Coding產(chǎn)品，AIGCode選擇訓(xùn)練自己的通用大模型。

為了實(shí)現(xiàn)這個目標(biāo)，他們還對模型的網(wǎng)絡(luò)架構(gòu)進(jìn)行創(chuàng)新。

目前，AIGCode已經(jīng)訓(xùn)練出基于Transformer和推薦算法PLE網(wǎng)絡(luò)架構(gòu)的錫月大模型。

這一模型的創(chuàng)新處在于，將Transformer的注意力機(jī)制Attention和前向?qū)覨FN，轉(zhuǎn)化為多專家混合時(shí)能顯著區(qū)分開不同專家并針對具體問題合理協(xié)同的架構(gòu)。

這種能對多個專家進(jìn)行解耦，并提取專家間在不同場景任務(wù)下協(xié)作關(guān)系及自身特征的模型，能達(dá)成的效果是：

讓大模型的預(yù)訓(xùn)練更加靈活和高效，擁有更好的學(xué)習(xí)機(jī)制，同時(shí)減少模型回答問題、執(zhí)行任務(wù)時(shí)的"幻覺"。

"Mistral的創(chuàng)新在于把MoE架構(gòu)和Transformer做結(jié)合。但各類樣本學(xué)習(xí)程度不統(tǒng)一的問題，在推薦算法領(lǐng)域是 MMoE、CGC、PLE 這些網(wǎng)絡(luò)架構(gòu)解決的。"陳秋武說。

他對比，MoE架構(gòu)的模型類似于專家分診。在遇到任務(wù)的時(shí)候，MoE找到概率最大的答案，再把答案分發(fā)出去。但錫月大模型是專家會診模式，也就是把專家的能力能力定位到某個病癥上，針對這個問題動態(tài)合理地配置多專家協(xié)同權(quán)重的網(wǎng)絡(luò)。

"相當(dāng)于給模型一個決策機(jī)制，這個決策機(jī)制相當(dāng)于一個中控。中控會把任務(wù)分發(fā)給對應(yīng)的功能模塊支持工作。只有這樣，才能確保模型能回答正確。"陳秋武總結(jié)。

目前在代碼方面，AIGCode 7B 錫月大模型已經(jīng)能與 GPT-4o 等主流模型媲美。

*AIGCode的模型架構(gòu)

基于錫月大模型的產(chǎn)品——AutoCoder在11月21日發(fā)布內(nèi)測。

（申請鏈接https://www.aigcode.net）

在兩位創(chuàng)始人看來，這是全球代碼生成領(lǐng)域首個LLM-native "autopilot"自動編程產(chǎn)品，而非copilot或者coworker。用戶不需要任何代碼基礎(chǔ)，就能端到端生成應(yīng)用。

"我認(rèn)為程序員最終肯定會被'干掉'。"宿文表示，這款產(chǎn)品此時(shí)的目標(biāo)用戶是產(chǎn)品經(jīng)理，幫助他們在不寫代碼的情況下實(shí)現(xiàn)軟件產(chǎn)品創(chuàng)意。

再往遠(yuǎn)看，干掉程序員只是過程，不是最終目的。AIGCode的遠(yuǎn)景目標(biāo)是，讓每個人都能通過自己的產(chǎn)品，擁有屬于個體的Personal APP。

這個Personal APP的價(jià)值在于，由于滿足個性化需求，它能擁有比通用APP更強(qiáng)的流量黏性，成為AI時(shí)代Super APP的雛形。

"老的互聯(lián)網(wǎng)是一個平臺，只提供了鏈接本身，并不生產(chǎn)內(nèi)容。如果個體能去生產(chǎn)內(nèi)容，擁有Personal APP，整個生態(tài)就會完全不一樣。"陳秋武認(rèn)為，Personal APP會解放內(nèi)容生產(chǎn)的效率，創(chuàng)造一個新的生態(tài)。

"這些不是可能性，是必然性。我們100%確定——Auto-Coding is AGI, Personal App is the End."

以下是「四木相對論」和AIGCode團(tuán)隊(duì)的對話實(shí)錄：

「四木專訪」是我們推出的創(chuàng)業(yè)者對談欄目，如果你也是AI創(chuàng)業(yè)者，有故事、觀點(diǎn)想和大家分享，歡迎聯(lián)系我們～

談公司：不只做AI Coding，而是在做AGI

四木相對論：首先的問題，是我們?yōu)槭裁催x擇AI Coding這個方向？

陳秋武：Foundation Model訓(xùn)練完之后，還是要面向應(yīng)用，而現(xiàn)在的基礎(chǔ)模型和應(yīng)用效果之間，還存在比較深的Gap。垂直模型也都沒跑出來，因?yàn)樾枰腒now-how太多，很難達(dá)到理想效果。

我們覺得，實(shí)現(xiàn)AGI還是需要有閉環(huán)，這個閉環(huán)就是模型價(jià)值和應(yīng)用價(jià)值之間的鏈路要通暢。我們自己本身是資深的程序員，團(tuán)隊(duì)大多是技術(shù)背景的情況下，Coding這個鏈路就可以自洽。不像其他的垂類，很難自洽。

現(xiàn)在很多垂直模型存在上限，比如GPT4在注冊稅務(wù)師考試上已經(jīng)有很好的水平。但目前的這個水平，就是最好的水平，不會再有效果上的提升，因?yàn)槎悇?wù)行業(yè)又不可能要求OpenAI配合做稅務(wù)方面的優(yōu)化。而Coding不一樣，我們程序員本身就是Coding領(lǐng)域的專家，從人才、經(jīng)驗(yàn)、場景等等方面的適配度來看，這個領(lǐng)域是天然適合大模型展示AGI價(jià)值的。

四木相對論：AI Coding這個方向上的選手現(xiàn)在非常多，我們會有哪些不一樣的事情？

宿文：從GPT3.5開始，大家很熱情地去投整個大模型賽道。從算力、模型、應(yīng)用層投進(jìn)去的資金和聰明的腦袋很多，但今天來看，我們想要的、想象中的可能性都沒有實(shí)現(xiàn)。

一個核心點(diǎn)是，目前能夠看到的最好的模型，o1也好，Claude3.5也好，在代碼生成上的支持還是遠(yuǎn)遠(yuǎn)不夠的。尤其只做補(bǔ)齊肯定是不夠的，我們認(rèn)為，代碼的生成是直接把程序員最終替代掉?；蛘哒f，把程序員在很大一部分場景里替代掉。

基于這個目標(biāo)再去看，現(xiàn)在的模型有很明顯的短板，不管是上下文的長度，還是整個網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)能力，都還有不足。Scaling Law的暴力出奇跡，不是唯一的路。大家在網(wǎng)絡(luò)結(jié)構(gòu)和上下文的技術(shù)點(diǎn)上，還有很多工作可以去做。

我們的團(tuán)隊(duì)選擇去解決這些問題。但解決這些問題就需要一個很好的場景，一個足夠適合大模型落地的行業(yè)去培養(yǎng)這個模型?？聪聛泶a是最合適的。

四木相對論：所以整個邏輯是，AIGCode要做一個更好的通用大模型，但選擇Coding的場景去落地。

宿文：我們的核心邏輯是看事情的終局。大家都想依賴大模型去構(gòu)建一個產(chǎn)品，但當(dāng)我們發(fā)現(xiàn)不論是哪個模型都沒法解決問題的時(shí)候，我們就決定自己做。

另外還有一個誤區(qū)是，很多人對垂直大模型和代碼大模型的認(rèn)知不對。Pre-Train層面的模型都是 AGI，不是垂直模型。

還有人說，現(xiàn)在不需要一個用代碼訓(xùn)練出來的代碼大模型。這個觀點(diǎn)也是有誤區(qū)的，因?yàn)樯纱a的模型不代表它的訓(xùn)練是用代碼數(shù)據(jù)去訓(xùn)練的。生成代碼的模型，本質(zhì)上還應(yīng)該是 AGI的，是多專家的。這個模型里會有所有的數(shù)據(jù)，只是它最終的應(yīng)用場景被叫做垂直應(yīng)用。垂直模型的底層都是 AGI。

四木相對論：本質(zhì)上，AIGCode雖然叫"Code"，但就是在做一個通用大模型。

宿文：對。

模型：自研架構(gòu)，提升預(yù)訓(xùn)練效率和任務(wù)精準(zhǔn)性

四木相對論：AIGCode的模型選擇了一個新的架構(gòu)，原因是什么？

陳秋武：從一個模型的訓(xùn)練來說，它的網(wǎng)絡(luò)結(jié)構(gòu)和樣本是最關(guān)鍵的。模型的效果，并不是擁有全量的數(shù)據(jù)、用最大的算力就能暴力出奇跡。最開始去訓(xùn)練模型，很多層面還要依賴模型對樣本的理解。高質(zhì)量的樣本并不是海量的數(shù)據(jù)，這是兩個不一樣的東西。

目前的通用大模型有一個比較致命的問題，OpenAI已經(jīng)有了足夠的資源，也有足夠的樣本。Scaling Law的兩個最重要元素，算力和數(shù)據(jù)樣本，在全世界范圍內(nèi)它是最好的。但非常明確，就算是OpenAI的這兩條鏈路，現(xiàn)在也撞到了南墻。

13B以上的模型，邏輯能力沒有提升，AGI的能力沒有提升。它只是參數(shù)大了，能夠記得的東西多了，整個概率鏈路上記住的特定場景知識更多了，僅此而已。模型的邏輯能力并沒有提升，有可能只是幻覺抑制能力提升了。

目前行業(yè)里的第一個共識是樣本已經(jīng)達(dá)到了上限，特別是高質(zhì)量的樣本生產(chǎn)不出來?；蛘哒f，它的增長速度遠(yuǎn)低于算力增長的速度。兩者不匹配意味著整個人類AGI的進(jìn)度受限。

我們很早就已經(jīng)確定了一個方向，就是在樣本、算力固定的情況下，提高大模型的學(xué)習(xí)能力。

現(xiàn)在樣本中的知識，其實(shí)沒有被已知的所有大模型充分學(xué)習(xí)到。比如現(xiàn)在去問一個大模型一篇Paper里的內(nèi)容，Paper里有非常復(fù)雜的應(yīng)用邏輯和理論邏輯，基本上模型是一問三不知的。

大模型從概率層面給出答案，熱門樣本的推理效果會很好。原因是在所有的概率分布里面，它是最高頻出現(xiàn)的。低頻的樣本，是小概率的，大模型就學(xué)不進(jìn)去了。

這個問題是網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致的。Transformer的網(wǎng)絡(luò)結(jié)構(gòu)其實(shí)就分為兩個方面，一個是Multi—Head Attention，一個是 FFN。

舉個例子，比如有一句話是"這里有個花園"，到了"花"這個詞要預(yù)測"園"這個Token的時(shí)候，我們會計(jì)算前面所有 Token的概率，也就是預(yù)測"園"這個字的權(quán)重概率是多少，這就是Multi—Head Attention做的事情。

FFN只是把概率過一遍。"花"后面可能是"花朵"，可能是"花園"，"花園"的概率是最大的，所以它排在了最前面。其實(shí)所有大模型的網(wǎng)絡(luò)系統(tǒng)就這么簡單。

雖然在預(yù)訓(xùn)練上下文窗口內(nèi)有注意力機(jī)制帶權(quán)重的，但跨多個4K(~128K)預(yù)訓(xùn)練上下文窗口間并無權(quán)重控制。那這樣必然導(dǎo)致一個問題，就是高頻的、比重比較大的那些樣本排在前面，長尾的問題——一般難的問題都是長尾的，這些難的、長尾的問題就學(xué)不進(jìn)去。

所以我們要解決的問題是，把這些難的、容易的、高頻的、低頻的問題做正確地解耦。

四木相對論：我們強(qiáng)調(diào)的PLE（Progressive Layered Extraction，漸進(jìn)式分層提?。┘軜?gòu)，是在解決這個問題嗎？

陳秋武：是的。我舉個最簡單的例子，一個桌子上有好多東西，現(xiàn)在雜七雜八、沒有條理地放著，但是更高效的方式是什么？是小的東西歸置在一個區(qū)域，體積比較大的放在另外一個區(qū)域，進(jìn)行合理的分區(qū)。就像人腦一樣，它有聽覺區(qū)域，味覺區(qū)域、嗅覺區(qū)域，有不同分類。

這樣做的好處，第一是可以規(guī)避蹺蹺板的問題，也就是避免某個知識因?yàn)闃颖颈壤《鴮W(xué)不到。而且它因?yàn)槟芎侠淼姆止?，把正確的任務(wù)和學(xué)到的東西分離開，學(xué)習(xí)的效率就上升了。下次模型學(xué)到這塊的時(shí)候，發(fā)現(xiàn)已經(jīng)學(xué)過了，就跳過。

這也就是通過網(wǎng)絡(luò)結(jié)構(gòu)的改變，提高模型的學(xué)習(xí)能力。

再講專家解耦，因?yàn)槊恳粋€專家會對應(yīng)到相關(guān)領(lǐng)域的應(yīng)用效果，這會提供從預(yù)訓(xùn)練到模型在某特定領(lǐng)域應(yīng)用的連接點(diǎn)。這個連接點(diǎn)可以提供一個新的范式，就是網(wǎng)絡(luò)本身的利用率。

模型在反向傳播更新權(quán)重的時(shí)候，你會發(fā)現(xiàn)有的權(quán)重、有的神經(jīng)元的更新幅度非常小，有的幅度非常大。浮動大的這部分神經(jīng)元是被激活的，那就會得到一個客觀的數(shù)學(xué)數(shù)據(jù)，就是神經(jīng)元的平均激活率。這個平均激活率和樣本的輸入以及最后的應(yīng)用之間，可以用下游任務(wù)效果的好壞，建立一個線性關(guān)系。

這個線性關(guān)系，就可以評估我們所有投入的算力以及樣本對于項(xiàng)目任務(wù)的好壞。這個鏈路必須要專家解耦才能實(shí)現(xiàn)。

四木相對論：如果從具體的效果上來總結(jié)，你覺得PLE的架構(gòu)解決了什么問題？

陳秋武：大模型其實(shí)有三個問題導(dǎo)致了幻覺。第一，知識在模型學(xué)習(xí)的時(shí)候，沒有學(xué)到。第二，是沒有邏輯鏈路。第三是雖然邏輯鏈路鏈對了，但是組織關(guān)系錯了。等于任務(wù)和模型鏈接起來了，但是它并不能回答這個問題。

就像地圖上的導(dǎo)航，導(dǎo)航從a點(diǎn)到b點(diǎn)，首先要有a點(diǎn)到b點(diǎn)的信息，如果沒有這個信息是完全不行的。知識在不在這個模型里，通過PPL（PPL指模型的困惑度，PPL值越低，模型對數(shù)據(jù)的理解越好）就能算出來。但知識鏈路在不在模型里，這個問題比較復(fù)雜。

知識的鏈路在不在，和專家領(lǐng)域的能力有關(guān)系。邏輯其實(shí)是專家領(lǐng)域，有因果關(guān)系，有遞進(jìn)關(guān)系等等。假設(shè)一個回答，需要用到某個邏輯鏈接，那這個邏輯鏈路的樣本是什么？如果缺失的話，你要回溯、定位到這個問題，再去補(bǔ)全能力。這就會涉及到專家要解耦出來，單獨(dú)摘出來去訓(xùn)練完，再塞回去。

只有各個領(lǐng)域的專家解耦才有可能解決這個問題。它不是微調(diào)、對齊能夠解決的，只能從預(yù)訓(xùn)練的層面去解決。

解耦的預(yù)訓(xùn)練會有很多好處，假設(shè)這個問題被定位到是由于缺少了一個遞進(jìn)的邏輯關(guān)系導(dǎo)致的，那么我們用相應(yīng)的樣本，塞進(jìn)去解決這個問題，下游任務(wù)也會解決，這就形成一個很好的閉環(huán)。

四木相對論：也就是說，這個架構(gòu)的模型能靈活地進(jìn)行預(yù)訓(xùn)練，也能提升模型的學(xué)習(xí)能力和任務(wù)的實(shí)現(xiàn)精準(zhǔn)性。提到專家，這個架構(gòu)和MoE的區(qū)別是？

陳秋武：MoE是1991年出現(xiàn)的Paper。它類似醫(yī)院的分診制，比如說你去醫(yī)院掛個號，它會判斷然后讓你去發(fā)熱門診或者其他門診。

如果再拿桌子上放的東西對比，MoE記下來的是放東西的概率鏈，下次遇到任務(wù)的時(shí)候，模型會找到最大概率的內(nèi)容，然后再分發(fā)給出去。所以它在預(yù)訓(xùn)練的時(shí)候，成本并沒有降低，也沒有結(jié)構(gòu)化，內(nèi)容還是隨便亂放的，但是推理的時(shí)候只要找到路徑，就把它附近的專家激活，推理的成本就下降了。

Mistral的貢獻(xiàn)，就是把1991年的MoE和大模型做了結(jié)合。而蹺蹺板問題，在推薦算法領(lǐng)域是 MMoE、CGC、PLE 這些網(wǎng)絡(luò)架構(gòu)解決的。

落到區(qū)別上，我們的錫月大模型不僅是一個分發(fā)、分診。我們是專家會診的方式，把專家的能力定位到病癥上，針對這個問題單獨(dú)有一個網(wǎng)絡(luò)。也就是給模型一個決策機(jī)制，這個決策機(jī)制相當(dāng)于一個中控。中控會把任務(wù)分發(fā)給對應(yīng)的功能模塊支持工作。只有這樣才能確保模型能回答正確。

MoE是簡單的概率分發(fā)，而我們是神經(jīng)元的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)，神經(jīng)元里存儲的是不同專家間的關(guān)系，專家自己的信息也可以保存。我們的架構(gòu)里，各個專家之間，比如說代碼專家和自然語言專家之間的互相的關(guān)系，就保存在Gating的 NetWork里面，而不僅僅是個分發(fā)鏈路。這里面是有復(fù)雜的邏輯關(guān)系的，它實(shí)現(xiàn)的核心是把專家解耦開。

專家間的關(guān)系，以及專家在回答當(dāng)前這個問題的時(shí)候占的比重是多大，這兩個問題是 MoE 完全沒辦法解決的。PLE 在分發(fā)機(jī)制那層就有了自己的決策機(jī)制，會針對當(dāng)前輸入語境，動態(tài)調(diào)整不同專家的權(quán)重。

四木相對論：那么在實(shí)際效果上，這種方式對比之前會有多大的區(qū)別？

陳秋武：我說幾個實(shí)際的，比如預(yù)訓(xùn)練的價(jià)格。預(yù)訓(xùn)練的過程當(dāng)中，大家訓(xùn)練一次大模型可能幾百萬美元或者幾十萬美元打底?，F(xiàn)在中間如果某一個小的專家級，比如自然語言或者說代碼專家出現(xiàn)了問題，我們可以把它摘出來，修復(fù)完了再放上去繼續(xù)預(yù)訓(xùn)練，而不用出現(xiàn)問題后從頭開始預(yù)訓(xùn)練。

而且，7B到13B，13B到33B的擴(kuò)展預(yù)訓(xùn)練，在這個架構(gòu)里專家解耦后的網(wǎng)絡(luò)是可以被繼承下來。因?yàn)樵谶@個模式里專家是相互獨(dú)立的，這就好像，一個人跑了10公里，要再跑20公里的時(shí)候，就能接著10公里繼續(xù)往后跑，而不是說像現(xiàn)在一樣的回到最起點(diǎn)再重新再跑一遍。這兩個因素疊加在預(yù)訓(xùn)練的價(jià)格和迭代加速度的差距可能是三倍至十倍甚至更多。

四木相對論：這是對預(yù)訓(xùn)練的效果，那么對實(shí)際任務(wù)的執(zhí)行會有什么效果呢？

陳秋武：從實(shí)際使用的效果來說，剛才講的排查問題也是非常有用的。如果你遇到一個問題，但不知道這個問題的根源是什么，那何談解決。

我們了解到，Claude有個核心團(tuán)隊(duì)正在做模型的可解釋的問題。這個方案其實(shí)是可解釋的一個非常重要的鏈路，但我們已經(jīng)做完了。這對于提升模型的準(zhǔn)確率是非常重要的。

我們現(xiàn)在發(fā)布了7B的模型，有榜單的成績。其實(shí)綜合性能已經(jīng)屬于最好的，因?yàn)樗?B，其他差不多的模型可能有400B。

*benchmark展示：粗體為最好，下劃線為第二名

四木相對論：做這個新模型，AIGCode遇到的難題是什么？

陳秋武：網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)和落地，需要的實(shí)驗(yàn)的成本是非常高的。每一次實(shí)驗(yàn)完的下一步優(yōu)化有1000種可能性，其中99%以上的可能性都是錯的。我們要用實(shí)驗(yàn)的方式根據(jù)實(shí)驗(yàn)結(jié)果數(shù)據(jù)分析歸納去推導(dǎo)出正確的路徑，這也是為什么 Mistral在2023年中能拿到那么大一筆投資的原因。

這個領(lǐng)域其實(shí)人才很稀缺，有大型互聯(lián)網(wǎng)公司的核心推薦系統(tǒng)，一天上億收入的體量，但模型組只有20、30人。而在這里面能做出核心效果的也就2、3人。業(yè)內(nèi)不管是國外還是國內(nèi)，都很難找到合適的人。

四木相對論：這個模型的訓(xùn)練用了多久？

宿文：理論上我們可以做到20臺國產(chǎn)GPU機(jī)器，160張卡，花費(fèi)25天。但實(shí)際上我們訓(xùn)練了兩個月多一點(diǎn)，因?yàn)樗械膶?shí)驗(yàn)，包括前置的小樣實(shí)驗(yàn)，還有中間網(wǎng)絡(luò)各方面的故障，以及國產(chǎn)分布式平臺的性能，我們都需要去處理。

我們的訓(xùn)練速度在業(yè)內(nèi)是別人的兩三倍。而且，有些分布式訓(xùn)練在業(yè)內(nèi)也沒有先例，我們花了三周時(shí)間就解決了這個問題。

談市場：AI Coding很多人拿資源打假賽

四木相對論：怎么看AI Coding大家的不同路線？

宿文：現(xiàn)在主要有兩條大路徑。一個是現(xiàn)在卷得要死要活的Copilot路線，GitHub和Cursor都在做。這種大家也都用通用模型實(shí)現(xiàn)，要么用自己的，海外用Claude 3.5做效果最好。大廠的一些產(chǎn)品也是一樣，核心邏輯是在一個IDE里面去給程序員做代碼補(bǔ)齊。

這是一個存在的場景、存在的用戶和存在的問題。大家在用已經(jīng)存在的模型，提供一個最短平快的方案。但這里面從產(chǎn)品交互上也有很高的門檻，也就是進(jìn)去做容易，但做出來也難。Cursor也在后面只是喝湯而已，距離吃肉的Copilot還有好幾個身位。

這個方向還有一個很難的點(diǎn)，就是需要有 IDE。微軟就有IDE，所以這個方向可以留給大廠去做，對初創(chuàng)公司比較難。

另外一個路徑，就是我們認(rèn)為的AutoPliot形態(tài)。

我們來想想AI Coding的終局是什么，不是寫代碼，而是為了呈現(xiàn)一個應(yīng)用。單純秀一萬行代碼，So what？有什么意義？誰在提這些需求，是產(chǎn)品經(jīng)理。

所以，我覺得代碼應(yīng)該端到端地去做生成，為用戶把使用門檻大幅度降低，讓大家變成能夠提需求，就實(shí)現(xiàn)效果的人。但是在現(xiàn)階段，我們認(rèn)為的用戶，首先是一個專業(yè)的產(chǎn)品經(jīng)理。因?yàn)槲覀円膊恢竿藭r(shí)就會很多人腦海里突然蹦出很多需求，這不會的。但是當(dāng)有人有需求，要去消費(fèi)這個軟件，需要個性化應(yīng)用的時(shí)候，就都可以用。

也就是說，我們希望提供一個產(chǎn)品，可以讓所有代碼的推理成本幾乎為零，讓個性化應(yīng)用的市場打開。目前的APP都是通用市場，普通人做不了自己的APP，做一個程序員還是有門檻，所以大家沒法實(shí)現(xiàn)個性化應(yīng)用。

讓個體實(shí)現(xiàn)個性化應(yīng)用，這是我們眼中的終局。所以我們繞開IDE生態(tài)，直接在外部端到端地做交付。但是目前模型能力不夠，所以我們也做模型。

四木相對論：有沒有某一個產(chǎn)品或某個公司是我們現(xiàn)在重點(diǎn)關(guān)注的？

宿文：其實(shí)我們很關(guān)注Poolside和Magic，因?yàn)檫@兩家看起來真的在自己做模型。Cursor雖然也說要自己訓(xùn)5B~7B的模型，但這個在代碼領(lǐng)域也不夠用。而且，它都用到Claude3.5了，就算之后說要用開源的Llama訓(xùn)練，效果還是 PK不了Claude的模型。

Devin最開始也是基于GPT4，一直到現(xiàn)在產(chǎn)品出不來、見光死?，F(xiàn)在它又要自己訓(xùn)模型，但一看這團(tuán)隊(duì)也不是訓(xùn)模型的背景。Poolside和Magic這兩家看起來是想好了。

四木相對論：Magic在模型上強(qiáng)調(diào)了長上下文。

宿文：長上下文也是一個當(dāng)下的很大的痛點(diǎn)，我們也在解決，有自己的方案，目前做了4M級別。我們希望奔著T級別去做，這是一個很大的創(chuàng)新。Magic幾個月前的模型，說做到了100M上下文，但行業(yè)內(nèi)波瀾不驚，因?yàn)槭荕amba架構(gòu)做的，這個架構(gòu)不好實(shí)現(xiàn)。

很多公司都說要做代碼模型，但可能做著做著遇到問題，停滯了。所以要看大家做模型，到底是架構(gòu)上創(chuàng)新還是有其他創(chuàng)新，還是說也囤了10萬張H100。這個領(lǐng)域看起來很熱鬧，但全球能真能出來，有用戶和客戶的很少。

陳秋武：之前我們開玩笑說，這個領(lǐng)域來了一堆非專業(yè)的人，拿了很多資源在打假賽。AIGCode也不會捏軟柿子PK，我們就是和Llama、DeepSeek、Claude的大參數(shù)模型去比。

四木相對論：怎么看DeepSeek？有不少人好評它的代碼能力。

宿文：它也不應(yīng)該稱為代碼模型。它和我們一樣，底層都是 AGI，決定了在代碼場景的效果不錯。DeepSeek是真正在做事情的團(tuán)隊(duì)，但模型的技術(shù)架構(gòu)方面，我相信我們走的更超前一些。

當(dāng)然，他們也要在Coding賽道做一些插件，更像代碼補(bǔ)全。從這個角度，我們做的產(chǎn)品形態(tài)上又完全不一樣。

干掉程序員，讓Personal/Super APP長出來

四木相對論：現(xiàn)在很多人已經(jīng)在用AI Coding產(chǎn)品。尤其一些大廠，甚至還定了內(nèi)部消耗的KPI。我們會有后發(fā)的劣勢嗎？

宿文：我們和其他家的定位不太一樣。我們是給產(chǎn)品經(jīng)理用的，第一天就不服務(wù)程序員，和其他服務(wù)程序員的產(chǎn)品是沒有任何競爭的。

四木相對論：但產(chǎn)品經(jīng)理真的想去卷本來屬于程序員的工作嗎？

宿文：產(chǎn)品經(jīng)理需要畫N個圖，寫幾十頁的文檔，好不容易把程序員請到會議室里溝通需求，再被他們噴得體無完膚。產(chǎn)品經(jīng)理也需要工具滿足自己的想象力，我覺得之后程序員肯定會被淘汰的。

我們定義自己的產(chǎn)品是產(chǎn)品經(jīng)理工作流的一部分，可以讓他的工作形態(tài)發(fā)生一些轉(zhuǎn)變。舉一個簡單例子，如果企業(yè)今天去做To B業(yè)務(wù)，客戶需要PoC，這個時(shí)候項(xiàng)目經(jīng)理，售前、產(chǎn)品經(jīng)理都可以通過我們的產(chǎn)品把這個事情做完。這種場景非常多。

四木相對論：現(xiàn)在AIGCode的產(chǎn)品進(jìn)展如何？

宿文：現(xiàn)在的一些簡單應(yīng)用，包括軟件原型的Demo、PoC我們已經(jīng)可以做到。我們會先用產(chǎn)品實(shí)現(xiàn)前端，后面再把后端需要的、帶數(shù)據(jù)和邏輯的功能加進(jìn)去。

我們創(chuàng)業(yè)還不到12個月，還有很多之后的計(jì)劃。如果軟件原型能做下來，我們就能夠生成最終可被交付的東西，那時(shí)程序員就能被完全替代。

陳秋武：需求是海量的。如果大家只用自然語言的方式提出一個需求，就有一批工具幫忙把軟件生成好，一鍵部署到服務(wù)器上，那么很多場景都能被釋放出來。當(dāng)別人還在做一個工具時(shí)，我們在做的事是做生成批量工具的平臺。

我們在創(chuàng)造供給，沒有在一個存量市場做事情，這件事是可以解放生產(chǎn)力的。

從技術(shù)進(jìn)展來講，Web1.0是導(dǎo)航，2.0搜索，3.0是推薦，改變的是信息流轉(zhuǎn)的速度，傳播的效率。上一代的互聯(lián)網(wǎng)產(chǎn)品提升供需的鏈接效率，本身不提供內(nèi)容，但是在大模型的時(shí)代，大概率大家在提供平臺的同時(shí)，會提供生產(chǎn)內(nèi)容的服務(wù)。

四木相對論：這里的內(nèi)容指的是什么范疇？

陳秋武：比如虛擬陪伴的聊天功能，是模型生成的，不是真的有人和你聊天。同樣，代碼也是生成的。從生產(chǎn)力的角度來看，這種內(nèi)容生產(chǎn)的質(zhì)量和速度，是下一代互聯(lián)網(wǎng)、技術(shù)迭代最核心的鏈路。

成為一個程序員現(xiàn)在還有門檻，寫代碼相當(dāng)于拿到二級電工證才能去操作的一個東西。所以，APP的生產(chǎn)受限于8000萬或者9000的萬的群體。但每個人其實(shí)都有自己的軟件需求，因?yàn)樗麄冇袀€性化內(nèi)容消費(fèi)的需求。

我們的產(chǎn)品，如果能夠加速每個人內(nèi)容生產(chǎn)的效率和質(zhì)量，那么內(nèi)容供給這一側(cè)就會井噴。所以，我們要在這個鏈條上加速。這是我們的邏輯，這個產(chǎn)品不會給程序員用，而是給有一些業(yè)務(wù)邏輯的人去用。

四木相對論：關(guān)于這個目標(biāo)，我們設(shè)計(jì)了怎樣的計(jì)劃表？

宿文：APP的開發(fā)落地是一個非常長的鏈條上，從需求的提出到demo，再到最后落地開發(fā)，產(chǎn)品經(jīng)理和研發(fā)一定先要和業(yè)務(wù)團(tuán)隊(duì)去溝通落地。前端做完，還包括后端數(shù)據(jù)庫、運(yùn)維、上線，最后還有反饋和運(yùn)營。這么長的一個鏈條，如果后面的內(nèi)容全部砍掉了，整個供給效率和內(nèi)容本身都是新的形態(tài)。

這是一件有顛覆意義的事情，我們沒法在這個階段，也就是公司成立不到一年就把它干完，要不就是騙人，要不就意味著門檻很低。

我們會有一個周期，樂觀預(yù)測可能需要一年到一年半的時(shí)間，把整個大鏈路，也就是整體的APP交付這件事上基本跑通，這是我們的預(yù)期。

在最近的一個季度內(nèi)，我們在產(chǎn)品發(fā)布之后會快速拿到內(nèi)測，通過用戶數(shù)據(jù)決定我們往哪個方向迭代。還有一個是付費(fèi)點(diǎn)，這里會和Figma很像，是給專業(yè)的用戶用，也就是生成完代碼，進(jìn)行部署的時(shí)候需要付費(fèi)。之后，我們也會做Global市場。

四木相對論：看到我們把代碼生成這件事分成了L1～L5?，F(xiàn)在我們在哪個階段？

陳秋武：L1類似低代碼平臺。L2是輔助程序員，讓他們根據(jù)提示生成代碼。L3能端到端地完成編程任務(wù)，不需要程序員介入。L4是多端自動協(xié)作，讓大家能直接把想法變成軟件或產(chǎn)品。

現(xiàn)在我們是L3的初始階段。

L5是最終目標(biāo)。是說有了產(chǎn)品，還要自動化地把它部署到所有的運(yùn)營渠道里，再根據(jù)流量的反饋，自動生成多個相應(yīng)的版本去試下一個階段，一直到真正被市場或者流量校驗(yàn)過的產(chǎn)品出現(xiàn)。

四木相對論：如果這個愿景實(shí)現(xiàn)，感覺互聯(lián)網(wǎng)大廠不需要存在了，至少不需要那么多人組成的大廠了。

陳秋武：我們要問自己增量價(jià)值在哪里?，F(xiàn)在很多能拿資源湊起來的東西，在我看來都是沒有增量價(jià)值的。這種能根據(jù)實(shí)際反饋，把產(chǎn)品價(jià)值的驗(yàn)證鏈條極大縮短的東西，才是真正的增量價(jià)值。

四木相對論：如果要實(shí)現(xiàn)L5這個目標(biāo)，我們會通過一個產(chǎn)品不斷優(yōu)化，還是產(chǎn)品矩陣來實(shí)現(xiàn)？

陳秋武：可能大家現(xiàn)在還是習(xí)慣沿用上一個階段的思路。SuperAPP的形態(tài)不重要，但是競爭力是超級智能。形態(tài)我相信大家都是很模糊的，但互聯(lián)網(wǎng)已經(jīng)把低垂的果實(shí)摘完了，這種情況下，不能希望用老的思路拿到價(jià)值。

我覺得超級APP的思路是，它的流量本身是綁定在APP上的。舉個例子，現(xiàn)在大家的微信是一樣的，但如果現(xiàn)在我可以定制一個自己個性化的微信，尤其根據(jù)個人實(shí)際情況不斷實(shí)時(shí)調(diào)整，我對這個APP的黏性是遠(yuǎn)遠(yuǎn)超過通用APP的。再往后，SuperAPP也可能變成為比個性化APP服務(wù)的上游通用基礎(chǔ)供應(yīng)服務(wù)。

四木相對論：或許還得問一個"老思路"的問題。這件事和千人千面的區(qū)別有多少？

陳秋武：我做了很多年推薦。這個領(lǐng)域一個很重要的問題是，優(yōu)質(zhì)內(nèi)容生產(chǎn)的效率不高。你刷一個APP，刷60分鐘可能沒問題，但繼續(xù)再往下刷，內(nèi)容質(zhì)量其實(shí)蠻差的。原因就是高質(zhì)量的內(nèi)容，在供給側(cè)是不夠的。

老的互聯(lián)網(wǎng)是一個平臺，只提供鏈接本身，不會生產(chǎn)內(nèi)容。所以，如果提供一個Personal APP去生產(chǎn)這些內(nèi)容以及服務(wù)，整個生態(tài)就會完全不一樣。

這是絕對的趨勢，我可以100%確定。我們現(xiàn)在講的這些不是可能性，是必然性。我們內(nèi)部一直相信，Auto-Coding is AGI, Personal App is the End!

四木相對論：現(xiàn)在我們怎么定義自己的公司？從基礎(chǔ)大模型到產(chǎn)品再到Personal/Super APP，我們怎樣界定自己？

宿文：我們做的事情確實(shí)很多。

拿基座模型來說，從GPU的優(yōu)化層開始，我們會做分布式預(yù)訓(xùn)練、算子融合、性能優(yōu)化、算子對齊，一步步把這些實(shí)在的技能全部積累下來。再往上，我們有能生成應(yīng)用的產(chǎn)品。

最后，我們要一路做到L5，幫助Super APP落地。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.