国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

四木專訪|AIGCode:訓(xùn)練自己的AGI模型,才能做出好的AI編程產(chǎn)品

0
分享至

2024年快要結(jié)束了,大模型有什么方向驗(yàn)證了PMF?

AI Coding(AI 編程)肯定算一個。

從2024年年初起,不僅Devin、Cursor、Bolt.new等AI Coding產(chǎn)品不斷刷屏,各家初創(chuàng)公司的融資也節(jié)節(jié)攀升。

截止目前,這一領(lǐng)域至少跑出了Poolside、Cognition、Magic、Codeium、Replit5家獨(dú)角獸。而AI Coding的"老大哥",GitHub Copilot 已擁有130萬名付費(fèi)開發(fā)者用戶、7.7萬個機(jī)構(gòu)用戶,收入也暴漲至 3 億美元。

在國內(nèi),AI Coding同樣成為必爭之地。

不論是阿里的通義靈碼、字節(jié)的MarsCode,還是百度的文心快碼,押注AI的巨頭幾乎人手一個AI Coding。創(chuàng)業(yè)公司中,智譜AI、硅心科技、Gru.ai、新言意碼同樣活躍。

「四木相對論」最近深度交流過的「AIGCode」(蔻町智能),也是一家專注AI Coding的創(chuàng)業(yè)公司。

AIGCode于今年正式成立,核心團(tuán)隊(duì)20余人,來自清華、微軟、騰訊、字節(jié)、百度、華為等一流高校和企業(yè)。

這家公司的核心團(tuán)隊(duì),對創(chuàng)業(yè)并不陌生。

AIGCode的創(chuàng)始人兼CEO宿文,博士畢業(yè)于清華大學(xué),曾在「數(shù)益工聯(lián)」擔(dān)任COO。更早前,他在華創(chuàng)資本、嘉實(shí)投資做投資。

聯(lián)合創(chuàng)始人兼CTO陳秋武是算法專家。他曾在微軟、騰訊、百度等公司從事算法與架構(gòu)工作。

創(chuàng)立AIGCode前,陳秋武在多個垂直行業(yè)公司擔(dān)任算法負(fù)責(zé)人和CTO,重點(diǎn)進(jìn)行大模型落地。

*宿文和陳秋武

在宿文和陳秋武的眼中,AI Coding的迅速火爆在意料之中。

"Coding是最適合AGI的路。如果Coding都無法實(shí)現(xiàn)AGI,其他領(lǐng)域更不可能。"宿文告訴「四木相對論」。

陳秋武補(bǔ)充,在嘗試落地垂類模型后,他認(rèn)為絕大多數(shù)的垂類模型受制于行業(yè)Know-How和價(jià)值觀,無法達(dá)成貼近AGI的效果,但Coding由于天生適配到了最多的大模型人才,是最適合AGI的切入點(diǎn)。

和Coding這個切入點(diǎn)一起確定的還有,他們要訓(xùn)練一個自己的通用大模型,并基于這個模型提供AI Coding產(chǎn)品。

是否要在代碼領(lǐng)域訓(xùn)練通用模型,是一個非共識。

目前在行業(yè)中,存在不訓(xùn)練模型直接做應(yīng)用、訓(xùn)練垂直代碼模型和訓(xùn)練通用大模型三種路徑。

Cursor,是基于Claude 3.5 Sonnet直接做應(yīng)用的代表;而Magic、Poolside,則不想依賴其他LLM,開始在代碼數(shù)據(jù)中訓(xùn)練自己的代碼模型。

AIGCode想走的是第三條路,也就是訓(xùn)練一個通用大模型,并以Coding為切入點(diǎn)打開局面。

"生成代碼的模型,本質(zhì)上應(yīng)該是以AGI為目標(biāo)的。這個模型里要有所有的數(shù)據(jù),而不是只有代碼數(shù)據(jù)。它們的底層都是 AGI。"宿文認(rèn)為,現(xiàn)在的通用大模型存在幻覺、學(xué)習(xí)能力不強(qiáng)等問題,這也是阻礙AI Coding和AGI落地的原因之一。

也就是說,為解決通用大模型現(xiàn)在的問題,并提供最能證明AGI價(jià)值的Coding產(chǎn)品,AIGCode選擇訓(xùn)練自己的通用大模型。

為了實(shí)現(xiàn)這個目標(biāo),他們還對模型的網(wǎng)絡(luò)架構(gòu)進(jìn)行創(chuàng)新。

目前,AIGCode已經(jīng)訓(xùn)練出基于Transformer和推薦算法PLE網(wǎng)絡(luò)架構(gòu)的錫月大模型。

這一模型的創(chuàng)新處在于,將Transformer的注意力機(jī)制Attention和前向?qū)覨FN,轉(zhuǎn)化為多專家混合時(shí)能顯著區(qū)分開不同專家并針對具體問題合理協(xié)同的架構(gòu)。

這種能對多個專家進(jìn)行解耦,并提取專家間在不同場景任務(wù)下協(xié)作關(guān)系及自身特征的模型,能達(dá)成的效果是:

讓大模型的預(yù)訓(xùn)練更加靈活和高效,擁有更好的學(xué)習(xí)機(jī)制,同時(shí)減少模型回答問題、執(zhí)行任務(wù)時(shí)的"幻覺"。

"Mistral的創(chuàng)新在于把MoE架構(gòu)和Transformer做結(jié)合。但各類樣本學(xué)習(xí)程度不統(tǒng)一的問題,在推薦算法領(lǐng)域是 MMoE、CGC、PLE 這些網(wǎng)絡(luò)架構(gòu)解決的。"陳秋武說。

他對比,MoE架構(gòu)的模型類似于專家分診。在遇到任務(wù)的時(shí)候,MoE找到概率最大的答案,再把答案分發(fā)出去。但錫月大模型是專家會診模式,也就是把專家的能力能力定位到某個病癥上,針對這個問題動態(tài)合理地配置多專家協(xié)同權(quán)重的網(wǎng)絡(luò)。

"相當(dāng)于給模型一個決策機(jī)制,這個決策機(jī)制相當(dāng)于一個中控。中控會把任務(wù)分發(fā)給對應(yīng)的功能模塊支持工作。只有這樣,才能確保模型能回答正確。"陳秋武總結(jié)。

目前在代碼方面,AIGCode 7B 錫月大模型已經(jīng)能與 GPT-4o 等主流模型媲美。

*AIGCode的模型架構(gòu)

基于錫月大模型的產(chǎn)品——AutoCoder在11月21日發(fā)布內(nèi)測。

(申請鏈接https://www.aigcode.net)

在兩位創(chuàng)始人看來,這是全球代碼生成領(lǐng)域首個LLM-native "autopilot"自動編程產(chǎn)品,而非copilot或者coworker。用戶不需要任何代碼基礎(chǔ),就能端到端生成應(yīng)用。

"我認(rèn)為程序員最終肯定會被'干掉'。"宿文表示,這款產(chǎn)品此時(shí)的目標(biāo)用戶是產(chǎn)品經(jīng)理,幫助他們在不寫代碼的情況下實(shí)現(xiàn)軟件產(chǎn)品創(chuàng)意。

再往遠(yuǎn)看,干掉程序員只是過程,不是最終目的。AIGCode的遠(yuǎn)景目標(biāo)是,讓每個人都能通過自己的產(chǎn)品,擁有屬于個體的Personal APP。

這個Personal APP的價(jià)值在于,由于滿足個性化需求,它能擁有比通用APP更強(qiáng)的流量黏性,成為AI時(shí)代Super APP的雛形。

"老的互聯(lián)網(wǎng)是一個平臺,只提供了鏈接本身,并不生產(chǎn)內(nèi)容。如果個體能去生產(chǎn)內(nèi)容,擁有Personal APP,整個生態(tài)就會完全不一樣。"陳秋武認(rèn)為,Personal APP會解放內(nèi)容生產(chǎn)的效率,創(chuàng)造一個新的生態(tài)。

"這些不是可能性,是必然性。我們100%確定——Auto-Coding is AGI, Personal App is the End."

以下是「四木相對論」和AIGCode團(tuán)隊(duì)的對話實(shí)錄:

「四木專訪」是我們推出的創(chuàng)業(yè)者對談欄目,如果你也是AI創(chuàng)業(yè)者,有故事、觀點(diǎn)想和大家分享,歡迎聯(lián)系我們~

談公司:不只做AI Coding,而是在做AGI

四木相對論:首先的問題,是我們?yōu)槭裁催x擇AI Coding這個方向?

陳秋武:Foundation Model訓(xùn)練完之后,還是要面向應(yīng)用,而現(xiàn)在的基礎(chǔ)模型和應(yīng)用效果之間,還存在比較深的Gap。垂直模型也都沒跑出來,因?yàn)樾枰腒now-how太多,很難達(dá)到理想效果。

我們覺得,實(shí)現(xiàn)AGI還是需要有閉環(huán),這個閉環(huán)就是模型價(jià)值和應(yīng)用價(jià)值之間的鏈路要通暢。我們自己本身是資深的程序員,團(tuán)隊(duì)大多是技術(shù)背景的情況下,Coding這個鏈路就可以自洽。不像其他的垂類,很難自洽。

現(xiàn)在很多垂直模型存在上限,比如GPT4在注冊稅務(wù)師考試上已經(jīng)有很好的水平。但目前的這個水平,就是最好的水平,不會再有效果上的提升,因?yàn)槎悇?wù)行業(yè)又不可能要求OpenAI配合做稅務(wù)方面的優(yōu)化。而Coding不一樣,我們程序員本身就是Coding領(lǐng)域的專家,從人才、經(jīng)驗(yàn)、場景等等方面的適配度來看,這個領(lǐng)域是天然適合大模型展示AGI價(jià)值的。

四木相對論:AI Coding這個方向上的選手現(xiàn)在非常多,我們會有哪些不一樣的事情?

宿文:從GPT3.5開始,大家很熱情地去投整個大模型賽道。從算力、模型、應(yīng)用層投進(jìn)去的資金和聰明的腦袋很多,但今天來看,我們想要的、想象中的可能性都沒有實(shí)現(xiàn)。

一個核心點(diǎn)是,目前能夠看到的最好的模型,o1也好,Claude3.5也好,在代碼生成上的支持還是遠(yuǎn)遠(yuǎn)不夠的。尤其只做補(bǔ)齊肯定是不夠的,我們認(rèn)為,代碼的生成是直接把程序員最終替代掉?;蛘哒f,把程序員在很大一部分場景里替代掉。

基于這個目標(biāo)再去看,現(xiàn)在的模型有很明顯的短板,不管是上下文的長度,還是整個網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)能力,都還有不足。Scaling Law的暴力出奇跡,不是唯一的路。大家在網(wǎng)絡(luò)結(jié)構(gòu)和上下文的技術(shù)點(diǎn)上,還有很多工作可以去做。

我們的團(tuán)隊(duì)選擇去解決這些問題。但解決這些問題就需要一個很好的場景,一個足夠適合大模型落地的行業(yè)去培養(yǎng)這個模型??聪聛泶a是最合適的。

四木相對論:所以整個邏輯是,AIGCode要做一個更好的通用大模型,但選擇Coding的場景去落地。

宿文:我們的核心邏輯是看事情的終局。大家都想依賴大模型去構(gòu)建一個產(chǎn)品,但當(dāng)我們發(fā)現(xiàn)不論是哪個模型都沒法解決問題的時(shí)候,我們就決定自己做。

另外還有一個誤區(qū)是,很多人對垂直大模型和代碼大模型的認(rèn)知不對。Pre-Train層面的模型都是 AGI,不是垂直模型。

還有人說,現(xiàn)在不需要一個用代碼訓(xùn)練出來的代碼大模型。這個觀點(diǎn)也是有誤區(qū)的,因?yàn)樯纱a的模型不代表它的訓(xùn)練是用代碼數(shù)據(jù)去訓(xùn)練的。生成代碼的模型,本質(zhì)上還應(yīng)該是 AGI的,是多專家的。這個模型里會有所有的數(shù)據(jù),只是它最終的應(yīng)用場景被叫做垂直應(yīng)用。垂直模型的底層都是 AGI。

四木相對論:本質(zhì)上,AIGCode雖然叫"Code",但就是在做一個通用大模型。

宿文:對。

模型:自研架構(gòu),提升預(yù)訓(xùn)練效率和任務(wù)精準(zhǔn)性

四木相對論:AIGCode的模型選擇了一個新的架構(gòu),原因是什么?

陳秋武:從一個模型的訓(xùn)練來說,它的網(wǎng)絡(luò)結(jié)構(gòu)和樣本是最關(guān)鍵的。模型的效果,并不是擁有全量的數(shù)據(jù)、用最大的算力就能暴力出奇跡。最開始去訓(xùn)練模型,很多層面還要依賴模型對樣本的理解。高質(zhì)量的樣本并不是海量的數(shù)據(jù),這是兩個不一樣的東西。

目前的通用大模型有一個比較致命的問題,OpenAI已經(jīng)有了足夠的資源,也有足夠的樣本。Scaling Law的兩個最重要元素,算力和數(shù)據(jù)樣本,在全世界范圍內(nèi)它是最好的。但非常明確,就算是OpenAI的這兩條鏈路,現(xiàn)在也撞到了南墻。

13B以上的模型,邏輯能力沒有提升,AGI的能力沒有提升。它只是參數(shù)大了,能夠記得的東西多了,整個概率鏈路上記住的特定場景知識更多了,僅此而已。模型的邏輯能力并沒有提升,有可能只是幻覺抑制能力提升了。

目前行業(yè)里的第一個共識是樣本已經(jīng)達(dá)到了上限,特別是高質(zhì)量的樣本生產(chǎn)不出來?;蛘哒f,它的增長速度遠(yuǎn)低于算力增長的速度。兩者不匹配意味著整個人類AGI的進(jìn)度受限。

我們很早就已經(jīng)確定了一個方向,就是在樣本、算力固定的情況下,提高大模型的學(xué)習(xí)能力。

現(xiàn)在樣本中的知識,其實(shí)沒有被已知的所有大模型充分學(xué)習(xí)到。比如現(xiàn)在去問一個大模型一篇Paper里的內(nèi)容,Paper里有非常復(fù)雜的應(yīng)用邏輯和理論邏輯,基本上模型是一問三不知的。

大模型從概率層面給出答案,熱門樣本的推理效果會很好。原因是在所有的概率分布里面,它是最高頻出現(xiàn)的。低頻的樣本,是小概率的,大模型就學(xué)不進(jìn)去了。

這個問題是網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致的。Transformer的網(wǎng)絡(luò)結(jié)構(gòu)其實(shí)就分為兩個方面,一個是Multi—Head Attention,一個是 FFN。

舉個例子,比如有一句話是"這里有個花園",到了"花"這個詞要預(yù)測"園"這個Token的時(shí)候,我們會計(jì)算前面所有 Token的概率,也就是預(yù)測"園"這個字的權(quán)重概率是多少,這就是Multi—Head Attention做的事情。

FFN只是把概率過一遍。"花"后面可能是"花朵",可能是"花園","花園"的概率是最大的,所以它排在了最前面。其實(shí)所有大模型的網(wǎng)絡(luò)系統(tǒng)就這么簡單。

雖然在預(yù)訓(xùn)練上下文窗口內(nèi)有注意力機(jī)制帶權(quán)重的,但跨多個4K(~128K)預(yù)訓(xùn)練上下文窗口間并無權(quán)重控制。那這樣必然導(dǎo)致一個問題,就是高頻的、比重比較大的那些樣本排在前面,長尾的問題——一般難的問題都是長尾的,這些難的、長尾的問題就學(xué)不進(jìn)去。

所以我們要解決的問題是,把這些難的、容易的、高頻的、低頻的問題做正確地解耦。

四木相對論:我們強(qiáng)調(diào)的PLE(Progressive Layered Extraction,漸進(jìn)式分層提?。┘軜?gòu),是在解決這個問題嗎?

陳秋武:是的。我舉個最簡單的例子,一個桌子上有好多東西,現(xiàn)在雜七雜八、沒有條理地放著,但是更高效的方式是什么?是小的東西歸置在一個區(qū)域,體積比較大的放在另外一個區(qū)域,進(jìn)行合理的分區(qū)。就像人腦一樣,它有聽覺區(qū)域,味覺區(qū)域、嗅覺區(qū)域,有不同分類。

這樣做的好處,第一是可以規(guī)避蹺蹺板的問題,也就是避免某個知識因?yàn)闃颖颈壤《鴮W(xué)不到。而且它因?yàn)槟芎侠淼姆止?,把正確的任務(wù)和學(xué)到的東西分離開,學(xué)習(xí)的效率就上升了。下次模型學(xué)到這塊的時(shí)候,發(fā)現(xiàn)已經(jīng)學(xué)過了,就跳過。

這也就是通過網(wǎng)絡(luò)結(jié)構(gòu)的改變,提高模型的學(xué)習(xí)能力。

再講專家解耦,因?yàn)槊恳粋€專家會對應(yīng)到相關(guān)領(lǐng)域的應(yīng)用效果,這會提供從預(yù)訓(xùn)練到模型在某特定領(lǐng)域應(yīng)用的連接點(diǎn)。這個連接點(diǎn)可以提供一個新的范式,就是網(wǎng)絡(luò)本身的利用率。

模型在反向傳播更新權(quán)重的時(shí)候,你會發(fā)現(xiàn)有的權(quán)重、有的神經(jīng)元的更新幅度非常小,有的幅度非常大。浮動大的這部分神經(jīng)元是被激活的,那就會得到一個客觀的數(shù)學(xué)數(shù)據(jù),就是神經(jīng)元的平均激活率。這個平均激活率和樣本的輸入以及最后的應(yīng)用之間,可以用下游任務(wù)效果的好壞,建立一個線性關(guān)系。

這個線性關(guān)系,就可以評估我們所有投入的算力以及樣本對于項(xiàng)目任務(wù)的好壞。這個鏈路必須要專家解耦才能實(shí)現(xiàn)。

四木相對論:如果從具體的效果上來總結(jié),你覺得PLE的架構(gòu)解決了什么問題?

陳秋武:大模型其實(shí)有三個問題導(dǎo)致了幻覺。第一,知識在模型學(xué)習(xí)的時(shí)候,沒有學(xué)到。第二,是沒有邏輯鏈路。第三是雖然邏輯鏈路鏈對了,但是組織關(guān)系錯了。等于任務(wù)和模型鏈接起來了,但是它并不能回答這個問題。

就像地圖上的導(dǎo)航,導(dǎo)航從a點(diǎn)到b點(diǎn),首先要有a點(diǎn)到b點(diǎn)的信息,如果沒有這個信息是完全不行的。知識在不在這個模型里,通過PPL(PPL指模型的困惑度,PPL值越低,模型對數(shù)據(jù)的理解越好)就能算出來。但知識鏈路在不在模型里,這個問題比較復(fù)雜。

知識的鏈路在不在,和專家領(lǐng)域的能力有關(guān)系。邏輯其實(shí)是專家領(lǐng)域,有因果關(guān)系,有遞進(jìn)關(guān)系等等。假設(shè)一個回答,需要用到某個邏輯鏈接,那這個邏輯鏈路的樣本是什么?如果缺失的話,你要回溯、定位到這個問題,再去補(bǔ)全能力。這就會涉及到專家要解耦出來,單獨(dú)摘出來去訓(xùn)練完,再塞回去。

只有各個領(lǐng)域的專家解耦才有可能解決這個問題。它不是微調(diào)、對齊能夠解決的,只能從預(yù)訓(xùn)練的層面去解決。

解耦的預(yù)訓(xùn)練會有很多好處,假設(shè)這個問題被定位到是由于缺少了一個遞進(jìn)的邏輯關(guān)系導(dǎo)致的,那么我們用相應(yīng)的樣本,塞進(jìn)去解決這個問題,下游任務(wù)也會解決,這就形成一個很好的閉環(huán)。

四木相對論:也就是說,這個架構(gòu)的模型能靈活地進(jìn)行預(yù)訓(xùn)練,也能提升模型的學(xué)習(xí)能力和任務(wù)的實(shí)現(xiàn)精準(zhǔn)性。提到專家,這個架構(gòu)和MoE的區(qū)別是?

陳秋武:MoE是1991年出現(xiàn)的Paper。它類似醫(yī)院的分診制,比如說你去醫(yī)院掛個號,它會判斷然后讓你去發(fā)熱門診或者其他門診。

如果再拿桌子上放的東西對比,MoE記下來的是放東西的概率鏈,下次遇到任務(wù)的時(shí)候,模型會找到最大概率的內(nèi)容,然后再分發(fā)給出去。所以它在預(yù)訓(xùn)練的時(shí)候,成本并沒有降低,也沒有結(jié)構(gòu)化,內(nèi)容還是隨便亂放的,但是推理的時(shí)候只要找到路徑,就把它附近的專家激活,推理的成本就下降了。

Mistral的貢獻(xiàn),就是把1991年的MoE和大模型做了結(jié)合。而蹺蹺板問題,在推薦算法領(lǐng)域是 MMoE、CGC、PLE 這些網(wǎng)絡(luò)架構(gòu)解決的。

落到區(qū)別上,我們的錫月大模型不僅是一個分發(fā)、分診。我們是專家會診的方式,把專家的能力定位到病癥上,針對這個問題單獨(dú)有一個網(wǎng)絡(luò)。也就是給模型一個決策機(jī)制,這個決策機(jī)制相當(dāng)于一個中控。中控會把任務(wù)分發(fā)給對應(yīng)的功能模塊支持工作。只有這樣才能確保模型能回答正確。

MoE是簡單的概率分發(fā),而我們是神經(jīng)元的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),神經(jīng)元里存儲的是不同專家間的關(guān)系,專家自己的信息也可以保存。我們的架構(gòu)里,各個專家之間,比如說代碼專家和自然語言專家之間的互相的關(guān)系,就保存在Gating的 NetWork里面,而不僅僅是個分發(fā)鏈路。這里面是有復(fù)雜的邏輯關(guān)系的,它實(shí)現(xiàn)的核心是把專家解耦開。

專家間的關(guān)系,以及專家在回答當(dāng)前這個問題的時(shí)候占的比重是多大,這兩個問題是 MoE 完全沒辦法解決的。PLE 在分發(fā)機(jī)制那層就有了自己的決策機(jī)制,會針對當(dāng)前輸入語境,動態(tài)調(diào)整不同專家的權(quán)重。

四木相對論:那么在實(shí)際效果上,這種方式對比之前會有多大的區(qū)別?

陳秋武:我說幾個實(shí)際的,比如預(yù)訓(xùn)練的價(jià)格。預(yù)訓(xùn)練的過程當(dāng)中,大家訓(xùn)練一次大模型可能幾百萬美元或者幾十萬美元打底?,F(xiàn)在中間如果某一個小的專家級,比如自然語言或者說代碼專家出現(xiàn)了問題,我們可以把它摘出來,修復(fù)完了再放上去繼續(xù)預(yù)訓(xùn)練,而不用出現(xiàn)問題后從頭開始預(yù)訓(xùn)練。

而且,7B到13B,13B到33B的擴(kuò)展預(yù)訓(xùn)練,在這個架構(gòu)里專家解耦后的網(wǎng)絡(luò)是可以被繼承下來。因?yàn)樵谶@個模式里專家是相互獨(dú)立的,這就好像,一個人跑了10公里,要再跑20公里的時(shí)候,就能接著10公里繼續(xù)往后跑,而不是說像現(xiàn)在一樣的回到最起點(diǎn)再重新再跑一遍。這兩個因素疊加在預(yù)訓(xùn)練的價(jià)格和迭代加速度的差距可能是三倍至十倍甚至更多。

四木相對論:這是對預(yù)訓(xùn)練的效果,那么對實(shí)際任務(wù)的執(zhí)行會有什么效果呢?

陳秋武:從實(shí)際使用的效果來說,剛才講的排查問題也是非常有用的。如果你遇到一個問題,但不知道這個問題的根源是什么,那何談解決。

我們了解到,Claude有個核心團(tuán)隊(duì)正在做模型的可解釋的問題。這個方案其實(shí)是可解釋的一個非常重要的鏈路,但我們已經(jīng)做完了。這對于提升模型的準(zhǔn)確率是非常重要的。

我們現(xiàn)在發(fā)布了7B的模型,有榜單的成績。其實(shí)綜合性能已經(jīng)屬于最好的,因?yàn)樗?B,其他差不多的模型可能有400B。

*benchmark展示:粗體為最好,下劃線為第二名

四木相對論:做這個新模型,AIGCode遇到的難題是什么?

陳秋武:網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)和落地,需要的實(shí)驗(yàn)的成本是非常高的。每一次實(shí)驗(yàn)完的下一步優(yōu)化有1000種可能性,其中99%以上的可能性都是錯的。我們要用實(shí)驗(yàn)的方式根據(jù)實(shí)驗(yàn)結(jié)果數(shù)據(jù)分析歸納去推導(dǎo)出正確的路徑,這也是為什么 Mistral在2023年中能拿到那么大一筆投資的原因。

這個領(lǐng)域其實(shí)人才很稀缺,有大型互聯(lián)網(wǎng)公司的核心推薦系統(tǒng),一天上億收入的體量,但模型組只有20、30人。而在這里面能做出核心效果的也就2、3人。業(yè)內(nèi)不管是國外還是國內(nèi),都很難找到合適的人。

四木相對論:這個模型的訓(xùn)練用了多久?

宿文:理論上我們可以做到20臺國產(chǎn)GPU機(jī)器,160張卡,花費(fèi)25天。但實(shí)際上我們訓(xùn)練了兩個月多一點(diǎn),因?yàn)樗械膶?shí)驗(yàn),包括前置的小樣實(shí)驗(yàn),還有中間網(wǎng)絡(luò)各方面的故障,以及國產(chǎn)分布式平臺的性能,我們都需要去處理。

我們的訓(xùn)練速度在業(yè)內(nèi)是別人的兩三倍。而且,有些分布式訓(xùn)練在業(yè)內(nèi)也沒有先例,我們花了三周時(shí)間就解決了這個問題。

談市場:AI Coding很多人拿資源打假賽

四木相對論:怎么看AI Coding大家的不同路線?

宿文:現(xiàn)在主要有兩條大路徑。一個是現(xiàn)在卷得要死要活的Copilot路線,GitHub和Cursor都在做。這種大家也都用通用模型實(shí)現(xiàn),要么用自己的,海外用Claude 3.5做效果最好。大廠的一些產(chǎn)品也是一樣,核心邏輯是在一個IDE里面去給程序員做代碼補(bǔ)齊。

這是一個存在的場景、存在的用戶和存在的問題。大家在用已經(jīng)存在的模型,提供一個最短平快的方案。但這里面從產(chǎn)品交互上也有很高的門檻,也就是進(jìn)去做容易,但做出來也難。Cursor也在后面只是喝湯而已,距離吃肉的Copilot還有好幾個身位。

這個方向還有一個很難的點(diǎn),就是需要有 IDE。微軟就有IDE,所以這個方向可以留給大廠去做,對初創(chuàng)公司比較難。

另外一個路徑,就是我們認(rèn)為的AutoPliot形態(tài)。

我們來想想AI Coding的終局是什么,不是寫代碼,而是為了呈現(xiàn)一個應(yīng)用。單純秀一萬行代碼,So what?有什么意義?誰在提這些需求,是產(chǎn)品經(jīng)理。

所以,我覺得代碼應(yīng)該端到端地去做生成,為用戶把使用門檻大幅度降低,讓大家變成能夠提需求,就實(shí)現(xiàn)效果的人。但是在現(xiàn)階段,我們認(rèn)為的用戶,首先是一個專業(yè)的產(chǎn)品經(jīng)理。因?yàn)槲覀円膊恢竿藭r(shí)就會很多人腦海里突然蹦出很多需求,這不會的。但是當(dāng)有人有需求,要去消費(fèi)這個軟件,需要個性化應(yīng)用的時(shí)候,就都可以用。

也就是說,我們希望提供一個產(chǎn)品,可以讓所有代碼的推理成本幾乎為零,讓個性化應(yīng)用的市場打開。目前的APP都是通用市場,普通人做不了自己的APP,做一個程序員還是有門檻,所以大家沒法實(shí)現(xiàn)個性化應(yīng)用。

讓個體實(shí)現(xiàn)個性化應(yīng)用,這是我們眼中的終局。所以我們繞開IDE生態(tài),直接在外部端到端地做交付。但是目前模型能力不夠,所以我們也做模型。

四木相對論:有沒有某一個產(chǎn)品或某個公司是我們現(xiàn)在重點(diǎn)關(guān)注的?

宿文:其實(shí)我們很關(guān)注Poolside和Magic,因?yàn)檫@兩家看起來真的在自己做模型。Cursor雖然也說要自己訓(xùn)5B~7B的模型,但這個在代碼領(lǐng)域也不夠用。而且,它都用到Claude3.5了,就算之后說要用開源的Llama訓(xùn)練,效果還是 PK不了Claude的模型。

Devin最開始也是基于GPT4,一直到現(xiàn)在產(chǎn)品出不來、見光死?,F(xiàn)在它又要自己訓(xùn)模型,但一看這團(tuán)隊(duì)也不是訓(xùn)模型的背景。Poolside和Magic這兩家看起來是想好了。

四木相對論:Magic在模型上強(qiáng)調(diào)了長上下文。

宿文:長上下文也是一個當(dāng)下的很大的痛點(diǎn),我們也在解決,有自己的方案,目前做了4M級別。我們希望奔著T級別去做,這是一個很大的創(chuàng)新。Magic幾個月前的模型,說做到了100M上下文,但行業(yè)內(nèi)波瀾不驚,因?yàn)槭荕amba架構(gòu)做的,這個架構(gòu)不好實(shí)現(xiàn)。

很多公司都說要做代碼模型,但可能做著做著遇到問題,停滯了。所以要看大家做模型,到底是架構(gòu)上創(chuàng)新還是有其他創(chuàng)新,還是說也囤了10萬張H100。這個領(lǐng)域看起來很熱鬧,但全球能真能出來,有用戶和客戶的很少。

陳秋武:之前我們開玩笑說,這個領(lǐng)域來了一堆非專業(yè)的人,拿了很多資源在打假賽。AIGCode也不會捏軟柿子PK,我們就是和Llama、DeepSeek、Claude的大參數(shù)模型去比。

四木相對論:怎么看DeepSeek?有不少人好評它的代碼能力。

宿文:它也不應(yīng)該稱為代碼模型。它和我們一樣,底層都是 AGI,決定了在代碼場景的效果不錯。DeepSeek是真正在做事情的團(tuán)隊(duì),但模型的技術(shù)架構(gòu)方面,我相信我們走的更超前一些。

當(dāng)然,他們也要在Coding賽道做一些插件,更像代碼補(bǔ)全。從這個角度,我們做的產(chǎn)品形態(tài)上又完全不一樣。

干掉程序員,讓Personal/Super APP長出來

四木相對論:現(xiàn)在很多人已經(jīng)在用AI Coding產(chǎn)品。尤其一些大廠,甚至還定了內(nèi)部消耗的KPI。我們會有后發(fā)的劣勢嗎?

宿文:我們和其他家的定位不太一樣。我們是給產(chǎn)品經(jīng)理用的,第一天就不服務(wù)程序員,和其他服務(wù)程序員的產(chǎn)品是沒有任何競爭的。

四木相對論:但產(chǎn)品經(jīng)理真的想去卷本來屬于程序員的工作嗎?

宿文:產(chǎn)品經(jīng)理需要畫N個圖,寫幾十頁的文檔,好不容易把程序員請到會議室里溝通需求,再被他們噴得體無完膚。產(chǎn)品經(jīng)理也需要工具滿足自己的想象力,我覺得之后程序員肯定會被淘汰的。

我們定義自己的產(chǎn)品是產(chǎn)品經(jīng)理工作流的一部分,可以讓他的工作形態(tài)發(fā)生一些轉(zhuǎn)變。舉一個簡單例子,如果企業(yè)今天去做To B業(yè)務(wù),客戶需要PoC,這個時(shí)候項(xiàng)目經(jīng)理,售前、產(chǎn)品經(jīng)理都可以通過我們的產(chǎn)品把這個事情做完。這種場景非常多。

四木相對論:現(xiàn)在AIGCode的產(chǎn)品進(jìn)展如何?

宿文:現(xiàn)在的一些簡單應(yīng)用,包括軟件原型的Demo、PoC我們已經(jīng)可以做到。我們會先用產(chǎn)品實(shí)現(xiàn)前端,后面再把后端需要的、帶數(shù)據(jù)和邏輯的功能加進(jìn)去。

我們創(chuàng)業(yè)還不到12個月,還有很多之后的計(jì)劃。如果軟件原型能做下來,我們就能夠生成最終可被交付的東西,那時(shí)程序員就能被完全替代。

陳秋武:需求是海量的。如果大家只用自然語言的方式提出一個需求,就有一批工具幫忙把軟件生成好,一鍵部署到服務(wù)器上,那么很多場景都能被釋放出來。當(dāng)別人還在做一個工具時(shí),我們在做的事是做生成批量工具的平臺。

我們在創(chuàng)造供給,沒有在一個存量市場做事情,這件事是可以解放生產(chǎn)力的。

從技術(shù)進(jìn)展來講,Web1.0是導(dǎo)航,2.0搜索,3.0是推薦,改變的是信息流轉(zhuǎn)的速度,傳播的效率。上一代的互聯(lián)網(wǎng)產(chǎn)品提升供需的鏈接效率,本身不提供內(nèi)容,但是在大模型的時(shí)代,大概率大家在提供平臺的同時(shí),會提供生產(chǎn)內(nèi)容的服務(wù)。

四木相對論:這里的內(nèi)容指的是什么范疇?

陳秋武:比如虛擬陪伴的聊天功能,是模型生成的,不是真的有人和你聊天。同樣,代碼也是生成的。從生產(chǎn)力的角度來看,這種內(nèi)容生產(chǎn)的質(zhì)量和速度,是下一代互聯(lián)網(wǎng)、技術(shù)迭代最核心的鏈路。

成為一個程序員現(xiàn)在還有門檻,寫代碼相當(dāng)于拿到二級電工證才能去操作的一個東西。所以,APP的生產(chǎn)受限于8000萬或者9000的萬的群體。但每個人其實(shí)都有自己的軟件需求,因?yàn)樗麄冇袀€性化內(nèi)容消費(fèi)的需求。

我們的產(chǎn)品,如果能夠加速每個人內(nèi)容生產(chǎn)的效率和質(zhì)量,那么內(nèi)容供給這一側(cè)就會井噴。所以,我們要在這個鏈條上加速。這是我們的邏輯,這個產(chǎn)品不會給程序員用,而是給有一些業(yè)務(wù)邏輯的人去用。

四木相對論:關(guān)于這個目標(biāo),我們設(shè)計(jì)了怎樣的計(jì)劃表?

宿文:APP的開發(fā)落地是一個非常長的鏈條上,從需求的提出到demo,再到最后落地開發(fā),產(chǎn)品經(jīng)理和研發(fā)一定先要和業(yè)務(wù)團(tuán)隊(duì)去溝通落地。前端做完,還包括后端數(shù)據(jù)庫、運(yùn)維、上線,最后還有反饋和運(yùn)營。這么長的一個鏈條,如果后面的內(nèi)容全部砍掉了,整個供給效率和內(nèi)容本身都是新的形態(tài)。

這是一件有顛覆意義的事情,我們沒法在這個階段,也就是公司成立不到一年就把它干完,要不就是騙人,要不就意味著門檻很低。

我們會有一個周期,樂觀預(yù)測可能需要一年到一年半的時(shí)間,把整個大鏈路,也就是整體的APP交付這件事上基本跑通,這是我們的預(yù)期。

在最近的一個季度內(nèi),我們在產(chǎn)品發(fā)布之后會快速拿到內(nèi)測,通過用戶數(shù)據(jù)決定我們往哪個方向迭代。還有一個是付費(fèi)點(diǎn),這里會和Figma很像,是給專業(yè)的用戶用,也就是生成完代碼,進(jìn)行部署的時(shí)候需要付費(fèi)。之后,我們也會做Global市場。

四木相對論:看到我們把代碼生成這件事分成了L1~L5?,F(xiàn)在我們在哪個階段?

陳秋武:L1類似低代碼平臺。L2是輔助程序員,讓他們根據(jù)提示生成代碼。L3能端到端地完成編程任務(wù),不需要程序員介入。L4是多端自動協(xié)作,讓大家能直接把想法變成軟件或產(chǎn)品。

現(xiàn)在我們是L3的初始階段。

L5是最終目標(biāo)。是說有了產(chǎn)品,還要自動化地把它部署到所有的運(yùn)營渠道里,再根據(jù)流量的反饋,自動生成多個相應(yīng)的版本去試下一個階段,一直到真正被市場或者流量校驗(yàn)過的產(chǎn)品出現(xiàn)。

四木相對論:如果這個愿景實(shí)現(xiàn),感覺互聯(lián)網(wǎng)大廠不需要存在了,至少不需要那么多人組成的大廠了。

陳秋武:我們要問自己增量價(jià)值在哪里?,F(xiàn)在很多能拿資源湊起來的東西,在我看來都是沒有增量價(jià)值的。這種能根據(jù)實(shí)際反饋,把產(chǎn)品價(jià)值的驗(yàn)證鏈條極大縮短的東西,才是真正的增量價(jià)值。

四木相對論:如果要實(shí)現(xiàn)L5這個目標(biāo),我們會通過一個產(chǎn)品不斷優(yōu)化,還是產(chǎn)品矩陣來實(shí)現(xiàn)?

陳秋武:可能大家現(xiàn)在還是習(xí)慣沿用上一個階段的思路。SuperAPP的形態(tài)不重要,但是競爭力是超級智能。形態(tài)我相信大家都是很模糊的,但互聯(lián)網(wǎng)已經(jīng)把低垂的果實(shí)摘完了,這種情況下,不能希望用老的思路拿到價(jià)值。

我覺得超級APP的思路是,它的流量本身是綁定在APP上的。舉個例子,現(xiàn)在大家的微信是一樣的,但如果現(xiàn)在我可以定制一個自己個性化的微信,尤其根據(jù)個人實(shí)際情況不斷實(shí)時(shí)調(diào)整,我對這個APP的黏性是遠(yuǎn)遠(yuǎn)超過通用APP的。再往后,SuperAPP也可能變成為比個性化APP服務(wù)的上游通用基礎(chǔ)供應(yīng)服務(wù)。

四木相對論:或許還得問一個"老思路"的問題。這件事和千人千面的區(qū)別有多少?

陳秋武:我做了很多年推薦。這個領(lǐng)域一個很重要的問題是,優(yōu)質(zhì)內(nèi)容生產(chǎn)的效率不高。你刷一個APP,刷60分鐘可能沒問題,但繼續(xù)再往下刷,內(nèi)容質(zhì)量其實(shí)蠻差的。原因就是高質(zhì)量的內(nèi)容,在供給側(cè)是不夠的。

老的互聯(lián)網(wǎng)是一個平臺,只提供鏈接本身,不會生產(chǎn)內(nèi)容。所以,如果提供一個Personal APP去生產(chǎn)這些內(nèi)容以及服務(wù),整個生態(tài)就會完全不一樣。

這是絕對的趨勢,我可以100%確定。我們現(xiàn)在講的這些不是可能性,是必然性。我們內(nèi)部一直相信,Auto-Coding is AGI, Personal App is the End!

四木相對論:現(xiàn)在我們怎么定義自己的公司?從基礎(chǔ)大模型到產(chǎn)品再到Personal/Super APP,我們怎樣界定自己?

宿文:我們做的事情確實(shí)很多。

拿基座模型來說,從GPU的優(yōu)化層開始,我們會做分布式預(yù)訓(xùn)練、算子融合、性能優(yōu)化、算子對齊,一步步把這些實(shí)在的技能全部積累下來。再往上,我們有能生成應(yīng)用的產(chǎn)品。

最后,我們要一路做到L5,幫助Super APP落地。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陪讀媽媽反對牢A觀點(diǎn),脖子上的“認(rèn)主項(xiàng)鏈”露餡了,老公天塌了

陪讀媽媽反對牢A觀點(diǎn),脖子上的“認(rèn)主項(xiàng)鏈”露餡了,老公天塌了

澤澤先生
2026-01-26 21:36:11
阿里納斯:沒人知道喬丹92奧運(yùn)決賽打得差,因?yàn)楫?dāng)時(shí)媒體都捧他臭腳

阿里納斯:沒人知道喬丹92奧運(yùn)決賽打得差,因?yàn)楫?dāng)時(shí)媒體都捧他臭腳

懂球帝
2026-01-26 12:30:08
交易大地震!詹姆斯!騎士!

交易大地震!詹姆斯!騎士!

老壥說體育
2026-01-26 15:31:53
兩戰(zhàn)轟37+24!中國男籃22歲2米26中鋒崛起:郭艾倫助他再蛻變

兩戰(zhàn)轟37+24!中國男籃22歲2米26中鋒崛起:郭艾倫助他再蛻變

李喜林籃球絕殺
2026-01-26 12:17:18
罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

來科點(diǎn)譜
2026-01-23 11:08:02
吃10根山藥不如1個它!天然的“養(yǎng)胃高手”,時(shí)常吃一點(diǎn),胃健康

吃10根山藥不如1個它!天然的“養(yǎng)胃高手”,時(shí)常吃一點(diǎn),胃健康

江江食研社
2026-01-25 22:55:03
梁小龍?jiān)岫Y,陳惠敏陳光標(biāo)等送別,骨灰葬內(nèi)地,妻子兒女低調(diào)現(xiàn)身

梁小龍?jiān)岫Y,陳惠敏陳光標(biāo)等送別,骨灰葬內(nèi)地,妻子兒女低調(diào)現(xiàn)身

有范又有料
2026-01-26 13:53:40
李思思現(xiàn)身邢臺主持,又矮又胖,1米7看著就像1米5,臉還變圓潤了

李思思現(xiàn)身邢臺主持,又矮又胖,1米7看著就像1米5,臉還變圓潤了

小娛樂悠悠
2026-01-26 11:36:45
4個去中國化最徹底的國家,一個已全盤西化,一個正試圖恢復(fù)漢字

4個去中國化最徹底的國家,一個已全盤西化,一個正試圖恢復(fù)漢字

泠泠說史
2026-01-26 18:36:40
29歲女子被丈夫砍死!受害者完全可以逃生,3條生路被堵死

29歲女子被丈夫砍死!受害者完全可以逃生,3條生路被堵死

細(xì)品名人
2026-01-26 07:36:25
騰訊宣布:春節(jié)發(fā)10億元現(xiàn)金!單個紅包最高達(dá)1萬元,可直接提現(xiàn)到微信

騰訊宣布:春節(jié)發(fā)10億元現(xiàn)金!單個紅包最高達(dá)1萬元,可直接提現(xiàn)到微信

每日經(jīng)濟(jì)新聞
2026-01-25 19:55:05
剛剛!利好,直線暴漲!

剛剛!利好,直線暴漲!

中國基金報(bào)
2026-01-26 22:09:40
1月26日俄烏:各方都必須妥協(xié),烏克蘭將在2027年加入歐盟?

1月26日俄烏:各方都必須妥協(xié),烏克蘭將在2027年加入歐盟?

山河路口
2026-01-26 18:57:56
西安事變真相:蔣家7侄陣亡護(hù)蔣,雙方死傷超600,血債被記五十四年

西安事變真相:蔣家7侄陣亡護(hù)蔣,雙方死傷超600,血債被記五十四年

磊子講史
2025-12-30 18:03:15
汪希玥穿14000元羽絨服,在朝陽公園溜冰,又白又瘦,越長越像大S

汪希玥穿14000元羽絨服,在朝陽公園溜冰,又白又瘦,越長越像大S

李健政觀察
2026-01-26 22:13:05
后悔也晚了!大批F35逼到家門口,伊朗卻發(fā)現(xiàn)紅旗9和殲10還未到位

后悔也晚了!大批F35逼到家門口,伊朗卻發(fā)現(xiàn)紅旗9和殲10還未到位

文雅筆墨
2026-01-25 03:11:20
楊紫新劇邀林志玲演上海名媛,兩人11年前親吻畫面曝光,泄好交情

楊紫新劇邀林志玲演上海名媛,兩人11年前親吻畫面曝光,泄好交情

小邵說劇
2026-01-26 21:01:10
情況有變!日本產(chǎn)生大膽想法,從中國東面動手,美一隊(duì)人馬上就到

情況有變!日本產(chǎn)生大膽想法,從中國東面動手,美一隊(duì)人馬上就到

原來仙女不講理
2026-01-27 00:00:09
2-0到2-2!中國男足痛失好局,2球領(lǐng)先遭絕平,邵佳一帶隊(duì)3場不敗

2-0到2-2!中國男足痛失好局,2球領(lǐng)先遭絕平,邵佳一帶隊(duì)3場不敗

綠茵舞著
2026-01-27 00:01:16
老道士揭秘:家中這三樣?xùn)|西消失,一定是被人借運(yùn)了!千萬要小心

老道士揭秘:家中這三樣?xùn)|西消失,一定是被人借運(yùn)了!千萬要小心

古怪奇談錄
2026-01-05 11:32:51
2026-01-27 00:44:49
四木相對論 incentive-icons
四木相對論
嘮嘮科技,看看世界
101文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

印奇再上牌桌,階躍融資50億

頭條要聞

女子被丈夫和閨蜜背叛一夜白頭:聽到兒子叫第三者媽媽

頭條要聞

女子被丈夫和閨蜜背叛一夜白頭:聽到兒子叫第三者媽媽

體育要聞

叛逆的大公子,要砸了貝克漢姆這塊招牌

娛樂要聞

張雨綺被抵制成功!遼視春晚已將她除名

財(cái)經(jīng)要聞

從美式斬殺線看中國社會的制度韌性構(gòu)建

汽車要聞

賓利第四臺Batur敞篷版發(fā)布 解鎖四項(xiàng)定制創(chuàng)新

態(tài)度原創(chuàng)

本地
游戲
健康
手機(jī)
公開課

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

分析師稱PS6不會在2027年到來!停滯兩年或不是壞事

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

手機(jī)要聞

華為神秘新機(jī)曝光:白綠橘藍(lán)黑五色可選,或?yàn)槿蚴卓钫郫B平板!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版