網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI語(yǔ)言模型學(xué)習(xí)新技能的順序，竟然驚人地相似

2026-04-26 19:06:21　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所、約翰斯·霍普金斯大學(xué)計(jì)算機(jī)系、東北大學(xué)Khoury計(jì)算機(jī)學(xué)院以及南加州大學(xué)計(jì)算機(jī)系聯(lián)合完成的研究，于2026年4月發(fā)布在arXiv預(yù)印本平臺(tái)，論文編號(hào)為arXiv:2604.08510。感興趣的讀者可通過(guò)該編號(hào)查閱完整原文。

**一個(gè)困擾研究者多年的謎題**

每當(dāng)一個(gè)孩子學(xué)語(yǔ)言，我們會(huì)發(fā)現(xiàn)他們幾乎總是先學(xué)會(huì)叫"媽媽"，然后學(xué)會(huì)說(shuō)簡(jiǎn)單名詞，再學(xué)會(huì)造句，最后才能講述復(fù)雜的故事。這個(gè)學(xué)習(xí)順序不是隨機(jī)的，而是有內(nèi)在規(guī)律的。那么，人工智能語(yǔ)言模型呢？它們?cè)诮邮艽罅课淖钟?xùn)練時(shí)，是否也存在這樣一個(gè)固定的"學(xué)習(xí)成長(zhǎng)順序"？

卡內(nèi)基梅隆大學(xué)等高校的研究團(tuán)隊(duì)對(duì)這個(gè)問(wèn)題展開(kāi)了深入研究，并提出了一個(gè)令人興奮的猜想，他們將其命名為"隱性課程假說(shuō)"（Implicit Curriculum Hypothesis）。簡(jiǎn)單來(lái)說(shuō)，他們猜測(cè)：不同的AI語(yǔ)言模型，即使來(lái)自不同的公司、用不同的數(shù)據(jù)訓(xùn)練，在學(xué)習(xí)各種技能的順序上，會(huì)呈現(xiàn)出出人意料的一致性——就像不同國(guó)家的孩子，雖然學(xué)的是不同的母語(yǔ)，但都會(huì)先學(xué)簡(jiǎn)單詞匯再學(xué)復(fù)雜語(yǔ)法一樣。

這個(gè)問(wèn)題之所以重要，是因?yàn)楝F(xiàn)代AI語(yǔ)言模型的訓(xùn)練極其昂貴，有時(shí)甚至需要耗資數(shù)百萬(wàn)美元。然而，工程師們監(jiān)控模型訓(xùn)練進(jìn)展的方式，一直停留在觀察一個(gè)叫做"交叉熵?fù)p失"的數(shù)字上——這個(gè)數(shù)字雖然會(huì)隨著訓(xùn)練持續(xù)下降，但它就像只告訴你學(xué)生"總分提高了多少"，而完全無(wú)法告訴你"這個(gè)學(xué)生現(xiàn)在會(huì)不會(huì)做加減法"、"會(huì)不會(huì)寫(xiě)作文"。研究團(tuán)隊(duì)希望填補(bǔ)這一空白，找到一套更精細(xì)的方法來(lái)理解AI究竟在什么時(shí)候?qū)W會(huì)了什么。

**一、給AI設(shè)計(jì)一套"能力測(cè)試題"**

要研究AI學(xué)習(xí)技能的順序，首先需要一套設(shè)計(jì)精良的測(cè)試題。研究團(tuán)隊(duì)設(shè)計(jì)了一套共91道測(cè)試任務(wù)，涵蓋了從極簡(jiǎn)單到相對(duì)復(fù)雜的各類技能。

這些任務(wù)分為兩大類。第一類叫做"基礎(chǔ)任務(wù)"，共53個(gè)，每個(gè)任務(wù)只考查一種特定能力。比如，"復(fù)制"任務(wù)就是把輸入的文字原樣輸出；"大寫(xiě)"任務(wù)是把輸入的小寫(xiě)字母變成大寫(xiě)；"翻譯英譯法"任務(wù)是把英文單詞翻譯成法文；"提取數(shù)字"任務(wù)是從一段文字描述中找出數(shù)字。這些任務(wù)涵蓋了字符串操作（比如倒序、取首字母）、詞形變換（比如把動(dòng)詞變成進(jìn)行時(shí)形式）、知識(shí)檢索（比如回答某個(gè)國(guó)家的首都是哪里）、翻譯、算術(shù)計(jì)算以及邏輯推理等多個(gè)維度。

第二類叫做"組合任務(wù)"，共38個(gè)，是將多個(gè)基礎(chǔ)任務(wù)串聯(lián)起來(lái)完成的。比如，"動(dòng)詞進(jìn)行時(shí)＋大寫(xiě)"這個(gè)任務(wù)，要求先把輸入的動(dòng)詞變成進(jìn)行時(shí)形式，再把結(jié)果全部大寫(xiě)——輸入"run"，正確答案是"RUNNING"。再比如，"法譯英＋倒序"任務(wù)，需要先把法語(yǔ)單詞翻譯成英語(yǔ)，再把英語(yǔ)單詞的字母倒序排列——輸入"bonjour"，正確答案是"olleh"。這種設(shè)計(jì)的妙處在于，每個(gè)組合任務(wù)的"先決條件"是已知的：要完成"動(dòng)詞進(jìn)行時(shí)＋大寫(xiě)"，模型必須先會(huì)"動(dòng)詞進(jìn)行時(shí)"和"大寫(xiě)"這兩個(gè)基礎(chǔ)任務(wù)。

這套測(cè)試的評(píng)分方式也很簡(jiǎn)潔：完全匹配才算正確，沒(méi)有模糊地帶。這讓研究者能夠精確地追蹤每個(gè)模型在每個(gè)訓(xùn)練時(shí)間點(diǎn)上，到底有沒(méi)有掌握某項(xiàng)技能。

**二、橫跨四個(gè)"模型家族"的追蹤實(shí)驗(yàn)**

測(cè)試題有了，接下來(lái)需要"被測(cè)者"。研究團(tuán)隊(duì)選擇了9個(gè)不同的AI語(yǔ)言模型，來(lái)自4個(gè)不同的模型家族，參數(shù)規(guī)模從4億到130億不等。

這4個(gè)家族分別是：OLMo-2系列，包含10億、70億和130億參數(shù)的三個(gè)版本，可以研究同一家族內(nèi)規(guī)模變化的影響；OLMo-3系列，有一個(gè)70億參數(shù)版本，可以與OLMo-2進(jìn)行跨代比較；LLM360系列，包含Crystal（7B）和Amber（7B）兩個(gè)模型，它們的特別之處在于訓(xùn)練數(shù)據(jù)完全不同——Crystal偏向代碼數(shù)據(jù)，Amber偏向自然語(yǔ)言數(shù)據(jù)，這讓研究者可以在控制模型架構(gòu)的同時(shí)，研究數(shù)據(jù)組成對(duì)學(xué)習(xí)順序的影響；以及Pythia系列，包含4億、14億和120億參數(shù)三個(gè)版本，這是一個(gè)較早期的模型系列，用不同于前三者的數(shù)據(jù)訓(xùn)練。

每個(gè)模型都提供了訓(xùn)練過(guò)程中保存的"中間檢查點(diǎn)"——可以把它們理解為模型成長(zhǎng)過(guò)程中不同時(shí)間點(diǎn)的"快照"。研究團(tuán)隊(duì)聚焦于每個(gè)模型訓(xùn)練的前1萬(wàn)億個(gè)詞元（token）階段，并在這段時(shí)間內(nèi)大約均勻采樣20個(gè)檢查點(diǎn)，相當(dāng)于每隔200億詞元"拍一張照"。通過(guò)對(duì)這些快照逐一進(jìn)行91道測(cè)試題的測(cè)評(píng)，就可以描繪出每個(gè)技能在每個(gè)模型中隨時(shí)間變化的"成長(zhǎng)曲線"。

**三、技能出現(xiàn)的順序，跨模型高度一致**

研究的第一個(gè)核心發(fā)現(xiàn)，是對(duì)"隱性課程假說(shuō)"第一個(gè)預(yù)測(cè)的驗(yàn)證：不同模型學(xué)習(xí)技能的順序，高度相似。

研究團(tuán)隊(duì)定義了一個(gè)"技能出現(xiàn)時(shí)間點(diǎn)"：當(dāng)某個(gè)模型在某項(xiàng)任務(wù)上的準(zhǔn)確率首次超過(guò)80%時(shí)，認(rèn)為該模型"掌握"了這項(xiàng)技能。然后，他們比較不同模型的技能掌握順序是否一致。

結(jié)果令人印象深刻。在所有45對(duì)模型的兩兩比較中，技能掌握順序的斯皮爾曼秩相關(guān)系數(shù)（一種衡量?jī)蓚€(gè)排名序列是否相似的統(tǒng)計(jì)指標(biāo)）平均高達(dá)0.81，最低也有0.64，最高達(dá)到0.93，且所有相關(guān)系數(shù)的統(tǒng)計(jì)顯著性都極高，p值遠(yuǎn)小于10的負(fù)7次方。換句話說(shuō)，如果你知道了某個(gè)模型掌握各項(xiàng)技能的順序，你就能以相當(dāng)高的準(zhǔn)確度預(yù)測(cè)另一個(gè)完全不同的模型的掌握順序——哪怕這兩個(gè)模型來(lái)自不同的公司、用不同的數(shù)據(jù)訓(xùn)練、參數(shù)量相差數(shù)倍。

那么，這個(gè)順序具體是什么樣的？最先被所有模型掌握的技能是"復(fù)制"，即把輸入原樣輸出。這也許并不令人驚訝，因?yàn)檫@是最簡(jiǎn)單的信息傳遞任務(wù)。緊隨其后的是各類簡(jiǎn)單的字符串操作，比如大寫(xiě)、小寫(xiě)、提取首字母等。然后是詞形變換，比如把動(dòng)詞變成進(jìn)行時(shí)形式，把單數(shù)名詞變成復(fù)數(shù)。接下來(lái)是知識(shí)檢索類任務(wù)，比如翻譯和回答簡(jiǎn)單事實(shí)性問(wèn)題。再往后，簡(jiǎn)單的邏輯推斷開(kāi)始出現(xiàn)。最后才出現(xiàn)的是多步驟算術(shù)計(jì)算和更復(fù)雜的推理任務(wù)。

同族模型之間的相關(guān)性尤其高，比如OLMo-2的7B和13B版本相關(guān)系數(shù)高達(dá)0.93。但即便是跨越家族、跨越數(shù)據(jù)類型、跨越年代的比較，相關(guān)性也依然顯著——比如Amber與OLMo-2系列的相關(guān)系數(shù)在0.82到0.88之間，即便是最"風(fēng)格迥異"的組合，比如僅有4億參數(shù)的Pythia-410M與130億參數(shù)的OLMo-2-13B，相關(guān)系數(shù)也達(dá)到了0.60。

這里有一個(gè)重要的細(xì)節(jié)：這種高度一致性，只在使用絕對(duì)準(zhǔn)確率閾值（比如固定在80%）時(shí)成立。如果改用相對(duì)閾值（比如達(dá)到該模型在該任務(wù)上歷史最高分的80%），跨模型的相關(guān)性就會(huì)大幅下降，平均只有0.50左右。研究團(tuán)隊(duì)對(duì)此給出了合理的解釋：相對(duì)閾值依賴于每個(gè)模型自己的"天花板"，一個(gè)能力較弱的模型可能在某項(xiàng)任務(wù)上永遠(yuǎn)無(wú)法達(dá)到有意義的準(zhǔn)確率，卻可能因?yàn)榕既恍暂^早觸發(fā)了相對(duì)閾值；而絕對(duì)閾值更接近"這個(gè)模型真正學(xué)會(huì)了這件事"這個(gè)概念，因此能更準(zhǔn)確地捕捉"技能出現(xiàn)"這一事件。

**四、復(fù)雜任務(wù)總是在其組成部分之后出現(xiàn)**

研究的第二個(gè)核心發(fā)現(xiàn)，驗(yàn)證了假說(shuō)的第二個(gè)預(yù)測(cè)：組合任務(wù)通常在其組成的基礎(chǔ)任務(wù)之后才被模型掌握。

在總共76對(duì)"組合任務(wù)-基礎(chǔ)任務(wù)"的比較中，有54對(duì)符合預(yù)期——組合任務(wù)確實(shí)在基礎(chǔ)任務(wù)之后出現(xiàn)。這個(gè)比例大約是71%，算不上完美，但已經(jīng)提供了相當(dāng)強(qiáng)的支持證據(jù)。

剩余的違反情況可以分為兩類。其中19個(gè)屬于"弱違反"——組合任務(wù)的出現(xiàn)時(shí)間比其中一個(gè)基礎(chǔ)任務(wù)早，但另一個(gè)基礎(chǔ)任務(wù)還是先出現(xiàn)了；另外只有3個(gè)屬于"強(qiáng)違反"——組合任務(wù)比它的所有基礎(chǔ)任務(wù)都更早出現(xiàn)。有意思的是，這3個(gè)強(qiáng)違反的案例，全都涉及同一個(gè)基礎(chǔ)任務(wù)："提取首字母"。這個(gè)發(fā)現(xiàn)暗示，"提取首字母"這個(gè)任務(wù)，雖然在測(cè)試框架中被設(shè)計(jì)為其他任務(wù)的組成部分，但它在實(shí)際訓(xùn)練動(dòng)態(tài)中的位置可能與其他基礎(chǔ)任務(wù)不太一樣——可能是因?yàn)橹苯尤∈鬃帜高@個(gè)操作，在現(xiàn)實(shí)中往往會(huì)和更復(fù)雜的任務(wù)同時(shí)出現(xiàn)在訓(xùn)練數(shù)據(jù)里，從而讓模型在學(xué)會(huì)"單獨(dú)"做這件事之前，就在組合情境下見(jiàn)過(guò)它了。

這個(gè)發(fā)現(xiàn)的意義在于，它將我們對(duì)AI學(xué)習(xí)的理解從"AI只是在隨機(jī)學(xué)習(xí)"推向了"AI的學(xué)習(xí)遵循一種結(jié)構(gòu)性的從簡(jiǎn)到難的順序"。當(dāng)你理解了這種順序，就可以用它來(lái)診斷模型訓(xùn)練是否正常：如果模型在某個(gè)復(fù)雜任務(wù)上表現(xiàn)差勁，你可以檢查它的"先決技能"是否都已經(jīng)掌握了；如果連先決技能都沒(méi)學(xué)好，那就找到問(wèn)題的根源了。

**五、技能的"形狀"決定了它的"命運(yùn)"**

研究的第三個(gè)，也是最令人著迷的發(fā)現(xiàn)，涉及到模型內(nèi)部的表示空間。

在AI語(yǔ)言模型內(nèi)部，每個(gè)任務(wù)都可以被表示為一個(gè)高維空間中的"方向向量"——研究團(tuán)隊(duì)把這些向量稱為"功能向量"（function vector）。你可以把它理解為模型內(nèi)部對(duì)"如何完成這個(gè)任務(wù)"的一種壓縮摘要。兩個(gè)任務(wù)的功能向量越相似（就像兩個(gè)指向差不多方向的箭頭），說(shuō)明模型執(zhí)行這兩個(gè)任務(wù)時(shí)用到的內(nèi)部機(jī)制越相似。

研究團(tuán)隊(duì)提出了第三個(gè)預(yù)測(cè)：內(nèi)部表示相似的任務(wù)，學(xué)習(xí)軌跡也應(yīng)該相似。通俗地說(shuō)，如果模型處理"法譯英"和"西譯英"的方式在內(nèi)部高度相似，那么這兩項(xiàng)技能的成長(zhǎng)曲線也應(yīng)該高度相似——比如都在訓(xùn)練到大約200億詞元時(shí)開(kāi)始明顯提升，都在600億詞元時(shí)趨于穩(wěn)定。

為了驗(yàn)證這個(gè)預(yù)測(cè)，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精巧的實(shí)驗(yàn)。他們把38個(gè)組合任務(wù)一個(gè)一個(gè)地"藏起來(lái)"，假裝自己從來(lái)沒(méi)有觀測(cè)過(guò)那個(gè)任務(wù)的訓(xùn)練軌跡，然后只用其他任務(wù)的功能向量和訓(xùn)練軌跡信息，來(lái)預(yù)測(cè)那個(gè)被藏起來(lái)的任務(wù)的訓(xùn)練軌跡——整個(gè)過(guò)程不用對(duì)那個(gè)任務(wù)做任何實(shí)際測(cè)試，完全依賴表示空間中的"鄰居關(guān)系"來(lái)推斷。

這個(gè)實(shí)驗(yàn)的結(jié)果出乎意料地好。在包含所有任務(wù)（基礎(chǔ)任務(wù)和其他組合任務(wù)）作為參考的條件下，預(yù)測(cè)質(zhì)量的R?（判定系數(shù)，越接近1說(shuō)明預(yù)測(cè)越準(zhǔn)確）在不同模型上介于0.68到0.84之間，其中部分單個(gè)任務(wù)的預(yù)測(cè)精度甚至超過(guò)了0.95。以O(shè)LMo-2 7B為例，對(duì)"法譯英再大寫(xiě)"這個(gè)組合任務(wù)的預(yù)測(cè)，R?高達(dá)0.99，平均絕對(duì)誤差只有0.017——幾乎與真實(shí)軌跡完全重合。對(duì)"復(fù)數(shù)再小寫(xiě)"的預(yù)測(cè)R?也達(dá)到了0.89。

當(dāng)然，也有預(yù)測(cè)效果較差的案例，比如"英譯法再大寫(xiě)"的R?只有0.51，說(shuō)明這個(gè)任務(wù)的訓(xùn)練軌跡與它在表示空間中的鄰居不夠相似，或者鄰居本身的軌跡也比較雜亂。

更有趣的是，研究團(tuán)隊(duì)還比較了兩種參考條件：用"所有任務(wù)"作為參考，還是只用"基礎(chǔ)任務(wù)"作為參考。結(jié)果發(fā)現(xiàn)，一旦把組合任務(wù)從參考集中移除，預(yù)測(cè)誤差（MAE，平均絕對(duì)誤差）在所有模型上都顯著增加，平均增加了0.135。這說(shuō)明，組合任務(wù)之間共享的某種特殊結(jié)構(gòu)，是無(wú)法完全用基礎(chǔ)任務(wù)來(lái)"替代"的——也就是說(shuō)，"組合本身"這件事在模型的內(nèi)部表示中也留下了獨(dú)特的痕跡。研究者把這種現(xiàn)象稱為"組合瓶頸"，意指學(xué)習(xí)如何將技能組合起來(lái)，是一種超越了單獨(dú)學(xué)習(xí)每項(xiàng)技能的額外能力。

**六、這套發(fā)現(xiàn)意味著什么**

歸根結(jié)底，這項(xiàng)研究揭示了一件很有意思的事：AI語(yǔ)言模型的訓(xùn)練，并不像表面上看起來(lái)那么混亂和不可預(yù)測(cè)。在平滑下降的損失曲線背后，隱藏著一個(gè)有序的技能習(xí)得過(guò)程，這個(gè)過(guò)程在不同模型、不同數(shù)據(jù)、不同規(guī)模上保持著令人驚訝的一致性。

這對(duì)AI研究和應(yīng)用來(lái)說(shuō)有幾層實(shí)際意義。其一，這為"AI訓(xùn)練監(jiān)控"提供了一種新思路。以往，工程師只能盯著損失曲線，看不出模型到底學(xué)到了什么。而這套任務(wù)測(cè)試體系，可以作為一組"能力里程碑"，幫助工程師判斷模型是否在以正常節(jié)奏發(fā)展各項(xiàng)能力。如果某個(gè)預(yù)期早出現(xiàn)的技能遲遲沒(méi)有出現(xiàn)，這可能是一個(gè)需要排查的異常信號(hào)。

其二，這為理解AI的"能力瓶頸"提供了新工具。當(dāng)一個(gè)AI在某個(gè)復(fù)雜任務(wù)（比如數(shù)學(xué)應(yīng)用題）上表現(xiàn)不佳時(shí)，研究者現(xiàn)在可以系統(tǒng)地檢查該任務(wù)所依賴的先決技能鏈，而不是面對(duì)一個(gè)黑盒手足無(wú)措。這就像是給了醫(yī)生一套完整的癥狀-病因圖譜，而不是只有一個(gè)"患者病得很重"的診斷結(jié)論。

其三，技能習(xí)得順序與功能向量空間之間的關(guān)聯(lián)，暗示了AI內(nèi)部表示的幾何結(jié)構(gòu)本身就攜帶了關(guān)于學(xué)習(xí)動(dòng)態(tài)的信息。換句話說(shuō)，通過(guò)分析一個(gè)充分訓(xùn)練好的模型的內(nèi)部結(jié)構(gòu)，我們或許可以推斷出它在訓(xùn)練過(guò)程中經(jīng)歷了怎樣的發(fā)展路徑。這開(kāi)辟了一個(gè)用"解剖學(xué)"來(lái)倒推"發(fā)育史"的研究方向。

當(dāng)然，這項(xiàng)研究也有其局限性。研究選取的任務(wù)，整體上還是比較簡(jiǎn)單、結(jié)構(gòu)清晰的，與現(xiàn)實(shí)世界中復(fù)雜的語(yǔ)言理解和生成任務(wù)之間存在一定距離。此外，研究?jī)H覆蓋了訓(xùn)練前1萬(wàn)億詞元的階段，對(duì)于更后期的訓(xùn)練動(dòng)態(tài)，是否同樣規(guī)律依然成立，還有待進(jìn)一步探索。研究使用的模型參數(shù)量上限為130億，當(dāng)代最大的前沿模型動(dòng)輒千億參數(shù)，這套規(guī)律在超大規(guī)模模型上是否仍然適用，同樣是一個(gè)開(kāi)放問(wèn)題。

這就像我們發(fā)現(xiàn)了兒童語(yǔ)言習(xí)得有固定順序一樣——這個(gè)發(fā)現(xiàn)本身很重要，但它只是更宏大的、關(guān)于智能如何發(fā)展這一問(wèn)題的一個(gè)開(kāi)端。那些更大的模型、更復(fù)雜的技能組合、更長(zhǎng)的訓(xùn)練周期，都在等待著后續(xù)研究的探索。

Q&A

Q1：隱性課程假說(shuō)是什么意思，它和真正的課程有什么關(guān)系？

A：隱性課程假說(shuō)說(shuō)的是，AI語(yǔ)言模型在用大量文字訓(xùn)練時(shí)，并沒(méi)有人為設(shè)計(jì)學(xué)習(xí)順序，但模型自發(fā)地會(huì)先學(xué)簡(jiǎn)單技能、后學(xué)復(fù)雜技能，而且不同模型的這種學(xué)習(xí)順序高度相似。這里的"課程"是個(gè)比喻，指學(xué)習(xí)的先后安排，"隱性"則是說(shuō)這個(gè)順序不是人刻意設(shè)定的，而是訓(xùn)練過(guò)程自然涌現(xiàn)出來(lái)的。

Q2：為什么用絕對(duì)準(zhǔn)確率閾值來(lái)定義"技能出現(xiàn)"，而不是相對(duì)閾值？

A：用相對(duì)閾值（比如達(dá)到模型自身歷史最高分的80%）時(shí)，跨模型的順序一致性會(huì)大幅下降。原因是不同模型的"天花板"差異很大——弱模型可能在某項(xiàng)任務(wù)上永遠(yuǎn)達(dá)不到有意義的水平，但可能因?yàn)殡S機(jī)波動(dòng)較早觸發(fā)了相對(duì)閾值。絕對(duì)閾值（固定在80%準(zhǔn)確率）更準(zhǔn)確地反映了模型真正學(xué)會(huì)了這件事，所以能更清楚地捕捉技能出現(xiàn)的時(shí)間點(diǎn)。

Q3：功能向量是怎么提取出來(lái)的，它真的能代表模型"如何理解一項(xiàng)任務(wù)"嗎？

A：功能向量是通過(guò)讓模型完成某項(xiàng)任務(wù)的示例題目，然后記錄模型內(nèi)部特定位置（注意力頭的輸出或殘差流的隱藏狀態(tài)）的激活值，再對(duì)多個(gè)例題的激活值取平均來(lái)得到的。研究中只使用了模型答對(duì)的例題，確保提取的是"成功執(zhí)行任務(wù)"時(shí)的內(nèi)部狀態(tài)。這個(gè)向量能在一定程度上代表模型執(zhí)行該任務(wù)的內(nèi)部機(jī)制，因?yàn)樗茴A(yù)測(cè)任務(wù)的學(xué)習(xí)軌跡，但它并不是對(duì)模型內(nèi)部機(jī)制的完整描述，更像是一種有用的近似表示。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.