国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI語(yǔ)言模型學(xué)習(xí)新技能的順序,竟然驚人地相似

0
分享至


這項(xiàng)由卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所、約翰斯·霍普金斯大學(xué)計(jì)算機(jī)系、東北大學(xué)Khoury計(jì)算機(jī)學(xué)院以及南加州大學(xué)計(jì)算機(jī)系聯(lián)合完成的研究,于2026年4月發(fā)布在arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2604.08510。感興趣的讀者可通過(guò)該編號(hào)查閱完整原文。

**一個(gè)困擾研究者多年的謎題**

每當(dāng)一個(gè)孩子學(xué)語(yǔ)言,我們會(huì)發(fā)現(xiàn)他們幾乎總是先學(xué)會(huì)叫"媽媽",然后學(xué)會(huì)說(shuō)簡(jiǎn)單名詞,再學(xué)會(huì)造句,最后才能講述復(fù)雜的故事。這個(gè)學(xué)習(xí)順序不是隨機(jī)的,而是有內(nèi)在規(guī)律的。那么,人工智能語(yǔ)言模型呢?它們?cè)诮邮艽罅课淖钟?xùn)練時(shí),是否也存在這樣一個(gè)固定的"學(xué)習(xí)成長(zhǎng)順序"?

卡內(nèi)基梅隆大學(xué)等高校的研究團(tuán)隊(duì)對(duì)這個(gè)問(wèn)題展開(kāi)了深入研究,并提出了一個(gè)令人興奮的猜想,他們將其命名為"隱性課程假說(shuō)"(Implicit Curriculum Hypothesis)。簡(jiǎn)單來(lái)說(shuō),他們猜測(cè):不同的AI語(yǔ)言模型,即使來(lái)自不同的公司、用不同的數(shù)據(jù)訓(xùn)練,在學(xué)習(xí)各種技能的順序上,會(huì)呈現(xiàn)出出人意料的一致性——就像不同國(guó)家的孩子,雖然學(xué)的是不同的母語(yǔ),但都會(huì)先學(xué)簡(jiǎn)單詞匯再學(xué)復(fù)雜語(yǔ)法一樣。

這個(gè)問(wèn)題之所以重要,是因?yàn)楝F(xiàn)代AI語(yǔ)言模型的訓(xùn)練極其昂貴,有時(shí)甚至需要耗資數(shù)百萬(wàn)美元。然而,工程師們監(jiān)控模型訓(xùn)練進(jìn)展的方式,一直停留在觀察一個(gè)叫做"交叉熵?fù)p失"的數(shù)字上——這個(gè)數(shù)字雖然會(huì)隨著訓(xùn)練持續(xù)下降,但它就像只告訴你學(xué)生"總分提高了多少",而完全無(wú)法告訴你"這個(gè)學(xué)生現(xiàn)在會(huì)不會(huì)做加減法"、"會(huì)不會(huì)寫(xiě)作文"。研究團(tuán)隊(duì)希望填補(bǔ)這一空白,找到一套更精細(xì)的方法來(lái)理解AI究竟在什么時(shí)候?qū)W會(huì)了什么。

**一、給AI設(shè)計(jì)一套"能力測(cè)試題"**

要研究AI學(xué)習(xí)技能的順序,首先需要一套設(shè)計(jì)精良的測(cè)試題。研究團(tuán)隊(duì)設(shè)計(jì)了一套共91道測(cè)試任務(wù),涵蓋了從極簡(jiǎn)單到相對(duì)復(fù)雜的各類技能。

這些任務(wù)分為兩大類。第一類叫做"基礎(chǔ)任務(wù)",共53個(gè),每個(gè)任務(wù)只考查一種特定能力。比如,"復(fù)制"任務(wù)就是把輸入的文字原樣輸出;"大寫(xiě)"任務(wù)是把輸入的小寫(xiě)字母變成大寫(xiě);"翻譯英譯法"任務(wù)是把英文單詞翻譯成法文;"提取數(shù)字"任務(wù)是從一段文字描述中找出數(shù)字。這些任務(wù)涵蓋了字符串操作(比如倒序、取首字母)、詞形變換(比如把動(dòng)詞變成進(jìn)行時(shí)形式)、知識(shí)檢索(比如回答某個(gè)國(guó)家的首都是哪里)、翻譯、算術(shù)計(jì)算以及邏輯推理等多個(gè)維度。

第二類叫做"組合任務(wù)",共38個(gè),是將多個(gè)基礎(chǔ)任務(wù)串聯(lián)起來(lái)完成的。比如,"動(dòng)詞進(jìn)行時(shí)+大寫(xiě)"這個(gè)任務(wù),要求先把輸入的動(dòng)詞變成進(jìn)行時(shí)形式,再把結(jié)果全部大寫(xiě)——輸入"run",正確答案是"RUNNING"。再比如,"法譯英+倒序"任務(wù),需要先把法語(yǔ)單詞翻譯成英語(yǔ),再把英語(yǔ)單詞的字母倒序排列——輸入"bonjour",正確答案是"olleh"。這種設(shè)計(jì)的妙處在于,每個(gè)組合任務(wù)的"先決條件"是已知的:要完成"動(dòng)詞進(jìn)行時(shí)+大寫(xiě)",模型必須先會(huì)"動(dòng)詞進(jìn)行時(shí)"和"大寫(xiě)"這兩個(gè)基礎(chǔ)任務(wù)。

這套測(cè)試的評(píng)分方式也很簡(jiǎn)潔:完全匹配才算正確,沒(méi)有模糊地帶。這讓研究者能夠精確地追蹤每個(gè)模型在每個(gè)訓(xùn)練時(shí)間點(diǎn)上,到底有沒(méi)有掌握某項(xiàng)技能。

**二、橫跨四個(gè)"模型家族"的追蹤實(shí)驗(yàn)**

測(cè)試題有了,接下來(lái)需要"被測(cè)者"。研究團(tuán)隊(duì)選擇了9個(gè)不同的AI語(yǔ)言模型,來(lái)自4個(gè)不同的模型家族,參數(shù)規(guī)模從4億到130億不等。

這4個(gè)家族分別是:OLMo-2系列,包含10億、70億和130億參數(shù)的三個(gè)版本,可以研究同一家族內(nèi)規(guī)模變化的影響;OLMo-3系列,有一個(gè)70億參數(shù)版本,可以與OLMo-2進(jìn)行跨代比較;LLM360系列,包含Crystal(7B)和Amber(7B)兩個(gè)模型,它們的特別之處在于訓(xùn)練數(shù)據(jù)完全不同——Crystal偏向代碼數(shù)據(jù),Amber偏向自然語(yǔ)言數(shù)據(jù),這讓研究者可以在控制模型架構(gòu)的同時(shí),研究數(shù)據(jù)組成對(duì)學(xué)習(xí)順序的影響;以及Pythia系列,包含4億、14億和120億參數(shù)三個(gè)版本,這是一個(gè)較早期的模型系列,用不同于前三者的數(shù)據(jù)訓(xùn)練。

每個(gè)模型都提供了訓(xùn)練過(guò)程中保存的"中間檢查點(diǎn)"——可以把它們理解為模型成長(zhǎng)過(guò)程中不同時(shí)間點(diǎn)的"快照"。研究團(tuán)隊(duì)聚焦于每個(gè)模型訓(xùn)練的前1萬(wàn)億個(gè)詞元(token)階段,并在這段時(shí)間內(nèi)大約均勻采樣20個(gè)檢查點(diǎn),相當(dāng)于每隔200億詞元"拍一張照"。通過(guò)對(duì)這些快照逐一進(jìn)行91道測(cè)試題的測(cè)評(píng),就可以描繪出每個(gè)技能在每個(gè)模型中隨時(shí)間變化的"成長(zhǎng)曲線"。

**三、技能出現(xiàn)的順序,跨模型高度一致**

研究的第一個(gè)核心發(fā)現(xiàn),是對(duì)"隱性課程假說(shuō)"第一個(gè)預(yù)測(cè)的驗(yàn)證:不同模型學(xué)習(xí)技能的順序,高度相似。

研究團(tuán)隊(duì)定義了一個(gè)"技能出現(xiàn)時(shí)間點(diǎn)":當(dāng)某個(gè)模型在某項(xiàng)任務(wù)上的準(zhǔn)確率首次超過(guò)80%時(shí),認(rèn)為該模型"掌握"了這項(xiàng)技能。然后,他們比較不同模型的技能掌握順序是否一致。

結(jié)果令人印象深刻。在所有45對(duì)模型的兩兩比較中,技能掌握順序的斯皮爾曼秩相關(guān)系數(shù)(一種衡量?jī)蓚€(gè)排名序列是否相似的統(tǒng)計(jì)指標(biāo))平均高達(dá)0.81,最低也有0.64,最高達(dá)到0.93,且所有相關(guān)系數(shù)的統(tǒng)計(jì)顯著性都極高,p值遠(yuǎn)小于10的負(fù)7次方。換句話說(shuō),如果你知道了某個(gè)模型掌握各項(xiàng)技能的順序,你就能以相當(dāng)高的準(zhǔn)確度預(yù)測(cè)另一個(gè)完全不同的模型的掌握順序——哪怕這兩個(gè)模型來(lái)自不同的公司、用不同的數(shù)據(jù)訓(xùn)練、參數(shù)量相差數(shù)倍。

那么,這個(gè)順序具體是什么樣的?最先被所有模型掌握的技能是"復(fù)制",即把輸入原樣輸出。這也許并不令人驚訝,因?yàn)檫@是最簡(jiǎn)單的信息傳遞任務(wù)。緊隨其后的是各類簡(jiǎn)單的字符串操作,比如大寫(xiě)、小寫(xiě)、提取首字母等。然后是詞形變換,比如把動(dòng)詞變成進(jìn)行時(shí)形式,把單數(shù)名詞變成復(fù)數(shù)。接下來(lái)是知識(shí)檢索類任務(wù),比如翻譯和回答簡(jiǎn)單事實(shí)性問(wèn)題。再往后,簡(jiǎn)單的邏輯推斷開(kāi)始出現(xiàn)。最后才出現(xiàn)的是多步驟算術(shù)計(jì)算和更復(fù)雜的推理任務(wù)。

同族模型之間的相關(guān)性尤其高,比如OLMo-2的7B和13B版本相關(guān)系數(shù)高達(dá)0.93。但即便是跨越家族、跨越數(shù)據(jù)類型、跨越年代的比較,相關(guān)性也依然顯著——比如Amber與OLMo-2系列的相關(guān)系數(shù)在0.82到0.88之間,即便是最"風(fēng)格迥異"的組合,比如僅有4億參數(shù)的Pythia-410M與130億參數(shù)的OLMo-2-13B,相關(guān)系數(shù)也達(dá)到了0.60。

這里有一個(gè)重要的細(xì)節(jié):這種高度一致性,只在使用絕對(duì)準(zhǔn)確率閾值(比如固定在80%)時(shí)成立。如果改用相對(duì)閾值(比如達(dá)到該模型在該任務(wù)上歷史最高分的80%),跨模型的相關(guān)性就會(huì)大幅下降,平均只有0.50左右。研究團(tuán)隊(duì)對(duì)此給出了合理的解釋:相對(duì)閾值依賴于每個(gè)模型自己的"天花板",一個(gè)能力較弱的模型可能在某項(xiàng)任務(wù)上永遠(yuǎn)無(wú)法達(dá)到有意義的準(zhǔn)確率,卻可能因?yàn)榕既恍暂^早觸發(fā)了相對(duì)閾值;而絕對(duì)閾值更接近"這個(gè)模型真正學(xué)會(huì)了這件事"這個(gè)概念,因此能更準(zhǔn)確地捕捉"技能出現(xiàn)"這一事件。

**四、復(fù)雜任務(wù)總是在其組成部分之后出現(xiàn)**

研究的第二個(gè)核心發(fā)現(xiàn),驗(yàn)證了假說(shuō)的第二個(gè)預(yù)測(cè):組合任務(wù)通常在其組成的基礎(chǔ)任務(wù)之后才被模型掌握。

在總共76對(duì)"組合任務(wù)-基礎(chǔ)任務(wù)"的比較中,有54對(duì)符合預(yù)期——組合任務(wù)確實(shí)在基礎(chǔ)任務(wù)之后出現(xiàn)。這個(gè)比例大約是71%,算不上完美,但已經(jīng)提供了相當(dāng)強(qiáng)的支持證據(jù)。

剩余的違反情況可以分為兩類。其中19個(gè)屬于"弱違反"——組合任務(wù)的出現(xiàn)時(shí)間比其中一個(gè)基礎(chǔ)任務(wù)早,但另一個(gè)基礎(chǔ)任務(wù)還是先出現(xiàn)了;另外只有3個(gè)屬于"強(qiáng)違反"——組合任務(wù)比它的所有基礎(chǔ)任務(wù)都更早出現(xiàn)。有意思的是,這3個(gè)強(qiáng)違反的案例,全都涉及同一個(gè)基礎(chǔ)任務(wù):"提取首字母"。這個(gè)發(fā)現(xiàn)暗示,"提取首字母"這個(gè)任務(wù),雖然在測(cè)試框架中被設(shè)計(jì)為其他任務(wù)的組成部分,但它在實(shí)際訓(xùn)練動(dòng)態(tài)中的位置可能與其他基礎(chǔ)任務(wù)不太一樣——可能是因?yàn)橹苯尤∈鬃帜高@個(gè)操作,在現(xiàn)實(shí)中往往會(huì)和更復(fù)雜的任務(wù)同時(shí)出現(xiàn)在訓(xùn)練數(shù)據(jù)里,從而讓模型在學(xué)會(huì)"單獨(dú)"做這件事之前,就在組合情境下見(jiàn)過(guò)它了。

這個(gè)發(fā)現(xiàn)的意義在于,它將我們對(duì)AI學(xué)習(xí)的理解從"AI只是在隨機(jī)學(xué)習(xí)"推向了"AI的學(xué)習(xí)遵循一種結(jié)構(gòu)性的從簡(jiǎn)到難的順序"。當(dāng)你理解了這種順序,就可以用它來(lái)診斷模型訓(xùn)練是否正常:如果模型在某個(gè)復(fù)雜任務(wù)上表現(xiàn)差勁,你可以檢查它的"先決技能"是否都已經(jīng)掌握了;如果連先決技能都沒(méi)學(xué)好,那就找到問(wèn)題的根源了。

**五、技能的"形狀"決定了它的"命運(yùn)"**

研究的第三個(gè),也是最令人著迷的發(fā)現(xiàn),涉及到模型內(nèi)部的表示空間。

在AI語(yǔ)言模型內(nèi)部,每個(gè)任務(wù)都可以被表示為一個(gè)高維空間中的"方向向量"——研究團(tuán)隊(duì)把這些向量稱為"功能向量"(function vector)。你可以把它理解為模型內(nèi)部對(duì)"如何完成這個(gè)任務(wù)"的一種壓縮摘要。兩個(gè)任務(wù)的功能向量越相似(就像兩個(gè)指向差不多方向的箭頭),說(shuō)明模型執(zhí)行這兩個(gè)任務(wù)時(shí)用到的內(nèi)部機(jī)制越相似。

研究團(tuán)隊(duì)提出了第三個(gè)預(yù)測(cè):內(nèi)部表示相似的任務(wù),學(xué)習(xí)軌跡也應(yīng)該相似。通俗地說(shuō),如果模型處理"法譯英"和"西譯英"的方式在內(nèi)部高度相似,那么這兩項(xiàng)技能的成長(zhǎng)曲線也應(yīng)該高度相似——比如都在訓(xùn)練到大約200億詞元時(shí)開(kāi)始明顯提升,都在600億詞元時(shí)趨于穩(wěn)定。

為了驗(yàn)證這個(gè)預(yù)測(cè),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精巧的實(shí)驗(yàn)。他們把38個(gè)組合任務(wù)一個(gè)一個(gè)地"藏起來(lái)",假裝自己從來(lái)沒(méi)有觀測(cè)過(guò)那個(gè)任務(wù)的訓(xùn)練軌跡,然后只用其他任務(wù)的功能向量和訓(xùn)練軌跡信息,來(lái)預(yù)測(cè)那個(gè)被藏起來(lái)的任務(wù)的訓(xùn)練軌跡——整個(gè)過(guò)程不用對(duì)那個(gè)任務(wù)做任何實(shí)際測(cè)試,完全依賴表示空間中的"鄰居關(guān)系"來(lái)推斷。

這個(gè)實(shí)驗(yàn)的結(jié)果出乎意料地好。在包含所有任務(wù)(基礎(chǔ)任務(wù)和其他組合任務(wù))作為參考的條件下,預(yù)測(cè)質(zhì)量的R?(判定系數(shù),越接近1說(shuō)明預(yù)測(cè)越準(zhǔn)確)在不同模型上介于0.68到0.84之間,其中部分單個(gè)任務(wù)的預(yù)測(cè)精度甚至超過(guò)了0.95。以O(shè)LMo-2 7B為例,對(duì)"法譯英再大寫(xiě)"這個(gè)組合任務(wù)的預(yù)測(cè),R?高達(dá)0.99,平均絕對(duì)誤差只有0.017——幾乎與真實(shí)軌跡完全重合。對(duì)"復(fù)數(shù)再小寫(xiě)"的預(yù)測(cè)R?也達(dá)到了0.89。

當(dāng)然,也有預(yù)測(cè)效果較差的案例,比如"英譯法再大寫(xiě)"的R?只有0.51,說(shuō)明這個(gè)任務(wù)的訓(xùn)練軌跡與它在表示空間中的鄰居不夠相似,或者鄰居本身的軌跡也比較雜亂。

更有趣的是,研究團(tuán)隊(duì)還比較了兩種參考條件:用"所有任務(wù)"作為參考,還是只用"基礎(chǔ)任務(wù)"作為參考。結(jié)果發(fā)現(xiàn),一旦把組合任務(wù)從參考集中移除,預(yù)測(cè)誤差(MAE,平均絕對(duì)誤差)在所有模型上都顯著增加,平均增加了0.135。這說(shuō)明,組合任務(wù)之間共享的某種特殊結(jié)構(gòu),是無(wú)法完全用基礎(chǔ)任務(wù)來(lái)"替代"的——也就是說(shuō),"組合本身"這件事在模型的內(nèi)部表示中也留下了獨(dú)特的痕跡。研究者把這種現(xiàn)象稱為"組合瓶頸",意指學(xué)習(xí)如何將技能組合起來(lái),是一種超越了單獨(dú)學(xué)習(xí)每項(xiàng)技能的額外能力。

**六、這套發(fā)現(xiàn)意味著什么**

歸根結(jié)底,這項(xiàng)研究揭示了一件很有意思的事:AI語(yǔ)言模型的訓(xùn)練,并不像表面上看起來(lái)那么混亂和不可預(yù)測(cè)。在平滑下降的損失曲線背后,隱藏著一個(gè)有序的技能習(xí)得過(guò)程,這個(gè)過(guò)程在不同模型、不同數(shù)據(jù)、不同規(guī)模上保持著令人驚訝的一致性。

這對(duì)AI研究和應(yīng)用來(lái)說(shuō)有幾層實(shí)際意義。其一,這為"AI訓(xùn)練監(jiān)控"提供了一種新思路。以往,工程師只能盯著損失曲線,看不出模型到底學(xué)到了什么。而這套任務(wù)測(cè)試體系,可以作為一組"能力里程碑",幫助工程師判斷模型是否在以正常節(jié)奏發(fā)展各項(xiàng)能力。如果某個(gè)預(yù)期早出現(xiàn)的技能遲遲沒(méi)有出現(xiàn),這可能是一個(gè)需要排查的異常信號(hào)。

其二,這為理解AI的"能力瓶頸"提供了新工具。當(dāng)一個(gè)AI在某個(gè)復(fù)雜任務(wù)(比如數(shù)學(xué)應(yīng)用題)上表現(xiàn)不佳時(shí),研究者現(xiàn)在可以系統(tǒng)地檢查該任務(wù)所依賴的先決技能鏈,而不是面對(duì)一個(gè)黑盒手足無(wú)措。這就像是給了醫(yī)生一套完整的癥狀-病因圖譜,而不是只有一個(gè)"患者病得很重"的診斷結(jié)論。

其三,技能習(xí)得順序與功能向量空間之間的關(guān)聯(lián),暗示了AI內(nèi)部表示的幾何結(jié)構(gòu)本身就攜帶了關(guān)于學(xué)習(xí)動(dòng)態(tài)的信息。換句話說(shuō),通過(guò)分析一個(gè)充分訓(xùn)練好的模型的內(nèi)部結(jié)構(gòu),我們或許可以推斷出它在訓(xùn)練過(guò)程中經(jīng)歷了怎樣的發(fā)展路徑。這開(kāi)辟了一個(gè)用"解剖學(xué)"來(lái)倒推"發(fā)育史"的研究方向。

當(dāng)然,這項(xiàng)研究也有其局限性。研究選取的任務(wù),整體上還是比較簡(jiǎn)單、結(jié)構(gòu)清晰的,與現(xiàn)實(shí)世界中復(fù)雜的語(yǔ)言理解和生成任務(wù)之間存在一定距離。此外,研究?jī)H覆蓋了訓(xùn)練前1萬(wàn)億詞元的階段,對(duì)于更后期的訓(xùn)練動(dòng)態(tài),是否同樣規(guī)律依然成立,還有待進(jìn)一步探索。研究使用的模型參數(shù)量上限為130億,當(dāng)代最大的前沿模型動(dòng)輒千億參數(shù),這套規(guī)律在超大規(guī)模模型上是否仍然適用,同樣是一個(gè)開(kāi)放問(wèn)題。

這就像我們發(fā)現(xiàn)了兒童語(yǔ)言習(xí)得有固定順序一樣——這個(gè)發(fā)現(xiàn)本身很重要,但它只是更宏大的、關(guān)于智能如何發(fā)展這一問(wèn)題的一個(gè)開(kāi)端。那些更大的模型、更復(fù)雜的技能組合、更長(zhǎng)的訓(xùn)練周期,都在等待著后續(xù)研究的探索。

Q&A

Q1:隱性課程假說(shuō)是什么意思,它和真正的課程有什么關(guān)系?

A:隱性課程假說(shuō)說(shuō)的是,AI語(yǔ)言模型在用大量文字訓(xùn)練時(shí),并沒(méi)有人為設(shè)計(jì)學(xué)習(xí)順序,但模型自發(fā)地會(huì)先學(xué)簡(jiǎn)單技能、后學(xué)復(fù)雜技能,而且不同模型的這種學(xué)習(xí)順序高度相似。這里的"課程"是個(gè)比喻,指學(xué)習(xí)的先后安排,"隱性"則是說(shuō)這個(gè)順序不是人刻意設(shè)定的,而是訓(xùn)練過(guò)程自然涌現(xiàn)出來(lái)的。

Q2:為什么用絕對(duì)準(zhǔn)確率閾值來(lái)定義"技能出現(xiàn)",而不是相對(duì)閾值?

A:用相對(duì)閾值(比如達(dá)到模型自身歷史最高分的80%)時(shí),跨模型的順序一致性會(huì)大幅下降。原因是不同模型的"天花板"差異很大——弱模型可能在某項(xiàng)任務(wù)上永遠(yuǎn)達(dá)不到有意義的水平,但可能因?yàn)殡S機(jī)波動(dòng)較早觸發(fā)了相對(duì)閾值。絕對(duì)閾值(固定在80%準(zhǔn)確率)更準(zhǔn)確地反映了模型真正學(xué)會(huì)了這件事,所以能更清楚地捕捉技能出現(xiàn)的時(shí)間點(diǎn)。

Q3:功能向量是怎么提取出來(lái)的,它真的能代表模型"如何理解一項(xiàng)任務(wù)"嗎?

A:功能向量是通過(guò)讓模型完成某項(xiàng)任務(wù)的示例題目,然后記錄模型內(nèi)部特定位置(注意力頭的輸出或殘差流的隱藏狀態(tài))的激活值,再對(duì)多個(gè)例題的激活值取平均來(lái)得到的。研究中只使用了模型答對(duì)的例題,確保提取的是"成功執(zhí)行任務(wù)"時(shí)的內(nèi)部狀態(tài)。這個(gè)向量能在一定程度上代表模型執(zhí)行該任務(wù)的內(nèi)部機(jī)制,因?yàn)樗茴A(yù)測(cè)任務(wù)的學(xué)習(xí)軌跡,但它并不是對(duì)模型內(nèi)部機(jī)制的完整描述,更像是一種有用的近似表示。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

凡知
2026-04-07 21:16:54
解鎖夫妻“爽”感密碼:3個(gè)讓高潮更持久的床上技巧

解鎖夫妻“爽”感密碼:3個(gè)讓高潮更持久的床上技巧

精彩分享快樂(lè)
2026-03-18 07:00:03
奧一報(bào)道的深圳“超尷尬”地鐵站整改了:加了60處標(biāo)識(shí)!

奧一報(bào)道的深圳“超尷尬”地鐵站整改了:加了60處標(biāo)識(shí)!

南方都市報(bào)
2026-04-28 18:52:13
竇靖童宋妍霏分吃一碗粉!從擋雨到牽手遛狗,多次被拍細(xì)節(jié)藏不住

竇靖童宋妍霏分吃一碗粉!從擋雨到牽手遛狗,多次被拍細(xì)節(jié)藏不住

小徐講八卦
2026-04-27 09:23:46
北京公交專用道行駛時(shí)間,又有新調(diào)整!

北京公交專用道行駛時(shí)間,又有新調(diào)整!

BRTV新聞
2026-04-28 12:40:41
女兒是一線明星,她開(kāi)豪車住豪宅,晚年卻自殺5次最終從12樓跳下

女兒是一線明星,她開(kāi)豪車住豪宅,晚年卻自殺5次最終從12樓跳下

漫婷侃娛樂(lè)
2026-04-27 21:53:40
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
女子白天睡老公,晚上睡男同事,2019年上夜班的老公將她同事殺死

女子白天睡老公,晚上睡男同事,2019年上夜班的老公將她同事殺死

漢史趣聞
2026-04-26 16:27:51
以軍稱投下超2500枚炸彈 摧毀約600個(gè)伊朗目標(biāo)

以軍稱投下超2500枚炸彈 摧毀約600個(gè)伊朗目標(biāo)

新浪財(cái)經(jīng)
2026-03-02 21:18:48
日本解禁軍售,背負(fù)中國(guó)人血債的三菱重工又得瑟了

日本解禁軍售,背負(fù)中國(guó)人血債的三菱重工又得瑟了

補(bǔ)壹刀
2026-04-27 23:49:25
埃里克森為何在阿莫林下課前公開(kāi)"拆臺(tái)"

埃里克森為何在阿莫林下課前公開(kāi)"拆臺(tái)"

綠茵狂熱者
2026-04-28 01:23:45
10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

聽(tīng)風(fēng)喃
2026-04-06 11:16:04
140年來(lái)最強(qiáng)厄爾尼諾要出現(xiàn)了?氣溫將沖擊高溫極限,真的嗎?

140年來(lái)最強(qiáng)厄爾尼諾要出現(xiàn)了?氣溫將沖擊高溫極限,真的嗎?

臨云史策
2026-04-28 11:02:36
別再吵王菲春晚唱功了 謝霆鋒那只20年的金鐲子 早已說(shuō)明了一切

別再吵王菲春晚唱功了 謝霆鋒那只20年的金鐲子 早已說(shuō)明了一切

小邵說(shuō)劇
2026-04-27 21:02:11
曼聯(lián)的天亮了!單賽季或5人英超進(jìn)球上雙,這神跡竟塵封了61年?

曼聯(lián)的天亮了!單賽季或5人英超進(jìn)球上雙,這神跡竟塵封了61年?

仰臥撐FTUer
2026-04-28 20:11:03
機(jī)場(chǎng)出租車故意以車輛故障等要求乘客換車,每單可獲50至85元“好處費(fèi)”,10人被處罰

機(jī)場(chǎng)出租車故意以車輛故障等要求乘客換車,每單可獲50至85元“好處費(fèi)”,10人被處罰

紅星新聞
2026-04-27 16:51:18
4000萬(wàn)粉絲網(wǎng)紅偷稅被查,細(xì)節(jié)公布!本人出鏡認(rèn)錯(cuò)

4000萬(wàn)粉絲網(wǎng)紅偷稅被查,細(xì)節(jié)公布!本人出鏡認(rèn)錯(cuò)

深圳晚報(bào)
2026-04-28 12:43:24
出差歸來(lái)推開(kāi)門,見(jiàn)妻子和男閨蜜共處一室,多年感情徹底走向終結(jié)

出差歸來(lái)推開(kāi)門,見(jiàn)妻子和男閨蜜共處一室,多年感情徹底走向終結(jié)

朗威談星座
2026-04-22 00:10:37
五萬(wàn)戶股東踩雷!002779、603360,被立案后雙雙“一字”跌停

五萬(wàn)戶股東踩雷!002779、603360,被立案后雙雙“一字”跌停

大眾證券報(bào)
2026-04-28 19:27:08
東航7月15日起開(kāi)通上海浦東—第比利斯直飛航線

東航7月15日起開(kāi)通上海浦東—第比利斯直飛航線

北京商報(bào)
2026-04-28 16:47:54
2026-04-29 03:16:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

數(shù)碼
教育
旅游
藝術(shù)
時(shí)尚

數(shù)碼要聞

機(jī)械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開(kāi)啟預(yù)約

教育要聞

教育部通知,今年9月份開(kāi)始,上學(xué)的規(guī)則全變了

旅游要聞

莫讓內(nèi)卷式競(jìng)爭(zhēng)削弱旅游消費(fèi)信心

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國(guó)第一民企落子民營(yíng)大??!

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版