国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

普林斯頓大學(xué)GenEnv:AI智能體實(shí)現(xiàn)類(lèi)人游戲式學(xué)習(xí)成長(zhǎng)

0
分享至


這項(xiàng)由普林斯頓大學(xué)郭家騁、楊凌等研究者領(lǐng)導(dǎo),聯(lián)合字節(jié)跳動(dòng)種子、哥倫比亞大學(xué)、密歇根大學(xué)和芝加哥大學(xué)共同完成的研究發(fā)表于2025年12月,論文編號(hào)為arXiv:2512.19682v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文內(nèi)容。

在人工智能的世界里,訓(xùn)練一個(gè)能夠勝任復(fù)雜任務(wù)的AI智能體就像培養(yǎng)一個(gè)孩子一樣充滿(mǎn)挑戰(zhàn)。傳統(tǒng)的方法就好比讓孩子只能通過(guò)背誦別人的經(jīng)驗(yàn)來(lái)學(xué)習(xí),這樣既昂貴又效果有限。普林斯頓大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案——GenEnv框架,這就像為AI創(chuàng)造了一個(gè)能夠隨著它成長(zhǎng)而不斷調(diào)整難度的"電子游戲"環(huán)境。

在這個(gè)創(chuàng)新框架中,有兩個(gè)核心角色在進(jìn)行著一場(chǎng)永不停歇的"成長(zhǎng)游戲":一個(gè)是學(xué)習(xí)者(智能體),另一個(gè)是出題者(環(huán)境模擬器)。出題者會(huì)根據(jù)學(xué)習(xí)者的當(dāng)前水平,精心設(shè)計(jì)出既不會(huì)太簡(jiǎn)單讓人感到無(wú)聊,也不會(huì)太困難讓人完全放棄的任務(wù)。這種動(dòng)態(tài)調(diào)節(jié)機(jī)制被研究團(tuán)隊(duì)稱(chēng)為"難度對(duì)齊的共同進(jìn)化",就像一個(gè)貼心的私人教練,始終為學(xué)生提供最適合當(dāng)前水平的挑戰(zhàn)。

研究團(tuán)隊(duì)在五個(gè)不同的基準(zhǔn)測(cè)試中驗(yàn)證了GenEnv的效果,這些測(cè)試涵蓋了從API調(diào)用到具體環(huán)境交互等多種任務(wù)類(lèi)型。結(jié)果顯示,使用GenEnv訓(xùn)練的7B參數(shù)模型在各項(xiàng)測(cè)試中都表現(xiàn)出色,最高提升達(dá)到了40.3%。更令人驚訝的是,這個(gè)相對(duì)較小的模型甚至能夠匹敵或超越那些參數(shù)量大得多的競(jìng)爭(zhēng)對(duì)手。與使用Gemini 2.5 Pro進(jìn)行離線數(shù)據(jù)增強(qiáng)的方法相比,GenEnv在使用更少合成數(shù)據(jù)的情況下依然取得了更好的性能表現(xiàn)。

一、AI訓(xùn)練的昂貴瓶頸:為什么傳統(tǒng)方法走進(jìn)死胡同

在AI智能體的訓(xùn)練過(guò)程中,數(shù)據(jù)就像是學(xué)習(xí)的"營(yíng)養(yǎng)品"。傳統(tǒng)的訓(xùn)練方式依賴(lài)于收集大量專(zhuān)家演示的數(shù)據(jù),這就好比讓孩子只能通過(guò)觀看錄像來(lái)學(xué)習(xí)騎自行車(chē)一樣。這種方法面臨著三個(gè)根本性問(wèn)題:成本高昂、內(nèi)容固定、效果有限。

想象一下教一個(gè)AI智能體學(xué)會(huì)在網(wǎng)上購(gòu)物。傳統(tǒng)方法需要人類(lèi)專(zhuān)家親自演示成千上萬(wàn)次購(gòu)物過(guò)程,記錄下每一個(gè)點(diǎn)擊、每一次輸入。這個(gè)過(guò)程不僅耗時(shí)耗力,而且成本極高。更糟糕的是,當(dāng)網(wǎng)站界面發(fā)生變化時(shí)——比如"添加到購(gòu)物車(chē)"按鈕變成了"立即購(gòu)買(mǎi)"——AI智能體可能就會(huì)因?yàn)闆](méi)有見(jiàn)過(guò)這種變化而陷入困惑。

這種靜態(tài)數(shù)據(jù)訓(xùn)練方式的另一個(gè)問(wèn)題在于,無(wú)論我們收集多少數(shù)據(jù),都無(wú)法涵蓋現(xiàn)實(shí)世界中可能出現(xiàn)的所有變化。就像一個(gè)只在教科書(shū)上學(xué)過(guò)開(kāi)車(chē)的人,當(dāng)真正面對(duì)復(fù)雜路況時(shí)往往會(huì)手足無(wú)措。AI智能體也是如此,它們?cè)诿鎸?duì)訓(xùn)練數(shù)據(jù)之外的新情況時(shí),表現(xiàn)往往令人失望。

近年來(lái),研究人員嘗試通過(guò)合成數(shù)據(jù)生成來(lái)解決這個(gè)問(wèn)題。這就像制作更多的"模擬題"來(lái)豐富訓(xùn)練材料。然而,這種方法本質(zhì)上仍然是在創(chuàng)建一個(gè)更大但依然靜態(tài)的數(shù)據(jù)集。問(wèn)題的核心并沒(méi)有得到解決——AI智能體仍然缺乏根據(jù)自身學(xué)習(xí)進(jìn)度動(dòng)態(tài)調(diào)整訓(xùn)練內(nèi)容的能力。

普林斯頓大學(xué)的研究團(tuán)隊(duì)認(rèn)識(shí)到,真正的解決方案不在于簡(jiǎn)單地增加數(shù)據(jù)量,而在于改變數(shù)據(jù)的生成方式。他們提出了一個(gè)根本性的轉(zhuǎn)變:從"模型在靜態(tài)數(shù)據(jù)上進(jìn)化"轉(zhuǎn)向"數(shù)據(jù)隨著模型共同進(jìn)化"。這種思維轉(zhuǎn)變就像從"填鴨式教育"轉(zhuǎn)向"個(gè)性化教學(xué)",讓AI能夠在一個(gè)真正適應(yīng)其學(xué)習(xí)節(jié)奏的環(huán)境中成長(zhǎng)。

二、GenEnv的核心創(chuàng)新:讓AI在游戲中成長(zhǎng)

GenEnv框架的核心理念可以用一個(gè)生動(dòng)的比喻來(lái)理解:它就像為AI創(chuàng)造了一個(gè)智能的"成長(zhǎng)伙伴"。在這個(gè)系統(tǒng)中,有兩個(gè)AI在進(jìn)行著一場(chǎng)永恒的互動(dòng)游戲——一個(gè)是學(xué)生(智能體),另一個(gè)是老師(環(huán)境模擬器)。

這位AI老師有一個(gè)特殊的天賦:它能夠精確感知學(xué)生的學(xué)習(xí)水平,并據(jù)此設(shè)計(jì)出最適合的練習(xí)題。當(dāng)學(xué)生在某類(lèi)任務(wù)上表現(xiàn)很好時(shí),老師就會(huì)適當(dāng)增加難度;當(dāng)學(xué)生遇到困難時(shí),老師會(huì)調(diào)整任務(wù)的復(fù)雜度,確保學(xué)生既不會(huì)因?yàn)樘?jiǎn)單而無(wú)聊,也不會(huì)因?yàn)樘щy而沮喪。

這種動(dòng)態(tài)調(diào)節(jié)機(jī)制的核心是一個(gè)被稱(chēng)為"α-課程獎(jiǎng)勵(lì)"的巧妙設(shè)計(jì)。這個(gè)獎(jiǎng)勵(lì)機(jī)制的目標(biāo)是讓AI智能體在每類(lèi)任務(wù)上都維持大約50%的成功率。為什么是50%呢?研究團(tuán)隊(duì)通過(guò)理論分析發(fā)現(xiàn),當(dāng)成功率在這個(gè)水平時(shí),AI能夠獲得最強(qiáng)的學(xué)習(xí)信號(hào)。這就像運(yùn)動(dòng)訓(xùn)練中的"最適宜負(fù)荷"概念——既不會(huì)因?yàn)樘p松而沒(méi)有提升,也不會(huì)因?yàn)樘щy而受傷。

在具體實(shí)現(xiàn)上,環(huán)境模擬器會(huì)持續(xù)監(jiān)控智能體的表現(xiàn)。當(dāng)智能體在某批任務(wù)上的成功率偏離目標(biāo)范圍時(shí),模擬器就會(huì)相應(yīng)地調(diào)整后續(xù)任務(wù)的生成策略。如果智能體的成功率過(guò)高,說(shuō)明任務(wù)太簡(jiǎn)單了,模擬器就會(huì)增加復(fù)雜度;如果成功率過(guò)低,模擬器則會(huì)降低難度。這個(gè)過(guò)程完全自動(dòng)化,無(wú)需人工干預(yù)。

更令人印象深刻的是,這個(gè)系統(tǒng)展現(xiàn)出了真正的"共同進(jìn)化"特征。隨著訓(xùn)練的進(jìn)行,研究團(tuán)隊(duì)觀察到一個(gè)有趣的現(xiàn)象:智能體生成的回答越來(lái)越長(zhǎng),這表明它正在學(xué)會(huì)處理更復(fù)雜的任務(wù)。同時(shí),環(huán)境模擬器生成的任務(wù)描述也在變長(zhǎng),說(shuō)明它正在創(chuàng)造更具挑戰(zhàn)性的場(chǎng)景。這種同步發(fā)展就像兩個(gè)舞伴在共同提高舞技——一個(gè)學(xué)會(huì)了更復(fù)雜的步伐,另一個(gè)就會(huì)配合創(chuàng)造更優(yōu)美的舞蹈。

三、理論基礎(chǔ):為什么50%成功率是最佳選擇

GenEnv框架的設(shè)計(jì)并非憑空想象,而是建立在堅(jiān)實(shí)的理論基礎(chǔ)之上。研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)分析證明了為什么50%的成功率能夠?yàn)锳I提供最強(qiáng)的學(xué)習(xí)信號(hào)。

這個(gè)理論可以通過(guò)一個(gè)簡(jiǎn)單的學(xué)習(xí)場(chǎng)景來(lái)理解。假設(shè)你在學(xué)習(xí)投籃,如果籃筐放得太低,你每次都能輕松投中,那么你的技術(shù)不會(huì)有任何提升。如果籃筐放得太高,你怎么努力都投不中,很快就會(huì)失去繼續(xù)練習(xí)的動(dòng)力。但是,如果籃筐的高度剛好讓你能投中一半的球,那么你既能從成功中獲得正面反饋,又能從失敗中學(xué)到改進(jìn)的方向。

在數(shù)學(xué)層面,研究團(tuán)隊(duì)證明了當(dāng)任務(wù)的成功概率為50%時(shí),智能體從每次嘗試中獲得的學(xué)習(xí)信號(hào)達(dá)到最大值。這是因?yàn)閷W(xué)習(xí)信號(hào)的強(qiáng)度與任務(wù)結(jié)果的不確定性成正比。當(dāng)成功率過(guò)高或過(guò)低時(shí),結(jié)果變得可預(yù)測(cè),學(xué)習(xí)信號(hào)隨之減弱;但在50%成功率時(shí),每次嘗試的結(jié)果都充滿(mǎn)了有價(jià)值的信息。

研究團(tuán)隊(duì)還證明了α-課程獎(jiǎng)勵(lì)機(jī)制的統(tǒng)計(jì)一致性。簡(jiǎn)單來(lái)說(shuō),即使環(huán)境模擬器只能觀察到有限次數(shù)的智能體嘗試,它依然能夠可靠地判斷出哪種任務(wù)類(lèi)型更接近目標(biāo)難度。這種可靠性隨著觀察次數(shù)的增加而指數(shù)級(jí)提升,這意味著系統(tǒng)能夠快速而準(zhǔn)確地識(shí)別出最適合的任務(wù)難度。

這種理論保證解釋了為什么GenEnv在實(shí)際應(yīng)用中表現(xiàn)如此出色。當(dāng)系統(tǒng)開(kāi)始運(yùn)行時(shí),智能體的成功率可能遠(yuǎn)低于50%,因?yàn)槿蝿?wù)對(duì)它來(lái)說(shuō)太困難了。但是,環(huán)境模擬器會(huì)快速識(shí)別這種不匹配,并調(diào)整任務(wù)生成策略,逐步將智能體的成功率引導(dǎo)到目標(biāo)區(qū)域。隨著訓(xùn)練的進(jìn)行,智能體能力提升,而環(huán)境模擬器也會(huì)相應(yīng)地提高任務(wù)難度,始終保持這種最優(yōu)的學(xué)習(xí)狀態(tài)。

四、數(shù)據(jù)演化范式:從靜態(tài)學(xué)習(xí)到動(dòng)態(tài)成長(zhǎng)

GenEnv最具革命性的貢獻(xiàn)在于提出了"數(shù)據(jù)演化范式"。這個(gè)概念的理解需要從傳統(tǒng)的機(jī)器學(xué)習(xí)思維中跳出來(lái)。

傳統(tǒng)的機(jī)器學(xué)習(xí)就像在圖書(shū)館里學(xué)習(xí):你有一堆固定的教科書(shū),無(wú)論你的水平如何提高,這些書(shū)的內(nèi)容永遠(yuǎn)不會(huì)改變。即使你已經(jīng)掌握了基礎(chǔ)知識(shí),還是得繼續(xù)翻閱那些初級(jí)內(nèi)容;當(dāng)你需要更高級(jí)的知識(shí)時(shí),圖書(shū)館里卻沒(méi)有合適的書(shū)籍。

GenEnv的數(shù)據(jù)演化范式則完全不同,它更像擁有一位能讀懂你內(nèi)心的私人教師。這位教師不僅能夠感知你當(dāng)前的知識(shí)水平,還能即時(shí)創(chuàng)造出最適合你的學(xué)習(xí)材料。當(dāng)你在某個(gè)領(lǐng)域有了進(jìn)步,教師立即就能提供更具挑戰(zhàn)性的內(nèi)容;當(dāng)你在某些方面遇到困難,教師會(huì)馬上調(diào)整教學(xué)策略,提供更有針對(duì)性的練習(xí)。

在技術(shù)實(shí)現(xiàn)上,這種范式通過(guò)兩個(gè)不斷演化的數(shù)據(jù)集來(lái)實(shí)現(xiàn)。第一個(gè)是智能體訓(xùn)練池,它收集智能體在各種任務(wù)上的嘗試記錄。這些記錄不僅包含成功的案例,也包含失敗的嘗試,因?yàn)槭⊥瘸晒Ω薪逃齼r(jià)值。第二個(gè)是環(huán)境訓(xùn)練池,它存儲(chǔ)環(huán)境模擬器生成的各種任務(wù),這些任務(wù)會(huì)根據(jù)其"教育效果"被賦予不同的權(quán)重。

這種動(dòng)態(tài)數(shù)據(jù)生成的美妙之處在于它能夠自動(dòng)發(fā)現(xiàn)智能體的"學(xué)習(xí)邊界"。當(dāng)智能體在某類(lèi)任務(wù)上表現(xiàn)出色時(shí),系統(tǒng)知道這已經(jīng)不再是有效的學(xué)習(xí)材料;當(dāng)智能體完全無(wú)法應(yīng)對(duì)某類(lèi)任務(wù)時(shí),系統(tǒng)也知道這超出了當(dāng)前的學(xué)習(xí)能力。系統(tǒng)的目標(biāo)是持續(xù)尋找那個(gè)甜蜜點(diǎn)——既具有挑戰(zhàn)性又在能力范圍內(nèi)的任務(wù)類(lèi)型。

數(shù)據(jù)演化范式的另一個(gè)重要特征是它的累積性質(zhì)。與那些每次都從頭開(kāi)始的訓(xùn)練方法不同,GenEnv會(huì)保留智能體的學(xué)習(xí)歷史。這確保了智能體在學(xué)習(xí)新技能的同時(shí)不會(huì)忘記已經(jīng)掌握的能力。這就像一個(gè)人在學(xué)習(xí)高等數(shù)學(xué)時(shí)不會(huì)忘記基礎(chǔ)算術(shù)一樣,是一種更符合人類(lèi)學(xué)習(xí)規(guī)律的方式。

五、實(shí)驗(yàn)驗(yàn)證:在五個(gè)戰(zhàn)場(chǎng)上的全面勝利

研究團(tuán)隊(duì)選擇了五個(gè)不同類(lèi)型的基準(zhǔn)測(cè)試來(lái)驗(yàn)證GenEnv的效果,這就像讓一個(gè)學(xué)生在不同科目上都接受考驗(yàn)。這些測(cè)試涵蓋了API調(diào)用、具體環(huán)境交互、函數(shù)調(diào)用、問(wèn)答推理和旅行規(guī)劃等多個(gè)領(lǐng)域,確保GenEnv的有效性不僅僅局限于特定類(lèi)型的任務(wù)。

在API-Bank測(cè)試中,GenEnv訓(xùn)練的7B模型達(dá)到了79.1%的成功率,相比基礎(chǔ)模型的61.6%有了顯著提升。這個(gè)測(cè)試考驗(yàn)的是AI智能體調(diào)用各種應(yīng)用程序接口的能力,就像測(cè)試一個(gè)人能否熟練操作各種不同的軟件工具。GenEnv的優(yōu)異表現(xiàn)說(shuō)明,通過(guò)動(dòng)態(tài)調(diào)整任務(wù)難度,AI能夠更好地掌握工具使用的技巧。

在ALFWorld這個(gè)具體環(huán)境交互測(cè)試中,GenEnv展現(xiàn)了最為驚人的提升效果?;A(chǔ)模型的成功率僅為14.2%,而GenEnv訓(xùn)練的模型達(dá)到了54.5%,提升幅度超過(guò)40個(gè)百分點(diǎn)。ALFWorld要求AI智能體在虛擬家居環(huán)境中執(zhí)行各種日常任務(wù),比如"把蘋(píng)果放到微波爐里"或"找到并打開(kāi)臺(tái)燈"。這類(lèi)任務(wù)需要多步驟推理和規(guī)劃能力,GenEnv在這方面的突出表現(xiàn)證明了動(dòng)態(tài)課程學(xué)習(xí)對(duì)培養(yǎng)復(fù)雜推理能力的重要作用。

BFCL(伯克利函數(shù)調(diào)用排行榜)測(cè)試著重考驗(yàn)?zāi)P偷暮瘮?shù)調(diào)用能力。在這個(gè)具有挑戰(zhàn)性的測(cè)試中,GenEnv取得了41.8%的成功率,相比基礎(chǔ)模型的7.0%有了質(zhì)的飛躍。這個(gè)提升特別有意義,因?yàn)楹瘮?shù)調(diào)用是現(xiàn)代AI應(yīng)用中的核心能力,直接關(guān)系到AI智能體能否有效地與各種外部工具和服務(wù)交互。

在Bamboogle問(wèn)答推理測(cè)試中,GenEnv達(dá)到了76.0%的成功率,與基礎(chǔ)模型的68.0%相比也有明顯改善。雖然這個(gè)提升相對(duì)較小,但考慮到問(wèn)答推理本身已經(jīng)是相對(duì)成熟的AI能力,任何提升都是珍貴的。更重要的是,這證明了GenEnv的方法不會(huì)在強(qiáng)化某些能力的同時(shí)削弱其他能力。

在TravelPlanner旅行規(guī)劃測(cè)試中,GenEnv的表現(xiàn)為16.6%,相比基礎(chǔ)模型的14.3%有小幅提升。這個(gè)測(cè)試可能是最具挑戰(zhàn)性的,因?yàn)樗枰狝I綜合考慮多種約束條件,制定切實(shí)可行的旅行計(jì)劃。雖然提升幅度相對(duì)較小,但這反映了現(xiàn)實(shí)問(wèn)題的復(fù)雜性,也為未來(lái)的改進(jìn)指明了方向。

六、與巨型模型的較量:小而精vs大而全

GenEnv最令人印象深刻的成就之一是它讓相對(duì)較小的7B參數(shù)模型能夠與那些參數(shù)量多得多的"巨無(wú)霸"模型相提并論,甚至在某些方面超越它們。這就像讓一個(gè)聰明的中學(xué)生在某些任務(wù)上戰(zhàn)勝了大學(xué)教授,展現(xiàn)了"精準(zhǔn)訓(xùn)練"相對(duì)于"規(guī)模堆疊"的優(yōu)勢(shì)。

在與14B到72B參數(shù)的大型模型比較中,GenEnv訓(xùn)練的7B模型展現(xiàn)出了驚人的競(jìng)爭(zhēng)力。例如,在平均性能上,GenEnv達(dá)到了53.6%的成功率,這不僅超過(guò)了所有其他7B模型,甚至與一些參數(shù)量是其兩倍以上的模型相當(dāng)。這種現(xiàn)象說(shuō)明,訓(xùn)練方法的創(chuàng)新往往比單純?cè)黾幽P鸵?guī)模更有效。

特別值得注意的是與Qwen3-14B模型的比較。這個(gè)模型的參數(shù)量是GenEnv使用模型的兩倍,但在平均性能上僅達(dá)到44.9%,明顯低于GenEnv的53.6%。更令人印象深刻的是,在ALFWorld這個(gè)最具挑戰(zhàn)性的測(cè)試中,GenEnv的54.5%成功率甚至超過(guò)了擁有405B參數(shù)的Llama 3.1模型的65.3%,雖然還有差距,但這種參數(shù)規(guī)模的巨大懸殊讓這個(gè)比較變得特別有意義。

這種"小而精"戰(zhàn)勝"大而全"的現(xiàn)象背后有著深刻的科學(xué)道理。大型模型雖然擁有更強(qiáng)的表達(dá)能力和更豐富的知識(shí)儲(chǔ)備,但它們往往是在通用數(shù)據(jù)上進(jìn)行訓(xùn)練的,缺乏針對(duì)特定任務(wù)的深度優(yōu)化。相比之下,GenEnv通過(guò)動(dòng)態(tài)生成高質(zhì)量的訓(xùn)練數(shù)據(jù),讓較小的模型能夠在特定領(lǐng)域達(dá)到極高的專(zhuān)業(yè)化水平。

這個(gè)發(fā)現(xiàn)對(duì)AI行業(yè)具有重要的實(shí)際意義。它表明,與其盲目追求更大的模型規(guī)模,不如將注意力轉(zhuǎn)向更智能的訓(xùn)練方法。對(duì)于那些計(jì)算資源有限的研究機(jī)構(gòu)和公司來(lái)說(shuō),GenEnv提供了一條通過(guò)創(chuàng)新訓(xùn)練方法而非硬件堆疊來(lái)提升AI性能的道路。

七、數(shù)據(jù)效率的奇跡:用更少資源獲得更好效果

GenEnv最具商業(yè)價(jià)值的特性之一是其卓越的數(shù)據(jù)效率。在與使用強(qiáng)大的Gemini 2.5 Pro模型進(jìn)行數(shù)據(jù)增強(qiáng)的方法比較中,GenEnv展現(xiàn)了令人震驚的效率優(yōu)勢(shì)。

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)嚴(yán)格的對(duì)比實(shí)驗(yàn)。他們使用Gemini 2.5 Pro這個(gè)業(yè)界頂級(jí)模型來(lái)生成大量高質(zhì)量的合成訓(xùn)練數(shù)據(jù)。在第一種設(shè)置中,Gemini生成了約1.8倍于原始數(shù)據(jù)集的額外數(shù)據(jù);在第二種設(shè)置中,生成量更是達(dá)到了3.3倍。這些數(shù)據(jù)的質(zhì)量極高,因?yàn)樗鼈儊?lái)自當(dāng)時(shí)最先進(jìn)的AI模型。

然而,即使面對(duì)如此強(qiáng)大的競(jìng)爭(zhēng)對(duì)手,GenEnv依然展現(xiàn)出了明顯的優(yōu)勢(shì)。在BFCL測(cè)試中,使用1.8倍Gemini增強(qiáng)數(shù)據(jù)的方法達(dá)到了43.4%的性能,使用3.3倍增強(qiáng)數(shù)據(jù)的方法達(dá)到了43.8%。而GenEnv在使用相當(dāng)于原始數(shù)據(jù)量的動(dòng)態(tài)生成數(shù)據(jù)的情況下,達(dá)到了45.8%的性能。

這個(gè)結(jié)果的意義是深遠(yuǎn)的。它意味著GenEnv不僅在絕對(duì)性能上超越了靜態(tài)數(shù)據(jù)增強(qiáng)方法,更重要的是,它用更少的資源達(dá)到了更好的效果。如果將訓(xùn)練成本考慮在內(nèi),GenEnv的優(yōu)勢(shì)就更加明顯了。使用Gemini 2.5 Pro生成3.3倍的增強(qiáng)數(shù)據(jù)不僅需要大量的API調(diào)用費(fèi)用,還需要相應(yīng)的存儲(chǔ)和計(jì)算資源。相比之下,GenEnv的動(dòng)態(tài)生成機(jī)制雖然也需要計(jì)算資源,但其效率明顯更高。

這種數(shù)據(jù)效率的優(yōu)勢(shì)背后有著清晰的邏輯。靜態(tài)數(shù)據(jù)增強(qiáng)方法,無(wú)論使用多強(qiáng)大的模型,生成的仍然是固定內(nèi)容的數(shù)據(jù)。這些數(shù)據(jù)可能在訓(xùn)練初期很有用,但隨著智能體能力的提升,其價(jià)值會(huì)逐漸遞減。相比之下,GenEnv的動(dòng)態(tài)生成機(jī)制確保每一條新數(shù)據(jù)都是針對(duì)智能體當(dāng)前學(xué)習(xí)需求定制的,因此每一條數(shù)據(jù)都具有很高的教育價(jià)值。

更重要的是,這種數(shù)據(jù)效率優(yōu)勢(shì)隨著訓(xùn)練時(shí)間的延長(zhǎng)而愈發(fā)明顯。在訓(xùn)練的早期階段,靜態(tài)數(shù)據(jù)可能還有一定價(jià)值;但在訓(xùn)練的后期階段,當(dāng)智能體已經(jīng)掌握了基礎(chǔ)技能時(shí),靜態(tài)數(shù)據(jù)的價(jià)值就會(huì)急劇下降。而GenEnv的動(dòng)態(tài)數(shù)據(jù)生成機(jī)制能夠始終為智能體提供適當(dāng)挑戰(zhàn)性的新內(nèi)容,保證訓(xùn)練效果的持續(xù)性。

八、難度校準(zhǔn)的藝術(shù):維持最佳學(xué)習(xí)狀態(tài)

GenEnv系統(tǒng)最精妙的設(shè)計(jì)之一是其自動(dòng)難度校準(zhǔn)機(jī)制。這套機(jī)制就像一個(gè)經(jīng)驗(yàn)豐富的教練,能夠精確感知學(xué)生的學(xué)習(xí)狀態(tài),并據(jù)此調(diào)整訓(xùn)練難度。

在整個(gè)訓(xùn)練過(guò)程中,系統(tǒng)持續(xù)監(jiān)控智能體在生成任務(wù)上的成功率。研究團(tuán)隊(duì)觀察到一個(gè)令人著迷的現(xiàn)象:智能體的成功率從最初的13.8%逐步上升,并最終穩(wěn)定在50%左右的目標(biāo)區(qū)域。這種收斂過(guò)程展現(xiàn)了系統(tǒng)的自我調(diào)節(jié)能力——既不會(huì)讓任務(wù)變得太簡(jiǎn)單以至于失去挑戰(zhàn)性,也不會(huì)讓任務(wù)難到讓智能體完全無(wú)法應(yīng)對(duì)。

更令人印象深刻的是這種難度校準(zhǔn)的動(dòng)態(tài)性質(zhì)。隨著訓(xùn)練的進(jìn)行,雖然智能體的成功率保持在目標(biāo)范圍內(nèi),但任務(wù)的實(shí)際復(fù)雜度卻在不斷提升。研究團(tuán)隊(duì)通過(guò)分析任務(wù)描述的長(zhǎng)度發(fā)現(xiàn),環(huán)境模擬器生成的任務(wù)描述從最初的平均5828個(gè)token逐漸減少到5657個(gè)token,這看似矛盾的現(xiàn)象實(shí)際上反映了系統(tǒng)的智能化:模擬器學(xué)會(huì)了用更簡(jiǎn)潔的描述來(lái)表達(dá)更復(fù)雜的任務(wù)。

同時(shí),智能體生成回應(yīng)的長(zhǎng)度從137個(gè)token增長(zhǎng)到204個(gè)token,增幅達(dá)到49%。這個(gè)變化清楚地表明,智能體正在學(xué)會(huì)處理更復(fù)雜的推理任務(wù)。更長(zhǎng)的回應(yīng)通常意味著更多的中間推理步驟、更詳細(xì)的工具調(diào)用序列,以及更完善的問(wèn)題解決策略。

這種難度校準(zhǔn)機(jī)制的效果可以通過(guò)一個(gè)生動(dòng)的比喻來(lái)理解:就像一位游戲設(shè)計(jì)師在為玩家設(shè)計(jì)關(guān)卡。優(yōu)秀的游戲設(shè)計(jì)師知道,最好的游戲體驗(yàn)來(lái)自于讓玩家始終處于"心流狀態(tài)"——既感到挑戰(zhàn),又不會(huì)感到絕望。GenEnv的環(huán)境模擬器就是這樣一位游戲設(shè)計(jì)師,它能夠?qū)崟r(shí)感知"玩家"(智能體)的技能水平,并相應(yīng)地調(diào)整"關(guān)卡"(任務(wù))的難度。

研究團(tuán)隊(duì)還觀察到,這種校準(zhǔn)機(jī)制具有很強(qiáng)的穩(wěn)定性。即使在訓(xùn)練過(guò)程中出現(xiàn)暫時(shí)的性能波動(dòng),系統(tǒng)也能夠快速調(diào)整并回到目標(biāo)狀態(tài)。這種穩(wěn)定性對(duì)于長(zhǎng)期訓(xùn)練來(lái)說(shuō)至關(guān)重要,它確保了智能體能夠在整個(gè)訓(xùn)練過(guò)程中保持高效的學(xué)習(xí)狀態(tài)。

九、問(wèn)題解決能力的顯著提升:從失敗到成功的轉(zhuǎn)變

GenEnv在培養(yǎng)智能體解決問(wèn)題能力方面展現(xiàn)出了顯著的優(yōu)勢(shì)。通過(guò)對(duì)比分析訓(xùn)練過(guò)程中完全解決的任務(wù)數(shù)量和未解決任務(wù)的變化趨勢(shì),研究團(tuán)隊(duì)揭示了這一創(chuàng)新方法的深層價(jià)值。

在訓(xùn)練初期,智能體完全解決的任務(wù)數(shù)量相對(duì)較少,這是正?,F(xiàn)象,因?yàn)樗€在學(xué)習(xí)基礎(chǔ)技能。然而,隨著GenEnv訓(xùn)練的進(jìn)行,完全解決任務(wù)的數(shù)量呈現(xiàn)出穩(wěn)定的上升趨勢(shì)。到訓(xùn)練結(jié)束時(shí),智能體每批次能夠完全解決的任務(wù)數(shù)量相比隨機(jī)生成環(huán)境提升了3.5%。雖然這個(gè)數(shù)字看起來(lái)不大,但考慮到這是在任務(wù)難度同步提升的背景下取得的,其意義就變得更加重要了。

更令人印象深刻的是未解決任務(wù)數(shù)量的變化。在傳統(tǒng)的隨機(jī)任務(wù)生成環(huán)境中,隨著訓(xùn)練的進(jìn)行,未解決任務(wù)的數(shù)量下降緩慢且不穩(wěn)定。而在GenEnv環(huán)境中,未解決任務(wù)的數(shù)量呈現(xiàn)出急劇而穩(wěn)定的下降趨勢(shì)。到訓(xùn)練結(jié)束時(shí),GenEnv環(huán)境中的未解決任務(wù)數(shù)量比隨機(jī)環(huán)境少了20.3%。這種對(duì)比鮮明地展現(xiàn)了GenEnv在幫助智能體克服學(xué)習(xí)難點(diǎn)方面的優(yōu)勢(shì)。

這種改善的背后機(jī)制值得深入理解。在隨機(jī)任務(wù)生成環(huán)境中,智能體可能會(huì)重復(fù)遇到同樣簡(jiǎn)單的任務(wù),這雖然能帶來(lái)短期的成功感,但對(duì)能力提升幫助有限。同時(shí),它也可能經(jīng)常遇到過(guò)于困難的任務(wù),導(dǎo)致頻繁失敗而無(wú)法從中學(xué)到有用信息。相比之下,GenEnv的動(dòng)態(tài)調(diào)節(jié)機(jī)制確保智能體遇到的每個(gè)任務(wù)都處在其"學(xué)習(xí)邊界"上——既有一定難度,又不至于完全無(wú)法解決。

這種精準(zhǔn)的難度控制產(chǎn)生了一種"良性循環(huán)"效應(yīng)。當(dāng)智能體在某類(lèi)任務(wù)上表現(xiàn)良好時(shí),環(huán)境會(huì)適當(dāng)增加這類(lèi)任務(wù)的復(fù)雜度,推動(dòng)智能體進(jìn)一步提升;當(dāng)智能體在某類(lèi)任務(wù)上遇到困難時(shí),環(huán)境會(huì)提供更多類(lèi)似但稍微簡(jiǎn)化的練習(xí),幫助智能體逐步掌握必要技能。這種個(gè)性化的學(xué)習(xí)路徑比一刀切的訓(xùn)練方法更加高效。

研究團(tuán)隊(duì)還注意到,GenEnv訓(xùn)練的智能體不僅在解決問(wèn)題的數(shù)量上有所提升,在解決問(wèn)題的質(zhì)量上也表現(xiàn)出明顯改善。通過(guò)分析智能體的推理過(guò)程,研究人員發(fā)現(xiàn)GenEnv訓(xùn)練的智能體能夠生成更長(zhǎng)、更詳細(xì)的推理鏈,這表明它們不是簡(jiǎn)單地記住了解決方案,而是真正學(xué)會(huì)了推理和規(guī)劃。

十、理論與實(shí)踐的完美結(jié)合:科學(xué)原理的現(xiàn)實(shí)驗(yàn)證

GenEnv最令人信服的地方在于其理論預(yù)測(cè)與實(shí)際觀察結(jié)果的高度吻合。這種理論與實(shí)踐的一致性不僅驗(yàn)證了研究團(tuán)隊(duì)的科學(xué)假設(shè),也為未來(lái)的改進(jìn)指明了方向。

在理論分析中,研究團(tuán)隊(duì)證明了50%成功率能夠?yàn)橹悄荏w提供最強(qiáng)的學(xué)習(xí)信號(hào)。這個(gè)理論預(yù)測(cè)在實(shí)際實(shí)驗(yàn)中得到了完美驗(yàn)證。觀察GenEnv的訓(xùn)練曲線,可以清楚地看到智能體的成功率從初始的13.8%逐步上升,最終穩(wěn)定在52.4%左右。這個(gè)數(shù)值與理論預(yù)測(cè)的50%幾乎完全吻合,其微小差異完全在統(tǒng)計(jì)誤差范圍內(nèi)。

更令人印象深刻的是系統(tǒng)的收斂特性。理論分析預(yù)測(cè),α-課程獎(jiǎng)勵(lì)機(jī)制應(yīng)該能夠引導(dǎo)系統(tǒng)快速收斂到目標(biāo)狀態(tài)。實(shí)驗(yàn)結(jié)果顯示,智能體的成功率在第2個(gè)訓(xùn)練周期就進(jìn)入了目標(biāo)區(qū)間(40%-60%),并在后續(xù)訓(xùn)練中穩(wěn)定維持在這個(gè)范圍內(nèi)。這種快速收斂特性對(duì)實(shí)際應(yīng)用來(lái)說(shuō)極其重要,因?yàn)樗馕吨到y(tǒng)能夠很快找到最優(yōu)的訓(xùn)練狀態(tài)。

理論分析還預(yù)測(cè),α-課程獎(jiǎng)勵(lì)應(yīng)該具有統(tǒng)計(jì)一致性,即能夠可靠地識(shí)別出最適合的任務(wù)難度。實(shí)驗(yàn)觀察證實(shí)了這一點(diǎn):隨著訓(xùn)練的進(jìn)行,環(huán)境模擬器生成的任務(wù)質(zhì)量不斷提高,越來(lái)越精準(zhǔn)地匹配智能體的當(dāng)前能力水平。這種改善不是偶然的,而是源于獎(jiǎng)勵(lì)機(jī)制的內(nèi)在邏輯。

實(shí)驗(yàn)還驗(yàn)證了另一個(gè)重要的理論預(yù)測(cè):中等難度任務(wù)能夠提供最強(qiáng)的學(xué)習(xí)信號(hào)。通過(guò)分析智能體在不同難度任務(wù)上的學(xué)習(xí)效果,研究團(tuán)隊(duì)發(fā)現(xiàn),那些成功率在40%-60%范圍內(nèi)的任務(wù)確實(shí)產(chǎn)生了最大的性能提升。過(guò)于簡(jiǎn)單的任務(wù)(成功率>80%)對(duì)智能體的改善作用很小,而過(guò)于困難的任務(wù)(成功率<20%)甚至可能產(chǎn)生負(fù)面影響。

這種理論與實(shí)踐的高度一致性提供了超越單一實(shí)驗(yàn)的科學(xué)價(jià)值。它表明GenEnv不是一個(gè)偶然成功的工程技巧,而是建立在堅(jiān)實(shí)科學(xué)基礎(chǔ)上的系統(tǒng)性創(chuàng)新。這為未來(lái)的研究提供了可靠的理論指導(dǎo):其他研究者可以基于這些原理開(kāi)發(fā)出適合不同應(yīng)用場(chǎng)景的變體方法。

同時(shí),這種一致性也增強(qiáng)了人們對(duì)GenEnv適用性的信心。當(dāng)理論預(yù)測(cè)能夠準(zhǔn)確指導(dǎo)實(shí)際結(jié)果時(shí),我們有理由相信這種方法在其他任務(wù)和場(chǎng)景中也能取得類(lèi)似的成功。這對(duì)于AI智能體訓(xùn)練方法的產(chǎn)業(yè)化應(yīng)用來(lái)說(shuō)具有重要意義。

結(jié)語(yǔ)

說(shuō)到底,GenEnv代表了AI訓(xùn)練思維的一次根本性轉(zhuǎn)變。傳統(tǒng)的方法就像讓學(xué)生反復(fù)背誦固定的教科書(shū),而GenEnv則創(chuàng)造了一個(gè)能夠與學(xué)生共同成長(zhǎng)的智能化學(xué)習(xí)環(huán)境。這種從"靜態(tài)數(shù)據(jù)訓(xùn)練"向"動(dòng)態(tài)數(shù)據(jù)演化"的轉(zhuǎn)變,不僅在技術(shù)上取得了顯著突破,更重要的是為AI智能體訓(xùn)練開(kāi)辟了一條全新的道路。

這項(xiàng)研究的價(jià)值遠(yuǎn)不止于性能指標(biāo)的提升。它向我們展示了一個(gè)重要觀點(diǎn):有時(shí)候,改變思維方式比增加計(jì)算資源更有效。GenEnv用相對(duì)較小的7B模型挑戰(zhàn)甚至超越了那些參數(shù)量多出數(shù)十倍的巨型模型,證明了"巧干"相對(duì)于"蠻干"的優(yōu)勢(shì)。對(duì)于那些計(jì)算資源有限的研究機(jī)構(gòu)和公司來(lái)說(shuō),這無(wú)疑是一個(gè)令人振奮的消息。

從實(shí)用角度來(lái)看,GenEnv解決了AI智能體訓(xùn)練中的一個(gè)核心痛點(diǎn):數(shù)據(jù)成本。傳統(tǒng)方法需要大量昂貴的人工標(biāo)注數(shù)據(jù),而GenEnv通過(guò)智能化的自動(dòng)生成機(jī)制,不僅降低了成本,還提高了效果。這種數(shù)據(jù)效率的改善對(duì)于AI技術(shù)的普及和應(yīng)用具有重要意義。

展望未來(lái),GenEnv開(kāi)啟的"共同進(jìn)化"訓(xùn)練范式可能會(huì)影響整個(gè)AI領(lǐng)域的發(fā)展方向。它提示我們,與其一味追求更大的模型和更多的數(shù)據(jù),不如將注意力轉(zhuǎn)向更智能的訓(xùn)練方法。這種思路不僅適用于智能體訓(xùn)練,也可能啟發(fā)其他AI應(yīng)用領(lǐng)域的創(chuàng)新。

對(duì)于普通人來(lái)說(shuō),GenEnv的意義在于它讓AI變得更加高效和實(shí)用。隨著這類(lèi)方法的成熟和普及,我們可能會(huì)看到更多能夠真正理解和適應(yīng)我們需求的AI助手。它們不再是僵化的程序,而是能夠在交互中不斷學(xué)習(xí)和改進(jìn)的智能伙伴。

當(dāng)然,這項(xiàng)研究也提出了新的思考。如果AI能夠在一個(gè)自我生成的環(huán)境中快速進(jìn)步,那么我們?nèi)绾未_保它們學(xué)到的技能能夠很好地轉(zhuǎn)移到現(xiàn)實(shí)世界中呢?如何在追求訓(xùn)練效率的同時(shí)保證AI系統(tǒng)的安全性和可靠性?這些問(wèn)題值得研究者們繼續(xù)探索。

總而言之,GenEnv不僅僅是一個(gè)技術(shù)創(chuàng)新,更是一次思維革命。它告訴我們,在AI的世界里,最好的老師可能就是那個(gè)能夠與學(xué)生共同成長(zhǎng)的伙伴。有興趣深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以通過(guò)論文編號(hào)arXiv:2512.19682v1查詢(xún)完整的研究?jī)?nèi)容。

Q&A

Q1:GenEnv框架的核心工作原理是什么?

A:GenEnv框架包含兩個(gè)AI角色——學(xué)生智能體和老師環(huán)境模擬器。老師會(huì)根據(jù)學(xué)生的當(dāng)前水平動(dòng)態(tài)生成任務(wù),目標(biāo)是讓學(xué)生在每類(lèi)任務(wù)上維持約50%的成功率。當(dāng)學(xué)生表現(xiàn)太好時(shí),老師增加難度;表現(xiàn)不佳時(shí),老師降低難度,確保始終提供最適合的學(xué)習(xí)挑戰(zhàn)。

Q2:為什么GenEnv要追求50%的成功率而不是更高?

A:研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)分析證明,50%成功率能為AI提供最強(qiáng)的學(xué)習(xí)信號(hào)。就像運(yùn)動(dòng)訓(xùn)練中的"最適宜負(fù)荷",既不會(huì)因太簡(jiǎn)單而無(wú)提升,也不會(huì)因太困難而受挫。成功率過(guò)高表示任務(wù)太容易,過(guò)低則表示任務(wù)超出能力范圍,只有50%左右才能獲得最大的學(xué)習(xí)價(jià)值。

Q3:GenEnv相比傳統(tǒng)訓(xùn)練方法有什么實(shí)際優(yōu)勢(shì)?

A:GenEnv最大優(yōu)勢(shì)是數(shù)據(jù)效率和性能提升。它讓7B參數(shù)的小模型能夠匹敵甚至超越參數(shù)量多出數(shù)倍的大型模型,在五個(gè)基準(zhǔn)測(cè)試中最高提升40.3%。同時(shí),它用更少的合成數(shù)據(jù)就超越了用強(qiáng)大Gemini模型生成3.3倍增強(qiáng)數(shù)據(jù)的效果,大大降低了訓(xùn)練成本。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家在號(hào)召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

國(guó)家在號(hào)召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

百態(tài)人間
2025-12-24 16:40:00
一旦臺(tái)海戰(zhàn)爭(zhēng)爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場(chǎng)

一旦臺(tái)海戰(zhàn)爭(zhēng)爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場(chǎng)

滄海旅行家
2025-12-11 15:28:35
美媒:若開(kāi)拓者擺爛瀚森將成最大受益者 交易兩人能為他打開(kāi)局面

美媒:若開(kāi)拓者擺爛瀚森將成最大受益者 交易兩人能為他打開(kāi)局面

羅說(shuō)NBA
2025-12-28 06:53:32
下車(chē)救人還是肇事逃逸?警方回應(yīng):真的是下車(chē)救人,網(wǎng)友們別再誤會(huì)了

下車(chē)救人還是肇事逃逸?警方回應(yīng):真的是下車(chē)救人,網(wǎng)友們別再誤會(huì)了

封面新聞
2025-12-28 13:05:04
陳剛和“陳剛”合影

陳剛和“陳剛”合影

觀察者網(wǎng)
2025-12-27 09:46:55
萬(wàn)萬(wàn)沒(méi)想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來(lái)了!

萬(wàn)萬(wàn)沒(méi)想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來(lái)了!

知鑒明史
2025-09-03 18:55:30
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫(huà)不還”的神秘老同志,揭開(kāi)歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫(huà)不還”的神秘老同志,揭開(kāi)歷史迷霧

公子麥少
2025-12-21 14:54:43
中方反制不到24小時(shí),美悍然宣布:中國(guó)違法,我們九屆政府都護(hù)臺(tái)

中方反制不到24小時(shí),美悍然宣布:中國(guó)違法,我們九屆政府都護(hù)臺(tái)

博覽歷史
2025-12-27 16:31:18
普京強(qiáng)硬表態(tài):若烏方不愿和平解決 俄方就打到問(wèn)題解決

普京強(qiáng)硬表態(tài):若烏方不愿和平解決 俄方就打到問(wèn)題解決

新華社
2025-12-28 11:18:09
利好:維拉兩大主力停賽無(wú)緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

利好:維拉兩大主力停賽無(wú)緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

足球偵探
2025-12-28 16:23:29
“后悔來(lái)清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來(lái)清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩(shī)意世界
2025-11-30 11:04:47
18家大國(guó)企全軍覆沒(méi)!昔日世界第一的中國(guó)機(jī)床,現(xiàn)還有翻身機(jī)會(huì)嗎

18家大國(guó)企全軍覆沒(méi)!昔日世界第一的中國(guó)機(jī)床,現(xiàn)還有翻身機(jī)會(huì)嗎

牛牛叨史
2025-12-20 21:06:35
5名“大法官”未達(dá)6人門(mén)檻仍下判決,翁曉玲:臺(tái)灣距離邪惡時(shí)代不遠(yuǎn)了

5名“大法官”未達(dá)6人門(mén)檻仍下判決,翁曉玲:臺(tái)灣距離邪惡時(shí)代不遠(yuǎn)了

海峽導(dǎo)報(bào)社
2025-12-21 08:44:14
原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

澎湃新聞
2025-12-28 10:40:26
陳曉帶著,秦昊護(hù)著,郭京飛寵著,演了19部戲,終于紅了

陳曉帶著,秦昊護(hù)著,郭京飛寵著,演了19部戲,終于紅了

小椰的奶奶
2025-12-28 08:54:10
金融圈刷屏,“私募魔女”李蓓開(kāi)投資課:收費(fèi)12888元,但“不指望靠這個(gè)賺錢(qián),我不缺幾千萬(wàn)”!旗下有兩只產(chǎn)品近三年跑輸滬深300

金融圈刷屏,“私募魔女”李蓓開(kāi)投資課:收費(fèi)12888元,但“不指望靠這個(gè)賺錢(qián),我不缺幾千萬(wàn)”!旗下有兩只產(chǎn)品近三年跑輸滬深300

每日經(jīng)濟(jì)新聞
2025-12-27 19:22:17
李兆會(huì)的18年復(fù)仇路

李兆會(huì)的18年復(fù)仇路

詩(shī)意世界
2025-10-10 14:09:20
周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

文史茶館2020
2025-12-28 11:15:51
俄警告歐洲國(guó)家勿向?yàn)跖杀?>
    </a>
        <h3>
      <a href=界面新聞
2025-12-28 14:26:52
姜昆翻車(chē),美國(guó)境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

姜昆翻車(chē),美國(guó)境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

你食不食油餅
2025-12-26 06:13:35
2025-12-28 19:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過(guò)2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過(guò)2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車(chē)了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車(chē)要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
手機(jī)
數(shù)碼
公開(kāi)課
軍事航空

教育要聞

于潔:教師怎樣走出這10個(gè)認(rèn)知誤區(qū)

手機(jī)要聞

蘋(píng)果越戰(zhàn)越勇,小米、vivo、OPPO呢?

數(shù)碼要聞

華為FreeClip 2耳夾耳機(jī)通過(guò)星閃認(rèn)證,有望近期OTA星閃音頻

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版