国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從蟄伏到王炸,RL啟示錄

0
分享至

“如果人工智能是一塊蛋糕,那么無監(jiān)督學習是蛋糕的主體,監(jiān)督學習是糖霜,強化學習(RL)只是頂上的櫻桃?!?/p>

全文共 6255 字,閱讀大約需要 16 分鐘

作者 | 賈陽

強化學習(Reinforcement Learning),重新變得性感了。

就在3月5日,2025年的圖靈獎頒給了強化學習的兩位理論奠基者——安德魯·巴托(Andrew Barto)和理查德·薩頓(Richard Sutton)。

這次頒獎,像是一個不斷放大的信號,揭示了一個越來越明確的AI研究范式轉折——引入RL,AI研究從“快思考”(快答出預訓練的回復)推進到“慢思考”(在推理時深思熟慮)。

在過去這一年間,RL從一度沉淪的位置,重新走回了AI研究的閃光燈中心。2024年下半年,OpenAI率先發(fā)布了它在LLM基礎上,用RL實現(xiàn)“深度思考”的成果——o1,設定了新的終點線。今年初,DeepSeek將賽道上的迷霧更進一步迅速驅散了,把自己的方案完全開源,在LLM中加入“純RL”,讓R1的推理能力比肩甚至超過o1。關于RL能幫助通往AGI的共識,迅速凝聚。

一些RL領域的研究者幾乎要喜極而泣了。

AlphaGo曾經(jīng)用驚艷的“神之一手”打敗了人類圍棋的最頂尖高手李世石,讓世人第一次大規(guī)模地為AI的智力驚喜以及驚嚇。RL,正是AlphaGo訓練的理論基石。

RL的研究者們認為,機器的學習,可以類比人類,就像多巴胺激勵神經(jīng)元,機器也能通過與環(huán)境的反饋互動不斷改進提升能力。人的時間經(jīng)驗有限,而機器不受這些限制,在RL中能夠有超人的潛力。

這曾經(jīng)一度是人們對通往AGI的最主流想象。

但在2020年后,更多的人被“LLMs and scaling laws are all you need”吸引走了。大語言模型,以及越來越龐大的預訓練數(shù)據(jù)集,將AI的智能推進到了新的階段,也把不走“大力出奇跡”路線的RL相對邊緣化了。

因為LLM能夠實現(xiàn)看起來更通用(general)的智能,而RL只能在獎懲明確的特殊環(huán)境中訓練出“??啤敝悄?,只能“玩游戲”,而無法處理復雜的現(xiàn)實環(huán)境。

在一些論壇的AI板塊討論中,從業(yè)者們明確地感覺到,RL的“市場關注份額”流失,有人抱怨“找不到RL工作”(I can’t find an RL job)。一些“RL是否走進死胡同”的論戰(zhàn)更是非常有意思。RL和LLM的支持者激烈地爭論,誰更好地模仿了人類的自然認知模式,誰才更有前途。

直到大語言模型的scaling law開始碰壁,科技樹上的一場新較量開始了。

這正是一部人類智慧交替閃耀的故事。通往AGI的路上,原本是一片黑暗,有人提出用刀耕,有人用火種,有人用哲思,都獲得過成就,也遭遇過瓶頸。而在新的障礙面前,這些方法的新組合,把人類帶到了新的起點。

AlphaGo

2016年3月的首爾,深度學習歷史上最具開創(chuàng)性的時刻之一正在這里發(fā)生。在擊敗歐洲圍棋冠軍Fan Hui后,AlphaGo正式挑戰(zhàn)全球圍棋冠軍李世石。這被全球媒體視為人類智識尊嚴和人工智能的對決。

結果足夠驚悚,AlphaGo以4:1的絕對優(yōu)勢,戰(zhàn)勝了14次圍棋世界冠軍得主李世石。人類轟轟烈烈地落敗了。

在第二局的第37手,AlphaGo出了讓所有人都困惑不已的一招,落在第五線,而非傳統(tǒng)最優(yōu)選的第三線。解說室懵了,一位評論員稱不知是好是壞,另一位說“這是一個錯誤?!?/p>

第37手出現(xiàn)的概率是萬分之一。在AlphaGo的研究員看來,沒有人類會這么下,但這一手仍然是正確的,“它通過內省過程發(fā)現(xiàn)了這一點。”同樣在觀戰(zhàn)的Fan Hui評價這是“神之一手”。

右側新落的黑子,為AlphaGo的傳奇第37手

AlphaGo戰(zhàn)勝李世石,一下子讓AI在公眾認知中爆發(fā)了,AI迎來了前所未有的希望和期待,甚至讓大眾第一次真正恐懼“AI比人更聰明”。RL的巨大潛力,恐怖如斯。

谷歌的核心高管悉數(shù)到達首爾,來見證這個“代表谷歌互聯(lián)網(wǎng)業(yè)務未來”的AI技術。這場比賽對谷歌非常重要。

谷歌是2010年代那一波歷史性的AI人才爭奪戰(zhàn)的最積極下注方。辛頓(Geoffrey Hinton)僅用4顆GPU和更好的神經(jīng)網(wǎng)絡算法,就把谷歌用了16000顆CPU的“谷歌貓”踩在腳下,震驚業(yè)界。谷歌毫不吝惜地以4400萬美元拍下辛頓三人的純智力公司,又砸了4億英鎊把英國初創(chuàng)公司DeepMind納入麾下。

DeepMind當時展現(xiàn)給谷歌的RL路線,并不是谷歌當時的神經(jīng)網(wǎng)絡做圖像識別、音頻理解等研究方向。但創(chuàng)始人哈薩比斯(Demis Hassabis)聚集了當時最好的一批人才,這非常珍貴,哈薩比斯和不少同事都算是辛頓的學生。更重要的是,哈薩比斯曾用“圍棋”和“打造人腦一樣的通用人工智能”成功說服彼得·蒂爾(Peter Thiel)投了140萬英鎊,也讓谷歌相信了RL讓DeepMind構建了一個系統(tǒng),這是在通用人工智能方面的第一次真正嘗試。

攻克古老的圍棋,是DeepMind向谷歌證明自己的第一步。哈薩比斯是一個愛玩游戲的學霸,他研究AI,把兩個愛好完美結合,把AI扔進游戲里,反復試錯,直到它玩得比人類更好。

AlphaGo有兩個神經(jīng)網(wǎng)絡,一個負責策略,輸出下一步落子的概率;另一個是價值網(wǎng)絡,來輸出落子的勝率。AlphaGo初始學習了3000萬步圍棋專家的下法,然后一場接一場地與自己對抗,分析哪些下法是更有利的,飛速進步。

在后續(xù)的版本AlphaGo Zero中,DeepMind把RL進一步做到極致——不再提供海量對弈棋局的初始數(shù)據(jù),僅告知基本規(guī)則,由它自我對弈數(shù)百萬次,發(fā)現(xiàn)獲勝策略。AlphaGo Zero經(jīng)過3天的訓練,就獲得了比擊敗李世石的版本更強的能力,與后者對弈的勝率是100比0。

而AlphaGo Zero遠比AlphaGo強大的原因,正在于RL占比提高了。取名為Zero,也暗示了它是真正從零做起,完全自學成才。

一時間,DeepMind的論文《Mastering the game of go without human knowledge》火得發(fā)燙。該論文稱,即便是在最具挑戰(zhàn)性的領域中,單純使用RL的方法也是完全可行的:沒有人類實例或指導,沒有基本規(guī)則之外的知識,訓練達到超人的性能是完全可能的。

AlphaGo Zero更加簡潔優(yōu)美。AlphaGo的初始版本需要176個GPU和1202個CPU,AlphaGo Zero只需要一臺機器和4個TPU。

AlphaGo Zero將RL的路線帶到業(yè)界熱情的頂峰。在2018年12月,AlphaGo Zero登上了《科學》雜志封面。《科學》雜志給出了這樣一句評價,“能夠解決多個復雜問題的單一算法,是創(chuàng)建通用機器學習系統(tǒng),解決實際問題的重要一步。”

DeepMind商業(yè)計劃書的第一行,就是通用人工智能。當時的巨大成功,讓哈薩比斯更加確認了DeepMind的使命,“這是我們開發(fā)通用算法的一大進步”。

DeepMind繼續(xù)研究如何把提升AlphaGo,把它的能力遷移到其他領域。AlphaGo Zero更加通用,除了圍棋還輕松地在國際象棋、日本將棋領域達到頂尖水平。AlphaFold在預測蛋白質結構上成就斐然,哈薩比斯還因此獲得了諾貝爾化學獎。AlphaStar能玩《星際爭霸II》。

業(yè)界對這一探索方向也懷抱著巨大的希望。RL相關論文激增。在機器人、自動駕駛、儲能等行業(yè),RL是一種非常合適的訓練學習路徑,行業(yè)研究也越來越深入。

僅統(tǒng)計了arXiv,制圖20社

“死胡同”

辛頓對哈薩比斯個人的聰明程度評價甚高,稱“他的實力不僅在智力上,還展現(xiàn)在他對勝利極端且堅定不移的渴望上”。辛頓曾經(jīng)在英國當過哈薩比斯短暫的導師,在2014年谷歌收購DeepMind時還專門克服了腰椎間盤病痛無法乘民航飛機的困難,到倫敦提供了關鍵的科學顧問。

但這位連接主義的大拿,對哈薩比斯認定的RL路線并不認可。

2018年,辛頓和楊樂昆(Yann LeCun)、約書亞·本吉奧(Yoshua Bengio)憑神經(jīng)網(wǎng)絡深度學習獲得圖靈獎。在獲獎后演講中,辛頓開玩笑地要把RL排除在機器學習方法之外,因為“被稱為強化學習的第三種方法不太有效。”RL需要太多的數(shù)據(jù)和太多的處理能力,才能完成真實世界中的實際任務。

要理解他們之間的分歧,我們需要了解一些背景框架。

在AI的漫長探索中,研究者們都在試圖用人類認知世界的方式(本質),去建構機器智能的框架(模仿)。因此AI的理論演進,一直是和人類心理學、腦科學、神經(jīng)科學、哲學和語言學的發(fā)展互相糾葛。對本質的不同認知,也讓AI研究者分化為主要的三大流派。

符號主義(Symbolicism)認為,人的認知單元是符號,主張通過公理邏輯和符號操作來模擬人類的智能。一度是最先獲得實踐應用、最風靡的流派。IBM的“深藍”打敗了國際象棋世界冠軍,本質上是符號主義的成果。

連接主義(Connectionism)來源于仿生學,主張通過模擬人腦神經(jīng)元的連接方式來實現(xiàn)人工智能。如今AI領域最宗師級的幾個大?!令D和楊樂昆是扛鼎者,神經(jīng)網(wǎng)絡就是模仿人腦的產(chǎn)物,也是現(xiàn)在最主流的理論派別。

行為主義(Actionism)關注行為和刺激之間的關系,讓機器通過與環(huán)境交互來學習和改進其行為。這也就是RL所屬的流派。

圖片來源于網(wǎng)絡

事實上,RL的發(fā)展歷程非常曲折,經(jīng)歷了多次長久的寒冬和等待。

最早在在1950年,艾倫·圖靈(Alan Turing)提出了RL初步的設想,一種基于獎勵和懲罰的機器學習方法。

在這個想法的基礎上,幾十年后的1980年代,AI的寒冬中,巴托與薩頓在麻省理工默默搭建了RL的理論框架和算法體系。他們最核心的貢獻莫過于時間差分學習算法,它解決了獎勵預測的問題,agent如何獲得長期收益。

又過了40年,巴托與薩頓憑借對強化學習的研究,獲得了圖靈獎的遲到獎勵。

RL的進展受制于算法、算力、數(shù)據(jù)三大瓶頸。DeepMind能夠用RL創(chuàng)造出震驚世界的AlphaGo,有一個重要原因是,它把辛頓等連接主義學者的成果“神經(jīng)網(wǎng)絡”借過來了。AlphaGo由兩個13層的深度神經(jīng)網(wǎng)絡構成。

神經(jīng)網(wǎng)絡和泛化能力的引入,從根本上改變了RL。傳統(tǒng)的RL,依賴于表格的方法(如Q-learning)和動態(tài)編程,通常需要窮舉所有可能的狀態(tài)和動作組合,計算上難以實現(xiàn)。而神經(jīng)網(wǎng)絡可以學習數(shù)據(jù)中的模式和特征,對新的狀態(tài)進行有效的預測。因此DeepMind后來也把自己的研究稱為“深度強化學習”。

第4代的AlphaMuZero可以自己學會玩圍棋、國際象棋、日本將棋和Atari游戲,還被用來幫YouTube尋找視頻壓縮的更優(yōu)算法。比前幾代更“通用”了,更夠應對更多不確定環(huán)境。

但是經(jīng)過神經(jīng)網(wǎng)絡加強過后的RL,依然是RL。Mu的應用還是在有限的游戲環(huán)境中。

AGI需要AI能應對不同的任務,而不是只在單一任務中做到極致。

在2021年,AlphaGo系列的負責人David Silver和RL奠基人薩頓聯(lián)手發(fā)了另一篇文章,《Reward is Enough》,跟神經(jīng)網(wǎng)絡領域的劃時代論文《Attention is all you need》有異曲同工的修辭。

Silver等人認為,一個簡單而強大的原則“獎勵最大化”下,具備出色智能的agent能夠“適者生存”,習得知識、學習、感知、社交智能、語言、泛化能力和模仿能力。簡而言之,RL將促進AGI的實現(xiàn)。這像是把自然界的進化論,搬到了AI領域。

但這一理論遭遇了業(yè)界很多的質疑和批評,因為它某種程度上非?!翱斩础保艺撐闹刑岬降姆夯?,仍難以在實踐中獲得突破進展。

強化學習是死胡同(RL is a dead-end)之類的討論在AI社區(qū)越來越頻繁。圍棋等游戲天然適合RL。但在開放性環(huán)境中,獎勵目標或環(huán)境的細微變化,就會導致整個系統(tǒng)徹底失敗,或者需要重新訓練。監(jiān)督學習效果是穩(wěn)定的,但RL根本不穩(wěn)定。人類設定的獎勵,經(jīng)過RL的黑盒子,可能會導向無法預知的離譜行為。

去年從DeepMind離職創(chuàng)業(yè)的科學家Misha Laskin認為,RL進展停留在了超人類、但極度狹窄的智能體層面,缺乏明確路徑來拓展通用性?!叭绻麊我蝗蝿丈隙家獙崿F(xiàn)六億步的訓練,又從哪獲取足夠數(shù)據(jù)來覆蓋所有任務呢?”

Google DeepMind的研究員Kimi Kong最近在真格基金播客中稱,在2019年之后,RL在算法層面就沒有更多的長足進步了。

這種迷茫和低落實際上蔓延在整個RL社區(qū)。尤其在ChatGPT發(fā)布后,LLM展現(xiàn)出來的泛化能力,讓RL開始失去資本和產(chǎn)業(yè)的聚光燈,甚至在一些人看來,是被趕回了象牙塔。

2024年8月,DeepMind的一次學校講座。RL的關注度在LLM浪潮中跌入低谷,但DeepMind仍堅信RL

蛋糕上的櫻桃

大語言模型如日中天,但它的頭頂也飄著幾朵烏云。

在2024年底的AI峰會NeurIPS上,OpenAI聯(lián)合創(chuàng)始人兼前首席科學家Ilya Sutskever宣稱,預訓練時代即將終結(Pre-training as we know it will end),這將已經(jīng)籠罩在行業(yè)頭頂?shù)膕caling law碰壁焦慮徹底一語道破。

AI的訓練數(shù)據(jù),正在枯竭。而擴大訓練數(shù)據(jù)量級提升智能的邊際效應也在遞減。

此外,LLM天生不擅長數(shù)學和物理。因為LLM本質上仍是基于語言模式,而科學原理和人類的決策從根本上講是抽象的,超越了語言或像素的表達范疇。

怎么辦呢?

OpenAI率先給出了方案。去年年中發(fā)布的o1模型,不是一味擴大預訓練規(guī)模,而是用RL結合CoT(思維鏈)技術,實現(xiàn)了深度推理,將大模型的智能又推上一個新的臺階。一個新的范式也出現(xiàn)了,AI研究開始從“快思考”(快速給出預訓練的答案)遷移到“慢思考”(深思熟慮地推理)。

RL的優(yōu)點在此時盡顯優(yōu)勢。其一,RL(在給定環(huán)境下)需要的數(shù)據(jù)量遠小于LLM。其二,RL善于在環(huán)境中自主探索、動態(tài)學習、連續(xù)決策。

據(jù)RL研究者、Pokee AI的創(chuàng)始人Zheqing Zhu的演講,從90年代以來,RL領域一個趨勢是“反向的scaling law”。AlphaGo需要3000萬對局,到AlphaGo Zero,再到MuZero,對局減少到500萬以下,效率呈指數(shù)級提高。

圖片來自 @ZheqingZhu

有意思的是,又是OpenAI實現(xiàn)了工程突破,又是谷歌提供了理論來源,就像上一次是ChatGPT點燃了Transformer的烽火。

在o1發(fā)布的一個月前,DeepMind的論文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》與o1模型原理幾乎一致,提出增加測試時計算比擴展模型參數(shù)更有效。

谷歌在2024年初發(fā)布的《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》也提出類似觀點,傳統(tǒng)Transformer模型擅長并行計算,用CoT突破其串行邏輯推理的限制。

但為什么不是谷歌摘得果實呢?這又是另一個問題了,或許涉及到大廠的工作考核、組織模式、業(yè)務牽制等等。谷歌的員工大概率也為此忿懣。

去年兩位DeepMind核心研究員Misha Laskin和Ioannis Antonoglou為了更快地追趕AGI的時間窗口,離職創(chuàng)辦Reflection AI,創(chuàng)業(yè)方向正是基于RL+LLMs的通用Agent。

顯而易見,整個大模型業(yè)界都進入了新的心照不宣硝煙四起的競賽中。終點大家都看到了,但后來者誰能率先到達?

答案是,來自純中國本土團隊的DeepSeek。

這里就不再贅述DeepSeek在其他方面的創(chuàng)新(有興趣的可以點開前文),只看它如何實現(xiàn)“深度思考”。

此前OpenAI雖然展示了o1的推理能力,但有意把推理的詳細過程隱藏掉了,以防止其他模型復制它的數(shù)據(jù)。因此深度思考能力仍是一個黑盒,其他團隊也只能從頭研究。破解的難點除了數(shù)據(jù)、基礎模型,更在于RL環(huán)境通常不完美,且難以準確指定獎勵函數(shù)。如果獎勵機制有噪聲,就很容易被reward hacking,能力卻沒能真正提升。

就像LLM們此前在做RLHF時,這種現(xiàn)象普遍存在,甚至出現(xiàn)越訓練模型越笨的情況。

(不同的目標函數(shù)都存在過度優(yōu)化,模型性能先升后降)

RLHF依靠人類的反饋,并不是一個明確的簡潔的規(guī)則。且RLHF很多部分,是為了實現(xiàn)alignment,為了更像人,而不是更智能。這正是這個原因,OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy認為,RLHF并不是真正的RL,只是人類偏好的代理,而非真正的獎勵函數(shù)。

DeepSeek-R1-Zero把黑盒的秘密大張旗鼓地公布給了所有人。它提出了一種完全跳過人類監(jiān)督微調的模型,純粹通過RL獲得有效學習和泛化的能力。它的獎勵函數(shù)簡單到不可思議,只包括兩部分,針對數(shù)學問題的“準確性獎勵”和規(guī)定思考過程要置于 '' 和 '' 標簽之間的“格式獎勵”。

(R1-Zero在AIME 2024基準測試中,隨著RL訓練的推進,性能穩(wěn)定性和一致性得到增強。)

這種極簡的獎勵機制,回過頭來看,像極了AlphaGo。而幾年前被指“空洞”的“Reward is Enough”觀點,似乎也得到了一些驗證:DeepSeek創(chuàng)造了適合的策略,找到了適合的獎勵函數(shù),于是R1-Zero獲得理性思考的能力,“頓悟時刻”降臨了。

隨著擁有通用知識的LLM,插上了擅長抽象邏輯、自主推理決策的RL翅膀,兩者互補,AI的智能程度顯著提高。這簡直是目前為止完美的解決方案。

還記得楊樂昆在2016年提出的那個非常著名的蛋糕梗嗎?“如果智能是一塊蛋糕,那么無監(jiān)督學習是蛋糕的主體,監(jiān)督學習是糖霜,強化學習(RL)只是頂上的櫻桃?!?/p>

他本意是強調無監(jiān)督學習(后來他變成自監(jiān)督學習)的重要性,從可用的任意信息預測過去、現(xiàn)在或未來的情況,順便諷刺一下RL。這也是連接主義的學者嘲笑RL的習慣性動作。

被刺激到的DeepMind的研究人員,曾經(jīng)還回敬他了一張綴滿櫻桃的蛋糕圖。

不過,這個諷刺意味的meme,反而成了當下情形的正面預言。

OpenAI Deep Research的研究員Josh Tobin很好地描述了這個趨勢:我們2015年、2016年搞RL研究時進展受限,是在沒有“蛋糕”的情況下加“櫻桃”。但現(xiàn)在我們有了在大量數(shù)據(jù)上預訓練的強大語言模型,RL終于迎來了合適的發(fā)展時機,AGI Agent和復雜決策也更加高效和可行。

奧特曼(Sam Altman)稱未來發(fā)布的GPT-5,將是兩條線合并起來的“神奇的統(tǒng)一智能”,將根據(jù)任務自行決定是快速回答,還是進行深入分析思考。

就像Ilya Sutskever曾提出的比喻,大多數(shù)哺乳動物的大腦體重比遵循一定規(guī)律,但人進化出了新路徑,大腦比重更大。AI也會找到突破預訓練模式的新方向。

根據(jù)DeepSeek的預告,RL提升大模型智能的潛力顯然遠未窮盡。下一波AI突破才剛剛開始。

《我們最終能用上Manus嗎》

《當?shù)瓴コ蔀樾鲁B(tài),下一步會是什么?》

《你可能用了假的DeepSeek》

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中美局勢可能發(fā)生大反轉,最先超過美國的竟不是經(jīng)濟

中美局勢可能發(fā)生大反轉,最先超過美國的竟不是經(jīng)濟

華人星光
2026-01-07 13:32:47
美媒爆:特朗普提前放出消息

美媒爆:特朗普提前放出消息

環(huán)球時報國際
2026-01-07 00:12:46
中國的某些軍事專家和“神棍” 差不多!

中國的某些軍事專家和“神棍” 差不多!

回旋鏢
2026-01-04 17:00:38
玩套路了!蘇州一工廠迎新,基本工資漲至2660,崗位獎金等額下調

玩套路了!蘇州一工廠迎新,基本工資漲至2660,崗位獎金等額下調

火山詩話
2026-01-07 07:37:29
長城汽車正式取消“大小周”,全面落實雙休制度,員工:剛開始聽到消息,以為是謠言不敢信

長城汽車正式取消“大小周”,全面落實雙休制度,員工:剛開始聽到消息,以為是謠言不敢信

大風新聞
2026-01-06 16:58:03
善惡有報,2025年塌房的六大網(wǎng)紅,為了流量各種作妖,不值得同情

善惡有報,2025年塌房的六大網(wǎng)紅,為了流量各種作妖,不值得同情

單手搓核彈
2026-01-06 14:04:34
厲害了!江蘇這 7 個鎮(zhèn)即將代表中國走向世界!快看有沒有你老家!

厲害了!江蘇這 7 個鎮(zhèn)即將代表中國走向世界!快看有沒有你老家!

劉哥談體育
2026-01-07 14:26:31
撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

泠泠說史
2025-12-15 18:05:17
芬蘭公司宣布量產(chǎn)全球首款全固態(tài)電池,5分鐘可充滿,能量密度400Wh/kg

芬蘭公司宣布量產(chǎn)全球首款全固態(tài)電池,5分鐘可充滿,能量密度400Wh/kg

金融界
2026-01-06 14:03:20
你見過的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬人的奇跡

你見過的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬人的奇跡

夜深愛雜談
2026-01-04 23:05:06
特斯拉開卷了 !剛官宣這騷操作,炸翻全網(wǎng)!

特斯拉開卷了 !剛官宣這騷操作,炸翻全網(wǎng)!

科技狐
2026-01-06 22:39:58
田樸珺回應和王石離婚!王思聰罕見發(fā)聲,翻出12年前微博諷刺!

田樸珺回應和王石離婚!王思聰罕見發(fā)聲,翻出12年前微博諷刺!

生性灑脫
2026-01-06 15:12:34
李圣龍剛官宣離開上港一線隊,他就敲定新去向,本賽季將出戰(zhàn)中乙

李圣龍剛官宣離開上港一線隊,他就敲定新去向,本賽季將出戰(zhàn)中乙

張麗說足球
2026-01-07 10:45:32
女子攀爬江蘇一景區(qū)野道不慎墜崖?官方回應:事發(fā)點不到2米高

女子攀爬江蘇一景區(qū)野道不慎墜崖?官方回應:事發(fā)點不到2米高

半島晨報
2026-01-05 21:00:03
CBA最新消息!北控男籃更換教練,湯普森被裁掉,崔永熙跟隊訓練

CBA最新消息!北控男籃更換教練,湯普森被裁掉,崔永熙跟隊訓練

體壇瞎白話
2026-01-07 09:11:42
官媒發(fā)文,宗馥莉再破天花板,讓親叔宗澤后和整個商界沉默了

官媒發(fā)文,宗馥莉再破天花板,讓親叔宗澤后和整個商界沉默了

李健政觀察
2026-01-07 09:30:29
外交部回應美方“這是我們的半球”言論:劃分勢力范圍、制造地緣對抗不會使一個國家更加安全

外交部回應美方“這是我們的半球”言論:劃分勢力范圍、制造地緣對抗不會使一個國家更加安全

界面新聞
2026-01-07 15:32:29
0:4+0:11慘??!21歲陳熠多哈賽硬仗掉鏈子,沖冠遇考驗

0:4+0:11慘??!21歲陳熠多哈賽硬仗掉鏈子,沖冠遇考驗

阿晞體育
2026-01-07 12:23:07
12分17板3帽+2記三分!開拓者21歲2米18神塔進化:楊瀚森上位好難

12分17板3帽+2記三分!開拓者21歲2米18神塔進化:楊瀚森上位好難

李喜林籃球絕殺
2026-01-06 15:07:43
YU7新車未出店,后備箱就打不開,車主要退車!小米回應

YU7新車未出店,后備箱就打不開,車主要退車!小米回應

都市快報橙柿互動
2026-01-06 18:17:35
2026-01-07 17:19:00
20社 incentive-icons
20社
關注年輕人的錢包、工作和生活。
157文章數(shù) 67關注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護城河

頭條要聞

中方被問是否計劃采取行動幫助馬杜羅夫婦 外交部回應

頭條要聞

中方被問是否計劃采取行動幫助馬杜羅夫婦 外交部回應

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財經(jīng)要聞

農(nóng)大教授科普:無需過度擔憂蔬菜農(nóng)殘

汽車要聞

蔚來2025百萬臺收官 一場遲到的自我修復

態(tài)度原創(chuàng)

健康
教育
時尚
游戲
公開課

這些新療法,讓化療不再那么痛苦

教育要聞

中字頭央企四川分公司2026校招246人,成都錦城學院成最大贏家

看起來很好親的唇,能養(yǎng)出來?

《尼爾:機械紀元》冷知識:日本版2B溫柔,英文版2B清冷

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版