国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

南方科技大學(xué)等機(jī)構(gòu)聯(lián)手破解AI推理訓(xùn)練難題

0
分享至


這項(xiàng)由南方科技大學(xué)、北京郵電大學(xué)、微軟亞洲研究院、上海財(cái)經(jīng)大學(xué)、清華大學(xué)及INFLY TECH聯(lián)合開展的研究,以預(yù)印本形式于2026年4月發(fā)布,論文編號(hào)為arXiv:2604.08865。感興趣的讀者可以通過該編號(hào)在arXiv平臺(tái)查閱完整論文。

**當(dāng)AI做數(shù)學(xué)題,"打分員"卻失靈了**

假設(shè)你正在教一個(gè)學(xué)生做數(shù)學(xué)題,你的評(píng)分方式是:等他把整道題全部寫完,才告訴他"對(duì)"或"錯(cuò)"。問題來了——學(xué)生寫了滿滿兩頁紙的推理過程,最終答案錯(cuò)了,但你只能說一句"不對(duì)"。這位學(xué)生要怎么知道是第三行開始走偏,還是最后一步算術(shù)出錯(cuò)?你的反饋幾乎幫不上什么忙。

這正是目前大型語言模型(簡稱大模型,也就是ChatGPT、DeepSeek這類AI)在學(xué)習(xí)復(fù)雜推理時(shí)面臨的真實(shí)困境。研究人員發(fā)現(xiàn),讓AI學(xué)會(huì)解數(shù)學(xué)題、做邏輯推理,需要用到一種叫做"強(qiáng)化學(xué)習(xí)"的訓(xùn)練方法——本質(zhì)上就是讓AI不斷嘗試、不斷根據(jù)反饋調(diào)整。但現(xiàn)有主流訓(xùn)練方法存在根本性的缺陷,而這篇論文提出的新方法,正是為了徹底解決這個(gè)問題。

**一、訓(xùn)練AI推理,為什么這么難**

要理解這項(xiàng)研究的價(jià)值,得先弄清楚AI推理訓(xùn)練的現(xiàn)狀。

目前讓大模型學(xué)會(huì)解題,主流方法叫做PPO(近端策略優(yōu)化)。你可以把它理解成一種"步步打分"的訓(xùn)練機(jī)制。AI每生成一個(gè)詞,系統(tǒng)就有一個(gè)"打分員"(技術(shù)上稱為Critic,批評(píng)家)在旁邊估算:按照現(xiàn)在這個(gè)走勢,最終能答對(duì)的概率是多少?然后根據(jù)這個(gè)概率,獎(jiǎng)勵(lì)或懲罰剛才的每一步操作。

聽起來很合理,但問題出在AI推理的特殊性上。當(dāng)AI解一道數(shù)學(xué)題時(shí),它可能需要連續(xù)輸出幾千個(gè)字的推理過程——這就像一篇很長的偵探調(diào)查報(bào)告。而最終的反饋只有一個(gè):"答案正確"或"答案錯(cuò)誤"。打分員必須把這個(gè)唯一的結(jié)果,沿著幾千步的推理鏈條,一路往回分配功勞或責(zé)任。

研究團(tuán)隊(duì)通過實(shí)驗(yàn)直接觀察了這個(gè)"打分員"的行為,結(jié)果令人震驚。他們發(fā)現(xiàn),打分員實(shí)際上是在偷懶——它根本不關(guān)心AI在推理過程中的第三步、第五步、第二十步在做什么,而是一直等到推理接近尾聲,才突然"清醒過來",根據(jù)最后幾行文字的語義特征猜測答案是否正確。這就好比一個(gè)判卷老師,全程不看解題過程,只盯著最后一行看,憑"感覺"打分。

這種現(xiàn)象被研究團(tuán)隊(duì)命名為"尾部效應(yīng)"(Tail Effect)。它帶來了兩個(gè)直接后果:對(duì)于答對(duì)的推理鏈,打分員在接近結(jié)尾時(shí)才給出高分,導(dǎo)致AI的整個(gè)推理過程幾乎收不到任何有效的激勵(lì)信號(hào);對(duì)于答錯(cuò)的推理鏈,打分員在中間過程中也沒有給出足夠的懲罰,無法讓AI知道哪里出了問題。如此一來,標(biāo)準(zhǔn)PPO訓(xùn)練出的AI,往往不僅沒有進(jìn)步,甚至比訓(xùn)練前更差。

面對(duì)這一困境,另一個(gè)流行方案應(yīng)運(yùn)而生,叫做GRPO(群組相對(duì)策略優(yōu)化)。它的思路是直接扔掉那個(gè)不靠譜的打分員,改用一種"橫向比較"的方式:對(duì)同一道題,讓AI同時(shí)生成一批答案(通常是8個(gè)),然后以這批答案的平均得分作為基準(zhǔn),那些比平均水平好的答案就得到獎(jiǎng)勵(lì),差的就受到懲罰。

這個(gè)方法在實(shí)踐中效果相當(dāng)不錯(cuò),原因在于:它不再試圖給推理過程中的每一步打分,而是把整個(gè)推理鏈當(dāng)成一個(gè)整體來評(píng)價(jià)。然而,它的代價(jià)也很明顯——每道題都要生成8個(gè)答案,計(jì)算量直接翻了8倍。在訓(xùn)練大模型這種極度耗費(fèi)算力的場景下,這意味著訓(xùn)練時(shí)間大幅延長,成本急劇攀升。

**二、一個(gè)關(guān)鍵發(fā)現(xiàn):GRPO其實(shí)在"偷偷做別的事"**

這篇論文最有趣的地方在于,研究團(tuán)隊(duì)對(duì)GRPO為何有效做出了一個(gè)全新的解讀,而這個(gè)解讀成為了他們提出新方法的理論基礎(chǔ)。

研究團(tuán)隊(duì)用數(shù)學(xué)工具仔細(xì)分析了GRPO的運(yùn)作機(jī)制后發(fā)現(xiàn):GRPO之所以奏效,并不是因?yàn)?多采樣"本身有什么神奇之處,而是因?yàn)樗诓恢挥X中把整個(gè)推理任務(wù)從一種框架切換到了另一種框架。

具體而言,標(biāo)準(zhǔn)PPO把AI解題看作一個(gè)漫長的"連續(xù)決策過程"——就像下棋,每走一步都有意義,每一步都可能影響最終勝負(fù)。這在理論上很美好,但實(shí)踐中就會(huì)遇到前文描述的打分困難。而GRPO通過把整個(gè)答案當(dāng)成一個(gè)整體來評(píng)分,實(shí)際上是把解題任務(wù)變成了一個(gè)完全不同的模型——技術(shù)上叫做"序列級(jí)情境賭博機(jī)"(Sequence-Level Contextual Bandit)。

"賭博機(jī)"這個(gè)比喻很直觀:你走進(jìn)一家賭場,面前有一排老虎機(jī)(每臺(tái)代表一道題),你拉一次搖臂(生成一個(gè)完整答案),立刻得到一個(gè)結(jié)果(正確或錯(cuò)誤),然后你根據(jù)這個(gè)結(jié)果決定下次對(duì)這臺(tái)老虎機(jī)是否繼續(xù)拉。整個(gè)過程沒有"中間步驟"的概念,只有"整體行動(dòng)"和"最終結(jié)果"的對(duì)應(yīng)關(guān)系。

這個(gè)視角的轉(zhuǎn)變非常重要,因?yàn)樗馕吨寒?dāng)你不再試圖給每個(gè)步驟單獨(dú)打分,"打分員失靈"的問題就自然消失了。GRPO的成功,本質(zhì)上是這種框架切換的成功,而非多采樣的必然功勞。

這個(gè)發(fā)現(xiàn)讓研究團(tuán)隊(duì)想到了一個(gè)問題:既然框架切換才是關(guān)鍵,我們能不能在保留這個(gè)框架的同時(shí),擺脫多采樣的高昂代價(jià)?

**三、SPPO:用一個(gè)聰明的"預(yù)測員"替代一批答案**

基于上述洞察,研究團(tuán)隊(duì)提出了他們的新方法:SPPO(序列級(jí)近端策略優(yōu)化)。

核心思路可以用一個(gè)生活場景來理解。假設(shè)你在準(zhǔn)備高考,你的家教老師給你出了一道難題。標(biāo)準(zhǔn)PPO的方式是:出題,你作答,老師給整道題的每一行打分,但他因?yàn)?尾部效應(yīng)"而打分失準(zhǔn)。GRPO的方式是:出題,你和7個(gè)同學(xué)同時(shí)作答,老師把你的成績和大家平均成績做比較,準(zhǔn)確但費(fèi)時(shí)。SPPO的方式是:出題,老師根據(jù)以往對(duì)你能力的了解,先預(yù)估你答對(duì)這道題的概率,然后你只作答一次,用"實(shí)際結(jié)果"減去"預(yù)估概率"來判斷你這次發(fā)揮是超水準(zhǔn)還是低水準(zhǔn)。

這個(gè)"預(yù)估概率"就是SPPO引入的關(guān)鍵組件:一個(gè)輕量級(jí)的"價(jià)值模型"(Value Model)。它的唯一任務(wù)是,在看到一道題之后,預(yù)測當(dāng)前的AI有多大概率能答對(duì)這道題——用一個(gè)0到1之間的數(shù)字表示。這個(gè)數(shù)字,就是"題目難度的預(yù)估"。

當(dāng)AI作答完畢,得到"對(duì)(1分)"或"錯(cuò)(0分)"的結(jié)果后,SPPO用一個(gè)極簡的公式計(jì)算優(yōu)勢信號(hào):實(shí)際結(jié)果減去預(yù)估概率。比如,一道題預(yù)估答對(duì)率為0.3(很難),但AI答對(duì)了,那么優(yōu)勢信號(hào)就是1-0.3=0.7,說明這次表現(xiàn)遠(yuǎn)超預(yù)期,需要大力強(qiáng)化這個(gè)推理策略。反之,如果預(yù)估答對(duì)率0.9(很容易),但AI答錯(cuò)了,優(yōu)勢信號(hào)就是0-0.9=-0.9,說明這次翻車非常嚴(yán)重,需要強(qiáng)力糾正。

這個(gè)優(yōu)勢信號(hào)不再分配給推理過程中的每一步,而是均勻地廣播給整個(gè)推理鏈中的所有步驟。如果這道題答對(duì)了,每一步都受到同等強(qiáng)度的鼓勵(lì);如果答錯(cuò)了,每一步都受到同等強(qiáng)度的懲罰。這種"一榮俱榮,一損俱損"的機(jī)制,完全繞開了"每步單獨(dú)打分"的難題。

與此同時(shí),這個(gè)價(jià)值模型用一種叫做"二元交叉熵"的方式訓(xùn)練,本質(zhì)上就是讓它學(xué)會(huì)更準(zhǔn)確地預(yù)測題目難度。當(dāng)預(yù)測越來越準(zhǔn)確時(shí),AI訓(xùn)練的穩(wěn)定性也隨之提升——因?yàn)橐粋€(gè)好的基準(zhǔn)讓AI能更清楚地區(qū)分"這次是真的進(jìn)步了"還是"只是運(yùn)氣好"。

**四、一個(gè)意外驚喜:小身材可以駕馭大模型**

SPPO在設(shè)計(jì)上還帶來了一個(gè)額外的好處,研究團(tuán)隊(duì)稱之為"解耦批評(píng)家策略"(Decoupled Critic)。

在標(biāo)準(zhǔn)PPO中,那個(gè)"打分員"(Critic)通常和被訓(xùn)練的AI模型一樣大。這是因?yàn)榇蚍謫T需要理解AI在每一步的輸出,從而估算當(dāng)前局面的價(jià)值,而這種理解能力要求打分員具備和AI相當(dāng)?shù)恼Z言理解能力。于是,如果你要訓(xùn)練一個(gè)70億參數(shù)的AI,打分員也需要70億參數(shù),內(nèi)存占用直接翻倍。

但在SPPO的框架中,價(jià)值模型的任務(wù)極度簡化——它只需要看一道題,輸出一個(gè)數(shù)字,告訴你這道題的預(yù)估難度。這個(gè)任務(wù)遠(yuǎn)比"理解復(fù)雜推理過程"簡單得多。

研究團(tuán)隊(duì)測試了一種極端組合:用一個(gè)只有15億參數(shù)的小模型(DeepSeek-R1-Distill-Qwen-1.5B)作為價(jià)值模型,去輔助訓(xùn)練一個(gè)70億參數(shù)的大模型(DeepSeek-R1-Distill-Qwen-7B)。結(jié)果出乎意料——這個(gè)"小個(gè)子"價(jià)值模型不僅能正常工作,而且這個(gè)組合在所有測試基準(zhǔn)中取得了最高的平均分。顯卡內(nèi)存占用也從標(biāo)準(zhǔn)配置的91.5%下降到78.7%,降幅超過12個(gè)百分點(diǎn)。

這個(gè)發(fā)現(xiàn)在實(shí)踐層面意義重大。研究人員指出,預(yù)估一道題的難度,根本不需要具備解題能力,就好比一個(gè)經(jīng)驗(yàn)豐富的老師一眼就能判斷某道題"很多學(xué)生會(huì)錯(cuò)",即使他自己不親自去做這道題。因此,用一個(gè)小模型完成這項(xiàng)預(yù)估任務(wù),在邏輯上是合理的,而且在實(shí)驗(yàn)中也確實(shí)有效。

**五、數(shù)字驗(yàn)證:SPPO的表現(xiàn)到底如何**

論文通過大量實(shí)驗(yàn)來驗(yàn)證SPPO的實(shí)際效果,測試平臺(tái)涵蓋多個(gè)廣為認(rèn)可的數(shù)學(xué)推理基準(zhǔn):AIME24、AIME25(美國數(shù)學(xué)邀請賽題目)、AMC23(美國數(shù)學(xué)競賽)、MATH500(5個(gè)難度等級(jí)的數(shù)學(xué)題集)以及Minerva Math(需要定量推理能力的科學(xué)題目)。

在1.5B規(guī)模(15億參數(shù))的模型上,標(biāo)準(zhǔn)PPO的綜合平均分是44.06,甚至低于未經(jīng)訓(xùn)練的基礎(chǔ)模型(44.96)。這印證了"尾部效應(yīng)"的危害——錯(cuò)誤的訓(xùn)練信號(hào)不僅沒有幫助,反而起到了負(fù)面作用。GRPO在使用8個(gè)樣本的情況下,綜合平均分提升至47.08。而SPPO僅使用單個(gè)樣本,綜合平均分達(dá)到了48.06,超過了GRPO。

在7B規(guī)模(70億參數(shù))的模型上,結(jié)果同樣清晰。標(biāo)準(zhǔn)PPO從基礎(chǔ)模型的52.49分提升到56.44分,進(jìn)步明顯但并不突出。GRPO達(dá)到57.44分,SPPO達(dá)到58.11分,配備小尺寸價(jià)值模型的SPPO組合更是達(dá)到了58.56分,拿下了所有方法中的最高分。

從訓(xùn)練速度的角度來看,差距更為直觀。GRPO因?yàn)槊康李}都需要生成8個(gè)答案,訓(xùn)練進(jìn)程推進(jìn)得很慢。SPPO每道題只生成1個(gè)答案,在相同時(shí)間內(nèi)能完成更多輪更新。實(shí)驗(yàn)數(shù)據(jù)顯示,SPPO大約在22小時(shí)內(nèi)就能達(dá)到約58分的峰值水平,而GRPO等方法需要明顯更長的時(shí)間才能達(dá)到可比水平,整體速度差距約為5.9倍。

為了確認(rèn)SPPO的優(yōu)勢確實(shí)來自其核心設(shè)計(jì)思想而非其他因素,研究團(tuán)隊(duì)還做了一個(gè)對(duì)照實(shí)驗(yàn):把SPPO用來訓(xùn)練價(jià)值模型的方式(二元交叉熵?fù)p失)直接嫁接到標(biāo)準(zhǔn)PPO框架上,其他一切保持不變,命名為"PPO + BCE"。結(jié)果顯示,這個(gè)混合方案和標(biāo)準(zhǔn)PPO一樣不穩(wěn)定,同樣出現(xiàn)了性能崩潰。這意味著,SPPO的成功不是因?yàn)槟硞€(gè)特定的數(shù)學(xué)技巧,而是因?yàn)?把整個(gè)推理鏈當(dāng)作一個(gè)整體來評(píng)價(jià)"這個(gè)根本性的框架轉(zhuǎn)變。

**六、不只是紙上談兵:在經(jīng)典游戲控制任務(wù)上的驗(yàn)證**

為了排除"成功可能只是因?yàn)樵谀硞€(gè)特定訓(xùn)練框架下的系統(tǒng)優(yōu)化"這一疑慮,研究團(tuán)隊(duì)把SPPO移植到了五個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)控制任務(wù)上:精密版CartPole(控制桿子不倒)、MountainCar(讓小車爬上山)、Hopper(雙足機(jī)器人前進(jìn))、LunarLander(月球著陸器著陸)和Pendulum(保持?jǐn)[桿直立)。

這些任務(wù)被專門改造成類似AI推理的稀疏獎(jiǎng)勵(lì)模式:整個(gè)過程中沒有任何中間反饋,只在最終時(shí)刻給出"成功"或"失敗"的二元結(jié)果。這和AI解數(shù)學(xué)題的情境高度吻合。

測試結(jié)果顯示,在難度最高的Hopper和MountainCar任務(wù)上,標(biāo)準(zhǔn)PPO幾乎完全失敗,成功率停在接近零的水平;而SPPO成功解決了這兩個(gè)任務(wù),成功率穩(wěn)步攀升。在LunarLander上,SPPO保持了穩(wěn)定上升的學(xué)習(xí)曲線,而標(biāo)準(zhǔn)PPO則出現(xiàn)了明顯的波動(dòng)和倒退。在精密CartPole上,SPPO收斂速度明顯更快。這組實(shí)驗(yàn)表明,SPPO的優(yōu)越性是算法本身的特性,在不同的任務(wù)場景下都能復(fù)現(xiàn)。

**七、價(jià)值模型學(xué)到了什么**

研究團(tuán)隊(duì)還專門分析了價(jià)值模型的質(zhì)量,因?yàn)镾PPO的整個(gè)機(jī)制都依賴于一個(gè)能準(zhǔn)確預(yù)測題目難度的價(jià)值模型。

他們隨機(jī)抽取了200道題目,讓AI多次嘗試每道題,用實(shí)際答對(duì)率作為"真實(shí)難度"的衡量標(biāo)準(zhǔn),再與價(jià)值模型的預(yù)測值做對(duì)比。皮爾遜相關(guān)系數(shù)(衡量線性相關(guān)程度的指標(biāo),滿分1.0)達(dá)到0.642,斯皮爾曼等級(jí)相關(guān)系數(shù)(衡量排名是否一致)達(dá)到0.664。這意味著價(jià)值模型確實(shí)學(xué)會(huì)了區(qū)分難題和簡單題,雖然不完美,但相關(guān)性足夠顯著,能為訓(xùn)練提供有效的基準(zhǔn)信號(hào)。

研究團(tuán)隊(duì)還觀察到一個(gè)有趣的現(xiàn)象:價(jià)值模型的預(yù)測值整體呈現(xiàn)"保守"的特點(diǎn),傾向于預(yù)測在0.6到0.7之間,而不是極端的0或1。這種"回歸均值"的行為實(shí)際上對(duì)訓(xùn)練是有益的——它不會(huì)因?yàn)檫^于自信或過于悲觀而產(chǎn)生扭曲的訓(xùn)練信號(hào),而是始終保持一種適度的不確定性,讓真正的"超常發(fā)揮"和"出乎意料的失誤"都能產(chǎn)生足夠強(qiáng)的糾正信號(hào)。

**說到底,這項(xiàng)研究發(fā)現(xiàn)了什么,又意味著什么**

歸根結(jié)底,這項(xiàng)研究回答了一個(gè)在AI訓(xùn)練領(lǐng)域長期存在爭議的問題:大模型推理能力的訓(xùn)練,應(yīng)該用什么樣的框架來建模?

研究團(tuán)隊(duì)的答案是:把整個(gè)推理過程當(dāng)成"一次性行動(dòng)"來評(píng)價(jià),而不是"一系列連續(xù)步驟"。這不是一種妥協(xié),而是一種更貼近問題本質(zhì)的視角。推理過程本身是AI內(nèi)部的思考流,而外部可觀測的、有意義的評(píng)價(jià)對(duì)象是完整的推理結(jié)果,兩者之間不需要強(qiáng)行建立逐步對(duì)應(yīng)關(guān)系。

從實(shí)際影響來看,這項(xiàng)研究降低了訓(xùn)練高質(zhì)量推理AI的門檻。過去,訓(xùn)練一個(gè)70億參數(shù)的推理模型需要同時(shí)加載一個(gè)同等大小的打分員,內(nèi)存壓力極大;而SPPO允許用一個(gè)小十倍的模型擔(dān)任價(jià)值預(yù)測者,讓更多研究者能夠在有限的計(jì)算資源下開展實(shí)驗(yàn)。5.9倍的訓(xùn)練速度提升,則意味著同樣的算力能在更短時(shí)間內(nèi)完成實(shí)驗(yàn)迭代,加快AI推理能力的研究進(jìn)展。

當(dāng)然,這項(xiàng)研究也坦誠地指出了自身的局限:SPPO的設(shè)計(jì)前提是存在一個(gè)明確的對(duì)錯(cuò)判斷——數(shù)學(xué)題是否答正確。對(duì)于那些沒有標(biāo)準(zhǔn)答案的開放性任務(wù),比如"幫我寫一首感情細(xì)膩的詩",這個(gè)框架就無從評(píng)判,需要另辟蹊徑。

對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv平臺(tái),以論文編號(hào)arXiv:2604.08865查閱完整原文,研究團(tuán)隊(duì)也已將全部代碼開源,地址為github.com/sustech-nlp/SPPO,可以直接獲取實(shí)驗(yàn)?zāi)_本和復(fù)現(xiàn)所需的配置參數(shù)。

Q&A

Q1:SPPO和GRPO相比,訓(xùn)練速度快多少,性能有沒有損失?

A:根據(jù)論文實(shí)驗(yàn)數(shù)據(jù),SPPO在訓(xùn)練速度上比GRPO快約5.9倍,主要原因是GRPO每道題需要同時(shí)生成8個(gè)答案,而SPPO只需生成1個(gè)。性能方面,SPPO不僅沒有損失,在1.5B和7B兩種規(guī)模的模型上,SPPO的綜合平均分都略高于GRPO(N=8)。使用更小尺寸價(jià)值模型的SPPO組合更是拿下了所有測試方法中的最高分。

Q2:SPPO里的價(jià)值模型要多大才夠用,能不能用比主模型小很多的模型?

A:實(shí)驗(yàn)結(jié)果表明,價(jià)值模型可以遠(yuǎn)小于主模型。研究團(tuán)隊(duì)測試了用15億參數(shù)模型作為價(jià)值模型來輔助訓(xùn)練70億參數(shù)主模型,兩者相差約4.7倍。結(jié)果顯示,這個(gè)"小個(gè)子"組合不僅正常工作,還取得了所有方案中的最高測試分?jǐn)?shù),同時(shí)把顯卡內(nèi)存占用從91.5%降低到78.7%。這說明預(yù)測題目難度所需的能力,遠(yuǎn)比解題能力更容易學(xué)習(xí)。

Q3:標(biāo)準(zhǔn)PPO在推理訓(xùn)練中為什么會(huì)失敗,具體是哪里出了問題?

A:標(biāo)準(zhǔn)PPO失敗的核心原因是"尾部效應(yīng)"——其內(nèi)置的打分員(Critic)無法在幾千步的推理過程中有效分配獎(jiǎng)懲信號(hào),而是一直等到推理接近結(jié)尾才根據(jù)最后幾行文字猜測結(jié)果,導(dǎo)致整個(gè)中間推理過程既收不到有效激勵(lì),也收不到有效懲罰。論文通過可視化實(shí)驗(yàn)直接觀察到,正確和錯(cuò)誤推理鏈的價(jià)值曲線在中間階段幾乎完全重疊,只在結(jié)尾附近才分開,證實(shí)了這一失效機(jī)制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
繼續(xù)破紀(jì)錄,72小時(shí)訂單超10萬:比亞迪大唐這次會(huì)動(dòng)M9的蛋糕嗎?

繼續(xù)破紀(jì)錄,72小時(shí)訂單超10萬:比亞迪大唐這次會(huì)動(dòng)M9的蛋糕嗎?

藍(lán)色海邊
2026-04-28 14:24:53
刻不容緩!中央政治局定調(diào),釋放大信號(hào)!看清大局,中國全面出手!

刻不容緩!中央政治局定調(diào),釋放大信號(hào)!看清大局,中國全面出手!

互聯(lián)網(wǎng)思想
2026-04-28 23:24:38
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
夏洛特公主長相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

夏洛特公主長相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

小魚愛魚樂
2026-04-28 09:28:11
斯諾克賽程:趙心童2次出場對(duì)陣墨菲,吳宜澤先戰(zhàn)8局,世界冠軍PK

斯諾克賽程:趙心童2次出場對(duì)陣墨菲,吳宜澤先戰(zhàn)8局,世界冠軍PK

劉姚堯的文字城堡
2026-04-28 09:37:20
美股收盤:OpenAI相關(guān)股票承壓 三大指數(shù)集體下跌

美股收盤:OpenAI相關(guān)股票承壓 三大指數(shù)集體下跌

財(cái)聯(lián)社
2026-04-29 05:39:18
陳思誠找小21歲阮巨不是瞎了眼:他比誰都精,要的是情緒穩(wěn)定

陳思誠找小21歲阮巨不是瞎了眼:他比誰都精,要的是情緒穩(wěn)定

小貓娛樂叭叭
2026-04-27 20:42:52
溫州民商銀行9.9%股權(quán)易主,浙商大佬仇建平輾轉(zhuǎn)入局

溫州民商銀行9.9%股權(quán)易主,浙商大佬仇建平輾轉(zhuǎn)入局

達(dá)摩財(cái)經(jīng)
2026-04-26 09:32:45
美聯(lián)合10國對(duì)中國發(fā)起猛攻,中方不隔夜強(qiáng)力反制

美聯(lián)合10國對(duì)中國發(fā)起猛攻,中方不隔夜強(qiáng)力反制

至今
2026-04-29 03:03:01
砸進(jìn)六個(gè)師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

砸進(jìn)六個(gè)師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

寰球經(jīng)緯所
2026-04-27 23:35:08
5月1日正式開刀!3萬就立案,所有打工人都要警惕

5月1日正式開刀!3萬就立案,所有打工人都要警惕

洞見小能手
2026-04-27 21:17:44
1976年,江青被捕入獄后,兩個(gè)人趁著深夜去看她,江青丑態(tài)畢露

1976年,江青被捕入獄后,兩個(gè)人趁著深夜去看她,江青丑態(tài)畢露

兵鑒史
2026-04-29 03:01:16
下課!曝張慶鵬無緣率隊(duì)進(jìn)季后賽將卸任北控主帥 僅執(zhí)教一季

下課!曝張慶鵬無緣率隊(duì)進(jìn)季后賽將卸任北控主帥 僅執(zhí)教一季

醉臥浮生
2026-04-28 21:15:10
驚掉下巴!39 歲鄭欣宜暴瘦現(xiàn)身,整張臉瘦脫形,差點(diǎn)沒認(rèn)出來

驚掉下巴!39 歲鄭欣宜暴瘦現(xiàn)身,整張臉瘦脫形,差點(diǎn)沒認(rèn)出來

橙星文娛
2026-04-28 09:29:00
南京二級(jí)高級(jí)警長李才玉案2026年5月9日開庭

南京二級(jí)高級(jí)警長李才玉案2026年5月9日開庭

安志軍律師
2026-04-28 19:00:40
泡泡瑪特推出Labubu冰箱,售價(jià)5999元,上千人預(yù)約

泡泡瑪特推出Labubu冰箱,售價(jià)5999元,上千人預(yù)約

大象新聞
2026-04-26 13:01:02
云南“14歲男生奸殺同班女生”被判無期,受害人家屬將申請抗訴

云南“14歲男生奸殺同班女生”被判無期,受害人家屬將申請抗訴

新京報(bào)
2026-04-28 19:36:18
阿sa蔡卓妍宣布結(jié)婚,阿嬌鐘欣潼發(fā)文祝福:很開心你等到了那個(gè)合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

阿sa蔡卓妍宣布結(jié)婚,阿嬌鐘欣潼發(fā)文祝福:很開心你等到了那個(gè)合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

極目新聞
2026-04-28 13:14:42
放話了,太陽隊(duì)老板在球隊(duì)被雷霆隊(duì)首輪橫掃后稱已開始籌劃下一步

放話了,太陽隊(duì)老板在球隊(duì)被雷霆隊(duì)首輪橫掃后稱已開始籌劃下一步

好火子
2026-04-29 00:26:37
比披絲巾更可怕的是“瑜伽褲外穿”,廉價(jià)又卡襠,三角區(qū)更尷尬

比披絲巾更可怕的是“瑜伽褲外穿”,廉價(jià)又卡襠,三角區(qū)更尷尬

生命之泉的奧秘
2026-03-20 03:56:49
2026-04-29 06:27:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

美國:對(duì)35個(gè)伊朗相關(guān)實(shí)體及個(gè)人實(shí)施制裁

頭條要聞

美國:對(duì)35個(gè)伊朗相關(guān)實(shí)體及個(gè)人實(shí)施制裁

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

本地
藝術(shù)
房產(chǎn)
手機(jī)
軍事航空

本地新聞

用青花瓷的方式,打開西溪濕地

藝術(shù)要聞

趙樸初:比風(fēng)水厲害100倍的宇宙定律

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國人口增量第4??!

手機(jī)要聞

三星裸眼3D屏來了,廣告牌能“跳”出來

軍事要聞

德國總理默茨:美國正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無障礙瀏覽 進(jìn)入關(guān)懷版