国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

獨立研究者發(fā)表的大模型強化學習獎勵分配全景報告

0
分享至


這篇由獨立研究者完成的綜述論文發(fā)表于2026年4月,arXiv編號為2604.09459(v2版本于2026年4月13日更新),是目前學術界首篇系統(tǒng)性聚焦于大型語言模型強化學習中"功勞認定"問題的專題綜述。感興趣的讀者可通過該編號在arXiv平臺檢索全文。

當你雇了一個團隊幫你裝修房子,最后裝修效果很差,你會怎么追責?是罵負責設計的人、還是罵負責施工的人、還是罵負責采購材料的人?如果整個團隊分工明確、每人只做了一部分,而你只知道最終結果很糟糕,那要怎么判斷究竟是哪個環(huán)節(jié)出了問題、下次應該換掉誰?

這個看似日常的困境,正是當前人工智能領域最核心的技術難題之一。一個大型語言模型(也就是類似ChatGPT這樣的AI)在被訓練成"會做事的助手"時,會經(jīng)歷成千上萬次嘗試。每次嘗試,它可能做了幾十步、幾百步才得到一個結果,但訓練系統(tǒng)只告訴它"這次成功了"或"這次失敗了"——根本不知道是哪一步起了關鍵作用。這就是所謂的"功勞認定"問題(Credit Assignment),也是本文的核心議題。

這篇綜述梳理了2024年到2026年初之間發(fā)表的47篇相關論文,把這些解決方案分門別類地整理成一套完整的知識體系。它不只是一本目錄,還附帶了一套幫助研究者和工程師選方法的決策樹、一份給未來研究者的寫作規(guī)范清單,以及一個基準測試的協(xié)議規(guī)范。對于任何想在這一方向上開展研究或?qū)嶋H應用的人來說,這篇綜述是一份難得的導航地圖。

一、從"寫作業(yè)"到"干活":AI能力進化帶來的新麻煩

要理解這個問題有多棘手,先得了解AI是如何一步步"進化"的。

早期的AI訓練方式,有點像雇人寫一篇作文然后請老師打分。系統(tǒng)生成一段話,人類或者評分程序打一個總分,AI據(jù)此調(diào)整自己。這個過程中,整篇作文只拿到一個分數(shù),每個句子、每個詞都獲得了同等的"獎懲"。這就是所謂的"結果級別獎勵"。在任務比較簡單、回答比較短的情況下,這種方式勉強夠用。

后來,隨著DeepSeek-R1和OpenAI的o1這類模型的出現(xiàn),AI開始被訓練去解數(shù)學題和寫代碼,而且要展示完整的推理過程。這時候,一段回答可能長達一兩萬個詞,里面包含幾十個推理步驟。這就是所謂的"推理型強化學習"階段。光靠最后一個"答對了"或"答錯了"來訓練,效率太低了——就像老師批改數(shù)學作業(yè)只寫"錯"但不指出哪一步算錯了,學生根本不知道該從哪里改。

再往后發(fā)展,AI被賦予了真正"干活"的能力:它可以上網(wǎng)搜索、執(zhí)行代碼、調(diào)用工具、發(fā)送消息、與其他AI協(xié)作。一個任務可能要來回操作幾十次甚至上百次,耗費的文字量可能高達幾十萬到上百萬個詞。這就是"智能體型強化學習"階段,也是目前技術前沿所在。在這種情況下,"功勞認定"問題達到了前所未有的復雜程度。

綜述提供了一組非常直觀的數(shù)字對比來說明這個落差。在解簡單數(shù)學題時,AI大約只需要兩三百到八百個詞,做出三到十個關鍵決策。在解競賽數(shù)學題時,可能需要一兩萬個詞、幾十到一百個關鍵步驟。而在處理像SWE-bench這樣的軟件工程任務時,AI可能需要來回操作二三十次到一百多次,總共用掉十萬到五十萬個詞,做出幾十到上百個關鍵決策。當一個AI在第三步做了一個糟糕的選擇,但之后的九十七步都還算正常,最終任務失敗——訓練系統(tǒng)如何知道是第三步的鍋?這就是問題的本質(zhì)。

二、"所有人平分獎金"為什么行不通

現(xiàn)在最流行的大模型訓練方法叫做GRPO(群體相對策略優(yōu)化),它的核心邏輯是:讓AI對同一個任務做出多次嘗試,然后根據(jù)每次嘗試的結果好壞來給那次嘗試的所有步驟打同樣的分。換句話說,如果這次嘗試成功了,那么這次嘗試中的每一個詞、每一步操作都獲得同等的"功勞";如果失敗了,每一步都背同等的"黑鍋"。

這就像一家公司的績效考核制度是這樣的:如果這個月業(yè)績好,所有員工無論貢獻多少都拿同樣的獎金;如果業(yè)績差,所有人無論犯沒犯錯都被扣同等的工資。這種制度在員工很少、每個人的工作都清晰可見的小團隊中或許還能接受,但在一個有一百個部門、每個部門又有幾十個人的大公司里,就完全失效了。

綜述用了一個嚴格的數(shù)學分析來說明這個問題。在單純的統(tǒng)計學上,當你對一百個不同的決策都用同一個信號來判斷好壞時,平均到每個決策上的"信息量"只有單決策情況的百分之一。這不只是效率低的問題,而是會導致模型學到錯誤的東西。研究者們發(fā)現(xiàn),在這種訓練方式下,AI會逐漸傾向于做那些"安全但毫無意義"的重復動作——因為做任何新奇的嘗試風險太高,不如一直重復已知的動作,反正獎懲信號那么模糊,誰也說不清楚。這個現(xiàn)象被研究者稱為"回聲陷阱"。

正因如此,四十七篇論文的核心目標只有一個:找到更好的方式,把那個模糊的最終結果獎勵,精準地分配到真正值得獎勵或懲罰的那一步上。

三、分類整理:解決問題的四十七種思路

這篇綜述把四十七種方法整理成了一張二維地圖。橫軸是"方法論"——用什么技術來計算功勞;縱軸是"粒度"——把功勞分配到哪個層級。

從粒度來說,最細的是詞語級別(每個詞都分開算),往上是段落級別(把一段推理當一個單元),再往上是步驟或回合級別(每一次AI說話或做操作算一個單元),最頂層是多AI級別(多個AI協(xié)作時,每個AI各算各的)。不同任務適合不同粒度——就像餐廳績效考核可以精細到每道菜(詞語級),也可以粗略到每個班次(回合級),更可以整體評價前廳還是后廚團隊(多智能體級)。

從方法論來說,主要有五大家族。第一類叫"蒙特卡洛法",思路是:從中間某步開始,讓AI從那里繼續(xù)把任務做完,做很多次,用這多次的平均結果來估計這步的重要性。第二類叫"時序差分法",思路是:訓練一個專門負責打分的輔助模型,這個模型負責預測"從當前狀態(tài)繼續(xù)下去大概能得多少分",用這個預測值來分配功勞。第三類叫"AI自評法",思路是:直接問AI自己"你覺得這一步重要嗎",用AI自己的語言理解能力來做裁判。第四類叫"博弈論法",主要是Shapley值——這是個來自經(jīng)濟學的方法,核心是問"如果去掉這一步,結果會差多少",通過所有可能的組合排列來公平地分配貢獻。第五類叫"信息論法",思路是衡量"這一步提供了多少關于任務成功的新信息"。

在這張地圖上,從左上角到右下角有一條進化路徑:推理型任務的方法主要集中在詞語級和段落級,用蒙特卡洛或時序差分;而智能體型任務的方法主要集中在回合級和多AI級,用事后分析、反事實推理和信息論。這條路徑本身就是一個重要發(fā)現(xiàn)。

四、推理AI的功勞分配:已有成熟方案

在推理型任務領域,方法已經(jīng)相對成熟,這里重點介紹幾個有代表性的。

VinePPO這個方法的核心比喻是"在棋局中途換人接著下"。它的做法是:在AI正在生成回答的某個詞的位置上,讓AI從那里繼續(xù)往下寫,寫很多個不同的版本,統(tǒng)計這些版本最終有多少比例能得到正確答案。這個比例就是那個詞的"預期價值",而實際的功勞就是"真實結果"減去"預期價值"。好處是完全沒有偏差,不依賴任何輔助模型;壞處是計算量很大,每個詞都要生成額外的很多個版本。實驗證明,這個方法在數(shù)學推理上比傳統(tǒng)PPO效果顯著更好,說明功勞分配質(zhì)量本身就是訓練的瓶頸,而不是優(yōu)化算法的問題。

SPO走了一條更實用的路:不在每個詞上分配功勞,而是找到推理鏈條中的"分叉點"——那些推理從一個子問題跳躍到另一個子問題的地方,以這些有意義的段落作為單位。每個段落的功勞用比較"共享同一前綴的不同軌跡的結果"來估算。這樣既保留了比詞語級更細的信息,又避免了計算量爆炸。

SCAR走的是博弈論路線:把整段推理鏈條看作一個團隊協(xié)作,每個段落是一個"隊員",用Shapley值來公平分配"誰的功勞最大"。Shapley值有一個很好的性質(zhì),它滿足效率(所有人的功勞加起來等于總收益)、對稱性(貢獻相同則獎勵相同)和零貢獻性(對結果沒影響的步驟得零分)。缺點是計算復雜,因為要考慮所有可能的組合順序,但研究者用了抽樣近似來解決。

PURE提出了一個有趣的理論洞察。傳統(tǒng)的過程獎勵模型(簡單理解為"步驟打分器")用的是"這步之后預期總得分"來衡量步驟質(zhì)量,PURE認為這樣會被模型鉆空子——模型可能學會制造一些看起來分數(shù)不低但實際上沒用的中間步驟。PURE改用"這步之后所有未來步驟中最低分"來衡量,強迫模型確保每一步都不拖后腿,而不是靠后面某些高分步驟來平攤。

HICRA發(fā)現(xiàn)了一個有趣的學習規(guī)律:AI在強化學習訓練的過程中,先學會的是"程序性技能"(也就是固定套路和計算步驟),后學會的是"戰(zhàn)略規(guī)劃"(也就是高層次的問題分解方式)?;诖耍琀ICRA建議把更多功勞集中在那些具有戰(zhàn)略意義的詞語和步驟上,而不是均勻分配。這個發(fā)現(xiàn)對智能體任務同樣有重要啟發(fā)價值。

五、智能體AI的功勞分配:全新挑戰(zhàn),全新方案

從推理型到智能體型,不只是任務變復雜了那么簡單,而是有六個本質(zhì)性的結構變化,這六個變化共同構成了"為什么推理型方法不能直接搬過來用"的完整解釋。

第一個變化是"環(huán)境變得不可控"。當AI只是在生成文字時,環(huán)境完全可預測——下一步的狀態(tài)就是已有文字加上剛生成的詞。但當AI開始調(diào)用工具、執(zhí)行代碼、搜索網(wǎng)頁時,同樣的操作可能因為網(wǎng)絡狀態(tài)、數(shù)據(jù)庫變化、執(zhí)行時序而得到完全不同的結果。這讓"從中間狀態(tài)出發(fā)多次模擬"變得要么成本極高,要么根本不可能。

第二個變化是"只能看到部分信息"。推理型任務是全透明的,AI看到的就是完整狀態(tài)。但在智能體任務中,AI只能看到它執(zhí)行查詢后得到的返回結果,看不到數(shù)據(jù)庫的全貌;只能看到文件系統(tǒng)中它選擇查看的文件,看不到整個代碼庫的結構。這意味著即便某一步看起來是個"壞"決策,也可能是因為信息不足,而非真的決策失誤。

第三個變化是"時間跨度爆炸"。從做幾十步推理變成了做幾十到上百次來回操作,計算信號質(zhì)量急劇下降。統(tǒng)計上,信噪比大約下降了一百倍。

第四個變化是"操作類型千差萬別"。推理鏈條里的每一步都是"想清楚下一個論證",相對同質(zhì)。但智能體的操作中,有制定高層計劃的戰(zhàn)略性決策,有選擇用哪個工具的技術性決策,有具體填寫參數(shù)的執(zhí)行性操作,有格式化輸出的收尾性操作。這些操作的"重要程度"天差地別,但如果用統(tǒng)一的功勞分配方式,就會一視同仁。

第五個變化是"中間過程難以驗證"。數(shù)學推理的每一步在邏輯上是可以檢驗的——這個代數(shù)變形對不對、這個推導步驟合不合法。但在智能體任務中,"選擇搜索哪個關鍵詞是個好選擇嗎"只有等看到搜索結果再說,"這段代碼寫得好不好"只有執(zhí)行之后才知道。

第六個變化是"分叉點稀少但致命"。在智能體任務中,大多數(shù)操作都是常規(guī)動作,真正改變命運走向的"關鍵決策點"其實非常少,但一旦在這個節(jié)點上做錯,就可能導致整個任務走入死胡同。這些點事先根本不知道是哪里,只有事后回頭看才能認出來。

基于這六個挑戰(zhàn),研究者們發(fā)展出了一批專門針對智能體任務的新方法。

AgentPRM是把推理型的"步驟打分器"概念移植到智能體任務上,但把計算方式從"蒙特卡洛多次模擬"改成了"時序差分學習"——訓練一個輔助模型,讓它不斷預測"從當前步驟繼續(xù)下去,大概能得多少分",通過迭代更新來學會這個預測。這樣就不需要重啟環(huán)境去模擬,但引入了預測誤差。實驗顯示樣本效率提升了八倍。

SWEET-RL提出了一個非常聰明的思路。訓練的時候,人們可以掌握AI在推理時看不到的信息——比如正確答案是什么、整個任務最終是否成功。這叫做"特權信息"。SWEET-RL用這些特權信息訓練一個專門的"裁判"模型,讓它在訓練期間給每一步打出高質(zhì)量的功勞分;而參與實際任務的AI在執(zhí)行任務時并不依賴這個裁判——它只用自己能看到的信息來做決策。這種"訓練時用特權,運行時不用特權"的不對稱設計,既提升了信號質(zhì)量,又不影響AI在真實環(huán)境中的獨立性。

CARL(關鍵行動強化學習)提出了一個大膽的簡化思路:與其給所有操作都分配精細的功勞,不如只管那些真正關鍵的操作。怎么判斷哪步關鍵?用"熵"——在某個狀態(tài)下,如果AI面臨很多種可能的操作選擇且各有可能,說明這是個真正需要做決策的關鍵時刻,熵值高;如果AI幾乎必然會做某個操作,說明這只是常規(guī)步驟,熵值低。CARL只對高熵操作步驟進行梯度更新,跳過其他所有步驟。結果令人意外:減少了72%的梯度更新量,但性能幾乎不下降。這說明智能體軌跡中絕大多數(shù)操作根本不值得優(yōu)化,只有少數(shù)關鍵決策真的重要。

GiGPO提出了一種"組中組"的巧妙設計。在GRPO原本的基礎上,它增加了一層:不只是在多次完整嘗試之間做比較,而是在同一次嘗試中,找出那些"從相同出發(fā)點繼續(xù)"的步驟,把它們相互比較,用組內(nèi)相對表現(xiàn)來分配步驟級別的功勞。這樣既不需要額外的輔助模型,也不需要重啟環(huán)境,在計算效率和信號質(zhì)量之間找到了一個不錯的平衡點。實驗中在網(wǎng)頁購物和家居任務兩個基準測試上分別超越GRPO達12%和9%。

最引人關注的是2026年3月同一周內(nèi)冒出的三篇獨立論文,它們都走向了同一個方向:事后反事實分析。

HCAPO的核心思路是"事后諸葛亮":等整個任務做完之后,再回過頭來評估每一步的貢獻。它用AI來扮演裁判,讓裁判用完整的事后信息去問"如果這步換成另一個操作,結果會不同嗎"。這種方法的關鍵洞察是:事后的功勞評估天然比事前更準確,因為你已經(jīng)知道結果了,可以真正區(qū)分"這步是真的好"和"這步只是恰好運氣不錯"。

C3(上下文反事實功勞分配)用的是"留一法"——把某一步的操作替換成一個"默認操作",用AI來估計在這種反事實情況下任務最終會怎么發(fā)展,然后比較真實結果和反事實結果的差值作為那步的功勞。不需要重跑環(huán)境,反事實估算完全在AI的"想象中"完成。

CCPO提供了更嚴格的理論框架:把整個任務軌跡看作一個因果結構,每步操作是一個"干預變量",任務結果是被影響的"效果"。每步的功勞就是這個"干預"的平均處理效應。這個框架在一定假設條件下有嚴格的理論保證。

三篇論文獨立得出相同結論,本身就是一個強烈信號:對于智能體任務,"事后回溯式"的功勞認定思路正在成為主流范式。

六、多AI協(xié)作:最新的功勞認定前沿

當任務不是由一個AI獨立完成,而是由多個AI分工協(xié)作時,問題又多了一個維度:這個成果里,有多少是你的功勞,有多少是隊友的功勞?

這個問題在現(xiàn)實中并不陌生。電影上映后,演員、導演、攝影師、劇本作者各自貢獻了多少,誰應該拿最多的獎勵,一直是討論不完的話題。多AI場景面臨的是完全類似的挑戰(zhàn),而且還更復雜:不同AI的能力和角色完全不同(一個專門負責搜索,一個專門寫代碼,一個專門做總結),共同完成了一個無法單獨拆開評估的整體任務。

SHARP把Shapley值從推理任務的"步驟層面"搬到了多AI任務的"智能體層面":把整個AI團隊看作一個合作游戲,每個AI的功勞是它在所有可能的團隊組合中的"平均邊際貢獻"。實驗顯示,平均比單一AI高出23.7%,比沒有Shapley功勞分配的多AI系統(tǒng)高出14.1%。

MAPPA走了另一條路:不等任務結束才算總賬,而是在每個AI的每一步操作完成后,就用另一個AI來評判這一步的即時價值。這樣每次訓練時可以從每個軌跡里提取出更多的學習信號。實驗中,在數(shù)學競賽任務上提升幅度高達5到17個百分點,是目前多AI方向上報告的最大增益之一。

Dr. MAS發(fā)現(xiàn)了一個具體的失效模式:當用GRPO來訓練多AI系統(tǒng)時,如果用全局統(tǒng)一的基準線來計算各AI的優(yōu)勢分,會出問題——因為不同AI的任務難度和獎勵分布完全不同,一個統(tǒng)一的基準線對某些AI來說太高,對另一些來說太低。解決方案是給每個AI各自維護獨立的統(tǒng)計基準,分別歸一化。這個改動看起來簡單,但卻把原本發(fā)散的訓練過程穩(wěn)定下來,并帶來了5.6%的性能提升。

七、做選擇時的實用指南

這篇綜述不只是盤點方法,還給出了一套決策框架,幫助實際工作者根據(jù)自己的情況選擇合適的方法。

核心邏輯是一棵決策樹。首先問的是任務性質(zhì):是推理型(AI生成一段文字)、智能體型(AI與環(huán)境交互多個回合),還是多AI協(xié)作?在推理型任務中,再問推理鏈條多長。如果短(五千詞以內(nèi)),用GRPO家族就夠,加上PURE或SPRO來強化步驟級別信號;如果長(超過五千詞),且計算資源有限,用HICRA或CAPO;如果計算資源充裕,用VinePPO或SCAR來追求更高質(zhì)量的功勞分配。

在智能體型任務中,先問軌跡有多長。如果不超過三十個回合,再問有沒有輔助模型資源:沒有的話用GiGPO、CARL或iStar;有的話用AgentPRM或SWEET-RL。如果超過三十個回合,再問計算資源是否充裕:資源有限就用CARL或HCAPO或ArCHer的簡化版;資源充裕就用C3/CCPO或HCAPO的完整版或IGPO。多AI協(xié)作場景則推薦M-GRPO、SHARP或MAPPA。

綜述還整理了幾個關鍵取舍。粒度越細的方法(詞語級)提供越精確的信號,但計算成本越高;事后分析(HCAPO、C3)信息質(zhì)量高但引入延遲;不需要輔助模型的方法(CARL、GiGPO、iStar)更容易部署;專門為推理型設計的方法在智能體任務上往往失效,反之則不然。

八、這個領域還缺什么

綜述誠實地指出了幾個尚未解決的重要問題。

在實踐層面,目前評測各種功勞分配方法的基準測試嚴重不統(tǒng)一。每篇論文用的任務、基礎模型、訓練配置各不相同,導致無法真正比較哪個方法更好,還是說哪個方法只是恰好在某個任務上更有優(yōu)勢。這讓整個領域的進展變得模糊。研究者呼吁建立一套共享的基準測試協(xié)議,包括已知正確功勞分配的推理任務、有控制分叉點的智能體任務,以及有設計好功勞結構的多AI任務。

在理論層面,絕大多數(shù)方法只有經(jīng)驗驗證而沒有理論保證。只有極少數(shù)方法(如VinePPO的無偏性證明、CCPO的因果假設下的保證)提供了形式化分析。在部分可觀測環(huán)境下,功勞分配如何收斂、樣本復雜度是多少,這些基本問題幾乎沒有答案。

在新興應用層面,當AI任務跨度極長(比如持續(xù)幾天的科研實驗)、獎勵信號本身不確定(比如"用戶是否滿意"這種主觀評價),或者AI的操作影響到了AI自己的"記憶"(比如把某些信息存入外部數(shù)據(jù)庫以備后用),功勞應該如何分配,現(xiàn)有方法幾乎無從應對。

還有一個被忽略的機會:功勞認定和探索策略本來可以互相增益。在功勞認定最不確定的狀態(tài)上,恰恰是AI最應該去探索的地方——因為那里信息最缺乏。但目前沒有任何方法把這兩件事真正結合在一起。

歸根結底,這個領域正在經(jīng)歷一個快速成熟的階段。推理型任務上的功勞分配問題,大致已有可用的工程答案;智能體任務上的功勞分配問題,思路已經(jīng)清晰但工具還不完備;多AI協(xié)作的功勞分配問題,才剛剛開始被認真對待。

三年前,幾乎沒有人把"功勞分配"當作一個獨立的研究方向來看待,它只是深藏在各種算法細節(jié)里的小問題。但隨著AI從"會回答問題"進化到"會干活",這個問題已經(jīng)從背景噪音變成了舞臺中央最響亮的那個聲音。下一波突破,很可能就藏在"怎么讓AI明白自己真正做對了什么"這個問題的答案里。

有興趣深入了解的讀者可以通過arXiv編號2604.09459檢索這篇論文,或直接訪問作者在GitHub上維護的相關論文列表(xxzcc/Awesome-Credit-Assignment-in-LLM-RL)以獲取持續(xù)更新的研究動態(tài)。

Q&A

Q1:大模型強化學習中的功勞認定問題具體是什么?

A:功勞認定問題是指當AI完成一項多步驟任務后,訓練系統(tǒng)只知道最終結果的好壞,但不知道是哪一步操作真正起了決定性作用。就像一場球賽贏了,但說不清楚是誰的功勞。在AI做復雜任務時,可能經(jīng)歷幾十步到上百步,如果只靠最終獎勵來訓練,效率極低,甚至會讓AI學到錯誤的行為模式。

Q2:GRPO方法在智能體任務上為什么會出現(xiàn)"回聲陷阱"?

A:GRPO對整個任務軌跡中的每一步都給同樣的獎懲信號,當任務變得復雜、步驟達到幾十甚至上百步時,這個信號對每一步來說變得極其微弱且充滿噪聲。AI因為無法分清哪步真正有用,為了降低風險就開始不斷重復已知的安全動作,變得越來越保守和重復,完全失去了探索新方法的動力,這就是所謂的"回聲陷阱"。

Q3:CARL方法中用來判斷關鍵決策點的"熵"是什么意思?

A:在CARL方法里,"熵"衡量的是AI在某個狀態(tài)下面對多少種可能選擇、且這些選擇的可能性有多均勻。如果AI幾乎肯定會做某一個操作,熵值低,說明這只是常規(guī)步驟不需要特別訓練;如果AI面臨很多種同樣可能的選擇,熵值高,說明這是真正需要做判斷的關鍵時刻,才值得投入梯度更新資源。實驗發(fā)現(xiàn)跳過低熵步驟可以減少72%的計算量但性能幾乎不變。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

壹家言
2026-04-28 11:11:27
王洪文被捕前,對秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

王洪文被捕前,對秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國基金報
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國兩制叫“臺灣特別行政區(qū)行政長官”“臺灣省省長”

外交部:按一國兩制叫“臺灣特別行政區(qū)行政長官”“臺灣省省長”

阿七說史
2026-04-28 15:41:47
辛柏青回應吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個大白胸脯,在這兒干什么呢?

妹子,你露個大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國聯(lián)通推出全新手機套餐品牌“魔方”,自由組合,階梯定價,39元起

中國聯(lián)通推出全新手機套餐品牌“魔方”,自由組合,階梯定價,39元起

TMT流程審計
2026-04-28 10:35:38
誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場均24分

誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭議進行回應,稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭議進行回應,稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會議,傳遞三重利好

政治局會議,傳遞三重利好

劉勝軍經(jīng)濟學大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國家底,美國這才明白,為啥中國人底氣能這么足

美伊大戰(zhàn)暴露了中國家底,美國這才明白,為啥中國人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨砍兩分,朱雨玲澳隊剃光頭國乒大戰(zhàn)韓隊

世乒賽戰(zhàn)況:杜凱琹獨砍兩分,朱雨玲澳隊剃光頭國乒大戰(zhàn)韓隊

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰拍下了那張后臺照片?

誰拍下了那張后臺照片?

追星雷達站
2026-04-27 09:58:59
43歲蔡卓妍官宣結婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國企開始慌了

倒查13年,央國企開始慌了

職場資深秘書
2026-04-28 22:06:07
聚焦服務業(yè)擴能提質(zhì)|我國養(yǎng)老服務業(yè)發(fā)展邁出新步伐

聚焦服務業(yè)擴能提質(zhì)|我國養(yǎng)老服務業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經(jīng)要聞

中央政治局會議定調(diào),八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

親子
藝術
手機
健康
數(shù)碼

親子要聞

有一點點近視,到底要不要戴眼鏡?

藝術要聞

京東浙江總部公示,99.99米高,中國第一民企落子民營大?。?/h3>

手機要聞

三星裸眼3D屏來了,廣告牌能“跳”出來

干細胞治療燒燙傷三大優(yōu)勢!

數(shù)碼要聞

機械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預約

無障礙瀏覽 進入關懷版