国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓LLM不再話癆,快手HiPO框架來了

0
分享至



當(dāng)用戶向大語言模型提出一個簡單問題,比如「單詞 HiPPO 里有幾個字母 P?」,它卻正襟危坐,開始生成一段冗長的推理鏈:「首先,讓我們分析 HiPPO 這個詞,河馬的英文單詞為 hippo,河馬是一種半水生哺乳動物,這里用戶用了大寫字母,可能有特殊的含義,對于單詞 HiPPO,我們可以將其拆分為 H-i-P-P-O,字母 P 出現(xiàn)在第 3 與第 4 個位置,因此有 2 個字母 P... 讓我們簡化問題,HiPO 可以拆分為...」

面對這樣的「嚴(yán)謹(jǐn)」,用戶難免哭笑不得,既浪費了計算資源,也增加了等待時間,甚至更壞的情況是模型被自己冗長的推理鏈「繞暈了過去」,最終給出了錯誤的答案,用戶只得捶胸頓足地大喊:「這合理嗎?」



這種現(xiàn)象,正是當(dāng)前追求強大推理能力的 LLM 們普遍面臨的「過度思考」(Overthinking)困境。

無論是數(shù)學(xué)計算、代碼生成還是邏輯問答,模型似乎習(xí)慣了「啟動即深思」的模式,即使面對本可直觀回答的簡單問題,也要展開一番鏈?zhǔn)剿伎迹–hain-of-Thought, CoT),導(dǎo)致 token 使用量激增、推理延遲變長、部署成本高昂。如何在保持復(fù)雜問題解決準(zhǔn)確性的同時,避免在簡單任務(wù)上「空轉(zhuǎn)」、在復(fù)雜任務(wù)上高效「運轉(zhuǎn)」,成為 LLM 走向?qū)嵱没囊淮箨P(guān)鍵挑戰(zhàn)。

如今,快手 KwaiKAT 團隊與南京大學(xué)劉佳恒老師 NJU-LINK 實驗室、張煜群教授實驗室 ARiSE合作重磅推出HiPO(Hybrid Policy Optimization)框架,為 LLM 裝上了智能的「思考開關(guān)」。該框架通過創(chuàng)新的混合數(shù)據(jù)冷啟動與混合強化學(xué)習(xí)獎勵系統(tǒng),使模型能夠自主、動態(tài)地決策何時該啟動詳細(xì)推理(Think-on),何時該直接給出答案(Think-off)。

這不僅顯著提升了推理效率,更在多個核心基準(zhǔn)測試上實現(xiàn)了準(zhǔn)確率的同步提升,為構(gòu)建高效、實用的下一代推理大模型提供了解決方案。



  • 論文鏈接:https://arxiv.org/abs/2509.23967
  • 項目鏈接:https://huggingface.co/Kwaipilot/HiPO-8B

困境之源:LLM 的「思考」代價與「過度思考」頑疾

大語言模型在復(fù)雜認(rèn)知任務(wù)上的巨大成功,很大程度上歸功于鏈?zhǔn)剿伎迹–oT) 推理范式的引入。讓模型像人一樣「一步一步想問題」,極大地提升了其在數(shù)學(xué)、編程、科學(xué)問題解決等領(lǐng)域的表現(xiàn)。然而,這套強大的推理機制也帶來了「認(rèn)知慣性」:模型傾向于對所有問題都「一視同仁」地進(jìn)行深度推理。

  • 效率與成本的矛盾:始終生成冗長的推理軌跡是低效的。它直接轉(zhuǎn)化為極高的 Token 使用量,意味著更慢的響應(yīng)速度(延遲)和更昂貴的 API 調(diào)用或自建推理成本。在追求交互體驗和成本控制的真實應(yīng)用場景中,這成為了一個致命的短板。
  • 「過度思考」的普遍性:近期多項研究都明確指出,LLM 存在普遍的過度思考現(xiàn)象。即使是最先進(jìn)的模型,也常常在簡單問題上「小題大做」,生成大量冗余推理步驟,造成了計算資源的巨大浪費。在復(fù)雜問題上,模型也常常出現(xiàn)反復(fù)冗余思考的現(xiàn)象,導(dǎo)致回答出錯。

現(xiàn)有的解決方案試圖緩解這一問題,但各有局限:

  • 基于訓(xùn)練的自適應(yīng)推理:通過強化學(xué)習(xí)(RL)引入長度懲罰或簡潔性獎勵,或通過監(jiān)督微調(diào)(SFT)偏好更短的推理。但這類方法信號粗糙,可能因單調(diào)的 「縮短」激勵而損害模型處理難題的能力。
  • 外部控制:通過精心設(shè)計的提示詞或動態(tài)指令來限制推理步驟。這種方法靈活但依賴人工設(shè)計,難以規(guī)?;曳夯芰Υ嬉?。
  • 事后優(yōu)化:在推理鏈生成后進(jìn)行剪枝或重構(gòu)。這屬于「事后補救」,無法從根源上改變模型的思考模式。

核心問題在于,缺乏一個原則性的機制,來精細(xì)地平衡準(zhǔn)確性、回答效率之間的權(quán)衡,讓模型學(xué)會「具體問題,具體分析」。

HiPO 破局之道:雙輪驅(qū)動的「智能思考開關(guān)」

HiPO 框架的核心思想是將「是否思考」的決策權(quán)交給模型自身,并通過系統(tǒng)性的訓(xùn)練方法,確保其決策的智能性與平衡性。其創(chuàng)新性主要體現(xiàn)在兩大核心組件上:

組件一:混合數(shù)據(jù)冷啟動—— 為模型裝上「智能思考開關(guān)」

要讓模型學(xué)會選擇,首先需要讓它見識過「思考」和「不思考」兩種模式下的高質(zhì)量回答是什么樣的。HiPO 設(shè)計了一套精密的自動化數(shù)據(jù)構(gòu)建流程,并使用混合數(shù)據(jù)進(jìn)行冷啟動。



1.數(shù)據(jù)收集與分類:研究團隊整合了多個高質(zhì)量的公開及專有數(shù)學(xué)與代碼推理數(shù)據(jù)集(如 AM-Thinking-v1-Distilled, AceReason-Math, II-Thought-RL, Skywork-OR1-RL-Data),構(gòu)建了一個高質(zhì)量的訓(xùn)練語料庫。

2.雙模式響應(yīng)生成與優(yōu)選:對于每個問題,使用一個強大的推理模型(如 DeepSeek-V3)分別生成 N 個「Think-on」(帶推理)和 N 個「Think-off」(直接回答)的響應(yīng)。然后,自動驗證所有回答的正確性。

  • 關(guān)鍵優(yōu)選策略:比較兩種模式的通過率(Pass Rate)。如果「Think-on」模式的通過率顯著高于「Think-off」,則選擇「Think-on」模式;反之則選擇 「Think-off」。特別巧妙的是,當(dāng)兩種模式通過率相差無幾(低于閾值 δ)時,策略會傾向于選擇「Think-off」模式。這一設(shè)計直接鼓勵模型在深度思考不能帶來明顯收益時,優(yōu)先選擇更簡潔的回答,從數(shù)據(jù)源頭注入效率意識。
  • 最短正確響應(yīng):在獲勝的模式下,選擇最短的正確響應(yīng)作為最終樣本,進(jìn)一步強化簡潔性。

3.引入模式解釋信號:為了強化模型對模式選擇的理解,HiPO 還引入了一個輔助解釋信號。對于每個優(yōu)選出的問答對,會使用 DeepSeek-V3 生成一段理由(Justification),解釋「為什么這個問題適合(或不適合)進(jìn)行深度推理」。這為模型提供了寶貴的元認(rèn)知信號,幫助其將模式選擇與問題內(nèi)在的復(fù)雜性對齊。

這套管道最終產(chǎn)出的數(shù)據(jù),每條都包含了問題、最終回答、以及關(guān)于思考模式的理由。在這些數(shù)據(jù)上對模型進(jìn)行冷啟動,使得模型初步具有了「智能思考」的能力。

組件二:混合強化學(xué)習(xí)獎勵系統(tǒng) —— 精細(xì)化引導(dǎo)模型的「決策天平」

有了高質(zhì)量的數(shù)據(jù)進(jìn)行「冷啟動」(Cold-Start)訓(xùn)練后,HiPO 通過一個設(shè)計精巧的混合強化學(xué)習(xí)(RL)階段,對模型進(jìn)行微調(diào),使其決策能力臻于完善。該獎勵系統(tǒng)的核心目標(biāo)是防止模型過度依賴看似更可靠的「Think-on」模式,實現(xiàn)真正的自適應(yīng)。

1.基礎(chǔ)獎勵:每個生成的回答會根據(jù)其答案正確性(ACC)和格式正確性(FORMAT)獲得一個基礎(chǔ)獎勵分。

2.偏差調(diào)整機制 —— 防止「思考」慣性:這是 HiPO 的一個關(guān)鍵創(chuàng)新。由于 「Think-on」模式通常更準(zhǔn)確,模型在 RL 過程中容易產(chǎn)生偏向,無論問題難易都選擇「思考」。為了解決這一問題,HiPO 引入了動態(tài)的偏差調(diào)整機制。

  • 它會計算「Think-on」模式響應(yīng)的平均獎勵,然后為「Think-off」模式設(shè)定一個偏置項(bias_off),該偏置項是「Think-on」平均獎勵的一個比例(由 ω 控制,通常設(shè)為 0.01)。
  • 當(dāng)「Think-off」模式的性能不顯著優(yōu)于「Think-on」,但差距在一定范圍內(nèi)時,會啟動調(diào)整,適當(dāng)提升「Think-off」模式的評估得分。
  • 這一機制有效防止了模型通過「無腦」選擇冗長推理來獲取獎勵的投機行為,確保了訓(xùn)練穩(wěn)定性,并維護(hù)了深度與效率之間的 intended balance。

3.混合優(yōu)勢函數(shù) —— 雙重監(jiān)督:HiPO 設(shè)計了兩個獨特的優(yōu)勢(Advantage)函數(shù)來提供更精細(xì)的指導(dǎo)信號:

  • 評判優(yōu)勢(A_judge):關(guān)注于模式選擇的合理性。它結(jié)合了「所選模式的全局平均優(yōu)勢」和「當(dāng)前響應(yīng)在其模式內(nèi)的相對質(zhì)量」,確保模型選擇某個思考模式的理由(即之前生成的 Justification)與其實際表現(xiàn)一致。
  • 回答優(yōu)勢(A_answer):聚焦于回答本身的質(zhì)量。它在同一思考模式內(nèi)進(jìn)行局部歸一化,鼓勵模型在既定模式下生成更好的回答,而不與模式選擇的偏好混淆。

最終,這兩個優(yōu)勢信號被分別賦予給回答中對應(yīng)的「理由」部分和「答案」部分的每個令牌,實現(xiàn)令牌級別的精細(xì)化優(yōu)化。整個 RL 過程采用類似 PPO 的算法,在最大化期望獎勵的同時,約束策略更新幅度,防止偏離太遠(yuǎn)。

實驗結(jié)果:不僅更快,而且更準(zhǔn)

HiPO 在基于 Qwen3 系列模型(如 8B 參數(shù)版本)的實驗中,取得了令人矚目的成果。在 AIME2024/2025、HumanEval、LiveCodeBench(v6)、MATH-500、GPQA-Diamond 等多個權(quán)威基準(zhǔn)測試上,與多種基線方法進(jìn)行了全面對比,并進(jìn)行了充分的消融實驗。



  • 顯著提升效率:與僅使用「Think-on」數(shù)據(jù)訓(xùn)練的模型相比,最終HiPO 模型在平均令牌長度上減少了 30%,思考率(RatioT)降低了 37%。這意味著模型在處理大量問題時,能智能地跳過不必要的推理,直接輸出答案,帶來了實實在在的成本和延遲收益。
  • 同步提升準(zhǔn)確率:更令人驚喜的是,HiPO 在實現(xiàn)效率飛躍的同時,平均準(zhǔn)確率提升了 6.3%。這證明其自適應(yīng)機制不僅沒有損害性能,反而通過優(yōu)化決策,讓模型在難題上更「專注」地思考,在簡單題上更高效地回答,實現(xiàn)了雙贏。
  • 超越現(xiàn)有方法:實驗表明,HiPO 在準(zhǔn)確性和效率的綜合表現(xiàn)上,優(yōu)于 AdaptThink、AutoThink 等現(xiàn)有的自適應(yīng)推理方法。

動態(tài)決策分析:研究團隊還深入追蹤了模型在訓(xùn)練和推理過程中的行為演變。



  • 如上圖 (a) 所示,隨著 RL 訓(xùn)練的進(jìn)行,模型激活「Think-on」和「Think-off」的頻率差距逐漸縮小,從初期的 89.5% 降至最終的 53.1%,說明模型確實學(xué)會了更精細(xì)地切換模式。
  • 上圖 (b) 顯示,在不同數(shù)據(jù)集上,模型的思考模式激活率與任務(wù)特性高度相關(guān)。在 AIME2024、LiveCodeBench 等需要強推理的任務(wù)上,「Think-on」率始終保持在 70% 以上;而在 HumanEval 等相對簡單的代碼任務(wù)上,“Think-on” 率則隨訓(xùn)練明顯下降,體現(xiàn)了良好的任務(wù)適應(yīng)性。



  • 上圖 (a) 和上圖 (b) 清晰地展示了 RL 訓(xùn)練過程中以及在不同數(shù)據(jù)集上,模型輸出令牌數(shù)量的持續(xù)下降趨勢,直觀反映了 HiPO 在提升效率方面的有效性。

強泛化性:HiPO 的成功不僅在 Qwen3-8B 上得到驗證,在 Qwen3-1.7B 和 Qwen3-32B 等不同規(guī)模的模型上也展現(xiàn)出一致的性能提升,證明了其方法的普適性。



未來展望:HiPO 如何重塑高效 LLM 生態(tài)

HiPO 框架的提出,不僅僅是一項技術(shù)突破,更是為 LLM 的發(fā)展方向提供了一個重要的思路轉(zhuǎn)變:從一味追求「更強思考」到追求「更智能地思考」。

  1. 推動 LLM 實用化落地:對于需要大規(guī)模部署 LLM 的應(yīng)用(如搜索引擎、智能客服、代碼助手),HiPO 能直接降低計算成本和響應(yīng)延遲,使高性能 LLM 服務(wù)變得更加「親民」。
  2. 為模型輕量化提供新路徑:通過讓模型學(xué)會「停止思考」,可能在保持相當(dāng)性能的前提下,為模型壓縮和蒸餾開辟新的可能性。
  3. 增強模型的「元認(rèn)知」能力:HiPO 訓(xùn)練模型對自身認(rèn)知過程進(jìn)行監(jiān)控和決策,這是向具備更高層次智能的 AI 系統(tǒng)邁出的重要一步。

結(jié)語

當(dāng)大語言模型陷入「為思考而思考」的認(rèn)知慣性時,其巨大的潛力被低效的運作方式所束縛??焓峙c南大團隊的 HiPO 框架,如同一位高明的教練,不是粗暴地限制模型的「思考」,而是教會它判斷「何時該深思熟慮,何時可一擊即中」。

這項研究巧妙地平衡了推理的「質(zhì)」與「效」,為構(gòu)建真正高效、可靠、適用于真實世界的下一代人工智能助手奠定了堅實的基礎(chǔ)。在 LLM 競速發(fā)展的下半場,「智能效率」 或許將是比「暴力計算」更重要的決勝籌碼。

目前,HiPO 的相關(guān)模型和資源已在Hugging Face 平臺開源,供社區(qū)研究和使用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《我在故宮修文物》導(dǎo)演去世,享年43歲

《我在故宮修文物》導(dǎo)演去世,享年43歲

界面新聞
2026-04-20 12:37:14
冠心病去世的越來越多,建議:1不喝、2不碰、3堅持,別大意了

冠心病去世的越來越多,建議:1不喝、2不碰、3堅持,別大意了

芹姐說生活
2026-04-20 16:10:12
偉大的10-5!丁俊暉世錦賽開門紅,創(chuàng)3大紀(jì)錄,會師趙心童沖8強!

偉大的10-5!丁俊暉世錦賽開門紅,創(chuàng)3大紀(jì)錄,會師趙心童沖8強!

劉姚堯的文字城堡
2026-04-20 20:00:14
唐僧的老婆深不可測

唐僧的老婆深不可測

藍(lán)鉆故事
2026-04-20 00:10:56
ASML總裁炮轟中國:若再繼續(xù)自主研究光刻機,將會破壞全球產(chǎn)業(yè)鏈

ASML總裁炮轟中國:若再繼續(xù)自主研究光刻機,將會破壞全球產(chǎn)業(yè)鏈

泠泠說史
2026-04-20 17:52:42
海嘯抵達(dá)日本!日媒:請回想2011年大地震,立即逃生!

海嘯抵達(dá)日本!日媒:請回想2011年大地震,立即逃生!

揚子晚報
2026-04-20 16:37:00
李小冉發(fā)文:唱了一下午,吃吃喝喝回回血,疑似回應(yīng)退出浪姐傳聞

李小冉發(fā)文:唱了一下午,吃吃喝喝回回血,疑似回應(yīng)退出浪姐傳聞

暖心萌阿菇?jīng)?/span>
2026-04-19 23:25:00
MSC神女號已安全通過霍爾木茲海峽!此前被困迪拜一個半月,郵輪上載有5000名乘客,其中含約200名中國游客

MSC神女號已安全通過霍爾木茲海峽!此前被困迪拜一個半月,郵輪上載有5000名乘客,其中含約200名中國游客

三湘都市報
2026-04-20 15:25:11
中國高校只剩7年窗口期 學(xué)生數(shù)量斷崖式塌方后一半高校都得死

中國高校只剩7年窗口期 學(xué)生數(shù)量斷崖式塌方后一半高校都得死

六子吃涼粉
2026-04-20 19:10:49
19歲女孩挪用自家1700萬當(dāng)“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

19歲女孩挪用自家1700萬當(dāng)“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

封面新聞
2026-04-20 17:48:14
日本將地震震級調(diào)整至7.5級

日本將地震震級調(diào)整至7.5級

界面新聞
2026-04-20 16:30:33
出手扣下兩批軍火,又一個歐洲國家,加入制裁以色列的行列中

出手扣下兩批軍火,又一個歐洲國家,加入制裁以色列的行列中

空天力量
2026-04-20 17:09:18
澆小麥的地下水變成血紅色,誰來守護(hù)我們的生存底線?

澆小麥的地下水變成血紅色,誰來守護(hù)我們的生存底線?

記錄劉杰
2026-04-19 21:39:47
伊朗媒體:伊朗不參加談判的決定尚未改變

伊朗媒體:伊朗不參加談判的決定尚未改變

財聯(lián)社
2026-04-20 23:03:06
勇士隊內(nèi)部人士:庫里目前合同剩1年6260萬美元,計劃今夏續(xù)約2年

勇士隊內(nèi)部人士:庫里目前合同剩1年6260萬美元,計劃今夏續(xù)約2年

好火子
2026-04-21 00:24:13
最新:曝俄軍敗退扎波羅熱!丟失幾年來占領(lǐng)的全部土地

最新:曝俄軍敗退扎波羅熱!丟失幾年來占領(lǐng)的全部土地

項鵬飛
2026-04-20 20:13:15
這兩口子開始招人煩了?

這兩口子開始招人煩了?

奮斗在韓國
2026-04-20 17:15:34
美伊?;鸬狡谇?8小時“極限博弈”:伊朗手握海峽“核按鈕”,特朗普威脅炸橋炸電廠

美伊?;鸬狡谇?8小時“極限博弈”:伊朗手握海峽“核按鈕”,特朗普威脅炸橋炸電廠

紅星新聞
2026-04-20 18:03:39
美方扣押一艘中國駛來伊朗貨船,外交部:對美方強制截停有關(guān)船只表示關(guān)切

美方扣押一艘中國駛來伊朗貨船,外交部:對美方強制截停有關(guān)船只表示關(guān)切

澎湃新聞
2026-04-20 15:42:26
日本地震震級修正為7.7級

日本地震震級修正為7.7級

界面新聞
2026-04-20 18:59:43
2026-04-21 02:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12813文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

教育
親子
家居
房產(chǎn)
游戲

教育要聞

最新!三十五中落戶順義,高中部面向西城、順義招生

親子要聞

【孤獨癥科普】啥是孤獨癥,哪些孩子易發(fā)生,如何應(yīng)對?

家居要聞

自然慢調(diào) 慢享時光

房產(chǎn)要聞

大規(guī)模商改??!??谖骱0?,這波項目要贏麻了!

大司馬回歸兩個月,某音人氣穩(wěn)居頂流行列,道出風(fēng)光背后心酸現(xiàn)狀

無障礙瀏覽 進(jìn)入關(guān)懷版