国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

普渡大學首創(chuàng)f-GRPO：讓AI對齊變得像調音師一樣精準

2026-03-13 15:54:04　來源: 科技行者

北京舉報

0

分享至

這項由普渡大學統(tǒng)計系與密歇根州立大學聯合開展的研究發(fā)表于2026年2月，是一項關于大語言模型對齊的重要突破性工作。有興趣深入了解的讀者可以通過論文編號arXiv:2602.05946v2查詢完整論文。

當我們使用ChatGPT或其他AI助手時，你是否想過這些AI是如何學會既聰明又安全的？就像訓練一個孩子既要聰明能干，又要懂禮貌守規(guī)矩一樣，訓練AI也面臨著類似的挑戰(zhàn)。這個過程被稱為"AI對齊"，而這項來自普渡大學的研究就像是發(fā)明了一套全新的教育方法，讓AI的學習變得更加高效和可靠。

以往的AI訓練就像是用兩種完全不同的教學方法：一種是給AI做數學題，有標準答案可以直接打分（就像數學考試）；另一種是教AI做人際交往，只能通過比較"這樣做好還是那樣做好"來學習（就像學習社交禮儀）。這兩種方法各有各的套路，就像用不同的樂器演奏，很難協調一致。

普渡大學的研究團隊發(fā)現了一個驚人的秘密：原來這兩種看似不同的教學方法，本質上都在做同一件事——它們都在測量"好"與"不好"之間的差距，就像音樂家調音時要測量音符之間的和諧程度一樣?；谶@個發(fā)現，研究團隊開發(fā)出了一套統(tǒng)一的訓練方法，叫做f-GRPO，就像發(fā)明了一個萬能調音器，能夠同時處理各種不同類型的"音符"。

更令人興奮的是，他們還創(chuàng)造了一種叫做f-HAL的混合方法，就像一個既能獨奏又能合奏的音樂家，能夠同時運用兩種不同的信息來源，讓AI的學習變得更加全面和穩(wěn)定。通過在數學推理和安全對齊兩個領域的測試，這套新方法都表現出了顯著的優(yōu)勢，為AI訓練開辟了一條全新的道路。

一、從分散的訓練方法到統(tǒng)一的調音理論

當前的AI訓練領域就像一個各自為政的音樂團體，每個部門都有自己的演奏風格。在"可驗證獎勵"的世界里，AI就像學生做數學題，每道題都有明確的對錯答案。比如讓AI解決數學問題或寫代碼，我們可以直接檢查答案是否正確，給出具體的分數。這種情況下，訓練AI就像訓練一個考試高手，通過不斷練習來提高正確率。

另一個世界叫做"偏好對齊"，這里沒有標準答案，只有比較。就像問"這兩道菜哪道更好吃"，我們只能說A比B好，但說不出具體好多少分。在這個世界里，AI通過學習人類的喜好來調整自己的行為，比如學習如何回答問題既準確又禮貌，既有用又安全。

長期以來，這兩個世界的訓練方法完全不同。第一個世界使用的是"在線策略"方法，就像現場演奏，AI根據當前的表現立即調整；第二個世界用的是"離線策略"方法，就像根據錄音來改進演奏技巧。兩種方法各有優(yōu)勢，但無法互相借鑒，就像古典音樂家和爵士樂手各自堅持自己的風格，無法融合。

研究團隊的突破在于發(fā)現了這兩種方法的共同本質。他們意識到，無論是給數學題打分，還是比較兩個回答的好壞，本質上都在做同一件事：測量"理想狀態(tài)"和"當前狀態(tài)"之間的距離。這就像發(fā)現了音樂的基本原理——所有和諧的音樂，不管是古典還是流行，都遵循著相同的和聲規(guī)律。

這個發(fā)現為統(tǒng)一兩種訓練方法提供了理論基礎。研究團隊提出了一個叫做"散度估計"的概念，就像發(fā)明了一個通用的音樂調音器。散度可以理解為兩種分布之間的"差別程度"。在AI訓練中，我們總是希望增加"好行為"的概率，減少"壞行為"的概率。無論是數學題的對錯，還是回答的優(yōu)劣，都可以用這個統(tǒng)一的框架來處理。

更進一步，研究團隊發(fā)現不同類型的散度就像不同的音樂風格，各有特色但遵循相同的基本原理。有些散度更適合處理極端情況，有些更穩(wěn)定，有些收斂更快。通過選擇合適的散度類型，就能針對不同的任務調整出最佳的訓練效果，就像音樂家可以根據曲子的風格選擇最合適的演奏技巧。

二、f-GRPO方法：為在線訓練插上統(tǒng)一理論的翅膀

基于統(tǒng)一理論的發(fā)現，研究團隊開發(fā)了f-GRPO方法，這是對現有GRPO方法的根本性改進。要理解這個改進，我們可以把AI訓練比作培養(yǎng)一個學生的學習能力。

傳統(tǒng)的GRPO方法就像一個只會用固定教學模板的老師。無論面對什么類型的問題，都使用相同的評分和反饋方式。這個老師會把學生的答案按照標準化的方式打分，然后根據分數來調整教學重點，但缺乏靈活性和針對性。

f-GRPO方法則像一個擁有多種教學風格的超級老師。這個老師不僅掌握了教學的基本原理，還能根據不同類型的問題選擇最適合的教學方式。當面對需要精確計算的數學問題時，老師會采用嚴格的邏輯訓練方式；當處理需要創(chuàng)造性思考的問題時，老師會鼓勵更多的探索和嘗試。

f-GRPO的核心創(chuàng)新在于引入了"f-散度"和"鏈接函數"的概念。f-散度就像不同的音樂節(jié)拍器，每種都有自己的節(jié)奏特點。有些節(jié)拍器適合快節(jié)奏的訓練，能夠快速提升AI的能力；有些適合穩(wěn)定的長期培養(yǎng)，能夠避免訓練過程中的震蕩和不穩(wěn)定。鏈接函數則像是音樂家手中的調音旋鈕，用來精確控制訓練的強度和方向。

在實際訓練過程中，f-GRPO會根據AI當前的表現動態(tài)調整訓練策略。當AI在某個任務上表現優(yōu)秀時，系統(tǒng)會給予適度的獎勵，避免過度強化導致其他能力的退化；當AI表現不佳時，系統(tǒng)會提供更有針對性的指導，而不是簡單的懲罰。這種智能調節(jié)機制就像一個經驗豐富的教練，能夠在訓練中找到最佳的平衡點。

更重要的是，f-GRPO提供了理論保證。研究團隊從數學上證明了這種方法能夠保證AI的平均表現持續(xù)改進，不會出現傳統(tǒng)方法中可能出現的性能倒退現象。這就像給訓練過程裝上了一個安全保險，確保AI在學習新技能的同時不會忘記已經掌握的能力。

通過在數學推理任務上的測試，f-GRPO展現出了顯著的優(yōu)勢。在相同的訓練時間內，使用f-GRPO訓練的AI在各種難度的數學問題上都取得了更好的成績。從簡單的小學算術到復雜的競賽數學，性能提升都很明顯。這證明了統(tǒng)一理論不僅在理論上優(yōu)雅，在實踐中也確實有效。

三、f-HAL混合方法：融合兩個世界的最佳策略

如果說f-GRPO是一個優(yōu)秀的專業(yè)老師，那么f-HAL就是一個能夠融合多種教育理念的教育專家。f-HAL代表"f-混合對齊損失"，它的革命性在于能夠同時利用兩種不同類型的信息來訓練AI。

在現實世界中，我們學習任何技能時都會同時接受多種類型的反饋。學開車時，我們既要遵守交通規(guī)則（這些是明確的對錯標準），又要學會在復雜路況中做出合適的判斷（這需要經驗積累和比較學習）。傳統(tǒng)的AI訓練方法就像只能選擇其中一種學習方式，要么只學規(guī)則，要么只學經驗，無法兼得。

f-HAL的突破在于能夠智能地混合這兩種學習方式。它引入了一個叫做"混合權重λ"的參數，就像一個智能調節(jié)器，能夠根據情況調整兩種學習方式的比重。當λ等于1時，系統(tǒng)完全依賴比較學習，就像一個只通過觀察別人表現來學習的學生；當λ等于0時，系統(tǒng)只使用標準答案學習，像一個只會做標準題目的考試機器；當λ在0和1之間時，系統(tǒng)會巧妙地結合兩種方式，形成最佳的學習效果。

這種混合方式的威力在安全對齊任務中表現得尤為明顯。安全對齊就像教AI學會在復雜的社交場合中既有用又不失禮貌。純粹的在線學習方法可能會讓AI過度迎合某些標準而失去靈活性，就像一個只會背臺詞的演員，遇到突發(fā)情況就不知所措。純粹的離線比較學習又可能讓AI變得過于保守，就像一個過分謹慎的人，連正常的幫助都不敢提供。

f-HAL通過智能混合解決了這個難題。它讓AI既能學會基本的安全原則，又能在實際應用中靈活應對各種情況。研究團隊通過大量實驗發(fā)現，當混合權重設置為0.5左右時，AI展現出了最佳的平衡性能：既保持了高水平的安全性，又沒有犧牲實用性。

更令人驚喜的是，f-HAL還解決了一個叫做"獎勵黑客攻擊"的問題。這個問題就像學生為了考高分而鉆考試空子，表面上得分很高，實際能力卻沒有真正提升。傳統(tǒng)的在線學習方法在使用學習到的獎勵模型時特別容易出現這個問題。f-HAL通過混合真實的人類偏好數據，就像在考試中加入了實際應用題，有效防止了AI鉆空子的行為。

在實際測試中，f-HAL在多個指標上都表現出色。在安全性測試中，使用f-HAL訓練的AI能夠更好地識別和拒絕有害請求；在實用性測試中，它又能保持足夠的幫助能力，不會因為過度謹慎而變得無用。這種平衡正是現實應用中最需要的特性。

四、理論保障：為什么這套方法值得信賴

任何新的訓練方法要想被廣泛采用，都需要堅實的理論基礎作為支撐。普渡大學的研究團隊不僅提出了實用的方法，更重要的是為這些方法提供了嚴格的數學證明，就像為一座建筑提供了完整的結構安全分析。

研究團隊首先證明了f-GRPO和f-HAL確實是"散度估計器"。這個概念聽起來抽象，但可以這樣理解：就像溫度計能夠準確測量溫度一樣，這些方法能夠準確測量AI當前狀態(tài)與理想狀態(tài)之間的差距。這種測量不是模糊的感覺，而是精確的數學量化，為訓練過程提供了可靠的導航。

更具體地說，f-GRPO能夠估計"高于平均獎勵"和"低于平均獎勵"兩種行為分布之間的散度。這就像一個智能篩子，能夠準確區(qū)分好表現和壞表現，并量化它們之間的差別程度。f-HAL則能夠估計更復雜的混合分布之間的散度，相當于同時處理多種不同類型的信息源。

研究團隊證明的第二個重要性質是"對齊一致性"。這個概念保證了訓練過程的方向性正確。簡單來說，就是證明了AI在訓練過程中會始終朝著我們希望的方向發(fā)展，不會出現南轅北轍的情況。具體表現為，訓練后的AI會增加對好行為的偏好，減少對壞行為的傾向，這種改變是持續(xù)和穩(wěn)定的。

第三個關鍵保證是"平均獎勵改進"。這是最直觀也是最重要的保證：經過訓練的AI在各種任務上的平均表現都會比訓練前更好。這不是偶然的提升，而是數學上可以保證的系統(tǒng)性改進。對于f-GRPO，研究團隊甚至證明了在特定條件下，AI的表現會在每一輪訓練中都有所提升，直到達到理論上的最佳水平。

特別值得一提的是，研究團隊還分析了f-GRPO相對于傳統(tǒng)GRPO方法的優(yōu)勢。他們從理論上證明了f-GRPO能夠更有效地利用訓練數據，實現更快的收斂和更好的最終性能。這種優(yōu)勢不是經驗性的觀察，而是有嚴格數學推導支持的結論。

為了讓這些理論結果更易理解，研究團隊還提供了"正則鏈接函數"的概念。這相當于為不同的f-散度提供了最佳的使用說明書，告訴實踐者在什么情況下選擇什么類型的散度能夠獲得最好的效果。比如，某些散度適合快速學習但可能不夠穩(wěn)定，某些散度雖然收斂慢但最終效果更好。

這些理論保障為f-GRPO和f-HAL的實際應用提供了堅實的基礎。用戶可以根據自己的具體需求和約束條件，選擇最適合的配置參數，而不用擔心訓練過程會出現不可預測的問題。

五、實驗驗證：從數學推理到安全對齊的全面測試

理論再完美，也需要在實際應用中接受檢驗。研究團隊設計了兩個截然不同的測試場景，就像讓同一個學生既參加數學競賽又參加社交能力測試，全面驗證新方法的有效性。

在數學推理測試中，研究團隊選擇了一個特別有挑戰(zhàn)性的場景：讓AI學會解決各種難度的數學問題。他們使用了包括GSM8K、MATH500、AMC23等多個知名數學數據集，這些數據集就像從小學算術到奧數競賽的完整題庫，能夠全面測試AI的數學推理能力。

測試過程就像培養(yǎng)一個數學天才學生。AI需要從基礎的算術開始，逐步掌握更復雜的代數、幾何和高等數學概念。每道題都有明確的正確答案，這為驗證訓練效果提供了客觀標準。研究團隊使用了"Pass@1"指標，相當于測試學生第一次嘗試就答對題目的概率，這是對AI真實能力的嚴格考驗。

實驗結果令人印象深刻。在所有難度級別的數學問題上，使用f-GRPO訓練的AI都顯著超越了傳統(tǒng)GRPO方法的表現。特別值得注意的是，這種提升在難題上更加明顯，說明新方法不僅能夠處理基礎問題，在需要深度思考的復雜問題上也表現出色。比如在AIME25這個高難度競賽級別的測試中，f-GRPO的成功率比傳統(tǒng)方法提高了接近兩倍。

安全對齊測試則是一個完全不同的挑戰(zhàn)。這里沒有標準答案，AI需要學會在幫助用戶的同時避免產生有害內容。研究團隊使用了一個專門設計的"合規(guī)拒絕"數據集，這相當于教AI學會既要樂于助人，又要懂得拒絕不當請求。

在這個更復雜的測試環(huán)境中，f-HAL方法的優(yōu)勢得到了充分展現。研究團隊發(fā)現，純粹的在線方法（λ=0）容易出現"獎勵黑客攻擊"問題，AI會學會一些表面上獲得高分但實際效果很差的策略，就像學生為了考試高分而死記硬背答案模板，遇到真實問題時卻手足無措。

相比之下，f-HAL的混合策略（λ=0.5）表現出了最佳的平衡性。這種配置下訓練的AI既保持了良好的安全性，又沒有變得過分保守而影響實用性。在多項安全性測試中，包括對抗性攻擊抗性、有害內容識別能力等，混合方法都表現出色。

研究團隊還進行了一個特別有趣的測試：通過可視化技術觀察AI內部表征的變化。他們發(fā)現，經過對齊訓練的AI在處理安全和有害內容時，內部的表示會形成更清晰的分離，就像大腦中的不同區(qū)域各司其職。這種分離程度與AI的實際安全表現高度相關，為理解AI學習過程提供了直觀的窗口。

更令人驚喜的是，f-HAL在保持AI安全性的同時，并沒有明顯損害其在其他任務上的表現。在常識推理、指令跟隨、語言理解等多項通用能力測試中，使用新方法訓練的AI都保持了競爭力。這說明新方法實現了真正的多目標優(yōu)化，而不是簡單的權衡取舍。

六、技術實現：讓復雜理論變?yōu)榭捎霉ぞ?/p>

任何優(yōu)秀的研究成果，都需要能夠被其他研究者和實踐者輕松使用。普渡大學的團隊深知這一點，他們不僅提出了理論方法，還提供了完整的實現方案，就像不僅發(fā)明了新的烹飪方法，還寫出了詳細的食譜。

研究團隊開發(fā)了一個統(tǒng)一的訓練算法，能夠無縫切換在f-GRPO、f-HAL和傳統(tǒng)方法之間。這個算法就像一個多功能的烹飪設備，用戶可以根據自己的需要選擇不同的烹飪模式。想要純粹的在線訓練，就把混合參數設為0；需要純離線訓練，就設為1；想要兩者兼得，就選擇中間的數值。

實現過程中的一個關鍵創(chuàng)新是對重要性采樣的改進處理。這個技術聽起來復雜，但可以理解為一種智能的樣本篩選機制。傳統(tǒng)方法在處理訓練數據時是一視同仁的，就像一個不懂得因材施教的老師。新方法則能夠識別出哪些樣本更有價值，給它們分配更多的注意力，就像優(yōu)秀的老師會重點關注關鍵的學習材料。

為了確保訓練過程的穩(wěn)定性，研究團隊還引入了一種叫做"截斷重要性權重"的技術。這相當于給訓練過程安裝了一個穩(wěn)定器，防止某些極端樣本對整體訓練造成過大影響。就像駕駛時的穩(wěn)定系統(tǒng)，能夠在保持靈活性的同時避免失控。

在具體的代碼實現中，研究團隊特別注重效率和可擴展性。他們的實現基于流行的Unsloth庫，并兼容vLLM后端，這意味著現有的AI訓練流水線只需要很小的修改就能夠采用新方法。這種設計哲學體現了研究者對實際應用的深度考慮。

研究團隊還貼心地提供了針對不同f-散度的"正則鏈接函數"表格。這就像為不同類型的菜譜提供了最佳的烹飪溫度和時間建議。用戶可以根據自己的具體需求選擇最適合的散度類型：想要快速收斂就選擇某種類型，追求最終效果就選擇另一種類型，需要處理極端情況就有專門的選擇。

為了幫助用戶更好地理解和使用這些方法，研究團隊還提供了大量的實驗細節(jié)和超參數設置建議。他們詳細記錄了在不同任務上的最佳配置，就像經驗豐富的廚師分享自己的秘制配方。這些實用信息大大降低了其他研究者采用新方法的門檻。

最值得稱贊的是，研究團隊承諾開源所有的代碼和實現細節(jié)。這種開放的態(tài)度體現了學術研究的最佳傳統(tǒng)，讓全世界的AI研究者都能從這項工作中受益，共同推動AI安全技術的發(fā)展。

說到底，這項來自普渡大學的研究就像是為AI訓練領域帶來了一場深刻的革命。過去我們訓練AI就像使用各種零散的工具，每種工具都有自己的使用方法和適用場景，很難形成系統(tǒng)性的解決方案。現在，研究團隊為我們提供了一套統(tǒng)一的理論框架和實用工具，就像發(fā)明了一個萬能工具箱，不僅功能強大，使用起來也更加簡便。

從理論角度看，這項研究的最大貢獻是發(fā)現了看似不同的AI訓練方法之間的深層統(tǒng)一性。這種發(fā)現具有深遠的科學價值，就像物理學中發(fā)現電磁現象的統(tǒng)一性質一樣，為整個領域提供了新的認識視角?；谶@個統(tǒng)一理論，未來可能會涌現出更多創(chuàng)新的訓練方法，推動AI技術向更高水平發(fā)展。

從實用角度看，f-GRPO和f-HAL方法已經在多個重要任務上展現出了明顯優(yōu)勢。無論是需要精確計算的數學推理，還是需要平衡多種目標的安全對齊，新方法都表現出色。這意味著這些技術不僅僅是學術論文中的理論探討，而是能夠在實際應用中產生真正價值的實用工具。

對于普通人來說，這項研究的意義可能并不會立即顯現，但從長遠看，它將對我們日常使用的AI服務產生深刻影響。更好的訓練方法意味著AI助手會變得更加智能、更加安全、也更加可靠。無論是搜索引擎的智能回答，還是手機上的AI助手，亦或是未來可能出現的各種AI服務，都有可能從這種更先進的訓練方法中受益。

當然，任何技術進步都不是終點，而是新的起點。這項研究雖然取得了重要突破，但也提出了許多值得進一步探索的問題。比如如何將這種統(tǒng)一框架擴展到更多類型的AI任務，如何進一步提高訓練效率，如何更好地理解不同散度類型的特性等等。這些問題為未來的研究提供了豐富的方向。

最重要的是，這項研究體現了AI安全研究的一個重要趨勢：從經驗性的方法探索轉向更加系統(tǒng)化、理論化的科學研究。只有建立在堅實理論基礎上的技術，才能在快速發(fā)展的AI領域中保持長期的價值和影響力。普渡大學團隊的這項工作正是這種科學精神的體現，為整個AI研究領域樹立了一個優(yōu)秀的榜樣。

Q&A

Q1：f-GRPO和傳統(tǒng)GRPO方法有什么區(qū)別？

A：f-GRPO是對傳統(tǒng)GRPO的統(tǒng)一理論升級。傳統(tǒng)GRPO就像只會用固定模板教學的老師，而f-GRPO像掌握多種教學風格的超級老師，能根據不同問題選擇最適合的訓練方式。它引入了f-散度和鏈接函數概念，能夠動態(tài)調整訓練策略，并提供數學上的性能改進保證。

Q2：f-HAL混合方法如何解決獎勵黑客攻擊問題？

A：獎勵黑客攻擊就像學生為了考高分而鉆考試空子，表面得分高但實際能力沒提升。f-HAL通過混合真實的人類偏好數據和在線學習，就像在考試中加入實際應用題，防止AI鉆空子。當混合權重設為0.5左右時，既保持高安全性又不損失實用性。

Q3：普通人如何從這項AI訓練技術中受益？

A：雖然這是底層訓練技術，但會直接影響我們日常使用的AI服務質量。更好的訓練方法意味著AI助手會變得更智能、更安全、更可靠。無論是搜索引擎的智能回答、手機AI助手，還是未來的各種AI服務，都可能因為這種更先進的訓練方法而變得更好用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

你刷到的視頻是真的么？用物理規(guī)律拆穿Sora謊言

機器之心Pro 2025-11-05 16:27:02
0 跟貼 0
AI能代替人干活嗎？B站聯合6位UP主用OpenClaw直播做了次社會實驗

量子位 2026-03-14 16:54:24
1 跟貼 1

年砸千億美元，Alexander Wang無力回天！擬借谷歌Gemini，小扎夢碎AGI

新智元 2026-03-14 16:55:35
0 跟貼 0

火到OpenClaw創(chuàng)始人跟前了！百度“養(yǎng)蝦全家桶”到底有多猛？

智東西 2026-03-14 18:18:26
0 跟貼 0
從AI焦慮，到AI指揮官：一個能讓你立即行動的思考框架

虎嗅APP 2026-03-14 19:54:09
0 跟貼 0

首次見女友家長緊張出汗，幸虧數學學得好，成功化解危機

了史劇堂 2026-03-11 08:59:15
6 跟貼 6

表弟考上大學舅舅要我給60萬，說是我的義務

奶茶麥子 2026-03-10 10:09:14
0 跟貼 0
深度長文：數學是發(fā)現還是發(fā)明？如果沒有人類，數學還存在嗎？

宇宙時空 2026-03-14 14:50:10
0 跟貼 0

百米高的塔吊是怎么升高的？用實景演示原理，看完就明白了

二毛走世界_1 2026-03-11 11:02:26
0 跟貼 0
這什么原理

每天笑不停 2026-03-10 10:21:43
0 跟貼 0
吹一下就能解決分類問題，設計師果然很聰明，簡單原理大大作用

肥熊愛搞笑 2026-03-12 15:17:42
4 跟貼 4
水泥地面整平機，能讓地面變得平整又美觀，原理是怎樣的？

秘密大爆炸 2026-03-10 09:46:14
3 跟貼 3
懂行的解釋下這是啥原理

阿朵看劇 2026-03-10 17:42:17
1 跟貼 1
北京中考數學，分式方程

大力小學數學 2026-03-12 09:53:00
0 跟貼 0
架構解耦是統(tǒng)一多模態(tài)模型所必須的嗎？全新AIA損失：No

機器之心Pro 2025-12-02 14:25:38
0 跟貼 0
桿子被大風吹得不停震動，裝上阻尼器就安靜了，網友：這就是物理學的魅力

星沙時報 2026-03-11 21:58:49
3978 跟貼 3978
國家自然科學基金委員會發(fā)布重要提醒

生物學霸 2026-03-13 17:14:14
0 跟貼 0
強行計算根號21，一招走天下

大力小學數學 2026-03-14 10:45:00
0 跟貼 0
小學數學7個8添加運算符

天天數理學習分享 2026-03-10 17:12:16
3 跟貼 3
山東省競賽題：同學們以為簡單，越做越糊涂了

大力小學數學 2026-03-14 18:46:00
0 跟貼 0
四年級數學題，全班全軍覆沒

郎老師趣味數學課堂 2026-03-12 14:06:34
0 跟貼 0
1702二年級：班里31個孩子做錯了，還不知道哪錯了，老師講了三種

我服子佩 2026-03-13 17:21:51
1 跟貼 1
1690三年級：甲170乙50，若兩人都賣出同樣多的梨，剩下的甲是乙

我服子佩 2026-03-10 11:32:10
1 跟貼 1
媒體:若穆杰塔巴公開露面顯得虛弱會嚴重打擊政權士氣

中國新聞周刊 2026-03-13 16:48:07
11853 跟貼 11853
深度長文：詭異量子糾纏表明，你我的身體里真的存在靈魂？

宇宙時空 2026-03-14 12:40:13
0 跟貼 0
寶媽質疑：咋回事四年級數學和二年級數學其中一頁內容幾乎一致

蓬勃資訊 2026-03-14 13:45:19
4 跟貼 4
掌握數形結合，六年級數學不再難！

奧數輕松學 2026-03-14 16:10:36
3 跟貼 3
解鎖80個數學符號奧秘！一網打盡數學符號知識

和明艷 2026-03-11 06:10:33
4 跟貼 4
怎么越轉越快啊，有懂機械的嗎？

野良 2026-03-13 02:25:37
1 跟貼 1
1696一年級找規(guī)律：寶媽輔導孩子找規(guī)律，可以這樣做

我服子佩 2026-03-10 11:33:00
1 跟貼 1
數學史上最大變革，已經開始

人工智能學家 2026-03-14 16:26:54
0 跟貼 0
量子位專訪陶哲軒：我為什么現在創(chuàng)辦一個AI x Science組織

量子位 2026-03-14 14:32:58
0 跟貼 0
臺灣省中考數學，不小心就出錯，+3×（-5）×（-2）

大力小學數學 2026-03-13 06:19:00
0 跟貼 0
汽車做風洞實驗，煙是不會說謊的，這到底是什么原理

荊門晚報 2026-03-12 15:51:17
0 跟貼 0
IF 5.1 Nature 旗下雙一區(qū) TOP 期刊，覆蓋面廣，國人友好

生物學霸 2026-03-14 17:12:43
0 跟貼 0
140年歷史的打字機上

深情魚擺擺 2026-03-11 16:59:14
1 跟貼 1
5家新勢力輔助駕駛盤點誰能率先沖進L3時代？

汽車經緯網 2026-03-14 18:37:35
0 跟貼 0
全球前1%，無錫+1！

江南晚報 2026-03-13 16:14:09
0 跟貼 0
換個視角看世界，就能看到不一樣的東西，原理是怎樣的？

地球科普記 2026-03-13 16:48:02
1 跟貼 1
小學成績差的，到初中基本還是差，能逆襲的概率非常小

好爸育兒 2026-03-14 18:03:40
0 跟貼 0

《妻子的浪漫旅行8》錄制路透，金莎孫丞瀟牽手，秦昊伊能靜撒糖

《妻子的浪漫旅行8》錄制路透，金莎孫丞瀟牽手，秦昊伊能靜撒糖

章眽八卦

2026-03-14 19:34:29

今年春季，事業(yè)像開掛一樣飆升的三個星座，升職加薪只是開始

今年春季，事業(yè)像開掛一樣飆升的三個星座，升職加薪只是開始

小晴星座說

2026-03-14 19:34:17

同濟醫(yī)院核磁共振事故：患者不能自己脫困嗎

同濟醫(yī)院核磁共振事故：患者不能自己脫困嗎

金牌娛樂

2026-03-14 09:31:27

宮魯鳴若下課，女籃新帥3選1，王治郅在列，57歲名宿解禁成熱門

宮魯鳴若下課，女籃新帥3選1，王治郅在列，57歲名宿解禁成熱門

萌蘭聊個球

2026-03-14 14:44:40

陳立夫：從高官到雞農，58歲患糖尿病，活102歲的長壽秘訣是什么

陳立夫：從高官到雞農，58歲患糖尿病，活102歲的長壽秘訣是什么

林雁飛

2026-03-06 14:35:14

哈馬斯呼吁伊朗不要將襲擊目標對準鄰國

哈馬斯呼吁伊朗不要將襲擊目標對準鄰國

新華社

2026-03-14 18:14:07

擊落美軍加油機？B-1B轟炸機對伊朗扔炸彈，以色列財長之子受重傷

擊落美軍加油機？B-1B轟炸機對伊朗扔炸彈，以色列財長之子受重傷

鷹眼Defence

2026-03-13 17:40:40

1944年，宋氏三姐妹拍了最后一張照片后，天各一方，相會無期

1944年，宋氏三姐妹拍了最后一張照片后，天各一方，相會無期

浩渺青史

2026-03-13 19:38:07

比安東尼還坑！曼聯 5000 萬新水貨，弗格森后最爛引援！

比安東尼還坑！曼聯 5000 萬新水貨，弗格森后最爛引援！

瀾歸序

2026-03-14 04:18:00

她果然沒離，畢竟400億資產的男人也不多??！

她果然沒離，畢竟400億資產的男人也不多?。?/a>

BenSir本色說

2026-03-11 22:06:22

貴州茅臺董秘蔣焰嚴重違紀違法被留置此前已被“帶走”

貴州茅臺董秘蔣焰嚴重違紀違法被留置此前已被“帶走”

21世紀經濟報道

2026-03-13 21:14:12

伊朗最大的內鬼被處決了

犀利辣椒

2026-03-13 06:40:38

8次搶斷，劉洋刷新山東泰山隊史球員中超單場搶斷紀錄

8次搶斷，劉洋刷新山東泰山隊史球員中超單場搶斷紀錄

懂球帝

2026-03-14 18:17:53

廣東男籃本賽季消失的“七位故人”！他們都在哪？過的還好嗎？

廣東男籃本賽季消失的“七位故人”！他們都在哪？過的還好嗎？

男足的小球童

2026-03-14 19:37:29

1萬5起價蘋果iPhone Fold計劃銷量上調20%

1萬5起價蘋果iPhone Fold計劃銷量上調20%

PChome電腦之家

2026-03-13 11:21:45

新版《呼嘯山莊》“一刀未剪”，海報標注“未成年人謹慎觀看”

新版《呼嘯山莊》“一刀未剪”，海報標注“未成年人謹慎觀看”

韓小娛

2026-03-14 07:31:32

大批美國游客涌入中國，回國后坦言：客觀對比，中國比美國強多了

大批美國游客涌入中國，回國后坦言：客觀對比，中國比美國強多了

燦若銀爛

2026-02-27 20:11:39

太善良！王藝迪4比3險勝申裕斌，接受采訪擔心申裕斌是不是受傷

太善良！王藝迪4比3險勝申裕斌，接受采訪擔心申裕斌是不是受傷

鳳幻洋

2026-03-14 14:30:08

中國女足艱難晉級！媒體人熱議：衛(wèi)冕提前結束，米帥注定是恥辱

中國女足艱難晉級！媒體人熱議：衛(wèi)冕提前結束，米帥注定是恥辱

奧拜爾

2026-03-14 15:48:55

西部排名又變了：火箭超越湖人，快船高歌猛進，勇士岌岌可危

西部排名又變了：火箭超越湖人，快船高歌猛進，勇士岌岌可危

籃球大視野

2026-03-14 17:26:40

科技正在如何變革商業(yè)世界

7585文章數 555關注度

往期回顧全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人！馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過繞行要多走5500公里

體育要聞

NBA唯一巴西球員，增重20KG頂內線

娛樂要聞

張藝興，犯了大忌

財經要聞

3·15影子暗訪｜神秘的“特供酒”

汽車要聞

吉利銀河M7技術首秀實力重構主流電混SUV

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

游戲

房產

健康

教育

藝術要聞

李建鵬：90后第四屆“中國美術獎”銅獎獲得者

《GTA》歷代開發(fā)成本對比：25年來暴增上百倍！

房產要聞

不容易??！海口終于又要賣地了！

轉頭就暈的耳石癥，能開車上班嗎？

教育要聞

“十五五”規(guī)劃綱要明確，有序推進小班化教學

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版