国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<pre id="eiiec"></pre>

<blockquote id="eiiec"><ul id="eiiec"></ul></blockquote><li id="eiiec"><menu id="eiiec"></menu></li>

<li id="eiiec"><menu id="eiiec"></menu></li>

<blockquote id="eiiec"><ul id="eiiec"></ul></blockquote>

網(wǎng)易首頁(yè)

網(wǎng)易新聞
網(wǎng)易公開(kāi)課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊(cè)免費(fèi)郵箱

注冊(cè)VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開(kāi)課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

上海AI實(shí)驗(yàn)室與復(fù)旦突破：AI實(shí)現(xiàn)自驅(qū)動(dòng)科學(xué)難題求解能力

2026-03-12 17:46:24　來(lái)源: 科技行者

北京舉報(bào)

0

分享至

在科學(xué)研究的世界里，一個(gè)長(zhǎng)期困擾研究者的問(wèn)題終于有了新的解決方案。來(lái)自上海人工智能實(shí)驗(yàn)室和復(fù)旦大學(xué)的研究團(tuán)隊(duì)在2025年2月發(fā)表了一項(xiàng)開(kāi)創(chuàng)性研究，論文編號(hào)為arXiv:2602.12164v1，提出了一個(gè)名為Sci-CoE的創(chuàng)新框架。這項(xiàng)研究解決了一個(gè)看似矛盾的難題：如何讓人工智能在幾乎沒(méi)有標(biāo)準(zhǔn)答案的情況下，自己學(xué)會(huì)解決復(fù)雜的科學(xué)問(wèn)題。

目前的AI系統(tǒng)就像一個(gè)極度依賴標(biāo)準(zhǔn)答案的學(xué)霸，在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)出色，因?yàn)檫@些領(lǐng)域有明確的對(duì)錯(cuò)標(biāo)準(zhǔn)。但當(dāng)面對(duì)開(kāi)放性的科學(xué)問(wèn)題時(shí)，這些AI就顯得力不從心了?？茖W(xué)推理不像解數(shù)學(xué)題那樣有標(biāo)準(zhǔn)答案，同一個(gè)問(wèn)題可能有多種正確的解決路徑，而且需要深厚的專業(yè)知識(shí)來(lái)判斷答案的正確性。

這就好比讓一個(gè)只會(huì)背標(biāo)準(zhǔn)菜譜的廚師突然去創(chuàng)新料理一樣困難。研究團(tuán)隊(duì)意識(shí)到，傳統(tǒng)的AI訓(xùn)練方法需要大量的"標(biāo)準(zhǔn)答案"作為參考，但在科學(xué)研究中，獲得這些標(biāo)準(zhǔn)答案的成本極其昂貴，而且往往需要領(lǐng)域?qū)＜业纳疃葏⑴c。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的雙重角色系統(tǒng)。他們讓同一個(gè)AI同時(shí)扮演兩個(gè)角色：一個(gè)是"解題者"，負(fù)責(zé)提出科學(xué)問(wèn)題的解決方案；另一個(gè)是"驗(yàn)證者"，負(fù)責(zé)設(shè)計(jì)各種驗(yàn)證策略來(lái)檢查解決方案的正確性。這兩個(gè)角色在訓(xùn)練過(guò)程中相互學(xué)習(xí)、相互促進(jìn)，形成了一個(gè)自我完善的循環(huán)系統(tǒng)。

整個(gè)訓(xùn)練過(guò)程分為兩個(gè)精心設(shè)計(jì)的階段。第一階段被稱為"錨定學(xué)習(xí)"，就像給一個(gè)初學(xué)者提供最基本的參考點(diǎn)。研究團(tuán)隊(duì)使用了少量已知答案的科學(xué)問(wèn)題作為基礎(chǔ)，讓AI建立起最初的正確性判斷標(biāo)準(zhǔn)。這個(gè)階段不是為了讓AI記住所有答案，而是讓它學(xué)會(huì)什么樣的推理是合理的，什么樣的驗(yàn)證方法是有效的。

第二階段才是真正的創(chuàng)新所在，被稱為"無(wú)監(jiān)督共同進(jìn)化"。在這個(gè)階段，AI不再依賴標(biāo)準(zhǔn)答案，而是通過(guò)解題者和驗(yàn)證者之間的相互作用來(lái)提升能力。解題者提出的方案越好，驗(yàn)證者就能學(xué)到更有效的驗(yàn)證策略；驗(yàn)證者的策略越準(zhǔn)確，解題者就能獲得更可靠的反饋信號(hào)。這種相互促進(jìn)的機(jī)制讓AI能夠在沒(méi)有外部監(jiān)督的情況下持續(xù)改進(jìn)。

**一、雙重身份的奇妙平衡術(shù)**

Sci-CoE框架的核心創(chuàng)新在于讓單個(gè)AI模型同時(shí)承擔(dān)兩個(gè)看似矛盾的角色。解題者的任務(wù)是針對(duì)科學(xué)問(wèn)題生成詳細(xì)的解決方案，包含完整的推理步驟和最終答案。驗(yàn)證者則需要設(shè)計(jì)多樣化的驗(yàn)證策略，從不同角度評(píng)估解決方案的正確性。

這種設(shè)計(jì)就像培養(yǎng)一個(gè)既會(huì)做菜又會(huì)品嘗的廚師。做菜的技能讓廚師能夠創(chuàng)造出各種料理，而品嘗的能力則幫助廚師判斷料理的好壞，進(jìn)而改進(jìn)烹飪技術(shù)。兩種能力相互促進(jìn)，最終造就了一個(gè)真正的烹飪高手。

在具體實(shí)現(xiàn)上，當(dāng)AI面對(duì)一個(gè)科學(xué)問(wèn)題時(shí)，它會(huì)同時(shí)生成多個(gè)候選解決方案和多種驗(yàn)證策略。每個(gè)解決方案都會(huì)接受所有驗(yàn)證策略的檢驗(yàn)，形成一個(gè)完整的評(píng)估矩陣。這種全方位的交叉驗(yàn)證確保了評(píng)估的準(zhǔn)確性和全面性。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)，這兩個(gè)角色共享同一套模型參數(shù)，這意味著解題能力的提升會(huì)直接促進(jìn)驗(yàn)證能力的發(fā)展，反之亦然。這種參數(shù)共享的設(shè)計(jì)不僅提高了訓(xùn)練效率，也確保了兩種能力之間的協(xié)調(diào)一致性。

**二、從有監(jiān)督到無(wú)監(jiān)督的華麗轉(zhuǎn)身**

錨定學(xué)習(xí)階段雖然使用的標(biāo)注數(shù)據(jù)很少，但其作用至關(guān)重要。研究團(tuán)隊(duì)發(fā)現(xiàn)，即使只使用1%-10%的標(biāo)注科學(xué)問(wèn)題，也足以為AI建立起基本的判斷準(zhǔn)則。這個(gè)階段就像給一個(gè)學(xué)徒提供最基本的工具和技能，為后續(xù)的獨(dú)立學(xué)習(xí)打下堅(jiān)實(shí)基礎(chǔ)。

在這個(gè)階段，解題者的獎(jiǎng)勵(lì)機(jī)制相對(duì)簡(jiǎn)單直接：答案正確就得到正向反饋，答案錯(cuò)誤就得到負(fù)向反饋。驗(yàn)證者的獎(jiǎng)勵(lì)機(jī)制則更加精妙，它不僅要求驗(yàn)證策略能夠識(shí)別正確答案，還要求能夠有效拒絕錯(cuò)誤答案。只有同時(shí)滿足這兩個(gè)條件的驗(yàn)證策略才能獲得最高獎(jiǎng)勵(lì)。

為了避免訓(xùn)練過(guò)程中的不穩(wěn)定性，研究團(tuán)隊(duì)采用了序列優(yōu)化的方法。在每個(gè)訓(xùn)練步驟中，系統(tǒng)首先使用解題數(shù)據(jù)更新模型參數(shù)，然后再使用驗(yàn)證策略數(shù)據(jù)進(jìn)行進(jìn)一步更新。這種分階段的更新方式確保了兩種能力都能得到充分發(fā)展，避免了相互干擾。

當(dāng)進(jìn)入無(wú)監(jiān)督共同進(jìn)化階段后，AI就像一個(gè)獲得了獨(dú)立思考能力的學(xué)者，不再需要外部的標(biāo)準(zhǔn)答案指導(dǎo)。解題者通過(guò)驗(yàn)證策略的一致性反饋來(lái)判斷自己方案的質(zhì)量，驗(yàn)證者則通過(guò)幾何建模的方法來(lái)保持策略的多樣性和可靠性。

**三、幾何建模：防止"集體思維"的智慧設(shè)計(jì)**

無(wú)監(jiān)督學(xué)習(xí)階段最大的挑戰(zhàn)是如何避免AI陷入"集體思維"的陷阱。如果驗(yàn)證者為了獲得高分而生成過(guò)于相似或過(guò)于簡(jiǎn)單的驗(yàn)證策略，整個(gè)系統(tǒng)就會(huì)失去多樣性，最終導(dǎo)致性能退化。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)引入了一個(gè)精巧的幾何建模機(jī)制。這個(gè)機(jī)制將每個(gè)驗(yàn)證策略都映射到一個(gè)高維的語(yǔ)義空間中，然后通過(guò)幾何分析來(lái)評(píng)估策略的質(zhì)量。評(píng)估包含三個(gè)維度：一致性、可靠性和多樣性。

一致性獎(jiǎng)勵(lì)確保驗(yàn)證策略能夠正確識(shí)別高質(zhì)量的解決方案。那些能夠通過(guò)多種驗(yàn)證策略檢驗(yàn)的解決方案被認(rèn)為具有高一致性，相應(yīng)的驗(yàn)證策略也會(huì)獲得更高的獎(jiǎng)勵(lì)。

可靠性獎(jiǎng)勵(lì)通過(guò)測(cè)量驗(yàn)證策略在語(yǔ)義空間中與聚類中心的距離來(lái)評(píng)估。距離聚類中心越近的策略被認(rèn)為越穩(wěn)定可靠，因?yàn)樗鼈儾惶赡艹霈F(xiàn)主題偏移或幻覺(jué)問(wèn)題。這就像評(píng)估一個(gè)評(píng)委的判斷標(biāo)準(zhǔn)是否穩(wěn)定一致。

多樣性獎(jiǎng)勵(lì)是整個(gè)機(jī)制中最具創(chuàng)新性的部分。系統(tǒng)使用主成分分析將策略投影到二維空間，然后計(jì)算每個(gè)策略在極坐標(biāo)系中的角度分布。理想狀態(tài)下，驗(yàn)證策略應(yīng)該均勻分布在各個(gè)角度上，覆蓋所有可能的驗(yàn)證視角。那些與其他策略角度差異較大的策略會(huì)獲得更高的多樣性獎(jiǎng)勵(lì)。

這種幾何建模方法確保了驗(yàn)證系統(tǒng)既不會(huì)過(guò)于嚴(yán)格（拒絕所有方案）也不會(huì)過(guò)于寬松（接受所有方案），而是在保持判斷標(biāo)準(zhǔn)的同時(shí)鼓勵(lì)多角度的驗(yàn)證思路。

**四、實(shí)驗(yàn)驗(yàn)證：從理論到實(shí)踐的成功轉(zhuǎn)化**

為了驗(yàn)證Sci-CoE框架的有效性，研究團(tuán)隊(duì)在多個(gè)科學(xué)推理基準(zhǔn)測(cè)試上進(jìn)行了全面評(píng)估。他們選擇了MMLU-Pro、GPQA-Diamond和UGPhysics等具有代表性的測(cè)試集，這些測(cè)試覆蓋了數(shù)學(xué)、物理、化學(xué)、生物等多個(gè)科學(xué)領(lǐng)域。

實(shí)驗(yàn)結(jié)果令人印象深刻。在GPQA-Diamond測(cè)試集上，使用Qwen3-8B作為基礎(chǔ)模型的Sci-CoE系統(tǒng)將準(zhǔn)確率從36.87%提升到了40.91%，實(shí)現(xiàn)了4.04%的顯著改進(jìn)。在更大規(guī)模的MMLU-Pro測(cè)試集上，系統(tǒng)也取得了1.15%的穩(wěn)定提升，從63.19%提高到64.34%。

更重要的是，研究團(tuán)隊(duì)發(fā)現(xiàn)隨著無(wú)標(biāo)簽數(shù)據(jù)規(guī)模的增加，系統(tǒng)性能持續(xù)提升而沒(méi)有出現(xiàn)飽和現(xiàn)象。當(dāng)無(wú)標(biāo)簽數(shù)據(jù)從18k增加到30k時(shí)，各項(xiàng)指標(biāo)都有進(jìn)一步改善，這表明Sci-CoE框架具有良好的可擴(kuò)展性。

通過(guò)可視化分析，研究團(tuán)隊(duì)展示了幾何建模機(jī)制的實(shí)際效果。在訓(xùn)練初期，驗(yàn)證策略往往聚集在少數(shù)幾個(gè)區(qū)域，表現(xiàn)出較低的多樣性。隨著訓(xùn)練的進(jìn)行，策略逐漸在整個(gè)語(yǔ)義空間中均勻分布，同時(shí)保持較高的一致性和可靠性。這種演化過(guò)程直觀地證明了幾何建模機(jī)制的有效性。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)，分析了各個(gè)組件的貢獻(xiàn)。結(jié)果顯示，錨定學(xué)習(xí)階段雖然使用的數(shù)據(jù)很少，但對(duì)最終性能的提升起到了關(guān)鍵作用。沒(méi)有錨定學(xué)習(xí)的系統(tǒng)在某些測(cè)試上甚至表現(xiàn)得比基礎(chǔ)模型還差，這證明了初始參考點(diǎn)的重要性。

幾何獎(jiǎng)勵(lì)機(jī)制的作用同樣顯著。與簡(jiǎn)單的一致性獎(jiǎng)勵(lì)相比，包含幾何建模的完整獎(jiǎng)勵(lì)機(jī)制在所有測(cè)試上都表現(xiàn)更好。通過(guò)分析驗(yàn)證策略的分布變化，研究團(tuán)隊(duì)發(fā)現(xiàn)幾何獎(jiǎng)勵(lì)成功避免了策略同質(zhì)化的問(wèn)題，維持了驗(yàn)證系統(tǒng)的多樣性和魯棒性。

**五、技術(shù)細(xì)節(jié)：工程實(shí)現(xiàn)的精妙之處**

Sci-CoE框架的成功不僅在于理論設(shè)計(jì)的創(chuàng)新，更在于工程實(shí)現(xiàn)的精細(xì)考量。研究團(tuán)隊(duì)使用了Qwen2.5-7B-Instruct和Qwen3-8B作為基礎(chǔ)模型，這些模型具有強(qiáng)大的自然語(yǔ)言理解和生成能力，為科學(xué)推理提供了良好的基礎(chǔ)。

在訓(xùn)練數(shù)據(jù)的構(gòu)建上，團(tuán)隊(duì)整合了MegaScience、Numinamath、ScienceQA和CaseHold等多個(gè)高質(zhì)量數(shù)據(jù)集，覆蓋了數(shù)學(xué)、物理、化學(xué)、生物等多個(gè)科學(xué)領(lǐng)域。錨定學(xué)習(xí)階段使用4k標(biāo)注數(shù)據(jù)，無(wú)監(jiān)督共同進(jìn)化階段則使用了18k到30k的無(wú)標(biāo)簽數(shù)據(jù)。

訓(xùn)練過(guò)程采用近端策略優(yōu)化算法進(jìn)行參數(shù)更新。在每個(gè)訓(xùn)練步驟中，系統(tǒng)會(huì)采樣100個(gè)科學(xué)問(wèn)題，為每個(gè)問(wèn)題生成10個(gè)候選解決方案和10個(gè)驗(yàn)證策略。這種批量并行的處理方式大大提高了訓(xùn)練效率。

為了確保驗(yàn)證過(guò)程的質(zhì)量，研究團(tuán)隊(duì)使用了Qwen3-235B-A22B作為外部判斷模型。這個(gè)大規(guī)模模型負(fù)責(zé)根據(jù)驗(yàn)證策略來(lái)評(píng)估解決方案的正確性，為訓(xùn)練過(guò)程提供高質(zhì)量的反饋信號(hào)。

在幾何建模的實(shí)現(xiàn)上，系統(tǒng)使用Qwen3-Embedding-8B模型將自然語(yǔ)言的驗(yàn)證策略轉(zhuǎn)換為高維向量表示。然后通過(guò)K-means聚類分析和主成分分析來(lái)計(jì)算可靠性和多樣性獎(jiǎng)勵(lì)。這種結(jié)合了深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)方法的混合方案既保證了效果又控制了計(jì)算復(fù)雜度。

**六、深度分析：突破傳統(tǒng)范式的意義**

Sci-CoE框架的真正價(jià)值不僅僅在于性能的提升，更在于它為科學(xué)推理AI的發(fā)展開(kāi)辟了一條全新的道路。傳統(tǒng)的AI訓(xùn)練方法嚴(yán)重依賴大量的標(biāo)注數(shù)據(jù)，這在科學(xué)領(lǐng)域尤其困難，因?yàn)楦哔|(zhì)量的科學(xué)問(wèn)題標(biāo)注需要領(lǐng)域?qū)＜业纳疃葏⑴c，成本極其昂貴。

通過(guò)引入自我進(jìn)化的機(jī)制，Sci-CoE框架大大降低了對(duì)標(biāo)注數(shù)據(jù)的依賴。實(shí)驗(yàn)結(jié)果表明，僅用1%-10%的標(biāo)注數(shù)據(jù)就能啟動(dòng)整個(gè)自學(xué)習(xí)過(guò)程，這為科學(xué)AI的大規(guī)模應(yīng)用提供了現(xiàn)實(shí)可能性。

更重要的是，這種雙角色的設(shè)計(jì)模式為AI系統(tǒng)的能力提升提供了新的思路。解題者和驗(yàn)證者的相互促進(jìn)機(jī)制不僅適用于科學(xué)推理，也可能擴(kuò)展到其他需要復(fù)雜判斷的領(lǐng)域。這種內(nèi)在的自我監(jiān)督機(jī)制可能成為未來(lái)AI發(fā)展的重要方向。

幾何建模機(jī)制的引入也具有重要的理論意義。它提供了一種量化評(píng)估驗(yàn)證策略質(zhì)量的方法，將抽象的策略評(píng)估轉(zhuǎn)化為具體的幾何計(jì)算。這種方法不僅避免了簡(jiǎn)單一致性獎(jiǎng)勵(lì)可能帶來(lái)的策略同質(zhì)化問(wèn)題，也為其他需要維持多樣性的AI應(yīng)用提供了參考。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)，Sci-CoE框架學(xué)到的不是特定問(wèn)題的解決方案，而是通用的推理和驗(yàn)證模式。這種元學(xué)習(xí)能力使得系統(tǒng)能夠適應(yīng)不同的科學(xué)領(lǐng)域，即使在訓(xùn)練時(shí)沒(méi)有見(jiàn)過(guò)的問(wèn)題類型上也能表現(xiàn)良好。這種泛化能力是傳統(tǒng)基于模板匹配方法難以達(dá)到的。

從實(shí)驗(yàn)結(jié)果來(lái)看，Sci-CoE框架在不同規(guī)模的數(shù)據(jù)上都表現(xiàn)出良好的可擴(kuò)展性，這為其在更大規(guī)模應(yīng)用中的部署提供了信心。隨著無(wú)標(biāo)簽科學(xué)數(shù)據(jù)的不斷增加，系統(tǒng)的性能有望進(jìn)一步提升。

**七、應(yīng)用前景與現(xiàn)實(shí)意義**

雖然Sci-CoE框架目前還處于研究階段，但其潛在的應(yīng)用前景非常廣闊。在教育領(lǐng)域，這種能夠自我學(xué)習(xí)和驗(yàn)證的AI系統(tǒng)可以成為學(xué)生學(xué)習(xí)科學(xué)知識(shí)的智能助手，不僅能夠解答問(wèn)題，還能解釋推理過(guò)程和驗(yàn)證方法。

在科學(xué)研究中，Sci-CoE框架可以輔助研究人員進(jìn)行假設(shè)驗(yàn)證和實(shí)驗(yàn)設(shè)計(jì)。系統(tǒng)強(qiáng)大的多角度驗(yàn)證能力可以幫助識(shí)別研究方案中的潛在缺陷，提高研究質(zhì)量。

對(duì)于科學(xué)出版和同行評(píng)議過(guò)程，這種AI系統(tǒng)也可能發(fā)揮重要作用。其多樣化的驗(yàn)證策略可以為論文審稿提供參考，幫助識(shí)別研究中的methodological問(wèn)題。

不過(guò)，研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前框架的一些局限性。由于計(jì)算資源的限制，目前的實(shí)驗(yàn)只涉及了80億參數(shù)規(guī)模的模型。更大規(guī)模模型的效果如何還需要進(jìn)一步驗(yàn)證。

另一個(gè)需要改進(jìn)的地方是對(duì)外部判斷模型的依賴。雖然這種依賴已經(jīng)大大減少了對(duì)人工標(biāo)注的需求，但理想情況下，系統(tǒng)應(yīng)該能夠完全獨(dú)立地進(jìn)行質(zhì)量評(píng)估。這可能是未來(lái)研究的一個(gè)重要方向。

系統(tǒng)目前的驗(yàn)證能力雖然已經(jīng)相當(dāng)出色，但在某些需要深度領(lǐng)域知識(shí)的專業(yè)問(wèn)題上，其判斷準(zhǔn)確性可能還不如人類專家。如何進(jìn)一步提升驗(yàn)證能力的專業(yè)性和準(zhǔn)確性仍然是一個(gè)挑戰(zhàn)。

盡管存在這些局限性，Sci-CoE框架已經(jīng)展現(xiàn)出了巨大的潛力。它不僅在技術(shù)上實(shí)現(xiàn)了重要突破，更重要的是為科學(xué)AI的發(fā)展指明了新的方向。隨著技術(shù)的不斷完善和應(yīng)用場(chǎng)景的擴(kuò)大，這種自我進(jìn)化的AI系統(tǒng)可能會(huì)對(duì)科學(xué)研究和教育產(chǎn)生深遠(yuǎn)的影響。

說(shuō)到底，Sci-CoE框架最大的價(jià)值在于它證明了AI可以在極少的外部指導(dǎo)下實(shí)現(xiàn)自我提升。這種能力不僅適用于科學(xué)推理，也為其他復(fù)雜認(rèn)知任務(wù)的AI解決方案提供了新的思路。當(dāng)我們看到AI系統(tǒng)能夠像人類學(xué)者一樣進(jìn)行自我反思和相互批評(píng)時(shí)，我們或許正在見(jiàn)證人工智能發(fā)展的一個(gè)重要里程碑。這項(xiàng)研究不僅推進(jìn)了科學(xué)AI的技術(shù)邊界，更為我們展現(xiàn)了一個(gè)AI系統(tǒng)能夠獨(dú)立學(xué)習(xí)和成長(zhǎng)的美好前景。

Q&A

Q1：Sci-CoE框架如何讓AI在沒(méi)有標(biāo)準(zhǔn)答案的情況下自我學(xué)習(xí)？

A：Sci-CoE讓同一個(gè)AI扮演兩個(gè)角色：解題者負(fù)責(zé)提出科學(xué)問(wèn)題的解決方案，驗(yàn)證者負(fù)責(zé)設(shè)計(jì)檢查策略來(lái)驗(yàn)證方案正確性。兩個(gè)角色相互學(xué)習(xí)、相互促進(jìn)，解題者的方案越好就能幫驗(yàn)證者學(xué)到更好的驗(yàn)證方法，驗(yàn)證者的策略越準(zhǔn)確就能給解題者更可靠的反饋。通過(guò)這種相互促進(jìn)的機(jī)制，AI就能在沒(méi)有外部標(biāo)準(zhǔn)答案的情況下不斷自我提升。

Q2：為什么Sci-CoE需要分兩個(gè)階段訓(xùn)練？

A：第一階段叫"錨定學(xué)習(xí)"，用少量有標(biāo)準(zhǔn)答案的科學(xué)問(wèn)題讓AI建立基本的判斷標(biāo)準(zhǔn)，就像給初學(xué)者提供最基礎(chǔ)的參考點(diǎn)。第二階段是"無(wú)監(jiān)督共同進(jìn)化"，AI不再依賴標(biāo)準(zhǔn)答案，完全通過(guò)解題者和驗(yàn)證者的相互作用來(lái)提升能力。如果跳過(guò)第一階段直接進(jìn)入無(wú)監(jiān)督學(xué)習(xí)，AI就缺乏基本判斷準(zhǔn)則，反而可能表現(xiàn)得比原來(lái)還差。

Q3：Sci-CoE框架的幾何建模機(jī)制是如何防止AI產(chǎn)生相似驗(yàn)證策略的？

A：幾何建模將每個(gè)驗(yàn)證策略映射到高維語(yǔ)義空間，然后從三個(gè)角度評(píng)估：一致性確保策略能識(shí)別正確答案，可靠性通過(guò)策略與聚類中心的距離來(lái)判斷穩(wěn)定性，多樣性則將策略投影到二維空間計(jì)算角度分布。系統(tǒng)鼓勵(lì)驗(yàn)證策略在各個(gè)角度均勻分布，那些與其他策略角度差異大的會(huì)獲得更高獎(jiǎng)勵(lì)，這樣就避免了AI為了高分而生成過(guò)于相似或簡(jiǎn)單的驗(yàn)證策略。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

4B模型幻覺(jué)抑制能力超越GPT-5，CMU等提出行為校準(zhǔn)強(qiáng)化學(xué)習(xí)新方法

機(jī)器之心Pro 2026-03-12 21:00:04
0 跟貼 0
Claude一夜拆掉AI編程天花板！百萬(wàn)token上下文登場(chǎng)，吞下整個(gè)代碼庫(kù)

新智元 2026-03-14 13:04:13
50 跟貼 50

年砸千億美元，Alexander Wang無(wú)力回天！擬借谷歌Gemini，小扎夢(mèng)碎AGI

新智元 2026-03-14 16:55:35
0 跟貼 0

火到OpenClaw創(chuàng)始人跟前了！百度“養(yǎng)蝦全家桶”到底有多猛？

智東西 2026-03-14 18:18:26
0 跟貼 0
行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0

從AI焦慮，到AI指揮官：一個(gè)能讓你立即行動(dòng)的思考框架

虎嗅APP 2026-03-14 19:54:09
0 跟貼 0

行業(yè)最大規(guī)模具身數(shù)據(jù)集！出自簡(jiǎn)智機(jī)器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
成本0.3美元，耗時(shí)26分鐘！CudaForge：顛覆性低成本CUDA優(yōu)化框架

機(jī)器之心Pro 2025-11-17 18:45:03
0 跟貼 0

男子曬出自己的腳，閣下要是去沙漠走一圈，走進(jìn)科學(xué)都得拍一年

趣笑魔法師 2026-03-10 16:41:56
246 跟貼 246
復(fù)旦北大聯(lián)合美團(tuán)提出TDAR：破解Block Diffusion速度精度悖論

機(jī)器之心Pro 2026-03-12 18:26:21
0 跟貼 0
“諾百年光明行”——眼保健科學(xué)與標(biāo)準(zhǔn)專家研討會(huì)在京圓滿舉辦

和訊網(wǎng) 2026-03-14 19:09:10
0 跟貼 0
錨定高質(zhì)量發(fā)展許昌學(xué)院學(xué)科建設(shè)結(jié)碩果

環(huán)球網(wǎng)資訊 2026-03-13 17:01:04
0 跟貼 0
美女博主分享自己發(fā)型的多樣性，這哪是頭發(fā)的問(wèn)題，主要還是要長(zhǎng)得好看，網(wǎng)友：這個(gè)建模，寸頭也是無(wú)所畏懼

九州新聞 2026-03-12 17:30:11
68 跟貼 68
“健康關(guān)口前移”兩會(huì)期間受熱議：抗衰老是慢病防控的“上游堤壩”

新華日?qǐng)?bào)健康 2026-03-14 18:32:06
0 跟貼 0
超劃算！復(fù)旦文創(chuàng)折扣季上線→

上海楊浦 2026-03-13 20:24:11
0 跟貼 0
媒體:若穆杰塔巴公開(kāi)露面顯得虛弱會(huì)嚴(yán)重打擊政權(quán)士氣

中國(guó)新聞周刊 2026-03-13 16:48:07
11838 跟貼 11838
群狼圍攻，策略制勝

隱龍?zhí)煜耾 2026-03-12 05:26:48
0 跟貼 0
這樣的鐵軌接頭不危險(xiǎn)，求解？

市井中人 2026-03-13 08:52:49
1 跟貼 1
媒體：美海軍陸戰(zhàn)隊(duì)遠(yuǎn)征采取一項(xiàng)行動(dòng)的可能性或最大

新京報(bào)評(píng)論 2026-03-14 15:49:35
4172 跟貼 4172
數(shù)學(xué)史上最大變革，已經(jīng)開(kāi)始

人工智能學(xué)家 2026-03-14 16:26:54
0 跟貼 0
攻破閉源多模態(tài)大模型：一種基于特征最優(yōu)對(duì)齊的新型對(duì)抗攻擊方法

機(jī)器之心Pro 2025-10-17 13:52:35
0 跟貼 0
NeurIPS 2025 Spotlight | 條件表征學(xué)習(xí)：一步對(duì)齊表征與準(zhǔn)則

機(jī)器之心Pro 2025-10-15 13:35:17
0 跟貼 0
這機(jī)器人比我還穩(wěn)，工業(yè)技術(shù)現(xiàn)在真發(fā)達(dá)，果然科技改變生活

宇宙搞笑生活 2026-03-13 16:39:31
0 跟貼 0
平行線拐點(diǎn)模型：如何求解兩個(gè)拐角之間的數(shù)量關(guān)系？掌握解題技巧

老Z講數(shù)學(xué) 2026-03-11 20:03:59
0 跟貼 0
剛火3個(gè)月，第一批餛飩酒館已經(jīng)開(kāi)始關(guān)店了？

藍(lán)鯨新聞 2026-03-13 16:32:44
393 跟貼 393
湖人三巨頭策略：詹姆斯?fàn)奚i揭曉

來(lái)訪曼 2026-03-14 07:54:45
1 跟貼 1
廈門一女子一顆門牙松動(dòng)，去診所卻被拔掉兩顆好牙，已向相關(guān)部門投訴

環(huán)球網(wǎng)資訊 2026-03-14 14:44:09
50 跟貼 50
主播秀的是高端，你收的是地?cái)偅W(wǎng)購(gòu) “AB 貨” 從哪來(lái)

界面新聞 2026-03-14 08:01:04
246 跟貼 246
深圳一高端豪宅被指“不如保障房”，開(kāi)發(fā)商回應(yīng)

南方都市報(bào) 2026-03-14 00:19:55
200 跟貼 200
蘋果首款折疊屏機(jī)型頂配版定價(jià)超2萬(wàn) 將成蘋果最貴手機(jī)

大象新聞 2026-03-12 08:41:03
2375 跟貼 2375
國(guó)家自然科學(xué)基金委員會(huì)發(fā)布重要提醒

生物學(xué)霸 2026-03-13 17:14:14
0 跟貼 0
山東臨沂成立聯(lián)合工作組

農(nóng)民日?qǐng)?bào) 2026-03-14 15:29:43
131 跟貼 131
日本遭遇股債匯“三殺”

新華社 2026-03-13 21:18:07
994 跟貼 994
這種搭訕?lè)绞教越Ａ?/a>

小熊影視君 2026-03-14 08:02:00
1 跟貼 1
13.8萬(wàn)元買博世家電三年沒(méi)送齊想退款又遭“只換不退”

大象新聞 2026-03-14 09:45:42
233 跟貼 233
特謝拉、王鈺棟各進(jìn)一球，申花客場(chǎng)1比1戰(zhàn)平浙江

澎湃新聞 2026-03-14 17:34:29
15 跟貼 15
俄常駐聯(lián)合國(guó)代表：美以對(duì)伊朗的“閃電戰(zhàn)”失敗

大象新聞 2026-03-14 16:41:01
1 跟貼 1
電車沒(méi)有任何技術(shù)含量，都是組裝車！挖下的坑正在埋了他們自己

柏銘銳談 2026-03-14 19:23:56
0 跟貼 0
中方管制大半個(gè)月后日媒反應(yīng)過(guò)來(lái)：關(guān)聯(lián)日企有近萬(wàn)家

澎湃新聞 2026-03-14 14:45:42
1 跟貼 1
七旬翁直播間買了81箱酒，支付113筆花掉8.3萬(wàn)，還收到7部手機(jī)認(rèn)為是“三無(wú)”產(chǎn)品，要求“退一賠三”

大風(fēng)新聞 2026-03-14 10:10:23
0 跟貼 0

《妻子的浪漫旅行8》錄制路透，金莎孫丞瀟牽手，秦昊伊能靜撒糖

《妻子的浪漫旅行8》錄制路透，金莎孫丞瀟牽手，秦昊伊能靜撒糖

章眽八卦

2026-03-14 19:34:29

今年春季，事業(yè)像開(kāi)掛一樣飆升的三個(gè)星座，升職加薪只是開(kāi)始

今年春季，事業(yè)像開(kāi)掛一樣飆升的三個(gè)星座，升職加薪只是開(kāi)始

小晴星座說(shuō)

2026-03-14 19:34:17

同濟(jì)醫(yī)院核磁共振事故：患者不能自己脫困嗎

同濟(jì)醫(yī)院核磁共振事故：患者不能自己脫困嗎

金牌娛樂(lè)

2026-03-14 09:31:27

宮魯鳴若下課，女籃新帥3選1，王治郅在列，57歲名宿解禁成熱門

宮魯鳴若下課，女籃新帥3選1，王治郅在列，57歲名宿解禁成熱門

萌蘭聊個(gè)球

2026-03-14 14:44:40

陳立夫：從高官到雞農(nóng)，58歲患糖尿病，活102歲的長(zhǎng)壽秘訣是什么

陳立夫：從高官到雞農(nóng)，58歲患糖尿病，活102歲的長(zhǎng)壽秘訣是什么

林雁飛

2026-03-06 14:35:14

哈馬斯呼吁伊朗不要將襲擊目標(biāo)對(duì)準(zhǔn)鄰國(guó)

哈馬斯呼吁伊朗不要將襲擊目標(biāo)對(duì)準(zhǔn)鄰國(guó)

新華社

2026-03-14 18:14:07

擊落美軍加油機(jī)？B-1B轟炸機(jī)對(duì)伊朗扔炸彈，以色列財(cái)長(zhǎng)之子受重傷

擊落美軍加油機(jī)？B-1B轟炸機(jī)對(duì)伊朗扔炸彈，以色列財(cái)長(zhǎng)之子受重傷

鷹眼Defence

2026-03-13 17:40:40

1944年，宋氏三姐妹拍了最后一張照片后，天各一方，相會(huì)無(wú)期

1944年，宋氏三姐妹拍了最后一張照片后，天各一方，相會(huì)無(wú)期

浩渺青史

2026-03-13 19:38:07

比安東尼還坑！曼聯(lián) 5000 萬(wàn)新水貨，弗格森后最爛引援！

比安東尼還坑！曼聯(lián) 5000 萬(wàn)新水貨，弗格森后最爛引援！

瀾歸序

2026-03-14 04:18:00

她果然沒(méi)離，畢竟400億資產(chǎn)的男人也不多啊！

BenSir本色說(shuō)
2026-03-11 22:06:22

貴州茅臺(tái)董秘蔣焰嚴(yán)重違紀(jì)違法被留置此前已被“帶走”

貴州茅臺(tái)董秘蔣焰嚴(yán)重違紀(jì)違法被留置此前已被“帶走”

21世紀(jì)經(jīng)濟(jì)報(bào)道

2026-03-13 21:14:12

伊朗最大的內(nèi)鬼被處決了

伊朗最大的內(nèi)鬼被處決了

犀利辣椒

2026-03-13 06:40:38

8次搶斷，劉洋刷新山東泰山隊(duì)史球員中超單場(chǎng)搶斷紀(jì)錄

8次搶斷，劉洋刷新山東泰山隊(duì)史球員中超單場(chǎng)搶斷紀(jì)錄

懂球帝

2026-03-14 18:17:53

廣東男籃本賽季消失的“七位故人”！他們都在哪？過(guò)的還好嗎？

廣東男籃本賽季消失的“七位故人”！他們都在哪？過(guò)的還好嗎？

男足的小球童

2026-03-14 19:37:29

1萬(wàn)5起價(jià) 蘋果iPhone Fold計(jì)劃銷量上調(diào)20%

1萬(wàn)5起價(jià) 蘋果iPhone Fold計(jì)劃銷量上調(diào)20%

PChome電腦之家

2026-03-13 11:21:45

新版《呼嘯山莊》“一刀未剪”，海報(bào)標(biāo)注“未成年人謹(jǐn)慎觀看”

新版《呼嘯山莊》“一刀未剪”，海報(bào)標(biāo)注“未成年人謹(jǐn)慎觀看”

韓小娛

2026-03-14 07:31:32

大批美國(guó)游客涌入中國(guó)，回國(guó)后坦言：客觀對(duì)比，中國(guó)比美國(guó)強(qiáng)多了

大批美國(guó)游客涌入中國(guó)，回國(guó)后坦言：客觀對(duì)比，中國(guó)比美國(guó)強(qiáng)多了

燦若銀爛

2026-02-27 20:11:39

太善良！王藝迪4比3險(xiǎn)勝申裕斌，接受采訪擔(dān)心申裕斌是不是受傷

太善良！王藝迪4比3險(xiǎn)勝申裕斌，接受采訪擔(dān)心申裕斌是不是受傷

鳳幻洋

2026-03-14 14:30:08

中國(guó)女足艱難晉級(jí)！媒體人熱議：衛(wèi)冕提前結(jié)束，米帥注定是恥辱

中國(guó)女足艱難晉級(jí)！媒體人熱議：衛(wèi)冕提前結(jié)束，米帥注定是恥辱

奧拜爾

2026-03-14 15:48:55

西部排名又變了：火箭超越湖人，快船高歌猛進(jìn)，勇士岌岌可危

西部排名又變了：火箭超越湖人，快船高歌猛進(jìn)，勇士岌岌可危

籃球大視野

2026-03-14 17:26:40

科技正在如何變革商業(yè)世界

7585文章數(shù) 555關(guān)注度

往期回顧全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人！馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過(guò) 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過(guò) 繞行要多走5500公里

體育要聞

NBA唯一巴西球員，增重20KG頂內(nèi)線

娛樂(lè)要聞

張藝興，犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪｜神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

數(shù)碼

旅游

軍事航空

教育要聞

“十五五”規(guī)劃綱要明確，有序推進(jìn)小班化教學(xué)

本地新聞

坐標(biāo)北京，過(guò)敏季反向遷徒

數(shù)碼要聞

399 元 2TB！長(zhǎng)江存儲(chǔ)致態(tài) TiPlus7200 殺瘋，7200MB/s 封神

旅游要聞

濟(jì)南2026花期預(yù)報(bào)來(lái)了，帶你精準(zhǔn)打卡春日花海

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡(jiǎn)介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無(wú)障礙瀏覽進(jìn)入關(guān)懷版

<blockquote id="iokiw"><sup id="iokiw"></sup></blockquote>

<li id="iokiw"></li>

<blockquote id="iokiw"></blockquote>