国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

再見(jiàn),數(shù)據(jù)標(biāo)注!騰訊發(fā)布R-Zero框架,讓AI自己訓(xùn)練自己

0
分享至

大數(shù)據(jù)文摘出品

一個(gè)不再依賴人類數(shù)據(jù)標(biāo)注的大模型訓(xùn)練框架,它來(lái)了!

由騰訊AI Lab與美國(guó)圣路易斯華盛頓大學(xué)聯(lián)合開(kāi)發(fā)的新框架“R-Zero”,成功展示出大語(yǔ)言模型(LLM)如何靠自己訓(xùn)練自己,不再需要人類提供任務(wù)或答案。

論文地址: https://www.arxiv.org/pdf/2508.05004

這個(gè)突破的核心,是徹底擺脫人類標(biāo)注數(shù)據(jù)的依賴,靠模型之間的博弈,自動(dòng)生成、篩選和吸收新的訓(xùn)練內(nèi)容。

他們用強(qiáng)化學(xué)習(xí)的方法,讓兩個(gè)AI模型互相挑戰(zhàn)、不斷進(jìn)化,從零開(kāi)始構(gòu)建出一個(gè)高質(zhì)量的訓(xùn)練體系。

R-Zero采用的結(jié)構(gòu),是將一個(gè)基礎(chǔ)模型一分為二,分別扮演“挑戰(zhàn)者”和“解答者”兩個(gè)角色,分別訓(xùn)練,但共同進(jìn)化。

挑戰(zhàn)者的目標(biāo)是設(shè)計(jì)剛好夠難的問(wèn)題,逼迫解答者必須進(jìn)步;而解答者在解決這些問(wèn)題中獲得獎(jiǎng)勵(lì)和提升。

“不是找到答案難,而是提出好問(wèn)題難?!?/strong>顯然,真正稀缺的是“好老師”,而不是“好學(xué)生”。

R-Zero就是通過(guò)自動(dòng)化產(chǎn)生“老師”,讓模型不斷面對(duì)新的、更難的考題,從而不斷突破原有水平。

01 R-Zero的實(shí)驗(yàn)結(jié)果

R-Zero的實(shí)驗(yàn)效果遠(yuǎn)超預(yù)期,尤其是在推理能力方面,不同規(guī)模的開(kāi)源大模型均出現(xiàn)明顯性能躍升。

騰訊測(cè)試了多個(gè)模型家族,包括Qwen3系列和OctoThinker,在基礎(chǔ)模型上僅通過(guò)R-Zero訓(xùn)練,就讓推理能力顯著提升。

例如,Qwen3-4B-Base在數(shù)學(xué)推理測(cè)試中得分平均提升+6.49分;Qwen3-8B-Base在三輪訓(xùn)練后得分也提升了+5.51分。

更重要的是,這種通過(guò)數(shù)學(xué)任務(wù)訓(xùn)練得到的推理能力,可以成功遷移到通用推理任務(wù)上。

在MMLU-Pro和SuperGPQA等通用領(lǐng)域測(cè)試中,Qwen3-4B-Base同樣表現(xiàn)出+7.54分的躍升,說(shuō)明R-Zero訓(xùn)練的不只是技巧,而是底層能力。

甚至在后續(xù)再用傳統(tǒng)標(biāo)注數(shù)據(jù)微調(diào)時(shí),經(jīng)過(guò)R-Zero預(yù)訓(xùn)練的模型也能表現(xiàn)得更好。

對(duì)企業(yè)而言,R-Zero的“從零數(shù)據(jù)”方式尤其具有吸引力,因?yàn)樵S多垂直行業(yè)領(lǐng)域,壓根沒(méi)有高質(zhì)量的大規(guī)模數(shù)據(jù)集可供使用。

騰訊的這項(xiàng)研究直接繞開(kāi)了數(shù)據(jù)收集、人工標(biāo)注這些最昂貴、最耗時(shí)的流程,變相打破了AI發(fā)展的最大天花板:人類知識(shí)和數(shù)據(jù)的邊界。

02 但問(wèn)題同樣存在

盡管R-Zero在性能上令人振奮,但它也暴露出自我進(jìn)化AI的核心風(fēng)險(xiǎn):數(shù)據(jù)質(zhì)量的失控

研究者發(fā)現(xiàn),隨著挑戰(zhàn)者不斷提出更復(fù)雜的問(wèn)題,解答者給出的“多數(shù)票答案”正確率開(kāi)始下降。

第一輪訓(xùn)練中,自動(dòng)生成數(shù)據(jù)的準(zhǔn)確率為79%,而到第三輪下降至63%。

相比之下,一個(gè)“強(qiáng)大而理想”的大模型如GPT-4,可以保持更高的正確率,這種落差說(shuō)明自我進(jìn)化的過(guò)程可能存在精度塌陷的風(fēng)險(xiǎn)。這是這個(gè)新范式面臨的最大瓶頸。

目前論文成果只是概念驗(yàn)證,要真正做到持續(xù)穩(wěn)定進(jìn)化,不出現(xiàn)性能平臺(tái)期,是接下來(lái)整個(gè)研究社區(qū)要攻克的難關(guān)。

此外,R-Zero目前僅適用于“答案可驗(yàn)證”的任務(wù),如數(shù)學(xué)推理、科學(xué)問(wèn)答等,其優(yōu)勢(shì)來(lái)自于能夠清晰判斷“對(duì)”與“錯(cuò)”。

那在沒(méi)有“標(biāo)準(zhǔn)答案”的領(lǐng)域怎么辦?比如營(yíng)銷文案、情感寫(xiě)作、摘要生成?

騰訊提出了未來(lái)的一種可能方向:引入第三個(gè)模型角色“驗(yàn)證者”或“評(píng)論員”。

驗(yàn)證者將不再判斷對(duì)錯(cuò),而是評(píng)價(jià)內(nèi)容的質(zhì)量,從多個(gè)維度給予評(píng)分。

如此一來(lái),挑戰(zhàn)者繼續(xù)生成題目,解答者負(fù)責(zé)作答,而驗(yàn)證者則提供反饋。三方協(xié)同進(jìn)化,形成更復(fù)雜、更全面的智能結(jié)構(gòu)。

或許會(huì)推動(dòng)AI從“邏輯能力”邁向“主觀判斷”,不僅懂計(jì)算,更懂人類世界的模糊與語(yǔ)境。

注:頭圖AI生成

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!

GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我33歲到沙特務(wù)工,當(dāng)?shù)厝撕荛熅b,男女界限很嚴(yán),光棍一大片

我33歲到沙特務(wù)工,當(dāng)?shù)厝撕荛熅b,男女界限很嚴(yán),光棍一大片

千秋文化
2026-04-22 20:25:24
老外剛造出巴掌帽,義烏當(dāng)天量產(chǎn)十萬(wàn)單,國(guó)內(nèi)外售價(jià)相差整整10倍

老外剛造出巴掌帽,義烏當(dāng)天量產(chǎn)十萬(wàn)單,國(guó)內(nèi)外售價(jià)相差整整10倍

趣味萌寵的日常
2026-04-23 18:31:49
患難見(jiàn)情誼,普京被逼賣黃金?中方發(fā)話:俄賣多少,中方就收多少

患難見(jiàn)情誼,普京被逼賣黃金?中方發(fā)話:俄賣多少,中方就收多少

嘴角上翹
2026-04-23 18:08:12
美防長(zhǎng)放出狠話,若真敢開(kāi)戰(zhàn),將會(huì)比抗美援朝付出的傷亡會(huì)更大

美防長(zhǎng)放出狠話,若真敢開(kāi)戰(zhàn),將會(huì)比抗美援朝付出的傷亡會(huì)更大

別吵吵
2026-04-23 09:11:53
老兵更新動(dòng)態(tài),保安被辭退處境堪憂,老兵一番話讓保安無(wú)地自容

老兵更新動(dòng)態(tài),保安被辭退處境堪憂,老兵一番話讓保安無(wú)地自容

離離言幾許
2026-04-23 07:41:27
受賄數(shù)額特別巨大 中央紀(jì)委國(guó)家監(jiān)委駐證監(jiān)會(huì)紀(jì)檢監(jiān)察組原組長(zhǎng)王會(huì)民被提起公訴

受賄數(shù)額特別巨大 中央紀(jì)委國(guó)家監(jiān)委駐證監(jiān)會(huì)紀(jì)檢監(jiān)察組原組長(zhǎng)王會(huì)民被提起公訴

新京報(bào)
2026-04-23 10:20:16
吃相越來(lái)越難看,終于引起公憤了!

吃相越來(lái)越難看,終于引起公憤了!

胖胖說(shuō)他不胖
2026-04-23 09:00:33
劃清界限!高云翔憔悴發(fā)聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發(fā)聲撇清張婉婷,不留情面,一句話暗含深意

阿握聊事
2026-04-24 00:23:37
破例接機(jī)!中方強(qiáng)勢(shì)降臨中東,伊朗導(dǎo)彈下餃子,美霸權(quán)迎來(lái)終局?

破例接機(jī)!中方強(qiáng)勢(shì)降臨中東,伊朗導(dǎo)彈下餃子,美霸權(quán)迎來(lái)終局?

飄逸的云朵
2026-04-24 02:22:38
突然,全線跳水!美伊談判,傳出大消息

突然,全線跳水!美伊談判,傳出大消息

新浪財(cái)經(jīng)
2026-04-23 22:32:47
破例接機(jī)!中方強(qiáng)勢(shì)降臨中東,伊朗導(dǎo)彈下餃子,美霸權(quán)迎來(lái)終局?

破例接機(jī)!中方強(qiáng)勢(shì)降臨中東,伊朗導(dǎo)彈下餃子,美霸權(quán)迎來(lái)終局?

未來(lái)展望
2026-04-23 18:24:29
涉破壞耕地、非法開(kāi)采等,兩部門(mén)通報(bào)違法違規(guī)典型問(wèn)題

涉破壞耕地、非法開(kāi)采等,兩部門(mén)通報(bào)違法違規(guī)典型問(wèn)題

界面新聞
2026-04-23 11:19:04
看完這7件事,我終于懂了:中國(guó)足球的離譜,早就超出了人類認(rèn)知

看完這7件事,我終于懂了:中國(guó)足球的離譜,早就超出了人類認(rèn)知

圣西羅的太陽(yáng)
2026-04-23 13:24:10
阿瑙托維奇:因疫情在中國(guó)隔離至抑郁,最終選擇重返歐洲

阿瑙托維奇:因疫情在中國(guó)隔離至抑郁,最終選擇重返歐洲

懂球帝
2026-04-23 08:32:10
全世界都被騙了:亞馬遜產(chǎn)全球20%氧氣?人類幾乎一口都分不到!

全世界都被騙了:亞馬遜產(chǎn)全球20%氧氣?人類幾乎一口都分不到!

半解智士
2026-04-22 14:26:26
痛心!西華縣公安局民警范志勇因公犧牲

痛心!西華縣公安局民警范志勇因公犧牲

大象新聞
2026-04-23 20:21:11
2026 銀行嚴(yán)查升級(jí)!個(gè)人賬戶不管多少錢(qián),都可能被盯上

2026 銀行嚴(yán)查升級(jí)!個(gè)人賬戶不管多少錢(qián),都可能被盯上

次元君情感
2026-04-23 21:55:59
金融大老虎蔡鄂生的桃色往事

金融大老虎蔡鄂生的桃色往事

資本董事局
2026-04-23 20:46:15
山姆“爆雷”,3億中產(chǎn)炸了!

山姆“爆雷”,3億中產(chǎn)炸了!

新零售參考Pro
2026-04-23 16:31:50
醫(yī)生警告:洗碗這三個(gè)壞習(xí)慣正在致癌,第二個(gè)很多人每天都在做

醫(yī)生警告:洗碗這三個(gè)壞習(xí)慣正在致癌,第二個(gè)很多人每天都在做

新時(shí)代的兩性情感
2026-04-23 21:56:59
2026-04-24 05:55:00
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測(cè)

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂(lè)要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見(jiàn)到"回頭錢(qián)"

汽車要聞

預(yù)售30.29萬(wàn)起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

教育
親子
手機(jī)
公開(kāi)課
軍事航空

教育要聞

華師這堂課,有溫度有干貨!

親子要聞

新華讀報(bào)|打乒乓球有助提高兒童注意力

手機(jī)要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發(fā)!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版