国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

0.002美元撬動頂級研究力,開源AI助手匹敵OpenAI商用系統(tǒng)

0
分享至

近日,美國華盛頓大學(xué)博士生邵如琳和合作團(tuán)隊打造出一個名為 Deep Research Tulu(DR Tulu)的深度研究小助手。使用一次 OpenAI 的 Deep Research 服務(wù)可能需要大約 1.8 美元,而 DR Tulu 使用一次的成本卻不到 0.002 美元,這幾乎是千倍的效率提升,這意味著未來個人或者小團(tuán)隊也能負(fù)擔(dān)得起高質(zhì)量、高可信度的 AI 研究服務(wù)。

DR Tulu 是一個擁有超級大腦且會熟練使用搜索引擎的科研助手。當(dāng)你問它一個問題時,它不會只是簡單地給你一列網(wǎng)頁鏈接,而是會像一位真正的研究員那樣,先去思考如何解決你的問題,然后主動查找各種資料比如網(wǎng)頁和論文,最終為你整理出一份條理清晰、有根有據(jù)、帶著詳細(xì)出處說明的長篇答案。


(來源:資料圖)

DR Tulu 的表現(xiàn)大幅超越了所有其他公開可用的、專為搜索設(shè)計的 AI 模型,包括一些體型比它大的模型,證明了“小模型+好方法”也能做出大成就。

它的表現(xiàn)匹敵甚至超越了 OpenAI、Google 等公司的頂級商用深度研究系統(tǒng),比如 OpenAI 的 Deep Research、谷歌的 Gemini Pro + Search。要知道,這些系統(tǒng)背后的技術(shù)往往不公開,而且使用成本非常高昂。

同時,DR Tulu 會坦誠地承認(rèn)自己的知識邊界,并主動查找和核實信息,從而盡可能減少回答中的"幻覺"。DR Tulu 還會在回答中提供詳細(xì)的文獻(xiàn)依據(jù),方便用戶交叉驗證。目前業(yè)界尚無成熟的訓(xùn)練方法和數(shù)據(jù)來實現(xiàn)這一目標(biāo)。DR Tulu 的這些能力源于一項新型訓(xùn)練方法及其配套框架,使 AI 與評估器在訓(xùn)練過程中協(xié)同進(jìn)化、相互提升。


圖 | 邵如琳(來源:邵如琳)

為了讓 DR Tulu 成為一個優(yōu)秀的研究員,研究人員并沒有簡單地把它丟進(jìn)一堆問題里去死記硬背,而是像訓(xùn)練一位聰明的學(xué)徒以分為兩步走:

第一步是名師出高徒,研究人員請來幾位非常厲害的 AI 老師比如 GPT-5。這些老師本身就擅長查找資料和回答問題。研究人員讓 AI 老師們在回答成千上萬個問題的過程中,把它們?nèi)绾嗡伎、如何搜索、如何組織答案的每一步都記錄下來。這些記錄下來的標(biāo)準(zhǔn)答案步驟,成為了 DR Tulu 學(xué)習(xí)的第一手教材。通過模仿這些步驟,DR Tulu 學(xué)會了當(dāng)一名研究員的基本功。

第二步是在實戰(zhàn)中進(jìn)化,光會模仿還不夠,為了讓它變得更強大,研究人員發(fā)明了一個名為帶有進(jìn)化評分標(biāo)準(zhǔn)的強化學(xué)習(xí)的方法。

傳統(tǒng)方法就像老師拿著一份固定的評分表,用它來給學(xué)生的作業(yè)打分。學(xué)生可能會為了得高分,投機取巧地滿足這些死板的條目,而忽略了真正的理解和創(chuàng)造。

研究人員發(fā)現(xiàn),AI 在回答復(fù)雜問題的時候,好壞標(biāo)準(zhǔn)很難用幾張固定的評分表說清楚。于是,他們讓評分標(biāo)準(zhǔn)也跟著 AI 的學(xué)習(xí)一起進(jìn)化。

具體來說,在訓(xùn)練中 DR Tulu 會試著回答很多問題,并能得到多個版本的答案。然后,另一個 AI 也就是評分官會仔細(xì)對比這些答案,動態(tài)地發(fā)現(xiàn)新的優(yōu)點和缺點,并把它們作為新的評分標(biāo)準(zhǔn)。

這樣,評分標(biāo)準(zhǔn)就會越來越貼近 AI 當(dāng)前的真實水平,能更好地鑒別出高質(zhì)量的回答。同時,這些標(biāo)準(zhǔn)總是基于最新搜索到的真實知識,而不是 AI 自己想象出來的內(nèi)容。這樣一來,DR Tulu 就能在不斷的挑戰(zhàn)和反饋中持續(xù)進(jìn)步,學(xué)會搜索以及通過綜合信息來給出可靠的答案。


(來源:資料圖)

研究人員在四個涵蓋學(xué)術(shù)、醫(yī)療等領(lǐng)域的現(xiàn)有 Deep Research 基準(zhǔn)上測試了 DR Tulu 的表現(xiàn)。結(jié)果顯示,DR Tulu 達(dá)到了當(dāng)前最優(yōu)水平(SOTA),與市面上表現(xiàn)最佳的 OpenAI Deep Research 相當(dāng),而成本僅為其千分之一。


(來源:資料圖)

為了檢驗 DR Tulu 解決現(xiàn)實世界難題的能力,研究人員設(shè)計了一個新挑戰(zhàn):分析致病基因變異。這是一個非常專業(yè)的醫(yī)學(xué)遺傳學(xué)問題,需要從海量的科學(xué)論文和數(shù)據(jù)庫中查找信息,判斷一個特定的基因變異如何導(dǎo)致疾病,以及它是否適合采用某些前沿的治療方法比如基因療法。

為此,研究人員創(chuàng)建了包含 47 個此類問題的基因疾病問答數(shù)據(jù)集。DR Tulu 在這個它從未專門學(xué)習(xí)過的領(lǐng)域,表現(xiàn)出了較強的泛化能力即解決新問題的能力。它不僅能夠找到相關(guān)的科學(xué)證據(jù),還能將這些證據(jù)組織起來進(jìn)行比較和綜合,清晰地解釋變異的致病機理。

雖然在最終答案上的準(zhǔn)確性上略遜于使用最強商用大模型的系統(tǒng),但是在證據(jù)支持方面 DR Tulu 做得較為出色。對于專業(yè)用戶比如醫(yī)學(xué)用戶來說,這比一個看似正確但無法驗證的簡單答案更有價值,因為他們可以依據(jù) DR Tulu 提供的詳細(xì)引文去追溯和核實。

另據(jù)悉,研究人員針對 DR Tulu 進(jìn)行了完全開放:訓(xùn)練代碼、數(shù)據(jù)、模型參數(shù)等目前已經(jīng)全部公開。

參考資料:

代碼鏈接:https://github.com/rlresearch/dr-tulu

數(shù)據(jù)及模型鏈接:https://huggingface.co/collections/rl-research/dr-tulu

https://arxiv.org/abs/2511.19399

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
鐵劉海男星的X癮癥!

鐵劉海男星的X癮癥!

八卦瘋叔
2025-12-31 11:44:48
交物業(yè)費別急轉(zhuǎn)錢:先找物業(yè)要這4張紙,少1張都能合法暫停交費

交物業(yè)費別急轉(zhuǎn)錢:先找物業(yè)要這4張紙,少1張都能合法暫停交費

墜入二次元的海洋
2025-12-31 16:04:49
解放軍圍臺軍演有大突破,國民黨4個大佬不裝了,鄭麗文成孤勇者

解放軍圍臺軍演有大突破,國民黨4個大佬不裝了,鄭麗文成孤勇者

博覽歷史
2025-12-30 18:39:29
這次庾澄慶的爆料,沒給王菲留一絲體面,難怪李亞鵬選擇和她離婚

這次庾澄慶的爆料,沒給王菲留一絲體面,難怪李亞鵬選擇和她離婚

白面書誏
2025-12-30 17:03:48
這次墨西哥讓全世界都看到了,拿中國利益討好美國的下場!

這次墨西哥讓全世界都看到了,拿中國利益討好美國的下場!

青青子衿
2025-12-31 07:19:22
NCAA總裁Charlie Baker發(fā)表聲明:不會給任何簽過NBA合同(包括雙向)的運動員參賽資格!

NCAA總裁Charlie Baker發(fā)表聲明:不會給任何簽過NBA合同(包括雙向)的運動員參賽資格!

籃球大圖
2025-12-31 17:59:34
剛剛,利好來了!一大批重磅政策,宣布了

剛剛,利好來了!一大批重磅政策,宣布了

大象新聞
2025-12-31 15:49:07
沙特給C羅開的價碼,一句話:離譜到讓普通人懷疑人生。

沙特給C羅開的價碼,一句話:離譜到讓普通人懷疑人生。

南權(quán)先生
2025-12-31 15:59:56
印度東北小伙因為被誤認(rèn)為中國人,而無辜被群毆致死!

印度東北小伙因為被誤認(rèn)為中國人,而無辜被群毆致死!

達(dá)文西看世界
2025-12-31 18:48:13
6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

小熊侃史
2025-12-25 11:24:12
CBA|里勒復(fù)出 北控客場爆發(fā)以一場勝利結(jié)束2025

CBA|里勒復(fù)出 北控客場爆發(fā)以一場勝利結(jié)束2025

北青網(wǎng)-北京青年報
2025-12-31 23:04:22
空砍新高40分,敗人品后遭迎面絕殺!你被交易甩賣真是一點都不冤

空砍新高40分,敗人品后遭迎面絕殺!你被交易甩賣真是一點都不冤

鍋子籃球
2025-12-31 16:13:58
“血糖疫苗”來了,一年打兩針就能控制血糖嗎?這是真的嗎?

“血糖疫苗”來了,一年打兩針就能控制血糖嗎?這是真的嗎?

爆炸營養(yǎng)彭鑫蕊
2025-12-31 11:41:14
2026新年寄語100句,一起為新年干杯,望所愿皆成,所行皆坦!

2026新年寄語100句,一起為新年干杯,望所愿皆成,所行皆坦!

趴窗看雨的小龜
2025-12-29 08:55:05
日虧200萬,四川“最貴”天府機場高速公路,被也在虧損的成都交投集團(tuán)接盤了

日虧200萬,四川“最貴”天府機場高速公路,被也在虧損的成都交投集團(tuán)接盤了

穿透公司
2025-12-30 15:16:17
看到這些明星才知道啥叫斷崖式衰老!張子健和陳小春就像換了個人

看到這些明星才知道啥叫斷崖式衰老!張子健和陳小春就像換了個人

陸盼盼
2025-12-26 04:18:30
1985年,67軍食堂遭遇槍擊,5位首長生死一線,兇手身份令人意外

1985年,67軍食堂遭遇槍擊,5位首長生死一線,兇手身份令人意外

古書記史
2025-12-27 10:47:10
千萬不要過度體檢?醫(yī)生再三提醒:55歲后,這5種體檢能不做就不做

千萬不要過度體檢?醫(yī)生再三提醒:55歲后,這5種體檢能不做就不做

神奇故事
2025-12-30 23:09:45
67歲王朔現(xiàn)狀:滿頭白發(fā)神似李亞鵬,手上沒錢,靠朋友接濟(jì)過活

67歲王朔現(xiàn)狀:滿頭白發(fā)神似李亞鵬,手上沒錢,靠朋友接濟(jì)過活

一盅情懷
2025-12-29 17:11:04
遼寧慘負(fù)上海后,看看媒體老師怎么說,趙探長說感動,麥穗豐另類

遼寧慘負(fù)上海后,看看媒體老師怎么說,趙探長說感動,麥穗豐另類

萌蘭聊個球
2025-12-31 21:46:02
2026-01-01 00:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16063文章數(shù) 514444關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

快手稱打卡365天可領(lǐng)3650元 男子堅持300天"被迫"中斷

頭條要聞

快手稱打卡365天可領(lǐng)3650元 男子堅持300天"被迫"中斷

體育要聞

上海大勝遼寧5連勝 張鎮(zhèn)麟弗格戰(zhàn)舊主合砍28分

娛樂要聞

官宣才兩天就翻車?七七被連環(huán)爆料

財經(jīng)要聞

高培勇:分配制度改革是提振消費的抓手

汽車要聞

凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

親子
教育
本地
游戲
公開課

親子要聞

以為只是孩子會得ADHD,沒想到啊,羅永浩自曝ADHD困擾

教育要聞

北大常務(wù)副校長:除北京外,北大學(xué)子首選廣東

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠(yuǎn)

Epic下周免費游戲曝光!經(jīng)典塔防Steam特別好評

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版