国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nature:首個能寫綜述論文的開源AI模型來了,大幅減少科研“幻覺”,堪比人類專家

0
分享至


撰文丨王聰

編輯丨王多魚

排版丨水成文

科學進步取決于科研人員綜合日益增多的文獻資料的能力,面對科學文獻的爆炸式增長,科研人員如何才能快速篩選、總結(jié)海量文獻?大語言模型(LLM)是否能夠在這方面為科研人員提供幫助?

在日常生活中,很多人會用到 ChatGPT、DeepSeek 等大語言模型來聊天、寫郵件或生成答案,但當你問它一個專業(yè)、前沿的科學問題,它可能會給出看似合理但實際虛構(gòu)的答案,甚至編造根本不存在的論文引用。這種“幻覺”問題在科研領(lǐng)域尤為致命,因為準確性是科學的生命線。

而現(xiàn)在,一項發(fā)表于Nature期刊的研究給出了解決方案——OpenScholar,這是一個專為科研打造的 AI 助手,不僅能準確回答復雜的科學問題,生成綜述論文,還解決了 AI 喜歡胡編亂造的“幻覺”難題。


該研究來自華盛頓大學、艾倫人工智能研究所,于 2026 年 2 月 4 日在線發(fā)表于Nature期刊,論文題為:Synthesizing scientific literature with retrieval-augmented language models。

OpenScholar是一個檢索增強的語言模型(Retrieval-Augmented Language Model),它能夠從4500 萬篇開放獲?。∣pen Access)論文中智能檢索相關(guān)段落,生成帶引用的長篇綜述論文(涵蓋計算機科學、物理學、神經(jīng)科學和生物醫(yī)學領(lǐng)域),其引用準確率與人類專家相當,并在多項測試中超越了 GPT-4o 等主流大模型。更令人驚喜的是,研究團隊全面開源了 OpenScholar,為科研社區(qū)提供了一個透明、可復現(xiàn)的工具。

OpenScholar 是什么?科研文獻的“智能管家”

如果你是一名研究人員,需要寫一篇關(guān)于“人工智能在醫(yī)療診斷中的應(yīng)用”的綜述論文。通常情況下,你需要花費數(shù)周甚至更長時間閱讀上百篇相關(guān)研究論文,篩選關(guān)鍵信息,構(gòu)思框架,最終完成綜述論文的撰寫、修改。

OpenScholar就像一個高效的智能助手,只需輸入問題,它就能在幾分鐘內(nèi)合成一份結(jié)構(gòu)清晰、引用準確的綜述論文。

OpenScholar的核心創(chuàng)新在于其全開放、可檢索增強的架構(gòu)。它不依賴“黑箱” API,而是構(gòu)建了一個包含 4500 萬篇開放獲取論文的專用數(shù)據(jù)存儲(OpenScholar DataStore,OSDS),并配備了訓練過的檢索器和生成模型。該系統(tǒng)通過以下步驟工作:

1、檢索階段:從多個來源(例如學術(shù)數(shù)據(jù)庫和網(wǎng)絡(luò)搜索)智能抓取相關(guān)論文段落。

2、生成階段:語言模型基于檢索到的內(nèi)容起草答案,并標記引用。

3、自反饋循環(huán):模型會自我審查初稿,提出改進意見(例如“需要補充更多實驗數(shù)據(jù)”),并迭代優(yōu)化答案,確保事實性和覆蓋范圍。


OpenScholar 推理(上)和訓練流程(下)

這張圖清晰展示了OpenScholar的工作流程:從輸入查詢到最終輸出,每一步都注重證據(jù)支撐。這種設(shè)計直接針對了當前 AI 在科學領(lǐng)域應(yīng)用的痛點——例如,該研究顯示,當要求GPT-4o引用計算機科學或生物醫(yī)學等領(lǐng)域的近期文獻時,其在 78%-90% 的情況下編造了引用,而 OpenScholar 的引用準確性堪比人類專家。

如何評估 AI 的“科研能力”?ScholarQABench 基準登場

要判斷一個 AI 系統(tǒng)是否可靠,需要嚴格的測試標準。為此,研究團隊開發(fā)了ScholarQABench,這是首個大規(guī)模、多領(lǐng)域的科學文獻合成基準。它包含近 3000 個由專家編寫的問題,覆蓋計算機科學、物理、神經(jīng)科學和生物醫(yī)學等領(lǐng)域,要求模型生成長篇、多論文支持的答案。

與以往只關(guān)注選擇題或短答案的基準不同,ScholarQABench 引入了多維評估協(xié)議,包括自動指標(例如引用準確性)和人類專家基于量表的評分(覆蓋范圍、連貫性、寫作質(zhì)量等)。例如,在“計算機科學”部分中,專家會列出答案必須包含的關(guān)鍵要點,AI 的回答需要滿足這些“評分標準”才能得分。


上圖是一個評估示例:問題、評分標準和 AI 輸出的對比。這種設(shè)計確保了評估的客觀性,避免了 AI “刷分”的可能。

實驗結(jié)果:小模型大能量,OpenScholar 全面領(lǐng)先

OpenScholar在 ScholarQABench 上的測試結(jié)果令人印象深刻。盡管 OpenScholar 的核心模型參數(shù)量僅為 80 億(遠小于 GPT-4o 的規(guī)模),但它在多項任務(wù)中表現(xiàn)優(yōu)異:

  • 正確率提升:在需要多論文合成的任務(wù)中,OpenScholar-8B 比 GPT-4o 高出 6.1%,比 PaperQA2 高出5.5%。

  • 引用準確性:OpenScholar 的引用 F1 分數(shù)達到 47.9%,而 GPT-4o 幾乎為 0。

  • 成本效益:使用高效的檢索管道,OpenScholar-8B 的成本比基于 GPT-4o 的商業(yè)系統(tǒng)更低。


更引人注目的是人類評估結(jié)果:16 位人類專家在盲測中比較了 AI 回答和人類專家撰寫的答案。結(jié)果顯示,人類專家在 50.8% 和 70.0% 的情況下選擇了 OpenScholar-8B 和 OpenScholar-GPT-4o 的回答,而 GPT-4o 的這一比例僅為 31.9%,人類專家認為,OpenScholar 的回答更全面、信息深度更大,而這正是撰寫綜述論文所需的關(guān)鍵能力


AI,正在改變科研范式

OpenScholar的推出標志著 AI 在科學領(lǐng)域的應(yīng)用邁出重要一步。它不僅是工具的創(chuàng)新,更體現(xiàn)了開放科學的精神——通過可復現(xiàn)的系統(tǒng),降低科研門檻。對于忙碌的科學家和學生來說,這類 AI 助手有望將文獻回顧從“苦役”變?yōu)楦咝剿鳌?/p>


OpenScholar、ScholarQABench 概述及評估結(jié)果

未來,隨著多模態(tài)學習和用戶反饋的整合,OpenScholar可能會變得更智能,從而成為科研人員的真正“協(xié)作者”,讓科研工作更聚焦于創(chuàng)新而非信息篩選。

論文鏈接

https://www.nature.com/articles/s41586-025-10072-4


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

大魚簡科
2026-02-26 19:32:09
阿富汗稱對巴基斯坦軍事目標發(fā)起大規(guī)模報復行動,?;?個月再度開打,兩國到底有什么恩怨?

阿富汗稱對巴基斯坦軍事目標發(fā)起大規(guī)模報復行動,?;?個月再度開打,兩國到底有什么恩怨?

極目新聞
2026-02-27 13:00:54
央行大動作,人民幣匯率突然跳水

央行大動作,人民幣匯率突然跳水

Wind萬得
2026-02-27 08:57:00
美媒:20歲華裔選手粉絲數(shù)遠超谷愛凌 她拒絕中國招募 對美國忠誠

美媒:20歲華裔選手粉絲數(shù)遠超谷愛凌 她拒絕中國招募 對美國忠誠

念洲
2026-02-25 11:46:11
愛潑斯坦案再曝猛料!女星指控獻祭,證人曝狩獵派對像饑餓游戲

愛潑斯坦案再曝猛料!女星指控獻祭,證人曝狩獵派對像饑餓游戲

小徐講八卦
2026-02-25 07:05:52
Shams:李凱爾與灰熊達成買斷,將在澄清期后加盟森林狼

Shams:李凱爾與灰熊達成買斷,將在澄清期后加盟森林狼

懂球帝
2026-02-27 08:00:10
浙江男子節(jié)后返家發(fā)現(xiàn)13只寵物龜全被“煮”了:溫控設(shè)備失靈,寵物價值近2萬,心血全部歸零

浙江男子節(jié)后返家發(fā)現(xiàn)13只寵物龜全被“煮”了:溫控設(shè)備失靈,寵物價值近2萬,心血全部歸零

臺州交通廣播
2026-02-27 08:55:46
十年前踩下剎車,中國躲開了幣圈的驚天大坑,美國全球收割大戲

十年前踩下剎車,中國躲開了幣圈的驚天大坑,美國全球收割大戲

冒泡泡的魚兒
2026-02-26 17:59:05
普京變了,特朗普變了,大陸也要動一動:解放軍在臺海有罕見動作

普京變了,特朗普變了,大陸也要動一動:解放軍在臺海有罕見動作

荷蘭豆愛健康
2026-02-27 15:24:12
烏克蘭戰(zhàn)機摧毀扎波羅熱的俄軍后勤大橋!四年打掉14萬目標

烏克蘭戰(zhàn)機摧毀扎波羅熱的俄軍后勤大橋!四年打掉14萬目標

項鵬飛
2026-02-26 17:16:25
美軍活捉馬杜羅細節(jié)曝光:機師中彈四次強行降落,獲頒榮譽勛章!

美軍活捉馬杜羅細節(jié)曝光:機師中彈四次強行降落,獲頒榮譽勛章!

像夢一場a
2026-02-26 14:00:03
語音誤關(guān)大燈致車輛高速上撞護欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

語音誤關(guān)大燈致車輛高速上撞護欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

紅星資本局
2026-02-27 12:55:35
薛小偉:一個被關(guān)了13年的人

薛小偉:一個被關(guān)了13年的人

天下說法
2026-02-27 12:50:25
不滿俄運動員正常參賽,六個國家宣布抵制米蘭冬殘奧會開幕式

不滿俄運動員正常參賽,六個國家宣布抵制米蘭冬殘奧會開幕式

懂球帝
2026-02-26 22:20:11
因暴雨遲到5分鐘被扣18萬獎金,我嚴守8小時制,半月后老板求我加班

因暴雨遲到5分鐘被扣18萬獎金,我嚴守8小時制,半月后老板求我加班

奶茶麥子
2026-02-27 12:13:13
就是一整塊屏!廣東新聞聯(lián)播提前展示OPPO Find N6:微距展示肉眼幾乎看不到折痕

就是一整塊屏!廣東新聞聯(lián)播提前展示OPPO Find N6:微距展示肉眼幾乎看不到折痕

快科技
2026-02-27 10:42:00
62歲何賽飛在家約姐妹小聚,不擺架子不搞排場,這氛圍太舒服了

62歲何賽飛在家約姐妹小聚,不擺架子不搞排場,這氛圍太舒服了

仁慈的視角
2026-02-27 09:37:22
圍爐煮茶,為啥涼了?

圍爐煮茶,為啥涼了?

放牛娃的遐想
2026-02-25 08:14:29
火箭最失敗的運作!花5500萬本想讓他取代狄龍,結(jié)果打成邊緣輪換

火箭最失敗的運作!花5500萬本想讓他取代狄龍,結(jié)果打成邊緣輪換

你的籃球頻道
2026-02-27 15:49:05
瞿穎沒想到,30年前被自己拒絕3次的胡兵,如今給她這么大回報

瞿穎沒想到,30年前被自己拒絕3次的胡兵,如今給她這么大回報

陳意小可愛
2026-02-27 12:51:06
2026-02-27 16:43:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學研究
8931文章數(shù) 145008關(guān)注度
往期回顧 全部

科技要聞

單張不到五毛!谷歌深夜發(fā)布Nano Banana 2

頭條要聞

24歲女子生下1男4女五胞胎 孩子爸爸稱"心情像過山車"

頭條要聞

24歲女子生下1男4女五胞胎 孩子爸爸稱"心情像過山車"

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

繼網(wǎng)暴谷愛凌后 美國欲沒收其全部收入

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時尚
本地
手機
公開課
軍事航空

今年春天最美搭配:西裝+半裙,怎么穿都好看!

本地新聞

津南好·四時總相宜

手機要聞

消息稱榮耀600系列工程機現(xiàn)身:采用6.57英寸直屏+驍龍8至尊版

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國11架F-22隱形戰(zhàn)機抵達以色列

無障礙瀏覽 進入關(guān)懷版