網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Nature：首個能寫綜述論文的開源AI模型來了，大幅減少科研“幻覺”，堪比人類專家

2026-02-06 12:27:30　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

科學進步取決于科研人員綜合日益增多的文獻資料的能力，面對科學文獻的爆炸式增長，科研人員如何才能快速篩選、總結(jié)海量文獻？大語言模型（LLM）是否能夠在這方面為科研人員提供幫助？

在日常生活中，很多人會用到 ChatGPT、DeepSeek 等大語言模型來聊天、寫郵件或生成答案，但當你問它一個專業(yè)、前沿的科學問題，它可能會給出看似合理但實際虛構(gòu)的答案，甚至編造根本不存在的論文引用。這種“幻覺”問題在科研領(lǐng)域尤為致命，因為準確性是科學的生命線。

而現(xiàn)在，一項發(fā)表于Nature期刊的研究給出了解決方案——OpenScholar，這是一個專為科研打造的 AI 助手，不僅能準確回答復雜的科學問題，生成綜述論文，還解決了 AI 喜歡胡編亂造的“幻覺”難題。

該研究來自華盛頓大學、艾倫人工智能研究所，于 2026 年 2 月 4 日在線發(fā)表于Nature期刊，論文題為：Synthesizing scientific literature with retrieval-augmented language models。

OpenScholar是一個檢索增強的語言模型（Retrieval-Augmented Language Model），它能夠從4500 萬篇開放獲?。∣pen Access）論文中智能檢索相關(guān)段落，生成帶引用的長篇綜述論文（涵蓋計算機科學、物理學、神經(jīng)科學和生物醫(yī)學領(lǐng)域），其引用準確率與人類專家相當，并在多項測試中超越了 GPT-4o 等主流大模型。更令人驚喜的是，研究團隊全面開源了 OpenScholar，為科研社區(qū)提供了一個透明、可復現(xiàn)的工具。

OpenScholar 是什么？科研文獻的“智能管家”

如果你是一名研究人員，需要寫一篇關(guān)于“人工智能在醫(yī)療診斷中的應(yīng)用”的綜述論文。通常情況下，你需要花費數(shù)周甚至更長時間閱讀上百篇相關(guān)研究論文，篩選關(guān)鍵信息，構(gòu)思框架，最終完成綜述論文的撰寫、修改。

而OpenScholar就像一個高效的智能助手，只需輸入問題，它就能在幾分鐘內(nèi)合成一份結(jié)構(gòu)清晰、引用準確的綜述論文。

OpenScholar的核心創(chuàng)新在于其全開放、可檢索增強的架構(gòu)。它不依賴“黑箱” API，而是構(gòu)建了一個包含 4500 萬篇開放獲取論文的專用數(shù)據(jù)存儲（OpenScholar DataStore，OSDS），并配備了訓練過的檢索器和生成模型。該系統(tǒng)通過以下步驟工作：

1、檢索階段：從多個來源（例如學術(shù)數(shù)據(jù)庫和網(wǎng)絡(luò)搜索）智能抓取相關(guān)論文段落。

2、生成階段：語言模型基于檢索到的內(nèi)容起草答案，并標記引用。

3、自反饋循環(huán)：模型會自我審查初稿，提出改進意見（例如“需要補充更多實驗數(shù)據(jù)”），并迭代優(yōu)化答案，確保事實性和覆蓋范圍。

OpenScholar 推理（上）和訓練流程（下）

這張圖清晰展示了OpenScholar的工作流程：從輸入查詢到最終輸出，每一步都注重證據(jù)支撐。這種設(shè)計直接針對了當前 AI 在科學領(lǐng)域應(yīng)用的痛點——例如，該研究顯示，當要求GPT-4o引用計算機科學或生物醫(yī)學等領(lǐng)域的近期文獻時，其在 78%-90% 的情況下編造了引用，而 OpenScholar 的引用準確性堪比人類專家。

如何評估 AI 的“科研能力”？ScholarQABench 基準登場

要判斷一個 AI 系統(tǒng)是否可靠，需要嚴格的測試標準。為此，研究團隊開發(fā)了ScholarQABench，這是首個大規(guī)模、多領(lǐng)域的科學文獻合成基準。它包含近 3000 個由專家編寫的問題，覆蓋計算機科學、物理、神經(jīng)科學和生物醫(yī)學等領(lǐng)域，要求模型生成長篇、多論文支持的答案。

與以往只關(guān)注選擇題或短答案的基準不同，ScholarQABench 引入了多維評估協(xié)議，包括自動指標（例如引用準確性）和人類專家基于量表的評分（覆蓋范圍、連貫性、寫作質(zhì)量等）。例如，在“計算機科學”部分中，專家會列出答案必須包含的關(guān)鍵要點，AI 的回答需要滿足這些“評分標準”才能得分。

上圖是一個評估示例：問題、評分標準和 AI 輸出的對比。這種設(shè)計確保了評估的客觀性，避免了 AI “刷分”的可能。

實驗結(jié)果：小模型大能量，OpenScholar 全面領(lǐng)先

OpenScholar在 ScholarQABench 上的測試結(jié)果令人印象深刻。盡管 OpenScholar 的核心模型參數(shù)量僅為 80 億（遠小于 GPT-4o 的規(guī)模），但它在多項任務(wù)中表現(xiàn)優(yōu)異：

正確率提升：在需要多論文合成的任務(wù)中，OpenScholar-8B 比 GPT-4o 高出 6.1%，比 PaperQA2 高出5.5%。
引用準確性：OpenScholar 的引用 F1 分數(shù)達到 47.9%，而 GPT-4o 幾乎為 0。
成本效益：使用高效的檢索管道，OpenScholar-8B 的成本比基于 GPT-4o 的商業(yè)系統(tǒng)更低。

更引人注目的是人類評估結(jié)果：16 位人類專家在盲測中比較了 AI 回答和人類專家撰寫的答案。結(jié)果顯示，人類專家在 50.8% 和 70.0% 的情況下選擇了 OpenScholar-8B 和 OpenScholar-GPT-4o 的回答，而 GPT-4o 的這一比例僅為 31.9%，人類專家認為，OpenScholar 的回答更全面、信息深度更大，而這正是撰寫綜述論文所需的關(guān)鍵能力。

AI，正在改變科研范式

OpenScholar的推出標志著 AI 在科學領(lǐng)域的應(yīng)用邁出重要一步。它不僅是工具的創(chuàng)新，更體現(xiàn)了開放科學的精神——通過可復現(xiàn)的系統(tǒng)，降低科研門檻。對于忙碌的科學家和學生來說，這類 AI 助手有望將文獻回顧從“苦役”變?yōu)楦咝剿鳌?/p>

OpenScholar、ScholarQABench 概述及評估結(jié)果

未來，隨著多模態(tài)學習和用戶反饋的整合，OpenScholar可能會變得更智能，從而成為科研人員的真正“協(xié)作者”，讓科研工作更聚焦于創(chuàng)新而非信息篩選。

論文鏈接：

https://www.nature.com/articles/s41586-025-10072-4

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.