国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

BMJ研究:利用機器學習篩查疑似造假的論文

0
分享至

2026年1月30日,BMJ發(fā)表了一篇文章,該文章訓練并驗證機器學習模型,以區(qū)分癌癥領(lǐng)域疑似出自論文工廠的論文與真實研究論文。研究發(fā)現(xiàn),癌癥出版領(lǐng)域可疑論文的比例在不斷上升,論文工廠日益擴大,并且將目標瞄準了更高影響因子的期刊


原文鏈接:https://www.bmj.com/content/392/bmj-2025-087581

01

研究背景

論文工廠通過快速批量生產(chǎn)低質(zhì)量研究論文來最大化收益。這些文章可能存在以下特征:通常使用已有模板,只替換特定的術(shù)語;可能包含錯誤試劑、偽造數(shù)據(jù)與實驗,存在經(jīng)過修圖或重復(fù)使用的圖表;通常內(nèi)容泛泛、寫作粗糙、章節(jié)間缺乏連貫性,且僅提供膚淺的研究論證;可能會創(chuàng)建從未合作過,或者未作出任何實質(zhì)貢獻的虛假作者;常自引文章;可能賄賂編輯并操縱同行評審以促成發(fā)表。

癌癥領(lǐng)域受其影響尤為嚴重。該領(lǐng)域發(fā)表壓力大、專業(yè)數(shù)據(jù)與技術(shù)相對易偽造,以及同行評審能力有限,造假論文更易生產(chǎn)且難以識別。

跨學科研究顯示,機器學習方法可以基于撤稿觀察數(shù)據(jù)庫的文本數(shù)據(jù),預(yù)測撤稿和論文工廠產(chǎn)出文章,但該方法在癌癥研究領(lǐng)域的效能尚未經(jīng)過驗證。

假設(shè)論文工廠使用的文本模板會覆蓋標題和摘要,且這些模板具有領(lǐng)域和文章類型特異性,可為機器學習模型提供強信號。本研究基于BERT構(gòu)建機器學習流程,輸入癌癥領(lǐng)域已撤稿的論文工廠文章的標題和摘要,通過模型識別文本模式,進而檢測現(xiàn)有論文與已撤稿的論文工廠文章的相似性。

02

研究方法

本研究首要目標是訓練并評估模型的可靠分類能力,以區(qū)分撤稿文章(疑似出自論文工廠)與真實癌癥研究論文的標題摘要。其次,使用模型篩查數(shù)百萬篇癌癥研究論文,評估被標記的可疑論文隨時間的變化趨勢,被標記論文的國家、出版商、研究領(lǐng)域的變化,并分析其在高影響因子期刊中的演變情況。

癌癥研究數(shù)據(jù)集

2025年3月下載pubmed中所有生物醫(yī)學研究文獻,排除摘要非英文、空白、截斷、無標點、少于250字或大于4000字的文章。納入1999-2024年的所有文章,去掉重復(fù)、撤稿、更正、關(guān)注文章后,保留1740萬篇文章。通過MeSH術(shù)語和美國國家癌癥研究所術(shù)語庫構(gòu)建關(guān)鍵詞,在論文標題和摘要中進行匹配,最終得到包含2,647,471篇論文的癌癥研究數(shù)據(jù)集,這些論文發(fā)表于11,632種期刊。

提取數(shù)據(jù)進行可視化分析:第一作者所屬國家、出版商、癌癥類型、主要癌癥研究領(lǐng)域以及SCImago期刊影響因子。

注:?Scimago是一個基于Scopus數(shù)據(jù)庫的學術(shù)評估平臺?,提供期刊排名、機構(gòu)排名等多種科研評價工具。

論文工廠數(shù)據(jù)集

論文工廠數(shù)據(jù)集通過兩個來源構(gòu)建:一是撤稿觀察網(wǎng)數(shù)據(jù)庫中標記為論文工廠來源的論文(https://retractiondatabase.org/RetractionSearch.aspx);另一個是圖像誠信專家(學術(shù)偵探)整理的在線列表,其中列出了圖像篡改的證據(jù)。得益于PubPeer平臺的匿名貢獻者,論文工廠論文的匯編資料已在線發(fā)布在電子表格中(鏈接:https://docs.google.com/spreadsheets/d/1zKxfaqug4ZhwHyGzslF38pFyC8xtU8lzmmOFMGYITDI/edit?gid=1473413779#gid=1473413779)

撤稿觀察數(shù)據(jù)庫中的論文用于模型開發(fā),最終納入2,202論文工廠撤稿論文。圖像誠信專家數(shù)據(jù)集用于外部驗證,最終選取3,094疑似論文工廠論文。

模型選擇和訓練

訓練數(shù)據(jù)集包含50%論文工廠論文和50%真實論文。前者假定其為論文工廠產(chǎn)出,后者用作對照,選擇后均在PubPeer上進行人工核查。對照組文獻從癌癥研究數(shù)據(jù)集中篩選,以下三部分各占約三分之一:中國機構(gòu)發(fā)表在《Cell》,《Cancer Cell》,《Molecular Cell》,《The EMBO Journal》上的論文(為減少語言上可能存在的偏倚);隨機選取瑞典/芬蘭/挪威機構(gòu)的論文(因撤稿觀察網(wǎng)數(shù)據(jù)庫中無相關(guān)撤稿記錄);隨機選取上述四個期刊中除外上述國家的論文。

訓練數(shù)據(jù)集中4404篇論文被分為三部分,70%用于訓練、17.5%用于優(yōu)化、12.5%用于內(nèi)部驗證,每部分論文工廠論文和對照論文保持1:1。

模型性能(準確率、靈敏度和特異度)首先在內(nèi)部驗證集上評估,然后使用圖像誠信專家整理的在線清單進行外部驗證。另外進行了補充驗證,使用了疑似涉及論文工廠的873癌癥研究論文,這些論文來自三項研究,這些研究探討了存在核苷酸序列/細胞系問題的癌癥相關(guān)論文。

癌癥文獻篩查

使用經(jīng)過微調(diào)的BERT模型對1999-2024年間發(fā)表的260萬篇癌癥研究文獻進行篩查,經(jīng)過訓練,該模型可識別與被撤論文工廠論文相似的文本特征,將識別出的論文稱為"標記論文"。

03

研究結(jié)果

模型性能

內(nèi)部驗證準確率達到0.91,靈敏度為0.87,特異度為0.96。外部驗證中這些指標分別為:0.93,0.87和0.99。補充驗證中,模型共標記了72%的論文。

由于內(nèi)部驗證集與外部驗證集的錯誤分類相似,二者合并分析時,假陽性文章,即將對照論文誤判為論文工廠論文,僅39篇(共3375篇)。

癌癥研究數(shù)據(jù)集的篩查

使用模型篩查1999-2024年的癌癥研究數(shù)據(jù)集,261,245篇論文被標記為可疑,占數(shù)據(jù)集中所有論文的9.87%。

時間趨勢

1999-2022年間標記論文的數(shù)量呈指數(shù)級增長,于2022年達到峰值,隨后兩年略有下降。2000年初標記論文的比例保持在1%左右,2020年代初,這一比例已超過當年癌癥研究產(chǎn)出的15%。


圖.每年的標記論文數(shù)量

國家

各國產(chǎn)出的論文中,標記論文占比最高的是中國(497,672/177,907,36%),其次是伊朗(6,801/33,935,20%)。就標記論文數(shù)量而言,美國位列第二,被標記10,511篇論文,占其發(fā)表論文的2%。

出版商及其期刊

標記論文比例最高為67%,來自Verduci Editore旗下的癌癥研究期刊《European Review for Medical and Pharmacological Sciences》。排名第二的出版商是International Scientific Literature,旗下《Medical Science Monitor》的標記論文比例約45%。其余四家出版商依次為E-Century Publishing Corporation(44%)、Spandidos Publications(38%)、Ivyspring International Publisher(30%)和IOS Press(30%)。

大型出版商Springer Nature,Elsevier,和Wiley標記論文比例較低,但標記論文的絕對數(shù)量較高。

研究領(lǐng)域

標記論文主要集中于癌癥生物學與基礎(chǔ)研究領(lǐng)域、新療法研發(fā)或評估、診斷與預(yù)后領(lǐng)域,標記比例均超過10%。生存研究、支持性照護與臨終關(guān)懷;流行病學與人群研究;衛(wèi)生系統(tǒng)、政策與實施等領(lǐng)域的標記論文比例較低,均不足2%。


圖.標記論文比例較高的研究領(lǐng)域

影響因子前10%的期刊

影響因子排名前10%的期刊中,標記論文比例呈現(xiàn)出隨時間推移而明顯上升的趨勢,于2022年超過10%。


圖.影響因子前10%期刊中的標記論文比例

04

模型在不同驗證集上表現(xiàn)一致,證實了其對論文工廠文本特征的可靠識別能力,并強化了“此類論文共享通用標題與摘要模板”的假說。標記論文的多項特征與既往研究一致,如標記論文隨時間的指數(shù)增長趨勢與已知的論文工廠發(fā)展歷程吻合;標記論文在基礎(chǔ)研究領(lǐng)域更集中等。

研究局限性

  • 兩個論文工廠數(shù)據(jù)集可能存在局限性。撤稿觀察網(wǎng)數(shù)據(jù)庫中的“論文工廠”標簽僅反映其工作人員對出版商撤稿聲明的解讀,而出版商調(diào)查這些論文的方式缺乏統(tǒng)一標準,導(dǎo)致該標簽可能對應(yīng)不同證據(jù)強度。圖像誠信專家數(shù)據(jù)集中包含圖像篡改證據(jù),這些文章可能與論文工廠無關(guān),且專家的調(diào)查方法與透明度存在差異。模型檢測到的更可能是訓練集中代表的文本特征,而非論文工廠論文的全部特征。

  • 訓練集中中國論文占比過高,存在模型將中文語言模式識別為論文工廠文本特征的可能

  • 對照組論文來源可能造成偏倚。

  • 深度學習模型的不可解釋性導(dǎo)致無法直接識別BERT捕捉的特征。本研究并非旨在直接識別論文工廠論文或指控任何個人欺詐,而是關(guān)注整體模式與趨勢。該分類器是一個概率模型,而非不端行為的最終判定。

05

研究結(jié)論

利用機器學習模型,通過標題和摘要識別與已撤稿論文工廠論文相似的論文是可行且有效的。研究結(jié)果揭示,癌癥研究出版領(lǐng)域的標記論文比例不斷上升,論文工廠日益擴大,現(xiàn)已將目標瞄準更高影響因子的期刊,這強調(diào)了期刊、審稿人和研究人員保持警惕的必要性。

參考文獻:BMJ. 2026 Jan 29;392:e087581. doi: 10.1136/bmj-2025-087581.


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

“最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

地理三體說
2026-01-29 21:40:34
WTT世界乒聯(lián)“點名”孫穎莎,釋放三個強烈信號,王曼昱真沒說錯

WTT世界乒聯(lián)“點名”孫穎莎,釋放三個強烈信號,王曼昱真沒說錯

銀河史記
2026-02-28 16:18:51
俄羅斯駐華大使館微博,27日深夜發(fā)文稱:中國網(wǎng)友誤會我們了!

俄羅斯駐華大使館微博,27日深夜發(fā)文稱:中國網(wǎng)友誤會我們了!

消失的電波
2026-02-28 08:43:31
中美一旦開戰(zhàn),美軍將全面轟炸中國?基辛格曾稱:中美正走向懸崖

中美一旦開戰(zhàn),美軍將全面轟炸中國?基辛格曾稱:中美正走向懸崖

娛樂圈的嗶嗶王
2026-02-28 16:14:25
高人預(yù)測:十年后的東莞,真正值錢的不是房子,而是這5個地段!

高人預(yù)測:十年后的東莞,真正值錢的不是房子,而是這5個地段!

石辰搞笑日常
2026-02-28 12:29:09
汪小菲吐槽小汪寶心眼太多,回應(yīng)玥箖上學問題,筱梅或成了導(dǎo)火索

汪小菲吐槽小汪寶心眼太多,回應(yīng)玥箖上學問題,筱梅或成了導(dǎo)火索

查爾菲的筆記
2026-02-28 13:39:27
王楚欽怒了,4-0很強勢!賽后采訪高情商談張禹珍,裁判無地自容

王楚欽怒了,4-0很強勢!賽后采訪高情商談張禹珍,裁判無地自容

有范又有料
2026-02-28 16:57:31
A股好消息:2026年“五朵金花”正綻放,看懂的人已偷偷布局!

A股好消息:2026年“五朵金花”正綻放,看懂的人已偷偷布局!

風風順
2026-02-28 08:32:40
班長把我安排到司機那桌,結(jié)賬時叫來經(jīng)理:除了我們這桌其余AA

班長把我安排到司機那桌,結(jié)賬時叫來經(jīng)理:除了我們這桌其余AA

奶茶麥子
2026-02-28 12:30:21
【李國豪】南京長江大橋設(shè)計時,他主張6車道,當?shù)卣畧猿?車道

【李國豪】南京長江大橋設(shè)計時,他主張6車道,當?shù)卣畧猿?車道

年之父
2026-02-23 09:10:06
普陀山不是隨便去的!這幾件事不懂,不僅容易白跑,還惹麻煩

普陀山不是隨便去的!這幾件事不懂,不僅容易白跑,還惹麻煩

千秋文化
2026-02-24 20:22:32
2100枚核彈24小時待命,張召忠曾發(fā)出警告:一旦開戰(zhàn),將無處可逃

2100枚核彈24小時待命,張召忠曾發(fā)出警告:一旦開戰(zhàn),將無處可逃

近史博覽
2026-01-22 12:52:47
伊朗導(dǎo)彈發(fā)射!以色列大片地區(qū)響起警報

伊朗導(dǎo)彈發(fā)射!以色列大片地區(qū)響起警報

環(huán)球時報國際
2026-02-28 16:55:43
日媒:撞飛趙睿源于日本球員很強壯,裁判判定動作“無惡意”因此未升級

日媒:撞飛趙睿源于日本球員很強壯,裁判判定動作“無惡意”因此未升級

隱于山海
2026-02-28 12:48:50
蔣英:嫁給干哥哥錢學森,成就李雙江,病逝12年,兒女都怎樣了?

蔣英:嫁給干哥哥錢學森,成就李雙江,病逝12年,兒女都怎樣了?

老謝談史
2026-02-26 20:41:25
哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學真相

哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學真相

一口娛樂
2026-02-27 12:42:23
美軍在B-2轟炸機打擊伊朗核設(shè)施后,重啟GBU-57巨型鉆地彈生產(chǎn)

美軍在B-2轟炸機打擊伊朗核設(shè)施后,重啟GBU-57巨型鉆地彈生產(chǎn)

假如明天來臨
2026-02-27 13:21:41
神仙老板!00后員工年薪80萬元開奔馳,老板月薪5000元開二手普桑……

上觀新聞
2026-02-28 13:01:12

血拼一夜!千名塔利班敢死隊沖鋒,巴鐵梟龍大開殺戒,美械全被炸

血拼一夜!千名塔利班敢死隊沖鋒,巴鐵梟龍大開殺戒,美械全被炸

霽寒飄雪
2026-02-28 11:46:05
女子購買胖東來花生油,發(fā)現(xiàn)可以涼拌后直呼驚訝

女子購買胖東來花生油,發(fā)現(xiàn)可以涼拌后直呼驚訝

映射生活的身影
2026-02-26 21:03:46
2026-02-28 17:51:00
醫(yī)咖會
醫(yī)咖會
生動有趣的形式傳遞醫(yī)學新進展
2770文章數(shù) 10977關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

美以襲擊伊朗 華人緊急逃離德黑蘭:沒想到來得這么快

頭條要聞

美以襲擊伊朗 華人緊急逃離德黑蘭:沒想到來得這么快

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
親子
本地
教育
公開課

旅游要聞

2026年柳州龍王出游,即將登場!時間、路線定了!重要提醒→

親子要聞

12歲之前要瘋狂刺激前庭覺,每天堅持鍛煉,越玩越專注,越聰明!#兒童運動 #身高管理 #感統(tǒng)訓練 #...

本地新聞

津南好·四時總相宜

教育要聞

2026考研分析:近5年國家線趨勢圖對比(2022–2026)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版