国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

荷蘭伊拉斯姆斯大學(xué)打造了一個(gè)"讀懂論文"的AI系統(tǒng)

0
分享至


這項(xiàng)由荷蘭伊拉斯姆斯大學(xué)鹿特丹分校與英國(guó)開放大學(xué)聯(lián)合開展的研究,以預(yù)印本形式于2026年4月13日發(fā)布在arXiv平臺(tái),編號(hào)為arXiv:2604.11152v1。這是一篇中間階段的技術(shù)報(bào)告,距離最終完成尚有一段路程,但研究團(tuán)隊(duì)選擇提前公開成果,正是為了聽取各方反饋——這本身就體現(xiàn)了一種與主流AI開發(fā)截然不同的態(tài)度。

**一、一個(gè)讓人感到不安的問(wèn)題**

每次打開ChatGPT,你是否有過(guò)這樣的感受:輸入一個(gè)問(wèn)題,幾秒鐘后一篇看起來(lái)像模像樣的文章就出現(xiàn)在屏幕上,行云流水,言之成理,卻又總讓你覺(jué)得少了點(diǎn)什么?那種感覺(jué)就像是去餐廳點(diǎn)了一道招牌菜,端上來(lái)的卻是速凍食品加熱后的模樣——形狀對(duì),味道卻不太對(duì)。

對(duì)于社會(huì)科學(xué)和人文學(xué)科(這兩個(gè)領(lǐng)域合稱SSH,涵蓋歷史、哲學(xué)、社會(huì)學(xué)、政治學(xué)、法學(xué)、語(yǔ)言學(xué)、藝術(shù)等幾乎所有以"人"為核心的學(xué)問(wèn))的學(xué)者來(lái)說(shuō),這種不安感尤其強(qiáng)烈。這些學(xué)科的核心不是給出標(biāo)準(zhǔn)答案,而是不斷提問(wèn)、質(zhì)疑、重構(gòu),甚至顛覆現(xiàn)有的認(rèn)知框架。當(dāng)一個(gè)AI系統(tǒng)開始替你"生成"論文、"生成"觀點(diǎn),它實(shí)際上是在用一種高度標(biāo)準(zhǔn)化的語(yǔ)言,把本來(lái)應(yīng)該充滿張力和探索性的學(xué)術(shù)思考變成了一碗速食粥。

荷蘭伊拉斯姆斯大學(xué)的研究團(tuán)隊(duì)正是被這個(gè)問(wèn)題困擾著。他們的核心追問(wèn)是:AI語(yǔ)言技術(shù)真的只能以這種方式被使用嗎?答案是否定的。他們提出了一套全新的方案,叫做SHARE(社會(huì)人文AI研究與教育系統(tǒng))和MIRROR(模型反思性研究輸出修訂界面)。這不是另一個(gè)ChatGPT,而是一個(gè)完全不同哲學(xué)取向的工具——它的設(shè)計(jì)目標(biāo)不是替你寫作,而是幫你更清晰地看見自己寫了什么。

**二、現(xiàn)有AI系統(tǒng)的根本問(wèn)題在哪里**

要理解這個(gè)研究為什么重要,先得搞清楚目前的AI語(yǔ)言模型是怎么運(yùn)作的,以及為什么它對(duì)人文社科學(xué)者來(lái)說(shuō)存在根本性的問(wèn)題。

現(xiàn)在我們用的大型語(yǔ)言模型,無(wú)論是ChatGPT、Claude還是Gemini,本質(zhì)上都是在做一件事:預(yù)測(cè)"接下來(lái)最可能出現(xiàn)的詞"。你輸入"太陽(yáng)從東方",它就會(huì)補(bǔ)上"升起",因?yàn)樵谒娺^(guò)的海量文本里,這個(gè)搭配出現(xiàn)的頻率最高。這種能力讓它可以寫出語(yǔ)法通順、邏輯連貫的文章,但同時(shí)也意味著它天然傾向于產(chǎn)出"最常見的說(shuō)法",而不是"最有洞見的說(shuō)法"。

這對(duì)人文社科是致命的。一個(gè)哲學(xué)研究者的價(jià)值,恰恰在于他能提出一個(gè)讓人猝不及防、之前沒(méi)人想到過(guò)的論點(diǎn)。一個(gè)歷史學(xué)家的貢獻(xiàn),可能是把一段被主流敘事長(zhǎng)期忽視的地方性經(jīng)驗(yàn)重新帶入視野。一個(gè)社會(huì)學(xué)研究者的洞見,可能來(lái)自于刻意反對(duì)某種已經(jīng)被學(xué)界視為常識(shí)的解釋框架。這些都是對(duì)"期望"的違背,是對(duì)常規(guī)表達(dá)的偏離——而恰恰是這種偏離,構(gòu)成了人文社科學(xué)術(shù)貢獻(xiàn)的核心。

問(wèn)題還不止于此?,F(xiàn)有的大型語(yǔ)言模型幾乎都是用互聯(lián)網(wǎng)上的通用數(shù)據(jù)訓(xùn)練出來(lái)的,STEM領(lǐng)域(科學(xué)、技術(shù)、工程、數(shù)學(xué))的內(nèi)容在其中占據(jù)壓倒性比例。數(shù)學(xué)證明、編程代碼、化學(xué)實(shí)驗(yàn)報(bào)告——這些領(lǐng)域的知識(shí)有明確的對(duì)錯(cuò)標(biāo)準(zhǔn),可以用來(lái)驗(yàn)證AI的推理能力。相比之下,人文社科的知識(shí)是高度情境化、解釋性的,沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)答案。這導(dǎo)致主流AI模型在人文社科方面的訓(xùn)練本來(lái)就不充分,又因?yàn)闆](méi)有合適的方法來(lái)衡量它在這些領(lǐng)域的表現(xiàn),整個(gè)領(lǐng)域的AI開發(fā)形成了一種系統(tǒng)性的偏見:STEM領(lǐng)域的AI工具越來(lái)越精良,而人文社科領(lǐng)域幾乎被忽視。

更麻煩的是,當(dāng)商業(yè)AI公司出于安全和合規(guī)考慮對(duì)模型進(jìn)行"價(jià)值對(duì)齊"時(shí)——比如讓模型拒絕回答涉及仇恨言論或種族歧視的問(wèn)題——這其實(shí)無(wú)意間堵死了人文社科研究者正當(dāng)?shù)膶W(xué)術(shù)需求。研究種族歧視的社會(huì)學(xué)家,研究歷史上暴力事件的歷史學(xué)家,研究極端主義話語(yǔ)的政治學(xué)家,都可能因?yàn)槟P偷陌踩^(guò)濾而無(wú)法得到需要的內(nèi)容。這不是模型在保護(hù)他們,而是在阻礙他們。

**三、SHARE是什么,它是怎么被造出來(lái)的**

SHARE是一個(gè)從零開始專為人文社科領(lǐng)域訓(xùn)練的語(yǔ)言模型。與其他模型最根本的區(qū)別在于:它的"食譜"只有人文社科的"食材"。

先說(shuō)數(shù)據(jù)來(lái)源。研究團(tuán)隊(duì)從三個(gè)大類的語(yǔ)料庫(kù)中篩選內(nèi)容。第一類是維基百科,他們沒(méi)有把所有詞條都納入,而是根據(jù)維基百科自己的主題分類系統(tǒng),專門選取與商業(yè)、傳播、文化、經(jīng)濟(jì)、教育、地理、政府、歷史、人類行為、人文、語(yǔ)言、法律、哲學(xué)、政治、宗教、社會(huì)等相關(guān)的條目,同時(shí)排除了動(dòng)植物通訊等非人類社會(huì)內(nèi)容,并且對(duì)"科學(xué)"類別只保留社會(huì)科學(xué)和形式科學(xué)部分。第二類是古騰堡計(jì)劃的書庫(kù),這是一個(gè)以公共領(lǐng)域歷史書籍為主的數(shù)字圖書館。研究團(tuán)隊(duì)根據(jù)美國(guó)國(guó)會(huì)圖書館的分類編號(hào),選取了哲學(xué)與心理學(xué)、歷史、地理與人類學(xué)、社會(huì)科學(xué)、政治學(xué)、法學(xué)、教育、音樂(lè)、美術(shù)等類別的書籍。第三類也是最重要的一類,是學(xué)術(shù)論文,主要來(lái)自兩個(gè)大型開放獲取數(shù)據(jù)庫(kù):PeS2o(包含約4000萬(wàn)篇開放獲取學(xué)術(shù)論文,源自語(yǔ)義學(xué)者開放研究語(yǔ)料庫(kù))和CORE(一個(gè)由英國(guó)開放大學(xué)運(yùn)營(yíng)的大型學(xué)術(shù)內(nèi)容聚合平臺(tái),截至2025年5月已收錄約4920萬(wàn)篇全文學(xué)術(shù)文檔和4.49億條元數(shù)據(jù)記錄)。

為了從這些龐大的數(shù)據(jù)庫(kù)中精準(zhǔn)提取人文社科內(nèi)容,研究團(tuán)隊(duì)采用了一種混合策略。當(dāng)數(shù)據(jù)庫(kù)本身提供了學(xué)科分類元數(shù)據(jù)時(shí),他們直接利用這些標(biāo)簽進(jìn)行篩選。當(dāng)沒(méi)有現(xiàn)成標(biāo)簽時(shí),他們使用了AllenAI(美國(guó)艾倫人工智能研究所)開發(fā)的學(xué)科分類器,自動(dòng)判斷一篇文章屬于哪個(gè)學(xué)科領(lǐng)域。最終保留的學(xué)科包括藝術(shù)、商業(yè)、經(jīng)濟(jì)學(xué)、地理、教育、歷史、法學(xué)、語(yǔ)言學(xué)、哲學(xué)、政治學(xué)、心理學(xué)和社會(huì)學(xué)。

關(guān)于模型的架構(gòu),研究團(tuán)隊(duì)選擇了微軟Phi-4的結(jié)構(gòu)作為基礎(chǔ)框架,但把它的"詞典"換成了自己從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出來(lái)的版本。原版Phi-4的詞典有約10萬(wàn)個(gè)詞條,而SHARE的詞典只有5萬(wàn)個(gè),這是因?yàn)橛?xùn)練數(shù)據(jù)主要是英文和荷蘭文,不需要那么多詞條也能有效處理高度專業(yè)化的學(xué)術(shù)文本。研究團(tuán)隊(duì)同樣訓(xùn)練了兩個(gè)規(guī)模的模型:參數(shù)量約39億的SHARE-4B,以及參數(shù)量約140億的SHARE-14B,分別對(duì)應(yīng)Phi-4-mini和Phi-4的規(guī)模。

訓(xùn)練過(guò)程的細(xì)節(jié)也相當(dāng)值得了解。SHARE-4B的訓(xùn)練得到了英偉達(dá)學(xué)術(shù)資助的支持,在一個(gè)叫做Saturn Cloud的云計(jì)算環(huán)境中,用8塊英偉達(dá)A100 GPU跑了656小時(shí),完成了280億個(gè)詞條的兩輪訓(xùn)練。這個(gè)訓(xùn)練過(guò)程產(chǎn)生的碳排放量大約相當(dāng)于一張從阿姆斯特丹飛往紐約的經(jīng)濟(jì)艙單程機(jī)票。SHARE-14B目前仍在訓(xùn)練中,已經(jīng)處理了960億個(gè)詞條,最終目標(biāo)是完成6300億詞條的計(jì)算最優(yōu)訓(xùn)練量,也就是說(shuō)在這份技術(shù)報(bào)告發(fā)布時(shí),14B模型只完成了15%的訓(xùn)練。這部分訓(xùn)練先在Saturn Cloud的8塊A100 GPU上跑了167小時(shí),后來(lái)轉(zhuǎn)移到荷蘭國(guó)家超級(jí)計(jì)算機(jī)Snellius上,使用20塊H100 GPU并行運(yùn)算了約225小時(shí)。團(tuán)隊(duì)還特別強(qiáng)調(diào),他們?yōu)榇_保高效運(yùn)算花了相當(dāng)大的工夫,使用了多種加速技術(shù)。

**四、MIRROR:一個(gè)"不生成任何文字"的AI界面**

SHARE模型做好了之后,研究團(tuán)隊(duì)面臨一個(gè)關(guān)鍵決定:怎么讓人們使用它?

通常的路徑是:在預(yù)訓(xùn)練完成后,進(jìn)行監(jiān)督微調(diào)(讓模型學(xué)會(huì)回答問(wèn)題),然后做價(jià)值對(duì)齊(讓模型學(xué)會(huì)拒絕有害請(qǐng)求)。但研究團(tuán)隊(duì)決定不走這條路,原因有幾個(gè)。其一,根本沒(méi)有專門為人文社科設(shè)計(jì)的微調(diào)數(shù)據(jù)集。其二,如前所述,通用的價(jià)值對(duì)齊會(huì)干擾人文社科的正當(dāng)研究需求。其三,他們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn),對(duì)SHARE進(jìn)行通用的微調(diào)之后,模型生成文本的質(zhì)量反而下降了,這與近期其他研究的發(fā)現(xiàn)一致。

正因如此,他們決定讓SHARE保持在純粹的預(yù)訓(xùn)練狀態(tài),并為它設(shè)計(jì)一種完全不同的使用方式。

MIRROR的核心邏輯是這樣的:一個(gè)只用人文社科文本訓(xùn)練出來(lái)的語(yǔ)言模型,當(dāng)它預(yù)測(cè)"下一個(gè)詞最可能是什么"的時(shí)候,它實(shí)際上是在表達(dá)人文社科文本的"平均期望"。如果你寫的某個(gè)詞在這個(gè)模型看來(lái)是高度出乎意料的,那要么是你犯了個(gè)錯(cuò)誤,要么是你寫出了真正有原創(chuàng)性的內(nèi)容。這兩種情況都值得你停下來(lái)想一想。

具體操作是這樣的:你把一段文字輸入MIRROR,它不會(huì)生成任何新的內(nèi)容,而是對(duì)你文字中的每一個(gè)詞計(jì)算一個(gè)"意外程度分?jǐn)?shù)"。分?jǐn)?shù)越高,說(shuō)明這個(gè)詞在人文社科的語(yǔ)境下越出乎意料。然后,這些詞會(huì)在屏幕上用顏色深淺來(lái)顯示——顏色越深,說(shuō)明越意外。

背后的數(shù)學(xué)并不復(fù)雜,但值得了解一下。研究團(tuán)隊(duì)計(jì)算了每個(gè)詞的"驚訝度"(簡(jiǎn)單說(shuō)就是:這個(gè)詞有多不像模型預(yù)測(cè)的那個(gè)詞),以及整個(gè)詞庫(kù)在這個(gè)位置的"混亂度"(簡(jiǎn)單說(shuō)就是:模型在這個(gè)位置本來(lái)就沒(méi)有特別確定的預(yù)測(cè),所以意外性本身意義不大)。把這兩個(gè)指標(biāo)結(jié)合起來(lái),得到每個(gè)詞的Z分?jǐn)?shù)——這是統(tǒng)計(jì)學(xué)中衡量"與正常情況偏離了多少個(gè)標(biāo)準(zhǔn)差"的指標(biāo)。Z分?jǐn)?shù)高的詞就會(huì)被MIRROR用深色標(biāo)注出來(lái),提示作者:"嘿,這里有點(diǎn)不尋常,你要不要看一看?"

當(dāng)你把鼠標(biāo)懸停在某個(gè)被標(biāo)注的詞上時(shí),MIRROR還會(huì)顯示"模型原本最期待在這里出現(xiàn)的詞是什么",呈現(xiàn)出一個(gè)類似詞典輔助功能但性質(zhì)完全不同的東西——不是告訴你這個(gè)詞的同義詞,而是告訴你在這個(gè)上下文里,整個(gè)人文社科文獻(xiàn)中最常用的詞是什么。

除了這個(gè)基本的詞級(jí)標(biāo)注,MIRROR還提供幾種擴(kuò)展視圖。一種是把文章中所有被標(biāo)注詞按意外程度排名,讓你一眼看出哪些地方最特別。另一種是反過(guò)來(lái)看:在你的文章里,模型覺(jué)得"應(yīng)該出現(xiàn)但實(shí)際上沒(méi)出現(xiàn)"的詞是哪些,讓你思考是否有什么重要概念被自己忽略了。還可以按句子或段落來(lái)匯總意外性分?jǐn)?shù),幫助你從更宏觀的角度了解哪些部分最符合領(lǐng)域常規(guī),哪些部分最具獨(dú)特性。

這個(gè)界面的設(shè)計(jì)靈感來(lái)自一種叫做"期望違背理論"的學(xué)術(shù)框架。這個(gè)理論來(lái)自人際傳播研究,它提出一個(gè)看似反直覺(jué)的觀點(diǎn):違背期望有時(shí)候比符合期望更好。在人文社科的寫作中,這個(gè)原理格外適用。期望的違背可能意味著錯(cuò)誤,也可能意味著創(chuàng)新。MIRROR的作用就是把這些違背期望的地方標(biāo)示出來(lái),讓作者自己來(lái)判斷:這是一個(gè)需要修改的錯(cuò)誤,還是一個(gè)值得保留的創(chuàng)新?

**五、這個(gè)系統(tǒng)有多好用:三類測(cè)試的完整結(jié)果**

研究團(tuán)隊(duì)通過(guò)三個(gè)層次的測(cè)試來(lái)評(píng)估SHARE的實(shí)際表現(xiàn)。

第一個(gè)層次是驗(yàn)證SHARE是否真的比通用模型更適合人文社科文本。他們用的方法是測(cè)量"困惑度"——這是語(yǔ)言模型領(lǐng)域衡量"模型對(duì)一段文字有多不確定"的指標(biāo),值越低說(shuō)明模型越能理解這段文字。他們用的測(cè)試素材是2025年第三季度和第四季度在伊拉斯姆斯大學(xué)鹿特丹發(fā)表的論文摘要,這批摘要不在SHARE的訓(xùn)練數(shù)據(jù)中,可以公平地測(cè)試模型的真實(shí)能力。對(duì)比的基準(zhǔn)是Phi-4模型(與SHARE架構(gòu)相同的通用模型),比較兩者在理解不同學(xué)科論文時(shí)困惑度的差異。

結(jié)果顯示,在藝術(shù)、教育、社會(huì)學(xué)這些典型人文社科領(lǐng)域,SHARE與Phi-4之間的困惑度差距明顯小于生物、工程、醫(yī)學(xué)這些STEM領(lǐng)域——這說(shuō)明SHARE在人文社科領(lǐng)域的理解能力相比Phi-4確實(shí)有更高的相對(duì)專業(yè)性。以學(xué)院為單位來(lái)看,伊拉斯姆斯大學(xué)醫(yī)學(xué)中心的論文與SHARE的契合度在所有學(xué)院中最低,而歷史文化傳播學(xué)院、法學(xué)院、社會(huì)行為科學(xué)學(xué)院的契合度則明顯更高,這與直覺(jué)完全一致。

不過(guò),Phi-4在絕對(duì)困惑度數(shù)值上仍然總體低于SHARE,也就是說(shuō)通用性能上Phi-4更強(qiáng)。研究團(tuán)隊(duì)把這歸因于訓(xùn)練數(shù)據(jù)量的巨大差距:Phi-4用了約萬(wàn)億規(guī)模的詞條,而SHARE只用了數(shù)百億,對(duì)英語(yǔ)本身的掌握自然沒(méi)有Phi-4那么全面。這個(gè)局限性引出了第二個(gè)測(cè)試。

第二個(gè)層次是專門為這項(xiàng)研究設(shè)計(jì)的"SSH完形填空基準(zhǔn)測(cè)試"。完形填空是語(yǔ)言學(xué)習(xí)中的一種經(jīng)典測(cè)試形式——把一個(gè)句子中的某個(gè)詞挖掉,讓被測(cè)者猜是什么詞。研究團(tuán)隊(duì)把這個(gè)方法改造成一種專門測(cè)試人文社科領(lǐng)域知識(shí)的工具。

具體做法是這樣的:他們從2026年第一季度發(fā)表的275篇人文社科領(lǐng)域?qū)W術(shù)摘要(這批摘要肯定不在任何模型的訓(xùn)練數(shù)據(jù)中,保證了測(cè)試的公平性)中,找出需要學(xué)科背景知識(shí)才能判斷的詞對(duì),比如"正向"vs"負(fù)向"、"更高"vs"更低"、"更大"vs"更小"。以"社交媒體使用與幸福感的相關(guān)性是負(fù)向的"這句話為例,要預(yù)測(cè)"是"字只需要懂英語(yǔ)語(yǔ)法,但要預(yù)測(cè)"負(fù)向"而不是"正向",就需要了解相關(guān)的社會(huì)科學(xué)研究結(jié)果。這275個(gè)例子來(lái)自11個(gè)學(xué)科(藝術(shù)、商業(yè)、傳播、經(jīng)濟(jì)學(xué)、教育、地理、歷史、法學(xué)、哲學(xué)、心理學(xué)、社會(huì)學(xué)),每個(gè)學(xué)科25個(gè)例子,通過(guò)在Web of Science上搜索特定關(guān)鍵詞并按引用量排序來(lái)選取,盡可能代表各領(lǐng)域的標(biāo)志性研究成果。

測(cè)試結(jié)果相當(dāng)令人注目。SHARE-14B(僅完成了15%的訓(xùn)練?。┤〉昧?9.6%的修正準(zhǔn)確率,超過(guò)了完整訓(xùn)練完畢的OLMO-2-13B(73.8%)和Pythia-12B(61.5%),并且與架構(gòu)完全相同、完整訓(xùn)練完畢的Phi-4-14B(81.8%)僅差2個(gè)百分點(diǎn)——而Phi-4所用的訓(xùn)練詞條量是SHARE的100倍。從計(jì)算效率的角度看,SHARE-14B處于所有測(cè)試模型中效率最高的那個(gè)位置:用最少的計(jì)算量達(dá)到了最接近頂級(jí)的準(zhǔn)確率。SHARE-4B(66.2%)的表現(xiàn)也比同等規(guī)模的Pythia-3B(63.6%)略好,但低于參數(shù)量?jī)H1.1億卻專為社會(huì)科學(xué)摘要訓(xùn)練的SSciBERT模型(67.6%),這說(shuō)明在完形填空這類任務(wù)上,專為該任務(wù)設(shè)計(jì)的掩碼語(yǔ)言模型(即類似BERT的雙向模型,而非SHARE這類自回歸模型)仍有其優(yōu)勢(shì)。

第三個(gè)層次是定性測(cè)試,研究團(tuán)隊(duì)用四個(gè)具體案例展示了SHARE-MIRROR系統(tǒng)在真實(shí)使用場(chǎng)景中的表現(xiàn)。

第一個(gè)案例是錯(cuò)別字和風(fēng)格問(wèn)題檢測(cè)。研究團(tuán)隊(duì)用了一段受一年級(jí)本科生寫作啟發(fā)構(gòu)建的文本,里面故意埋入了錯(cuò)別字("platforma"多了一個(gè)字母a)和不符合學(xué)術(shù)規(guī)范的風(fēng)格選擇(文章開頭直接引用、沒(méi)有給"Twitter"加引號(hào)、用"literary"代替"literature")。兩個(gè)模型都成功標(biāo)注了錯(cuò)別字,14B模型還額外標(biāo)出了更微妙的風(fēng)格問(wèn)題,比如"But so"這種不常見的句子開頭方式。

第二個(gè)案例是內(nèi)容錯(cuò)誤檢測(cè)。研究團(tuán)隊(duì)構(gòu)造了一個(gè)把議程設(shè)置理論的發(fā)明者寫成了Gerbner和Katz(實(shí)際上是McCombs和Shaw)的錯(cuò)誤陳述。兩個(gè)模型在"proposed by"之后都預(yù)測(cè)"McC"(即McCombs的開頭)是最可能出現(xiàn)的詞,但只有14B模型的置信度高到足以觸發(fā)紅色標(biāo)注。這個(gè)案例還揭示了一個(gè)重要的使用原則:如果文本前面已經(jīng)有了一個(gè)錯(cuò)誤,模型會(huì)被這個(gè)錯(cuò)誤"帶偏",對(duì)后續(xù)內(nèi)容的判斷也會(huì)受影響。因此,MIRROR在使用時(shí)應(yīng)當(dāng)從文章開頭開始逐步修改,而不是跳著來(lái)。

第三個(gè)案例展示了正面的期望違背,也就是真正的創(chuàng)新性內(nèi)容。研究團(tuán)隊(duì)用了一篇2026年關(guān)于社交媒體隱私的元分析文章的討論部分,這篇文章在隱私研究的語(yǔ)境中引入了平臺(tái)監(jiān)管、數(shù)字素養(yǎng)等不太常見的討論維度。模型標(biāo)注了"guide"(引導(dǎo))、"platform"(平臺(tái))、"literacy"(素養(yǎng))等詞為意外詞——這不是錯(cuò)誤,而是這篇研究提出的獨(dú)特視角。研究團(tuán)隊(duì)還演示了"缺失詞"功能:模型認(rèn)為在這段文字中"應(yīng)該出現(xiàn)但沒(méi)有出現(xiàn)"的詞是什么?SHARE-4B給出了"section"、"safety"、"protection",SHARE-14B給出了"ecosystems"、"designing"、"prioritize"。作者可以自己判斷這些"缺失詞"是否值得被納入討論。

第四個(gè)案例最為深刻。研究團(tuán)隊(duì)選取了傳播學(xué)者Gregory Gondwe在2025年國(guó)際傳播學(xué)會(huì)年會(huì)主席致辭回應(yīng)文章的第一段。這篇文章討論的是全球化傳播研究中長(zhǎng)期存在的地理偏見問(wèn)題——來(lái)自非洲的知識(shí)生產(chǎn)者被主流傳播學(xué)視野邊緣化。MIRROR標(biāo)注了大量詞匯為意外,包括"cosmopolitan"(世界主義)、"curiosity"(好奇心)、"African"(非洲的)和"locations"(地點(diǎn))。更耐人尋味的是:當(dāng)模型看到"African"這個(gè)詞時(shí),它最可能預(yù)測(cè)的下一個(gè)詞不是"continent"(大陸)或"scholars"(學(xué)者),而是"-"(破折號(hào))和"American"——因?yàn)樵谡麄€(gè)英文人文社科文獻(xiàn)中,"African"最常見的用法是"African-American"(非裔美國(guó)人)。這個(gè)結(jié)果以一種幾乎不需要解釋的方式,用模型自身的偏見揭示了Gondwe文章所批評(píng)的那種結(jié)構(gòu)性偏見:即便是在學(xué)術(shù)文獻(xiàn)中,非洲作為獨(dú)立的知識(shí)來(lái)源也是"意外的"。

**六、為什么不做成聊天機(jī)器人,以及這意味著什么**

理解了SHARE和MIRROR的設(shè)計(jì)之后,有一個(gè)問(wèn)題可能已經(jīng)浮出水面:為什么不做成更熟悉的對(duì)話式AI?你說(shuō)一句話,它回一句話,這樣不是更方便嗎?

研究團(tuán)隊(duì)的選擇有著深思熟慮的理由。他們認(rèn)為,把語(yǔ)言模型做成一個(gè)能流暢對(duì)話的助手,本質(zhì)上是在鼓勵(lì)一種思維上的依賴關(guān)系。當(dāng)你把寫作任務(wù)交給一個(gè)對(duì)話AI,它給你一個(gè)答案,你接受或者微調(diào),這個(gè)循環(huán)讓模型成了思考的主體,而你成了審核者。對(duì)于人文社科的學(xué)者來(lái)說(shuō),這恰好顛倒了應(yīng)有的關(guān)系。

MIRROR的界面設(shè)計(jì)刻意沒(méi)有任何文字輸入框——不,準(zhǔn)確來(lái)說(shuō)是有一個(gè)輸入框,但你輸入的是你自己寫好的文章,而不是一個(gè)問(wèn)題或指令。輸出也不是一段生成的文字,而是對(duì)你已有文字的分析。這種設(shè)計(jì)讓AI始終處于工具的位置,而不是創(chuàng)作者的位置。

此外,研究團(tuán)隊(duì)也在擔(dān)心一種叫做"擬人化效應(yīng)"的心理現(xiàn)象:當(dāng)AI系統(tǒng)像人一樣跟你對(duì)話,你會(huì)不知不覺(jué)地開始把它的輸出當(dāng)成權(quán)威,賦予它一種它本不該擁有的可信度。歷史上有一個(gè)著名的例子叫做"ELIZA效應(yīng)"——1960年代麻省理工學(xué)院開發(fā)的早期聊天程序ELIZA,其實(shí)只是在用簡(jiǎn)單的規(guī)則模仿心理咨詢師說(shuō)話,但測(cè)試的人們卻對(duì)它產(chǎn)生了真實(shí)的情感依附,甚至有人把它當(dāng)成真正的治療師。研究團(tuán)隊(duì)認(rèn)為,現(xiàn)代的對(duì)話AI正在以更大的規(guī)模重演這個(gè)問(wèn)題,而MIRROR的非對(duì)話設(shè)計(jì)是一種刻意的對(duì)抗。

在數(shù)據(jù)使用的倫理方面,研究團(tuán)隊(duì)也做了相當(dāng)多的工作。他們用于訓(xùn)練的學(xué)術(shù)文獻(xiàn)都來(lái)自開放獲取來(lái)源,這些論文的作者讓自己的研究成為公共財(cái)富,是為了讓知識(shí)傳播,而不是為了讓商業(yè)公司從中牟利。研究團(tuán)隊(duì)為SHARE制定了一個(gè)叫做"負(fù)責(zé)任AI許可證"(RAIL)的自定義許可條款,明確禁止商業(yè)使用、禁止模型蒸餾(一種從大模型中提取知識(shí)來(lái)訓(xùn)練小模型的技術(shù),如果允許的話商業(yè)公司可以繞過(guò)非商業(yè)限制),并且限制將模型用于自動(dòng)文本生成的應(yīng)用場(chǎng)景。

他們還特別注意數(shù)據(jù)處理的地理范圍:原始數(shù)據(jù)的預(yù)處理只在歐盟境內(nèi)的服務(wù)器上進(jìn)行,發(fā)送到美國(guó)云服務(wù)器進(jìn)行訓(xùn)練的數(shù)據(jù)已經(jīng)是處理后的詞條化形式,并在訓(xùn)練結(jié)束30天后刪除。這與歐盟通用數(shù)據(jù)保護(hù)條例的要求相符。

關(guān)于版權(quán)風(fēng)險(xiǎn),研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)證明SHARE模型并沒(méi)有"背誦"訓(xùn)練數(shù)據(jù)的問(wèn)題。當(dāng)他們用訓(xùn)練集中的文章片段來(lái)測(cè)試模型,讓它按確定性最高的方式逐詞續(xù)寫,模型生成的內(nèi)容很快就偏離了原文,說(shuō)明它沒(méi)有把這些文字原封不動(dòng)地記住。唯一能被"記住"的內(nèi)容是一些標(biāo)準(zhǔn)化的免責(zé)聲明和文件頭部信息,這些本來(lái)就不受版權(quán)保護(hù)。

**七、研究團(tuán)隊(duì)對(duì)局限性的坦誠(chéng)**

這項(xiàng)研究有一個(gè)相當(dāng)少見的特質(zhì):研究團(tuán)隊(duì)對(duì)自己工作的局限性十分坦誠(chéng),沒(méi)有試圖掩飾或淡化。

第一個(gè)已知局限是語(yǔ)言覆蓋面。盡管人文社科是一個(gè)全球性的學(xué)術(shù)領(lǐng)域,SHARE的訓(xùn)練數(shù)據(jù)主要是英文,以及少量荷蘭文。這意味著它對(duì)人文社科的"期望"是基于英語(yǔ)學(xué)術(shù)文獻(xiàn)的"期望",這本身就是一種偏見——正如第四案例所揭示的,即使是英文開放獲取的人文社科文獻(xiàn),也已經(jīng)因?yàn)闅v史上的殖民結(jié)構(gòu)而存在嚴(yán)重的地理和文化偏向。一個(gè)用這些文獻(xiàn)訓(xùn)練出來(lái)的模型,會(huì)把這些偏見內(nèi)化為"正常",把來(lái)自非洲、亞洲、拉丁美洲的本土知識(shí)框架標(biāo)注為"意外"。研究團(tuán)隊(duì)認(rèn)為這個(gè)局限需要在未來(lái)迭代中通過(guò)納入多語(yǔ)種語(yǔ)料庫(kù)來(lái)解決,但他們同時(shí)也指出,這個(gè)問(wèn)題本身已經(jīng)是MIRROR可以讓人意識(shí)到的一種偏見——模型的局限性變成了可見的學(xué)術(shù)議題。

第二個(gè)局限是SHARE-14B在報(bào)告發(fā)布時(shí)只完成了15%的訓(xùn)練。這意味著目前公開的模型性能只是最終版本的預(yù)覽,很多能力還沒(méi)有完全發(fā)展出來(lái)。在完形填空測(cè)試中與Phi-4已經(jīng)相當(dāng)接近的表現(xiàn),讓研究團(tuán)隊(duì)對(duì)完整訓(xùn)練后的結(jié)果持有信心,但這仍然是推斷,不是已證實(shí)的結(jié)論。

第三個(gè)局限是SSH完形填空基準(zhǔn)測(cè)試本身的局限性。275個(gè)例子、11個(gè)學(xué)科,這個(gè)規(guī)模還相對(duì)有限。此外,測(cè)試中選取的詞對(duì)(正向/負(fù)向、更高/更低等)并不完全能代表所有類型的領(lǐng)域知識(shí),而且測(cè)試摘要中可能有一部分是用大型語(yǔ)言模型輔助寫成的,這會(huì)影響測(cè)試的干凈程度,盡管研究團(tuán)隊(duì)認(rèn)為這個(gè)風(fēng)險(xiǎn)相對(duì)可控。

第四個(gè)潛在風(fēng)險(xiǎn)是MIRROR本身的使用方式可能被誤用。如果讀者(比如論文審稿人)把MIRROR的輸出當(dāng)作一種捷徑——只關(guān)注紅色標(biāo)注的部分,把"出乎意料的多"直接等同于"寫得好"或"有創(chuàng)新性"——這就和研究團(tuán)隊(duì)的設(shè)計(jì)初衷背道而馳了。MIRROR是一個(gè)引發(fā)反思的工具,不是一個(gè)提供結(jié)論的工具。這種誤用的風(fēng)險(xiǎn)是真實(shí)存在的,而且目前沒(méi)有技術(shù)手段可以完全防止。

**說(shuō)到底,這項(xiàng)研究在做一件困難的事**

歸根結(jié)底,SHARE和MIRROR試圖解決的是一個(gè)從根源上就帶有張力的問(wèn)題:如何用本質(zhì)上是"預(yù)測(cè)常規(guī)"的技術(shù),來(lái)支持本質(zhì)上是"創(chuàng)造非常規(guī)"的工作?

研究團(tuán)隊(duì)的回答是:不要試圖讓AI去模擬人文社科的創(chuàng)新,而是讓AI精確地告訴你什么是常規(guī),然后由人來(lái)判斷自己的偏離是不是有意義的偏離。這個(gè)方案不能完全解決這個(gè)張力,但它至少把判斷權(quán)還給了人——把AI從一個(gè)生產(chǎn)者變成了一面鏡子。

這項(xiàng)由荷蘭伊拉斯姆斯大學(xué)鹿特丹分校與英國(guó)開放大學(xué)聯(lián)合發(fā)布的研究(arXiv:2604.11152v1,2026年4月13日),對(duì)所有關(guān)心AI與人文價(jià)值之間關(guān)系的人來(lái)說(shuō),都是一個(gè)值得認(rèn)真思考的參照。如果你想了解更多,可以用論文編號(hào)arXiv:2604.11152在arXiv平臺(tái)上找到完整的技術(shù)報(bào)告,包括所有訓(xùn)練細(xì)節(jié)、基準(zhǔn)測(cè)試數(shù)據(jù)以及MIRROR的技術(shù)實(shí)現(xiàn)方式。

Q&A

Q1:SHARE模型和ChatGPT的根本區(qū)別是什么?

A:SHARE模型只用人文社科領(lǐng)域的文獻(xiàn)訓(xùn)練,沒(méi)有經(jīng)過(guò)"讓模型學(xué)會(huì)回答問(wèn)題"的微調(diào),也沒(méi)有做商業(yè)AI常做的價(jià)值對(duì)齊處理。ChatGPT這類模型是用海量通用互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練,然后進(jìn)一步調(diào)教成能流利對(duì)話的助手,設(shè)計(jì)目標(biāo)是生成用戶期望的回答。SHARE的設(shè)計(jì)目標(biāo)恰恰相反——它保留的是對(duì)人文社科文本"什么是常規(guī)"的原始判斷,而不是追求流利地生成文字。

Q2:MIRROR界面具體怎么用,普通學(xué)生能用上嗎?

A:使用方式是把自己寫好的文章粘貼進(jìn)MIRROR,系統(tǒng)會(huì)對(duì)每個(gè)詞計(jì)算"意外程度分?jǐn)?shù)"并用顏色深淺顯示出來(lái)。顏色越深說(shuō)明這個(gè)詞在人文社科文獻(xiàn)中越不常見。懸停在某個(gè)詞上還能看到模型"原本期待在這里出現(xiàn)的詞"。研究團(tuán)隊(duì)提到SHARE-4B的量化版本可以在只有CPU的普通筆記本電腦上運(yùn)行,未來(lái)有讓學(xué)生能在本地使用的潛力,但目前主要以研究原型的形式存在。

Q3:SSH完形填空基準(zhǔn)測(cè)試是如何保證公平性的?

A:研究團(tuán)隊(duì)專門選取了2026年第一季度發(fā)表的學(xué)術(shù)摘要作為測(cè)試素材,確保這些內(nèi)容在所有被測(cè)試模型的訓(xùn)練截止日期之后才出現(xiàn),從根源上排除了"模型之前見過(guò)這些文字"的可能性。此外,所有被測(cè)試的詞對(duì)(正向/負(fù)向、更高/更低等)都是那種單靠英語(yǔ)語(yǔ)感無(wú)法判斷、必須了解該領(lǐng)域具體研究結(jié)論才能猜對(duì)的詞,專門用來(lái)測(cè)量領(lǐng)域知識(shí)而非語(yǔ)言能力本身。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA官方:弗拉格當(dāng)選年度最佳新秀 成獨(dú)行俠隊(duì)史第三位獲獎(jiǎng)?wù)?>
    </a>
        <h3>
      <a href=羅說(shuō)NBA
2026-04-28 07:21:45
遼寧男籃1-0山東,郭艾倫一針見血道出遼籃內(nèi)線強(qiáng)大優(yōu)勢(shì)

遼寧男籃1-0山東,郭艾倫一針見血道出遼籃內(nèi)線強(qiáng)大優(yōu)勢(shì)

赫岝鄉(xiāng)村攝影
2026-04-29 03:34:08
一場(chǎng)1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國(guó)足鋒線又添猛人

一場(chǎng)1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國(guó)足鋒線又添猛人

零度眼看球
2026-04-28 06:46:34
阿聯(lián)酋退出歐佩克,直接讓全球能源圈來(lái)了個(gè)大震蕩!

阿聯(lián)酋退出歐佩克,直接讓全球能源圈來(lái)了個(gè)大震蕩!

利刃號(hào)
2026-04-28 22:23:41
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

小犙拍客在北漂
2026-04-29 03:02:30
21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過(guò)氣

21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過(guò)氣

悠悠說(shuō)世界
2026-04-25 14:03:58
賴清德做夢(mèng)都沒(méi)想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

賴清德做夢(mèng)都沒(méi)想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

小楊侃事
2026-04-12 09:40:51
中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤將向上變盤!誰(shuí)能領(lǐng)漲?

中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤將向上變盤!誰(shuí)能領(lǐng)漲?

丁丁鯉史紀(jì)
2026-04-28 18:24:04
豆包提前查到事業(yè)編成績(jī)單,全網(wǎng)炸了!

豆包提前查到事業(yè)編成績(jī)單,全網(wǎng)炸了!

互聯(lián)網(wǎng)品牌官
2026-04-27 18:11:08
臺(tái)灣政壇徹底炸鍋!

臺(tái)灣政壇徹底炸鍋!

安安說(shuō)
2026-04-28 10:56:05
聯(lián)想把用了20年的BIOS供應(yīng)商買回家了

聯(lián)想把用了20年的BIOS供應(yīng)商買回家了

薛定諤的BUG
2026-04-27 22:37:44
賴清德向大陸喊話,林佳龍返臺(tái):機(jī)場(chǎng)大言不慚!解放軍打獨(dú)大動(dòng)作

賴清德向大陸喊話,林佳龍返臺(tái):機(jī)場(chǎng)大言不慚!解放軍打獨(dú)大動(dòng)作

共工之錨
2026-04-28 15:40:37
遼寧省委書記、省長(zhǎng)等共同巡看夜經(jīng)濟(jì)市集

遼寧省委書記、省長(zhǎng)等共同巡看夜經(jīng)濟(jì)市集

蘭妮搞笑分享
2026-04-29 00:11:17
白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

海外散修厲飛雨
2026-04-27 17:50:27
和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

翰飛觀事
2026-04-26 14:55:41
帕勞通告全球,拒與臺(tái)灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

帕勞通告全球,拒與臺(tái)灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

厲羽萱
2026-04-29 00:28:09
為什么男人每次偷情要開房,女人每次偷情都在車?yán)锬兀?>
    </a>
        <h3>
      <a href=思絮
2026-04-28 10:25:11
別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

小娛樂(lè)悠悠
2026-04-27 09:21:13
5月1日正式開刀!3萬(wàn)就立案,所有打工人都要警惕

5月1日正式開刀!3萬(wàn)就立案,所有打工人都要警惕

洞見小能手
2026-04-27 21:17:44
2026-04-29 04:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

教育
游戲
親子
旅游
公開課

教育要聞

教育部通知,今年9月份開始,上學(xué)的規(guī)則全變了

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫面

親子要聞

拍這期視頻時(shí)眼淚止不住地流

旅游要聞

莫讓內(nèi)卷式競(jìng)爭(zhēng)削弱旅游消費(fèi)信心

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版