国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一年半15億字,AI塑造古籍整理新范式

0
分享至


圖來源/數(shù)智時代古籍研究前沿論壇暨‘我用AI校古籍’(2025年)總結會

無論你是否身處AI行業(yè),近期總能頻繁刷到關于中國AI新物種的新聞。在美國拉斯維加斯會展中心舉辦的CES大會上,來自中國的AI產(chǎn)品遍布各個展館,成為全場關注的焦點,這也恰如其分地印證了2025年中國AI應用落地的蓬勃發(fā)展態(tài)勢。

AI正在為萬物賦予新的可能性,過去一年里,各類軟硬件新產(chǎn)品層出不窮,AI教育、AI電商、AI家電、智能穿戴、AI健康、AI助手、AI陪伴等應用遍地開花。AI 已經(jīng)成為一切產(chǎn)品的底層能力。

相比百億乃至千億賽道里的AI產(chǎn)品,在沒被更多人關注到的傳統(tǒng)文化領域,AI發(fā)揮的作用同樣耀眼。

古籍整理原本是一個專業(yè)門檻極高的工作,需要專家和學者逐字敲擊錄入電腦,過程中還得分辨版刻混用字、俗體字、異體字、底本錯字,工作可謂艱辛且繁瑣?,F(xiàn)在AI 能夠把這些工作分層,大多數(shù)工作可以由機器和簡單的人工操作來完成。

這意味著AI重塑了古籍整理的新范式很多人僅憑借興趣愛好就能參與古籍整理的工作,讓沉睡千年的古籍以更快的速度走出“深閨”。

古籍為什么重要?近現(xiàn)代歷史上,古籍文字憑借美感吸引著名家著書立言。朱光潛在《中國古代美學簡介》中提出,古籍不僅是文獻資料,其版式、字體等也具有極高的審美價值。

孔子校訂"六經(jīng)"是中國最早的系統(tǒng)性古籍整理實踐,奠定了后世古籍整理以校勘、注釋為核心的方法論基礎。兩千多年后,一幫古籍愛好者在AI 的輔助下踏上孔子走過的路,他們以技術為舟楫,渡向孔子曾渡過的河。

2024年,字節(jié)公益平臺識典古籍發(fā)起“我用AI校古籍”活動,上線僅一年半便吸引3.7萬人報名參與,累計整理2萬部共15億字。背后靠的正是識典古籍平臺里幾乎無處不在的AI。

古籍大眾智能化的春天已來,而這一切是如何發(fā)生的呢?

01

AI重塑了古籍整理的新范式

古籍是文化傳承的重要載體,承載著豐富的歷史信息、文化內涵和思想智慧,千百年來古籍在流動的文明長河滋養(yǎng)著人們的精神世界。即便到了如今的AI時代,當很多人以為這種艱澀難讀的古籍應當被束之高閣時,它卻依舊迸發(fā)著新的活力。

識典古籍團隊甚至都沒料想到,一場古籍整理活動能吸引數(shù)萬公眾參與。

劉爾君是上海大學中國古代文學專業(yè)研二的學生,自小喜歡文學。2025年4月,她偶然看到網(wǎng)上招募“我用AI校古籍”志愿者的消息,毫不猶豫報了名,“這既是我的專業(yè)也是我的熱愛。”

順利入選后,從“初階組”做到“進階組”,短短幾個月她累計校對近70卷古籍,其中包括7卷《永樂大典》。她參與的首批任務以佛經(jīng)為主,如《金剛經(jīng)》《楞嚴經(jīng)》《華法經(jīng)》等佛教經(jīng)典古籍,“佛經(jīng)用字繁復,異體字多,初看如天書,但越難越有趣?!眲柧Q,校對近70卷古籍不算什么,她有個同學校對了200多卷。

對很多不熟悉古籍的大眾而言,很容易被《永樂大典》這種類古籍大部頭嚇退,事實上并非只有文學愛好者才能校對古籍。在校對古籍的數(shù)萬參與者里,不僅有千余所高校的師生,也有上班族、退休老人,甚至青少年。

校對古籍的工作,正從“學人時代”進入到大眾智能化時代。這背后離不開識典古籍AI功能的迭代和進化。

2022年10月,字節(jié)跳動聯(lián)合北京大學共同打造了識典古籍數(shù)字化平臺,AI技術正式進入古籍整理全流程。依托AI,識典古籍還將哈佛燕京圖書館的7000部古籍轉化為高清數(shù)字資源,并免費向公眾開放,用戶登錄平臺可檢索宋刻《十誦律》、元刻《隋書》、明抄《永樂大典》等珍本。

隨著人工智能技術的突飛猛進,2024年識典古籍發(fā)起“我用AI校古籍”活動,旨在把古籍整理從專業(yè)性工作降到普通大眾均可參與的文化實踐。

過去古籍整理因專業(yè)人才匱乏、生僻字識別難度大,整理效率長期偏低。AI的引入顯著改變了這一局面:AI可快速完成初步點校和基礎整理工作,再將任務拆解為多個簡單、標準化的模塊,大幅降低參與門檻。

完全沒有古籍整理背景的志愿者,只需借助“識典古籍”平臺的OCR校對等AI工具及配套教程,即可高效完成古籍的初步整理任務。

為什么大眾會熱衷整理古籍?擁有十多年古籍整理經(jīng)驗的清華大學人文學院副教授唐宸告訴我們,主要是AI的強大功能,降低了大眾對傳統(tǒng)古籍的恐懼。只要破除恐懼心理,投入進去后就很容易發(fā)現(xiàn)古籍中蘊藏的文化美。

以往古籍整理專業(yè)門檻很高,主要依賴專家和學者逐字???、斷句標點,最后還要核校一遍,導致效率低下。

唐宸見證了AI技術如何把學者從這種繁瑣的勞動中解脫出來。他過去整理古籍的方式非常機械,需要把古籍復印出來,再逐字把它錄入到電腦里,敲的時候很容易出錯,如果沒辦法獲得復印件,他就要到圖書館里手抄。

即便那時候有一些工具可用,也達不到當前的效率。例如古籍的圖像轉成文字,就需要用一些古籍OCR(光學字符識別)工具,加標點又要去用一個工具?!斑^去用計算機整理古籍的最大問題是流程比較割裂,現(xiàn)在識典古籍把整個流程統(tǒng)一到了一個系統(tǒng)里?!碧棋氛f。

在識典古籍這個系統(tǒng)里,數(shù)據(jù)可以無縫流轉,完成從頭到尾的所有工作。而隨著大模型能力的進化,古籍整理的速度又進一步提升。

2024年華東師大的博士劉帥參加了“我用AI校古籍”活動,一個月里他初步整理出200萬字的古籍,到了2024年底,三個月時間里劉帥校過、標過、排版過、審過的書一共有191種,總字數(shù)500萬以上?!爸叭斯ふ砉偶球T自行車,現(xiàn)在突然變高鐵了?!眲浾f。

“我用AI校古籍”活動最初是在字節(jié)內部發(fā)起的,沒料想很多員工參與的積極性特別高,當中有喜歡傳統(tǒng)文化的人,或者是文科生。他們一部分價值感來自于,自己當年學的東西竟然還有用武之地。

甚至有一部分員工,下了班就沉浸式校對古籍中,發(fā)現(xiàn)這是一件特別解壓的事。而這正是古籍跨越千年歷史后,與現(xiàn)代人產(chǎn)生的深度連接。

經(jīng)過幾期的招募活動,截止目前,字節(jié)已經(jīng)有兩三千位同事加入到古籍整理活動中。

若想讓更多人參與進古籍整理中,單單是字節(jié)內部人參與還遠不夠。2024年的六月份,識典古籍和北大數(shù)字人文研究中心共同開了一個研討會,決定向公眾推廣這個活動。一年多以來,活動累計帶動3.7萬人參與進古籍整理的工作。

AI“盤活”了沉睡千年的古籍,更激發(fā)出大眾整理古籍的熱情。

02

AI如何校古籍

2025是大模型通過高頻迭代迅速提升性能的一年,陸續(xù)開始應用到各種小眾領域。最近有媒體報道,Gemini 3.0 Pro僅用1小時,就破解了拉丁文古籍《紐倫堡編年史》中500多年未解的神秘注釋,識別出這是中世紀學者的歷法換算表。

豆包作為日活過億的頭部大模型同樣應用廣泛,尤其在傳統(tǒng)文化領域的應用令人驚喜。識典古籍平臺基于豆包大模型的基座,精調出一系列擅長特定任務的專業(yè)模型,因為精調的模型比較小,響應速度也快。它們如同各個領域的專家,被植入進系統(tǒng)內高效絲滑地執(zhí)行任務。

要明白這一點,需知道古籍整理的全流程,從以下步驟也能看出AI 是如何把傳統(tǒng)古籍“盤活”的。

一,把古籍影像上傳到平臺,通過OCR技術自動識別,對古籍的影像文字進行單個切分,再進行文字識別和順序識別。這個過程并不簡單,OCR技術需要將古籍圖像轉化為可編輯文本,接著平臺再將流程拆解為 “AI初?!蟊姶中!獙<揖!?三級體系,最后由北大的專業(yè)力量把關。

這樣的流程最為科學,既提升了效率又將保證了高準確率。


識典古籍平臺粗校版《永樂大典》頁面

二,傳統(tǒng)古籍是沒標點的,AI會通過序列標注的方式對古籍自動進行標點劃分,目的是為了便于現(xiàn)代人閱讀。在這方面AI 極為擅長,唐宸教授說:“早期用電腦加標點質量確實不行,現(xiàn)在識典古籍運用大模型加標點,水平已經(jīng)超過碩士生?!?/p>

三,AI自動為古籍劃分結構。傳統(tǒng)古籍往往“有字無篇”,卷、回、段落、標題全靠讀者肉眼尋找,翻檢效率極低。識典古籍將版面視覺模型與序列標注模型疊加,能識別頁面欄線、插圖,乃至自動輸出多級目錄。

盡管AI處理復雜版式時有較高可靠性,但實際效果受圖像質量、字體變體等因素影響,最后需結合人工校對以提升精度。

四,提取古籍里的人名、地名、書名等,再自動關聯(lián)到百科。AI能通過序列標注方式識別古籍文本中的專有名詞,包括人名、地名、書名、時間、官職五類實體,這是因為模型在訓練過程中學習了古籍的文風和用字規(guī)律,能力相當于這個領域的專家。

識別結果會以不同顏色或下劃線形式高亮顯示,用戶可對錯誤或缺漏的實體進行人工修正,下方還有詞條顯示,甚至可鏈接到抖音百科進一步了解相關知識。


AI識別“子男”并提供詞條,可鏈接到抖音百科

值得一提的是,2024年以前識典古籍主要運用的是傳統(tǒng)NLP (即自然語言處理)技術,現(xiàn)在已經(jīng)完全依賴大模型。這得益于字節(jié)豆包大模型的性能提升,以及火山引擎提供的算力支持。大模型的優(yōu)勢在于,具備龐大的知識儲備,此外深度思考能力讓它更能做出準確的判斷。

當然,大模型并非不會出錯。2024年模型還總出現(xiàn)幻覺,例如會給一個歷史人物補充一些虛假的介紹,但到2025年已經(jīng)減少很多。

古籍大眾化的關鍵一點在于翻譯。很多古籍都是用文言文寫的,閱讀門檻將不少人擋在門外,這就讓翻譯變得尤為重要。過去行業(yè)基本上用的都是機器翻譯,也能出結果,但出錯率比較大。

2024年,識典古籍團隊決定使用大模型進行翻譯。識典古籍的AI翻譯功能由多個精調的模型組成,這些模型有的是歷史專家,有的是佛教專家,能夠讀懂文言文的語境和上下文,直接把專業(yè)技能拉滿。最初機器翻譯的準確率只有13%,運用了大模型進行翻譯后,現(xiàn)在準確率已經(jīng)能達到80%乃至90%。

如果說以上的AI能力打通了古籍和大眾的那堵墻,讓大眾都能參與進來校對。那么識典古籍的“深度研究助手”,則是為了幫助專家和學者更高效便捷地使用。


識典古籍深度研究助手界面

這款深度研究助手同樣是基于大模型的古籍研究工具。它并非簡單的"問答機器人",而是具備自主研究能力的AI智能體,能夠對平臺收錄的數(shù)萬部古籍進行深度挖掘與智能分析,自主完成從研究計劃制定、知識系統(tǒng)挖掘、表格整理與研究報告生成的全流程工作。

用戶只需輸入研究主題,便能在古籍資料中進行全面的挖掘與智能分析,顯著提升研究效率與深度。

唐宸教授在日常調研和學習中,已經(jīng)深度依賴這個深度研究助手,主要用來檢索一些比較細節(jié)的古籍知識,還經(jīng)常向它提問開放性問題。一定程度上,這個深度研究助手相當于他的“同行”,能和他一起碰撞靈感。

作為深度且專業(yè)的用戶,唐宸對識典古籍的評價很高?!皬拈喿x和檢索圖文的角度來說,識典古籍應該是最好用的,主要因為它數(shù)字化的古籍足夠多,現(xiàn)在已有四萬多種的體量了?!碧棋氛f。

03

大眾智能時代

幾年下來,識典古籍的數(shù)字化成績斐然。2022年10月,識典古籍以390部古籍為基礎,在網(wǎng)頁端、今日頭條古籍頻道正式上線第一版產(chǎn)品。

如今3年多過去,平臺已累計向全社會開放超47000部古籍資源,各渠道每月服務用戶超240萬人,每天有35萬人次檢索資料,平臺總訪問量突破1.47億。

從390部到4萬多部,識典古籍用3年多時間實現(xiàn)了體量的百倍擴容。這得益于AI大模型與豆包技術的深度應用,實現(xiàn)了古籍的智能化整理與深度研究助手功能,讓古籍研究更高效、更普及。

背后也是科技與文化傳承的深度結合,古籍從“深閨”走向“大眾”,實現(xiàn)了傳統(tǒng)文化的創(chuàng)造性轉化。

隨著“我用AI校古籍”活動的推進,很多的高校自發(fā)把這個活動納入到他們古籍相關專業(yè)的教學中。這個活動有一個統(tǒng)計口徑,稱為貢獻值,貢獻值會折算成學生日常的課堂成績。學生們在古籍校對中既拿了學分,又能感受到傳統(tǒng)古籍的魅力。此外,還有超過4000個外部團隊使用識典古籍進行古籍研究整理。

可以說傳統(tǒng)古籍的"活化",離不開所有人的參與。他們?yōu)槲幕瘋鞒凶龀鲎约旱呢暙I,從專業(yè)修復到大眾傳播,從學術研究到創(chuàng)意轉化,各方力量共同織就了古籍活化的恢弘畫卷。

1月10日,“數(shù)智時代古籍研究前沿論壇暨‘我用AI校古籍’(2025年)總結會”在北京舉行。活動現(xiàn)場,北京字節(jié)跳動企業(yè)社會責任部產(chǎn)品與運營總經(jīng)理羅海岳向行業(yè)同仁發(fā)出邀請:“識典古籍是一個共建共享平臺,我們期待與更多專業(yè)機構和團隊合作共建?!?/p>

這份邀請很快得到回應。在當天“數(shù)智時代古籍整理與人才培養(yǎng)”分論壇上,來自北京大學、暨南大學、內蒙古師范大學等高校的老師們,紛紛談起把“識典古籍”搬進課堂,以及用于學科建設的經(jīng)歷。

清華大學人文學院副教授唐宸,對識典古籍幾乎手不釋“卷”。他說,只需打開手機版識典古籍a(chǎn)pp,就能隨手查資料,哪怕在火車上。

唐宸認為,識典古籍還改變整個行業(yè)。學術界過去用同類型的產(chǎn)品,通常里面只有一兩萬種古籍,而且收費很高。識典古籍作為公益平臺不僅古籍數(shù)量龐大,還完全免費,為推廣傳統(tǒng)文化做出巨大貢獻。

“都說我們中國有5000年文明,你得讓民眾看見,口頭說沒有意義,得讓他們去閱讀,去查找,去檢索?!碧棋氛f。而這就是識典古籍努力向大眾普及的事。

古籍作為中華文明的重要載體,其保護與活化對于傳承民族文化、增強文化自信具有深遠意義。未來,字節(jié)跳動將在古籍保護傳承之路上繼續(xù)深耕,擴充古籍資源,并降低公眾閱讀和理解門檻。而隨著大模型的持續(xù)迭代,AI一定能幫助更多古籍煥發(fā)新生。

撰文|孫方

編輯|柳嘉

「白鯨實驗室」原創(chuàng)文章

轉載、交流、合作請?zhí)砑游⑿牛簂iujiaquan2025


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
假貨率高達70%!不銹鋼餐具造假黑幕,消費者被坑慘,家長要警惕

假貨率高達70%!不銹鋼餐具造假黑幕,消費者被坑慘,家長要警惕

趣文說娛
2026-03-10 16:47:22
凌晨刷屏!中遠海運強硬反擊 巴拿馬港口空箱全撤 所有訂艙悉數(shù)取消

凌晨刷屏!中遠海運強硬反擊 巴拿馬港口空箱全撤 所有訂艙悉數(shù)取消

生活新鮮市
2026-03-14 00:18:55
美國“林肯”號航母已經(jīng)被擊中,失去了作戰(zhàn)能力,目前已返回美國

美國“林肯”號航母已經(jīng)被擊中,失去了作戰(zhàn)能力,目前已返回美國

安安說
2026-03-14 18:53:39
中東魔幻一幕:哈馬斯突然勸伊朗收手,別打鄰居!臉都不要了

中東魔幻一幕:哈馬斯突然勸伊朗收手,別打鄰居!臉都不要了

老馬拉車莫少裝
2026-03-14 18:34:48
阿德巴約:如果逝者能夠開口說話,我堅信科比一定會恭喜我

阿德巴約:如果逝者能夠開口說話,我堅信科比一定會恭喜我

懂球帝
2026-03-14 09:45:09
57歲王菲斷崖式衰老!臉腫皮膚松,十個月前和謝霆鋒秀恩愛差距大

57歲王菲斷崖式衰老!臉腫皮膚松,十個月前和謝霆鋒秀恩愛差距大

青梅侃史啊
2026-02-18 07:25:41
在剛剛,17家公司出現(xiàn)重大利好消息,看看有沒有與你相關的個股?

在剛剛,17家公司出現(xiàn)重大利好消息,看看有沒有與你相關的個股?

股市皆大事
2026-03-14 11:09:10
北京市屬公園春花觀賞季陸續(xù)啟幕

北京市屬公園春花觀賞季陸續(xù)啟幕

北京商報
2026-03-13 17:12:20
分手7年范冰冰也沒想到,46歲李晨隱藏身份曝光,王寶強沒說錯

分手7年范冰冰也沒想到,46歲李晨隱藏身份曝光,王寶強沒說錯

錯過美好
2026-03-13 23:16:47
別等孩子上了初中才明白:小學最重要的,根本不是刷了多少題

別等孩子上了初中才明白:小學最重要的,根本不是刷了多少題

諾媽家有男寶娃
2026-03-13 15:15:55
有很多人可能根本“撐不過”2026年了

有很多人可能根本“撐不過”2026年了

放牛娃的遐想
2026-03-12 08:29:33
早春外套別亂買!跟著博主解鎖3件王炸單品,顯瘦時髦一整季!

早春外套別亂買!跟著博主解鎖3件王炸單品,顯瘦時髦一整季!

虎哥說衣不二
2026-03-14 19:10:10
蒙古總理換人后,一下子硬氣了,當面要求西方廢除不平等條款

蒙古總理換人后,一下子硬氣了,當面要求西方廢除不平等條款

知鑒明史
2026-03-13 18:31:46
蒙哥馬利:我們在定位球防守需做得更好,侯森肋部受傷需休息

蒙哥馬利:我們在定位球防守需做得更好,侯森肋部受傷需休息

懂球帝
2026-03-14 18:38:05
曝1名伊朗女足留澳球員接受足協(xié)主席命令 勸說其他隊友返回伊朗

曝1名伊朗女足留澳球員接受足協(xié)主席命令 勸說其他隊友返回伊朗

念洲
2026-03-14 13:47:06
上甘嶺戰(zhàn)役,美軍為什么不像對付日軍那樣,用噴火器向坑道里狂噴

上甘嶺戰(zhàn)役,美軍為什么不像對付日軍那樣,用噴火器向坑道里狂噴

朝子亥
2026-03-14 17:15:03
不要再叫喊擊沉美航母了:擊沉一艘航母有多難?你根本看不懂

不要再叫喊擊沉美航母了:擊沉一艘航母有多難?你根本看不懂

起喜電影
2026-03-02 07:35:37
“美國不敢打”論誤國誤民!

“美國不敢打”論誤國誤民!

據(jù)說無據(jù)
2026-03-12 15:56:59
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
以軍發(fā)動大規(guī)模空襲 伊朗首都發(fā)生爆炸

以軍發(fā)動大規(guī)??找u 伊朗首都發(fā)生爆炸

財聯(lián)社
2026-03-14 02:40:14
2026-03-14 20:00:49
白鯨實驗室one incentive-icons
白鯨實驗室one
記錄 AI改變世界的瞬間
103文章數(shù) 14關注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術首秀 實力重構主流電混SUV

態(tài)度原創(chuàng)

旅游
手機
數(shù)碼
親子
軍事航空

旅游要聞

濟南2026花期預報來了,帶你精準打卡春日花海

手機要聞

華為新機三箭齊發(fā):暢享90系列、Pura X2、Pura 90,均迎大變化!

數(shù)碼要聞

399 元 2TB!長江存儲致態(tài) TiPlus7200 殺瘋,7200MB/s 封神

親子要聞

萌娃為何覺得自己和大人一樣?聽到答案的大人們繃不住了

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無障礙瀏覽 進入關懷版