国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

20萬生僻字“重生”記

0
分享至

作者 |辰紋

來源 |洞見新研社

過去,一個古文獻研究專家在處理一批珍貴刻本。突然,一個從未見過的生僻字映入眼簾。按照傳統工作流程,他需要查閱大量工具書才能弄清這個字的含義,期間可能花費數小時甚至數天,這在學界是司空見慣的現象。

但現在,他只需打開“識典古籍”平臺,使用最新上線的編輯器搜字、造字、復制字圖功能,將這個字拆解拼接,系統便從20余萬個字形中精準匹配出了結果——整個過程不到10秒。

這正是字節(jié)跳動用技術助力古籍數字化帶來的變革。通過AI技術,識典古籍不僅大幅降低了古籍整理門檻,提升了工作效率,更解決了困擾古文獻研究領域多年的生僻字整理難題。

01 古籍數字化的三大難題

古籍整理,單從字面上來理解,與普通人的生活幾乎沒有任何關聯,但從宏觀視角來看,作為歷史文明傳承的載體,古籍的價值無可替代。它們既是中國古典學不可或缺的研究基礎,也是社會大眾繼承和發(fā)揚傳統文化的寶貴資源,同時還是世界理解中華文明的重要途徑。

早在1919年,胡適就在《新青年》雜志上發(fā)起了著名的“整理國故”運動,提出“研究問題、輸入學理、整理國故、再造文明”的主張,胡適本人也身體力行,投入巨大精力進行國學研究,創(chuàng)辦《國學季刊》;推動古史討論,擬出“最低限度的國學書目”,向廣大青年大力推薦……

進入21世紀,古籍整理工作的重要程度也在學界、國家管理機構、乃至社會層面形成了共識。2007年,重大文化工程“中華古籍保護計劃”啟動;2018年,《中華人民共和國公共圖書館法》頒布,“公共圖書館要加強館內古籍保護”成為法條……

根據國家古籍保護中心調查結果顯示,我國現存20多萬種古籍,存世50萬個版本,古籍數量達3200多萬冊,然而當前古籍整理工作的現狀卻是數字化程度極低,許多書只是完成了初步的影像掃描,真正實現文本數字化的不到四萬種。

之所以會存在這樣的困境,專業(yè)人才匱乏是首要障礙。

全國高等院校古籍整理研究工作委員會副秘書長吳國武在接受媒體采訪時曾透露,目前全國范圍內專業(yè)從事古籍整理的人員僅有一萬人左右。華東師范大學古典文獻學在讀博士生劉帥以自己作為參照,“一年能整理幾十萬字就很了不起了”。

需要整理的古籍數量巨大,但在供應端,專業(yè)人才不夠,單人效率又有限,古籍整理工作推進自然就快不起來。

其次是生僻字處理存在技術瓶頸,由于古籍中存在大量異體字、俗體字和避諱字,使得文字識別準確率難以提高。傳統OCR技術是為打印材料設計的,面對古書中的不同字體風格、非漢字筆畫符號、折痕和破損缺字,識別效果大打折扣。

最后是資金與版權的桎梏。從1999年“文淵閣四庫全書”數據庫發(fā)布以來,古籍數據庫成為中國古典研究不可或缺的基礎設施,同時大多數的重要典籍也都已經完成了數字化。

由于最方便使用的古籍圖文庫基本上都是商業(yè)數據庫,這就限制了普通公眾的訪問。

隨著人力校對成本越來越高,商業(yè)古籍庫擴容的邊際收益斷崖式下跌,這就使得現階段很多古籍數字化工作成果有些“養(yǎng)在深閨人未識”的狀態(tài),不能被公眾充分利用,并且發(fā)展建設難以為繼。

02 從“字圖”到“造字”的技術破局

正是在這樣的背景之下,字節(jié)跳動在2022年10月,與北京大學合作推出了完全公益的古籍智能閱讀和整理平臺——“識典古籍”,旨在通過技術力量改變傳統古籍整理模式。

識典古籍初期就整合了三大核心技術,文字識別(OCR),自動標點和實體識別,這意味著機器已經能夠初步“讀懂”古文。

就在不久前,針對古籍數字化中最棘手的生僻字問題,識典古籍平臺推出了編輯器造字、拼字、字圖復制功能,將古籍數字化工作的效率又向前推動了一大步。

在以往的古籍數字化過程中,遇到字庫中沒有的生僻字或異體字時,研究人員的通常做法是截取該字在古籍掃描圖中的局部區(qū)域的圖片作為替代,稱之為“字圖”。

然而這樣處理存在明顯缺陷,字圖有當時古籍本身的印刷書寫風格和背景,不宜閱讀;同時,不同字圖可能實為同一字,卻因無法識別而被重復截取,造成整理混亂。

識典古籍給出的解決方案是自研了一套拼字輸入法(拼出字圖)、造標準宋體字(造出字圖)等算法,以幫助研究人員在整理古籍時能夠快速的輸入生僻字甚至“造”出字體。

拼字輸?法的技術原理并不復雜,就是讓用戶在自己認識的簡單字和簡單筆畫的基礎上,去搜索更加復雜的漢字,即便不清楚這個漢字的字音、字義,也能憑借字形快速匹配。

例如,“矦”字可由“?”“廠”“矢”組成,輸入這些部件即可召回該字。對于普通人來說,雖然這個字我不認識,但總有它的部分我認識,認識什么輸入什么,就可以把這個字拼出來。這種方式比五筆輸入法更直觀,無需記憶詞根,也支持生僻字檢索。

在研發(fā)過程中,團隊面臨的核心挑戰(zhàn)是漢字組合的極端復雜性。例如一個“椪”字,就有“木並”、“木?業(yè)”、“木丷亞”、“木八亞”等多種拆分方式,組合數量呈階乘級增長,傳統窮舉方法根本行不通。

團隊曾嘗試用有向無環(huán)圖來建模漢字部件關系,想象一堆有箭頭連接的積木,箭頭只指向后方,且絕對不允許形成一個閉合的圓圈,這樣我們就可以從起點一路暢通無阻地走到終點,但十萬漢字構建的圖譜對性能挑戰(zhàn)巨大,也難以量化匹配效果。

那段時間,組內成員兵分幾路,有人繼續(xù)嘗試圖結構優(yōu)化,有人從組合數學角度尋找新思路。大家頻繁交流、互相“挑戰(zhàn)”,常常列舉出各種bad case推翻對方方案,卻又在碰撞中萌生新的靈感。

最終,識典古籍研發(fā)團隊設計出了一套高性能、通過計算漢字細節(jié)特征進行匹配的解決方案,可支持在20余萬個漢字中實時搜索。

該方案在初始加載階段,不僅會整體收集每個漢字的組成部分作為其特征,還會構建一套簡繁字、偏旁部首的等價映射表,如“馬”可代“馬”、“水”可代“氵”。

在搜索階段,算法會先對用戶輸入進行前置處理以提升容錯能力,比如相似的“”和“乚”都會被處理成“乚”,然后比對用戶輸入與所有漢字特征之間的差異,按匹配程度排序返回最佳結果,若匹配失敗,算法還會自動使用等價映射表重新檢索,如輸入“水”、“木”可查找出“沐”,顯著降低輸入門檻,更貼合用戶的用字習慣。

記得那天下午,當第一版算法驗證通過、匹配準確率大幅提升時,整個團隊都感到“內心無比激動”。長期困擾項目的瓶頸終于突破,多位成員在現場忍不住鼓掌。

拼字輸入法主要輔助研究人員找到當今已經被編碼的漢字,對于古籍中存在的?些沒有被計算機編碼的漢字,識典古籍團隊又開發(fā)了基于IDS造出標準宋體字的算法,通過結構化的描述?式去表達任意?個漢字,進而為這個生僻字量?設計字體。

根據識典古籍團隊介紹,IDS是Unicode標準定義的漢字結構描述語法,通過IDC符號(用于描述漢字結構,如?、?、?、?、?等)和漢字部件組合而成。例如,“古”字是上下結構,其IDS就是 “?十口”。

通過分析漢字的空間結構輸入相應的IDS表達式生成字體字形,以上是不同空間結構的示例

造字的核心是解析用戶輸入的IDS表達式,為每個部件選擇合適的變形和空間布局,組合成新字。例如,在處理左右結構時,需控制部件寬度比例和間距;在處理包圍結構時,需確定缺口位置并在缺口處合理放置被包圍的部件。

團隊在開發(fā)過程中摒棄了“大而全”的幻想,比如像‘廴’只需主要考慮‘?’布局,無需過多考慮?、?、?、?等其他情況,轉而遵循實際漢字布局規(guī)則,逐步實現了覆蓋常見結構的造字引擎。

由于造字是基于IDS的,所以它天然就具有漢字的組成信息,因此用戶“造”出來的字經平臺審核通過后也可以使用上述的拼字輸入法搜索出來,實現相互聯動。

就像識典古籍研發(fā)團隊說的那樣,編輯器搜字、造字、復制字圖功能就像一個“萬能積木”,讓古籍整理這項傳承文明的事業(yè)不會因為“字”而被阻礙,而讓團隊自豪的是,當看到自己設計的造字工具能生成古籍中千變萬化的字形,甚至一些早已遺失在歷史中的字體重現屏幕時,“一種跨越時空的技術成就感油然而生”。

03 將文化基因刻入數字未來

識典古籍的價值不僅僅提高了古籍專業(yè)研究人員的工作效率,更是通過技術手段降低了古籍整理的門檻,使公眾參與成為可能。

去年識典古籍平臺聯合全國22所高校,發(fā)起了“我是校書官”活動,吸引了1萬余名學生報名參加,其中許多人的專業(yè)都與古籍無關。

這項活動的參與流程非常簡單,志愿者在平臺上領取任務,系統提供清晰的指導和要求。校對過程中,AI會輔助標識出可能存在的問題,志愿者只需重點關注這些區(qū)域即可。

平臺還建立了質量保障機制。所有校對結果會經過多種審核,包括機器審核、專業(yè)人員審核等,在提高整理質量的同時,也是人才培養(yǎng)的過程。

在這項活動中,一些非專業(yè)的同學原本對古籍一無所知,但參加活動,校對三個月后,也算跨過了古籍研究的門檻,養(yǎng)成了閱讀古籍的習慣,更難能可貴的是,識典古籍以這種類似于眾包的模式,重塑了古籍整理生態(tài)。

從這一視角來看,古籍數字化的價值遠遠超出了保護本身,它讓古籍內容變得更加可用、易懂,為文化傳承和創(chuàng)新提供了基礎。

全國高等院校古籍整理研究工作委員會副秘書長吳國武教授在接受媒體采訪時曾表示,“古籍相當于先人的知識體系,將經典智慧為現代人所用,是非常重要的任務”,數字化后的古籍可以被更容易地檢索、分析和利用,為學術研究提供支持。

更重要的是,數字化古籍還正在成為文化創(chuàng)新的源泉。從去年風靡全球的游戲“黑神話悟空”,到今年的動畫電影《哪吒2》,都是傳統文化創(chuàng)造性轉化的案例,而浩瀚的典籍文化遺產正是文化產業(yè)取之不盡的素材資源。

根據官方公布的數據,識典古籍平臺在數萬名來自高校、社會及字節(jié)跳動員工的古籍整理志愿者共同努力下,現已經免費公開3萬余部古籍,每月有超240萬用戶訪問量。在2025年底,將發(fā)布4萬部古籍面向公眾開放。

AI正在讓那些沉睡在圖書館庫房里的古籍蘇醒,重新跳動起來,融入當代人的文化生活之中。就像幾個世紀前,這些書籍影響著當時的文人學者那樣,繼續(xù)參與中華文明的演進與傳承。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
浙大調查發(fā)現:腸道內有息肉的人,身體一般或可能有這6個特征

浙大調查發(fā)現:腸道內有息肉的人,身體一般或可能有這6個特征

垚垚分享健康
2026-04-22 18:45:05
特魯姆普澆滅趙心童世界第一!11位種子全晉級,墨菲死里逃生

特魯姆普澆滅趙心童世界第一!11位種子全晉級,墨菲死里逃生

觀察鑒娛
2026-04-23 10:58:02
沃克:希望下個賽季我們能讓球迷感到自豪并重返頂級聯賽

沃克:希望下個賽季我們能讓球迷感到自豪并重返頂級聯賽

懂球帝
2026-04-23 05:55:44
大快人心!張敬軒復出泡湯,霍汶希被拖下水,英皇如坐針氈

大快人心!張敬軒復出泡湯,霍汶希被拖下水,英皇如坐針氈

一盅情懷
2026-04-21 19:20:32
官宣!切爾西換帥,劍指冠軍,傳奇中場剛剛奪冠,有望三度回歸

官宣!切爾西換帥,劍指冠軍,傳奇中場剛剛奪冠,有望三度回歸

嗨皮看球
2026-04-23 11:12:37
福建省司法廳,新任一位副廳長

福建省司法廳,新任一位副廳長

人民資訊
2026-04-23 09:50:07
官方回應女子腳踹保安被反扇 “公安部門介入已經立案” 律師解讀保安行為是否屬于正當防衛(wèi)

官方回應女子腳踹保安被反扇 “公安部門介入已經立案” 律師解讀保安行為是否屬于正當防衛(wèi)

閃電新聞
2026-04-22 22:53:15
以色列何去何從,歷史驚人的相似,猶太人在打中國的主意

以色列何去何從,歷史驚人的相似,猶太人在打中國的主意

東風寄的千愁
2026-04-16 05:51:58
太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

橙星文娛
2026-04-17 13:19:56
女兒被父親硬喂 501 篇論文署名,不知情的她控訴:我讓他住手,可他不聽

女兒被父親硬喂 501 篇論文署名,不知情的她控訴:我讓他住手,可他不聽

生物學霸
2026-04-23 11:57:40
發(fā)現一個特點,凡是患上糖尿病的患者,身體大多數有這幾個特征

發(fā)現一個特點,凡是患上糖尿病的患者,身體大多數有這幾個特征

白宸侃片
2026-04-23 16:16:36
不插電、沒綠牌!被拋棄的HEV,2026即將席卷全球?

不插電、沒綠牌!被拋棄的HEV,2026即將席卷全球?

新浪財經
2026-04-21 04:53:23
66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

比利
2026-03-21 13:00:22
0罰30分!歷史第一新秀!弗拉格不要太羨慕

0罰30分!歷史第一新秀!弗拉格不要太羨慕

籃球實戰(zhàn)寶典
2026-04-22 22:56:36
遲來一年的懺悔!小S親口講述真相,大S執(zhí)意去日本另有深意

遲來一年的懺悔!小S親口講述真相,大S執(zhí)意去日本另有深意

阿郎娛樂
2026-04-22 11:07:26
國際油價短線快速沖高回落

國際油價短線快速沖高回落

每日經濟新聞
2026-04-23 08:26:04
臺積電暫不采購阿斯麥下一代光刻機,3.5億歐元單臺價格成關鍵,采購計劃延續(xù)至2029年

臺積電暫不采購阿斯麥下一代光刻機,3.5億歐元單臺價格成關鍵,采購計劃延續(xù)至2029年

金融界
2026-04-23 12:17:35
【早報】 白宮:特朗普未就與伊朗?;鹧娱L設最后期限;美股、油價、金價同步上漲

【早報】 白宮:特朗普未就與伊朗?;鹧娱L設最后期限;美股、油價、金價同步上漲

財聯社
2026-04-23 07:08:08
傷病暴擊!上海內線雙大腿報銷,盧偉罕見認慫,季后賽懸了

傷病暴擊!上海內線雙大腿報銷,盧偉罕見認慫,季后賽懸了

生活新鮮市
2026-04-23 17:54:53
李小冉的顏值被嚴重低估了!董潔、湯唯和她合影,都黯然失色了

李小冉的顏值被嚴重低估了!董潔、湯唯和她合影,都黯然失色了

八斗小先生
2026-04-23 16:31:41
2026-04-23 19:12:49
洞見新研社
洞見新研社
專注商業(yè)與科技,深思五分鐘。
280文章數 152關注度
往期回顧 全部

藝術要聞

這是漢朝國師寫的草書,王羲之筆法正源于此

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態(tài)度原創(chuàng)

家居
手機
健康
公開課
軍事航空

家居要聞

浪漫協奏 法式風格

手機要聞

三星研發(fā)新型顯示系統,可實現手機平板2D/3D畫面自由切換

干細胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版