国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

談古籍知識庫建設(shè)的兩次嘗試

0
分享至

談古籍知識庫建設(shè)的兩次嘗試

孫顯斌 攸興超

(本文發(fā)表於《中國古典學(xué)》第七輯,引用請以該刊為準(zhǔn))

提 要:

古籍?dāng)?shù)字化工作目前亟需加強(qiáng)基礎(chǔ)設(shè)施建設(shè),這部分由古籍目錄庫、古籍圖文庫和古籍知識庫三部分組成。目前古籍圖文庫發(fā)展比較突出,而古籍目錄庫和古籍知識庫的建設(shè)則比較落後。這裡我們回顧了十五年前北京大學(xué)數(shù)據(jù)分析研究中心建設(shè)的古籍目錄庫和古籍知識庫兩個超前實例,回應(yīng)近期古籍?dāng)?shù)字化工作的發(fā)展趨勢。

關(guān)鍵詞:

古籍知識庫 本體 語義網(wǎng) 資治通鑒知識服務(wù)系統(tǒng)

中國歷代典籍總目系統(tǒng)

一、 古籍?dāng)?shù)字化發(fā)展的簡要回顧

與國際上的情況一樣,我國古籍?dāng)?shù)字化也肇始于文本計算研究。最初的主題是《紅樓夢》後四十回的作者問題,1980年時爲(wèi)威斯康星大學(xué)東亞系博士的陳炳藻就發(fā)表會議論文,利用計算機(jī)統(tǒng)計詞頻討論這一問題。[1]稍後的1985年,鎮(zhèn)江市科委與東南大學(xué)(原南京工學(xué)院)合作完成了《紅樓夢》數(shù)據(jù)庫,深圳大學(xué)完成了“紅樓夢多功能檢索系統(tǒng)”。[2]同年中國社科院文學(xué)研究所在副院長錢鍾書的指導(dǎo)和支持下,由欒貴明牽頭成立“計算機(jī)室”,陸續(xù)建成“《全唐詩》速檢系統(tǒng)”“諸子集成數(shù)據(jù)庫”等全文檢索系統(tǒng)。以“《全唐詩》速檢系統(tǒng)”爲(wèi)中心的這一古籍文獻(xiàn)處理系統(tǒng)榮獲 1990 年“國家科技進(jìn)步獎”三等獎、中國社會科學(xué)院科研成果一等獎。[3]幾乎同時,1984年臺灣“中央研究院”開始建設(shè)“漢籍全文數(shù)據(jù)庫”,並于2007年與臺灣大學(xué)合作成立“數(shù)位人文研究中心”,至今已成爲(wèi)數(shù)字人文研究的重鎮(zhèn)。古籍?dāng)?shù)字化這項工作不同于一般的人文研究,特別消耗資源,沒有專門的機(jī)構(gòu)以及持續(xù)的投入是不可能做出成績的,實際上這一點至今爲(wèi)止也沒有得到應(yīng)有的重視。1988年起香港中文大學(xué)逐步建設(shè)“漢達(dá)古籍?dāng)?shù)據(jù)庫”。而真正起到劃時代作用的是1999年由香港迪志文化和上海人民出版社合作出版的電子版《文淵閣四庫全書》,一時間它成爲(wèi)人文學(xué)者必備的研究工具,開啓了後來愛如生、雕龍、鼎秀等古籍?dāng)?shù)據(jù)庫的先河。古籍?dāng)?shù)字化按照現(xiàn)今的工作流程可以分爲(wèi)四個階段,即圖像化、文本化、知識化和智能化。實際發(fā)展進(jìn)程中,圖像和文本建設(shè)是交叉進(jìn)行的,最早的古籍?dāng)?shù)據(jù)庫不是圖像庫而是人工錄入的文本數(shù)據(jù)庫。上面談到的這些古籍圖文對照數(shù)據(jù)庫即是文本化階段的代表性成果。隨著OCR識別和聚類校對技術(shù)的逐漸成熟,文本數(shù)據(jù)庫建設(shè)已從人工錄入轉(zhuǎn)變成文本識別和校對。這裡說的智能化是指大數(shù)據(jù)和人工智能背景下的古籍?dāng)?shù)字化的進(jìn)展,目前雖然已經(jīng)有了一些古籍大模型,但發(fā)展前景並不明朗。越來越多的人有了這樣一個共識,即使有了大模型技術(shù),專業(yè)領(lǐng)域模型依然是重要的,也就是說古籍知識庫建設(shè)這一階段不能跨越。

隨著古籍圖文庫建設(shè)技術(shù)的逐步成熟,學(xué)界開始探索建設(shè)古籍知識庫,這一階段北京大學(xué)中文系李鐸團(tuán)隊(後來成立了北京大學(xué)數(shù)據(jù)分析研究中心)是非常具有代表性的研究團(tuán)隊,從本世紀(jì)初開始就基于語義網(wǎng)和本體的思想,先後開發(fā)了“全唐詩分析系統(tǒng)”“全宋詩分析系統(tǒng)”“數(shù)字中國古代文學(xué)史”“中國歷代典籍總目系統(tǒng)” “二十五史研習(xí)系統(tǒng)”等一系列古籍知識庫産品。尤其是2008年開始與中華書局合作開發(fā)的“資治通鑒知識服務(wù)系統(tǒng)”,作爲(wèi)古籍知識庫的先鋒,到目前爲(wèi)止還是代表性成果。

二、 古籍知識庫建設(shè)的路徑探索

我們知道,古籍文本庫帶來研究手段最大的革新就是全文檢索以及基於檢索的統(tǒng)計,即所謂的檢索代替閱讀,但實際上文本檢索面臨很多問題和挑戰(zhàn),除了文本質(zhì)量之外,還有同義異名、同名異義、詞語切分、異體字等諸多問題。[4]在這種情況下,如果我們要深入推進(jìn)文本的語義分析,需要藉助“中文信息處理”中命名實體標(biāo)記的方法。在沒有大模型技術(shù)之前,我們嘗試構(gòu)建古籍知識庫,利用文本分析的方式去探索理解語義。這就需要對古籍文本進(jìn)行分詞和命名實體標(biāo)記,然後再建立各種命名實體之間的語義關(guān)係,從而獲得大量有確切含義的語義材料,構(gòu)成一個語義網(wǎng),在此基礎(chǔ)上嘗試對文本進(jìn)行語義分析甚至理解。史睿很早就提出“開發(fā)出標(biāo)引古籍的智能化軟件,是古籍?dāng)?shù)字化的當(dāng)務(wù)之急?!薄懊枋鲫P(guān)鍵詞的各種屬性是爲(wèi)了計算機(jī)能依照屬性對關(guān)鍵詞進(jìn)行分類、排序、篩選、統(tǒng)計之類的管理,産生再生資源, 以利知識發(fā)現(xiàn)?!盵5]實際上是借鑒圖書館學(xué)通過標(biāo)引建立索引的方法。其後,又提出“古籍資源的本體構(gòu)建和知識發(fā)現(xiàn)”和“古籍?dāng)?shù)字資源知識庫的建設(shè)”的思路。[6]李鐸用具體的研究案例指出“建設(shè)本體庫,就是建設(shè)模型庫。本體是最小的模型。爲(wèi)了讓計算機(jī)能夠爲(wèi)我們提供更廣泛的學(xué)術(shù)支持,我們就要建設(shè)各種各樣的本體?!盵7]孫顯斌認(rèn)爲(wèi)“古籍?dāng)?shù)字化可分爲(wèi)三個層次,即古籍圖像化、古籍全文化和古籍?dāng)?shù)據(jù)庫化。”“‘本體化’要求我們推進(jìn)古籍?dāng)?shù)據(jù)庫化?!薄耙訌?qiáng)古典研究,就必須將古籍?dāng)?shù)字化向古籍?dāng)?shù)據(jù)庫化的層次推進(jìn)。”並結(jié)合實際工程經(jīng)驗談了“本體化”的實現(xiàn)方法和“本體化”古籍?dāng)?shù)據(jù)庫的優(yōu)勢。[8]

這裡講的是利用語義網(wǎng)絡(luò)(Semantic Web)對文本進(jìn)行增強(qiáng)閱讀和分析的方法,同時基于知識庫的思想,用本體(Ontology)來描述一個知識元(Knowledge node),也即一個語義所指,將文本中的知識元進(jìn)行標(biāo)記,使語義相同的文本標(biāo)記都鏈接到相應(yīng)的同一知識元。這就引出古籍知識庫建設(shè)的一對核心概念:“本體”和“標(biāo)記”。其中“本體”就是一個語義所指,“標(biāo)記”就是在文本中表示這一“本體”含義的具體詞語。舉個例子,唐代大詩人{(lán)李白}是一個人物“本體”,而在文本中代表{李白}的具體詞語就是這一本體的“標(biāo)記”,如古籍文本中經(jīng)常出現(xiàn)的“青蓮居士”“太白”“詩仙”等這些代表詩人{(lán)李白}的別稱。如果我們把古籍文本中所有“標(biāo)記”都鏈接到它所屬的語義“本體”上,我們也就完成了文本中的語義識別,也就形成了“本體”和“標(biāo)記”之間的語義網(wǎng)絡(luò),可以準(zhǔn)確地支撐接下來的語義分析和計算?!氨倔w”更像是詞典裡的詞條,但它不僅是一個簡單的條目,它具有自己的屬性集合,也就是自己的關(guān)係集合,一個本體通過自己的屬性與其他本體建立起聯(lián)繫。例如,一個人物本體,他有出生時間的屬性,就和一個時間本體建立起聯(lián)繫,他又有籍貫屬性,就又和一個地名本體建立起聯(lián)係,然後他還做過官、寫過書,有父母親人和朋友,就和職官本體、文獻(xiàn)本體和其他人物本體都建立起特有的聯(lián)係。通過屬性聯(lián)係,各種本體之間也建立起語義網(wǎng)絡(luò),我們同樣可以通過本體之間的語義網(wǎng)絡(luò)進(jìn)語義檢索和計算,實現(xiàn)知識的發(fā)現(xiàn)。

三、 古籍知識庫建設(shè)的兩次嘗試

我們很有幸先後參加了北京大學(xué)數(shù)據(jù)分析研究中心“資治通鑒知識服務(wù)系統(tǒng)”和“中國歷代典籍總目系統(tǒng)”兩個產(chǎn)品的開發(fā),負(fù)責(zé)數(shù)據(jù)加工等工作。由於這兩個產(chǎn)品使用範(fàn)圍不廣,很多人並不了解[9],所以在這裡結(jié)合具體產(chǎn)品談一下古籍知識庫建設(shè)中的一些理念、經(jīng)驗和心得。

(一) 談“資治通鑒知識服務(wù)系統(tǒng)”的建設(shè)

1、“資治通鑒知識服務(wù)系統(tǒng)”的功能簡介

“資治通鑒知識服務(wù)系統(tǒng)”建設(shè)的背景是2007年開始,中華書局爲(wèi)了探索信息時代人文研究的新方法和路徑,決定拿出二十五史和《資治通鑒》的文本佈置了兩個合作探索的項目,其中二十五史是和武漢大學(xué)團(tuán)隊合作,《資治通鑒》是和北京大學(xué)數(shù)據(jù)分析研究中心合作。項目沒有任何具體要求,只是鼓勵做更前沿甚至超前的嘗試。於是北大團(tuán)隊在李鐸教授指導(dǎo)下運用“本體”和“標(biāo)記”的概念對《資治通鑒》文本進(jìn)行了標(biāo)引和分析,開發(fā)了“資治通鑒知識服務(wù)系統(tǒng)”。知識服務(wù)系統(tǒng)由兩個子系統(tǒng)組成,即閱讀子系統(tǒng)和分析子系統(tǒng)。

閱讀子系統(tǒng)實現(xiàn)了閱讀瀏覽和檢索功能,其中閱讀瀏覽功能提供了分類導(dǎo)航和文本導(dǎo)航兩種導(dǎo)航瀏覽。分類導(dǎo)航即是本體辭典導(dǎo)航,提供了《資治通鑒》中所有的人物、地點、職官、事件和時間等五種本體的辭典庫,可以按一定的順序瀏覽本體辭典,包括查看本體條目的屬性集合以及該本體在《資治通鑒》中的所有標(biāo)記出現(xiàn)的段落。文本導(dǎo)航可以稱爲(wèi)增強(qiáng)閱讀功能,《資治通鑒》的文本可以按照卷序閱讀,卷中的文本用不同顔色的下劃綫標(biāo)注各類本體標(biāo)記。如圖1所示,我們點擊文中“威烈王”的人物本體標(biāo)記,右側(cè)欄顯示該人物本體條目“姬午”的詳細(xì)信息,其後還給出《資治通鑒》中該人物本體的所有標(biāo)記出現(xiàn)的相關(guān)段落。


圖1 “資治通鑒知識服務(wù)系統(tǒng)”文本導(dǎo)航功能

檢索功能分別對應(yīng)本體檢索和全文檢索。各種檢索可以進(jìn)行單條件或多個條件組合檢索。全文檢索支持本體語義檢索,語義檢索與關(guān)鍵字檢索不同,它的精確率和覆蓋率更高。如按“語義檢索”檢索人物“李世民”,不僅可以檢索到 “世民”“李世民”,還可以檢索到 “秦王”“太宗”“文皇帝”等同一本體的不同標(biāo)記。這是一般關(guān)鍵字檢索或同義詞檢索無法做到的。


圖2 “李世民”的人物全景分析圖

分析子系統(tǒng)包括人物分析、地點分析、職官分析、事件分析和事件-時間統(tǒng)計分析。前四種分析均可進(jìn)行全景分析、相關(guān)性分析和聚類分析等功能。a)全景分析功能可以生成人物的全景分析圖,其中不僅列出了人物的詳細(xì)信息,而且還以圖形形式展現(xiàn)了該人物的各類關(guān)係,包括任職情況、相關(guān)地點、相關(guān)人物和相關(guān)事件等。相關(guān)人物中包含了父子、祖孫、兄弟等關(guān)係。點擊相關(guān)的人名,可以顯示該人物的詳細(xì)信息,點擊擴(kuò)展按鈕可以顯示該人物的全景圖;點擊事件可以顯示事件的詳細(xì)信息和事件全景圖,可以看到在事件全景圖中,不僅以不同的顔色展現(xiàn)了事件情況,和有關(guān)人員對事件的注釋和說明,而且還以圖形的方式展現(xiàn)了該事件的相關(guān)地點和相關(guān)人物;點擊相關(guān)的地點可以展現(xiàn)該地點的全景圖,地點全景圖中不僅展現(xiàn)了地點的詳細(xì)信息,還以圖形形式展現(xiàn)了該地點的相關(guān)地點,該地點的相關(guān)人物,在該地點發(fā)生的事件等。b)相關(guān)性分析功能。例如:輸入兩個人物“李世民”和“李淵”,也可以輸入“唐太宗”和“唐太祖”,點擊相關(guān)性分析會展示這兩個人物的血緣關(guān)係、職官關(guān)係以及通過事件關(guān)聯(lián)産生的關(guān)係。點擊其中任何一項,都將以圖形的方式展現(xiàn)該關(guān)係的詳細(xì)信息和關(guān)係列表。c) 聚類分析功能。例如:輸入聚類關(guān)鍵詞「李世民」,聚類元素爲(wèi)4,也就是説至少具有4個相同屬性才進(jìn)行聚類,點擊聚類分析,得出的聚類結(jié)果,將展示聚類的分析報告,包括兩個本體的詳細(xì)信息、相關(guān)人物、相關(guān)事件等。d)事件-時間統(tǒng)計分析功能可以統(tǒng)計事件與時間之間的關(guān)係,以朝代、月、日、節(jié)日、節(jié)氣等爲(wèi)橫坐標(biāo),自動生成結(jié)果圖。通過統(tǒng)計圖表,可以得到不同類型事件在歷史上的發(fā)展軌跡,進(jìn)一步揭示數(shù)據(jù)背後隱藏的豐富知識。


圖3 事件-時間統(tǒng)計分析功能舉例

2、文本標(biāo)引工作與本體屬性結(jié)構(gòu)的系統(tǒng)設(shè)計

之所以說“資治通鑒知識服務(wù)系統(tǒng)”是一個古籍知識庫,是因爲(wèi)我們做了全面的文本標(biāo)引工作,並爲(wèi)其設(shè)計了一套本體屬性結(jié)構(gòu)。

文本標(biāo)引,即用本體標(biāo)引出《資治通鑒》文本中的所有標(biāo)記。我們爲(wèi)《資治通鑒》文本建立了時間、地名、機(jī)構(gòu)、職官、人物、文獻(xiàn)、事件七種本體,標(biāo)引了《資治通鑒》全文的大量標(biāo)記,各類本體和標(biāo)記的統(tǒng)計數(shù)量如下表:


我們的標(biāo)引工作聚焦於文本中的各種命名實體,這是因爲(wèi)這些專有名詞的語義單一,又是分析文本語義的關(guān)鍵實體。但現(xiàn)在看來,其實所有詞語的義項或者説一個義位都可以看作是一個詞語本體,表示確定的語義所指,完全的同義詞則可以作爲(wèi)這一義位本體的不同標(biāo)記。這樣我們其實可以把整個文本全篇不遺漏地標(biāo)引下來,當(dāng)然這樣做的前提是要有一個類似於《王力古漢語字典》指導(dǎo)思想的簡明漢語義位和對應(yīng)詞語表。需要說明的是我們建立事件本體的過程比較複雜,是一個循環(huán)迭代的過程,我們先將《資治通鑒》文本進(jìn)行分段,然後通過部分特征關(guān)鍵詞標(biāo)引事件的分類,再通過分類結(jié)果重新提取更多的特征關(guān)鍵詞,如此反復(fù)迭代,最終完成事件本體的分類標(biāo)籤工作。

設(shè)計本體的屬性是很重要的工作,需要做簡明和統(tǒng)一的規(guī)劃設(shè)計,關(guān)鍵就是對各類本體屬性結(jié)構(gòu)進(jìn)行設(shè)計。比如地名本體,我們可以設(shè)計屬性結(jié)構(gòu)如下表:


我們在設(shè)計過程中發(fā)現(xiàn)一些共性問題,也就是任何本體都需要有別名屬性,其實也需要起始、終止時間的屬性,也就是說任何一個本體都是有“生命”的,有產(chǎn)生時間和消亡時間。我們以黃縣(山東)這個地名爲(wèi)例,從秦漢到近代,存在了兩千多年,但是其實它不是一個本體,因爲(wèi)中間即使名稱沒改變,但是隸屬、範(fàn)圍、治所等等都發(fā)生過改變,只要發(fā)生過改變,嚴(yán)格意義上就不再是同一個地名本體。所以“地名(起始時間-終止時間)”這樣的標(biāo)識才能真正區(qū)分不同的地名本體。上表中下欄中的內(nèi)容是對屬性的說明,其中字符、數(shù)值好理解,關(guān)係屬性的意思是說這類屬性是一種本體,比如屬性的值是時間、人名、地名、機(jī)構(gòu)、職官等等。這類屬性需要存儲屬性本體的id,不能只是字符,因爲(wèi)如果存儲的是字符,將來計算的時候又需要消岐和認(rèn)同?!翱捎嬎恪睂ξ谋緛碚f的第一個要求就是要結(jié)構(gòu)化,這樣計算機(jī)就可以進(jìn)行初步計算。但是結(jié)構(gòu)化的數(shù)據(jù)單元內(nèi)容如果還是文本字符,也就沒辦法往下深入計算。因此我們提出文本的“可計算”有四個要求,即“四化”:結(jié)構(gòu)化、同一化、標(biāo)準(zhǔn)化和關(guān)係化。同一化其實就是上面討論過的“本體化”,即把不同名稱但是語義相同的標(biāo)記進(jìn)行本體認(rèn)同。標(biāo)準(zhǔn)化是同一化的附帶,就是認(rèn)同以後,我們采用哪一個名稱來表示這一本體,比如我們用“諸葛亮”還是“諸葛孔明”,用“周武王”還是“姬發(fā)”,用“魯迅”還是“周樹人”,當(dāng)然這是一種選擇,不過如果我們設(shè)定人名的結(jié)構(gòu)是“姓+名”這一標(biāo)準(zhǔn)格式的話,那麼“諸葛亮”“姬發(fā)”“周樹人”顯然更符合標(biāo)準(zhǔn)格式,雖然“姬發(fā)”並不是當(dāng)時人對周武王的稱呼,“魯迅”也顯然比“周樹人”耳熟能詳。其實關(guān)係化也非常關(guān)鍵,是決定各種本體之間是否能夠建立語義網(wǎng),是否能夠進(jìn)一步計算的關(guān)鍵,據(jù)我們所見所知,目前各種知識庫中的屬性設(shè)計還都沒有實現(xiàn)完全關(guān)係化。上面地名屬性的設(shè)計中,我們只有“上級地名”,而沒有“下級地名”,這是因爲(wèi)只要有一項,另一項就可以計算得出。也就是說我們設(shè)置了“上級地名”,那麼獲得一個地名的所有下級地名,可以從數(shù)據(jù)表中搜索所有“上級地名”屬性爲(wèi)此地名id的地名即可,不用再冗餘設(shè)置“下級地名”。還有一個原因是如果雙向設(shè)置的話,其實就容易出現(xiàn)雙向所指的不一致,需要經(jīng)常檢查這種不一致同樣要消耗很多計算工作量。因爲(wèi)一種本體的屬性可能包含其他所有本體,比如人物本體,它的屬性生卒年是時間本體、籍貫是地名本體、親屬關(guān)係是人物本體,著書是文獻(xiàn)本體,任職是職官本體,所以要實現(xiàn)人物本體所有屬性的關(guān)係化,就要同時配套有其他所有本體數(shù)據(jù),也就是說本體設(shè)計一定是統(tǒng)一的系統(tǒng)設(shè)計,只設(shè)計一種或少數(shù)本體,是沒辦法實現(xiàn)完全關(guān)係化的。其實這就是“中國歷代人物傳記資料庫(CBDB)”的天然缺陷,因爲(wèi)它主要圍繞人物本體數(shù)據(jù)建設(shè)展開,沒有其他配套的本體數(shù)據(jù)支撐,無法實現(xiàn)本體屬性的完全關(guān)係化,也就必然限制它的後續(xù)利用。

本體數(shù)據(jù)可以預(yù)先根據(jù)一些資料建設(shè),但是一般都是與標(biāo)引工作共同迭代完成的。比如我們可以通過“資治通鑒辭典”“二十五史辭典”之類的工具書先建立一批本體數(shù)據(jù)。實際標(biāo)引工作中,我們要將文本標(biāo)記掛接到正確的本體上,這項工作我們是依靠計算機(jī)上下文自動分析再人工校對完成的。文本標(biāo)引工作中就會發(fā)現(xiàn)本體庫中沒有的各種本體,需要新建,還會發(fā)現(xiàn)更多本體的新屬性值,需要補(bǔ)充。另外,文本標(biāo)引實踐中會遇到很多困惑的問題,比如周代的列國,我們在時間本體中都爲(wèi)它們各自建立了年號別稱,那麼它就類似一個中央政權(quán)的朝代,在標(biāo)引“晉文公二年”這類標(biāo)記中的“晉”,我們是把它當(dāng)作朝代還是地名就是一個糾結(jié)的問題。另外,還有合稱和泛稱的問題,比如“三曹”“戰(zhàn)國七雄”,我們?nèi)绾螛?biāo)記這類合稱本體,是否要設(shè)計一種新的合稱本體類型,因爲(wèi)在統(tǒng)計的時候,這裡也應(yīng)該算“曹操”“曹丕”“曹植”都被提到了。泛稱的問題就更難處理,比如文本中出現(xiàn)的職官“偏將”,是泛稱很多低級武官,就沒辦法準(zhǔn)確對應(yīng);有時候還會出現(xiàn)“拾遺”這種官職的粗略記述,標(biāo)準(zhǔn)職官表中只有“左拾遺”和“右拾遺”,也無法準(zhǔn)確對應(yīng)職官本體。歷史上矛盾的記載在沒有確定考證結(jié)果的情況下也是很麻煩的問題,比如李白的籍貫,《舊唐書》說是“山東人”,《新唐書》則記載爲(wèi)“隴西成紀(jì)”。只要將知識庫建設(shè)推進(jìn)到文本標(biāo)引的工程實踐階段,我們面臨的理論和方法的挑戰(zhàn)就會不斷出現(xiàn)。

(二) 談“中國歷代典籍總目系統(tǒng)”的建設(shè)

“中國歷代典籍總目系統(tǒng)”是北京大學(xué)數(shù)據(jù)分析研究中心與國家圖書館合作開發(fā)的,於2009年10月通過了專家鑒定,還獲得了國家圖書館的創(chuàng)新二等獎。這套系統(tǒng)雖然商用得很早,但銷售情況不佳,也不廣爲(wèi)人知,這也是我們寫文章予以介紹的一個原因。[10]

“中國歷代典籍總目系統(tǒng)”是爲(wèi)古籍目錄的利用與研究開發(fā)的一套綜合分析平臺,它涵蓋了瀏覽、檢索和分析等一系列功能。爲(wèi)了實現(xiàn)這些功能,我們基於國際圖聯(lián)提出的“書目記錄的功能需求”(FRBR:Functional Requirements of Bibliographic Records)模型以及語義網(wǎng)知識庫中的“本體”(Ontology)的概念構(gòu)建了中國古籍本體標(biāo)準(zhǔn)集,然後依此對古籍目錄進(jìn)行結(jié)構(gòu)化拆分和整理,并實現(xiàn)上述功能。一期共計收錄各種類型古籍目錄二十七部,書目條目的數(shù)量超過二百萬,實際上也就僅完成了一期。這些書目包括《漢書藝文志》《崇文總目》《郡齋讀書志》《中國古籍善本書目》《叢書綜錄》等史志目錄、公私目錄和彙編目錄,具有各時代和類型的代表性。


圖4 “中國歷代典籍總目系統(tǒng)”首頁

我們對書目進(jìn)行了結(jié)構(gòu)化拆分,然後對書目著錄項進(jìn)行了同一化、標(biāo)準(zhǔn)化加工[11],所以我們可以提供更多維度的導(dǎo)航,比如除按標(biāo)準(zhǔn)分類和原書目錄導(dǎo)航以外,還可以按照成書時代、版本類型和版本時代進(jìn)行導(dǎo)航,比如瀏覽其中著錄的所有活字本。系統(tǒng)還提供了強(qiáng)大的檢索功能,檢索條件包括:書名、書目範(fàn)圍、分類、書目層級、版本類型、版本時代、責(zé)任信息、責(zé)任時間以及全文檢索等,所有條件都可以進(jìn)行組合檢索,以實現(xiàn)複雜的檢索要求。

系統(tǒng)同時提供了強(qiáng)大的分析功能,包括:責(zé)任者相關(guān)性分析、書目層次聚類分析、成書年代分佈統(tǒng)計分析等。責(zé)任者相關(guān)性分析是統(tǒng)計不同責(zé)任者在同一典籍下責(zé)任行爲(wèi)中共現(xiàn)的次數(shù),比如:分析與顧廣圻有相關(guān)性不小於5次的責(zé)任者。書目層次聚類分析即在給定條件下,按照典籍的品種、版本、印次和複本四個層次進(jìn)行的統(tǒng)計。需要說明的是在這個系統(tǒng)中,我們並沒有做這四個層次的同一化,這裡只是提供系統(tǒng)自動的聚類歸並結(jié)果。最後一個分析功能是成書年代分佈統(tǒng)計分析,即在給定條件下,按照典籍的成書年代進(jìn)行的統(tǒng)計。例如:我們想知道歷代“經(jīng)部詩類”成書分佈情況,得到結(jié)果如下:


圖5 歷代“經(jīng)部詩類”典籍成書時代分佈情況

由於系統(tǒng)只完成了第一期,所以無論從收錄書目條目數(shù)量還是書目數(shù)據(jù)的加工深度都不能令人滿意,分析功能也相對簡單,不過這依舊不失爲(wèi)大型書目知識庫建設(shè)早期一次重要的嘗試,從書目數(shù)據(jù)結(jié)構(gòu)化的加工深度而言,至今沒有書目庫超越。我們在這一系統(tǒng)開發(fā)經(jīng)驗的基礎(chǔ)上正在嘗試建設(shè)“中國歷代典籍目錄總庫”,目前已經(jīng)完成初步設(shè)計和開發(fā)。

四、結(jié)語

我們認(rèn)爲(wèi)古籍?dāng)?shù)字化工作目前亟需加強(qiáng)古籍?dāng)?shù)字化基礎(chǔ)設(shè)施建設(shè),這部分工作由古籍目錄庫、古籍圖文庫和古籍知識庫三部分組成。目前古籍圖文庫發(fā)展比較突出,經(jīng)過二三十年的建設(shè),商業(yè)數(shù)據(jù)庫領(lǐng)域已經(jīng)有愛如生、書同文、雕龍、鼎秀等古籍?dāng)?shù)據(jù)庫能提供幾萬種古籍的圖文服務(wù),而中國國家圖書館、日本國立公文書館、美國哈佛燕京圖書館等也建設(shè)了包含數(shù)萬種古籍圖像的數(shù)據(jù)庫,最近“識典古籍平臺”在抖音集團(tuán)的大力支持下,也宣稱在幾年內(nèi)提供數(shù)萬種古籍圖文庫,可以說這些已經(jīng)能夠滿足研究的基本需求。還出現(xiàn)了“全球漢籍影像開放集成系統(tǒng)”提供古籍圖像庫的檢索發(fā)現(xiàn)功能。而古籍目錄庫和古籍知識庫的建設(shè)則比較落後,與古籍目錄庫相比,以時間、地名、人物、機(jī)構(gòu)、職官、文獻(xiàn)、名物、術(shù)語等爲(wèi)主要內(nèi)容的古籍知識庫建設(shè)還沒有實質(zhì)性起步,這方面建設(shè)應(yīng)該是近期古籍?dāng)?shù)字化工作的重點。另外,進(jìn)入到古籍智能化階段,大模型技術(shù)會出現(xiàn)知識幻覺等缺陷,還需要配合專業(yè)領(lǐng)域模型應(yīng)用,古籍知識庫也正是專業(yè)領(lǐng)域模型建設(shè)的重要路徑。這裡我們回顧了十五年前北京大學(xué)數(shù)據(jù)分析研究中心建設(shè)的古籍目錄庫和古籍知識庫兩個超前實例,回應(yīng)近期古籍?dāng)?shù)字化工作的發(fā)展趨勢。

作者單位:

孫顯斌:中國科學(xué)院自然科學(xué)史研究所

攸興超:斗拱科技有限公司

[1] 趙薇《量化方法運用于古代文學(xué)研究的進(jìn)展和問題——以近年數(shù)字人文脈絡(luò)中的個案探索爲(wèi)中心》,《文學(xué)遺産》2022年第6期,第169頁。

[2] 鄭永曉、段海蓉《古籍?dāng)?shù)字化、數(shù)字人文與古代文學(xué)研究——訪中國社會科學(xué)院鄭永曉教授》,《吉首大學(xué)學(xué)報(社會科學(xué)版)》2020年第2期,第145頁。

[3] 鄭永曉.《錢鍾書與中國社科院古代典籍?dāng)?shù)字化工程》,《山東社會科學(xué)》2019年第6期,第32-36頁。

[4] 詳細(xì)論述參見 孫顯斌、李偉《古籍?dāng)?shù)據(jù)庫化工作淺談》,《圖書館理論與實踐》2012年第8期,第23-24頁。

[5] 史?!墩撝袊偶臄?shù)字化與人文學(xué)術(shù)研究》,《北京圖書館館刊》1999第2期,第32-33頁。

[6] 程佳羽、史睿.《古籍?dāng)?shù)字資源的知識庫建設(shè)解析》,《數(shù)字圖書館論壇》2006年第12期,第1-2頁。

[7] 李鐸《從檢索到分析——計算機(jī)知識服務(wù)的時代》,《文學(xué)遺產(chǎn)》2009年第1期,第137頁。

[8] 孫顯斌、李偉《古籍?dāng)?shù)據(jù)庫化工作淺談》,《圖書館理論與實踐》2012年第8期,第23-25頁。

[9] 由於種種原因,“資治通鑒知識服務(wù)系統(tǒng)”2019年才投入商業(yè)銷售,2022年北京大學(xué)數(shù)字人文中心購買了一套,清華大學(xué)數(shù)字人文中心正準(zhǔn)備購買一套。

[10] 據(jù)我們所知,目前購買這一系統(tǒng)的有“哈佛燕京圖書館”“德國國立學(xué)術(shù)圖書館”“中國國家博物館”“湖北省圖書館”,其中“湖北省圖書館”可以在網(wǎng)絡(luò)註冊後訪問。

[11] 關(guān)於書目本體和數(shù)據(jù)加工參見 孫顯斌、李偉《古籍?dāng)?shù)據(jù)庫化工作淺談》,《圖書館理論與實踐》2012年第8期,第24-25頁。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中央音樂學(xué)院發(fā)布嚴(yán)正聲明

中央音樂學(xué)院發(fā)布嚴(yán)正聲明

現(xiàn)代快報
2026-01-08 18:17:02
她和奧運冠軍馬琳離婚分走千萬,再婚嫁給金融學(xué)霸,如今怎樣了?

她和奧運冠軍馬琳離婚分走千萬,再婚嫁給金融學(xué)霸,如今怎樣了?

優(yōu)趣紀(jì)史記
2025-12-28 14:47:11
一場0:0驗出國足3大實力悍將 可堪大用 下場打澳大利亞必須重用

一場0:0驗出國足3大實力悍將 可堪大用 下場打澳大利亞必須重用

零度眼看球
2026-01-09 09:09:34
美國改口晚了!歐洲考慮倒向中國,丹麥下放開火權(quán),要讓北約陪葬

美國改口晚了!歐洲考慮倒向中國,丹麥下放開火權(quán),要讓北約陪葬

通鑒史智
2026-01-09 14:21:11
2299元羽絨服充絨量僅86克遭質(zhì)疑,波司登客服回應(yīng)

2299元羽絨服充絨量僅86克遭質(zhì)疑,波司登客服回應(yīng)

界面新聞
2026-01-09 12:48:25
71歲成龍?zhí)寡圆煌E膽虻恼鎸嵲颍杭抑欣淝?,兒子一年僅通話一次

71歲成龍?zhí)寡圆煌E膽虻恼鎸嵲颍杭抑欣淝?,兒子一年僅通話一次

草莓解說體育
2026-01-04 01:27:35
經(jīng)紀(jì)人曝光37歲女星!與男子車上發(fā)生關(guān)系,腳踢司機(jī)椅背險釀車禍

經(jīng)紀(jì)人曝光37歲女星!與男子車上發(fā)生關(guān)系,腳踢司機(jī)椅背險釀車禍

小欣欣聊體育
2026-01-06 18:26:10
田樸珺摟腰合影瘋傳,獨立人設(shè)塌房,社交場上的身體成了通行證

田樸珺摟腰合影瘋傳,獨立人設(shè)塌房,社交場上的身體成了通行證

喜歡歷史的阿繁
2026-01-09 00:28:49
1972年,毛主席當(dāng)眾指著她鼻子罵:你男人跟別人好了,你怎么不離婚?

1972年,毛主席當(dāng)眾指著她鼻子罵:你男人跟別人好了,你怎么不離婚?

寄史言志
2026-01-07 21:08:15
曾喊 “打敗美帝” 的他,晚年全家定居美國83歲的宋玉慶現(xiàn)狀如何

曾喊 “打敗美帝” 的他,晚年全家定居美國83歲的宋玉慶現(xiàn)狀如何

姩姩有娛
2025-11-28 17:14:02
“叛徒”悄悄抵臺,一句話石破天驚,機(jī)場遭圍攻,遲早害了全臺灣

“叛徒”悄悄抵臺,一句話石破天驚,機(jī)場遭圍攻,遲早害了全臺灣

南宗歷史
2026-01-08 15:06:49
黑網(wǎng):矛盾之下的清晰

黑網(wǎng):矛盾之下的清晰

疾跑的小蝸牛
2026-01-08 18:46:41
高盛:預(yù)計銅價難以持續(xù)高于13,000美元 二季度或出現(xiàn)回調(diào)

高盛:預(yù)計銅價難以持續(xù)高于13,000美元 二季度或出現(xiàn)回調(diào)

財聯(lián)社
2026-01-08 20:44:11
罕見!各地密集設(shè)立超常規(guī)機(jī)構(gòu),級別前所未有

罕見!各地密集設(shè)立超常規(guī)機(jī)構(gòu),級別前所未有

前瞻網(wǎng)
2026-01-07 09:45:12
萬億央企蛀蟲終于揪出來了!離職七年難逃法網(wǎng),25年腐化史現(xiàn)真容

萬億央企蛀蟲終于揪出來了!離職七年難逃法網(wǎng),25年腐化史現(xiàn)真容

趣文說娛
2026-01-08 18:50:49
分手8年,自曝私密事的Coco,沒給謝賢留體面,原來謝霆鋒沒說謊

分手8年,自曝私密事的Coco,沒給謝賢留體面,原來謝霆鋒沒說謊

娛說瑜悅
2026-01-06 17:28:42
28歲新娘長相引熱議,新郎不忍直視全程閉眼,網(wǎng)友:寧愿單身5年

28歲新娘長相引熱議,新郎不忍直視全程閉眼,網(wǎng)友:寧愿單身5年

觀察鑒娛
2026-01-07 09:17:05
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

就一點
2025-10-09 12:19:42
特朗普通告全球,不許3國買俄油,話音剛落,中方第一個宣布不服

特朗普通告全球,不許3國買俄油,話音剛落,中方第一個宣布不服

杜鱂手工制作
2026-01-09 13:32:41
36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

釋凡電影
2025-08-14 09:33:19
2026-01-09 15:04:49
明清史研究輯刊 incentive-icons
明清史研究輯刊
分享推介明清史研究資訊
8360文章數(shù) 22549關(guān)注度
往期回顧 全部

藝術(shù)要聞

Sean Yoro:街頭藝術(shù)界的“沖浪高手”

頭條要聞

52票贊成47票反對 特朗普怒了:對委動武或遭限制

頭條要聞

52票贊成47票反對 特朗普怒了:對委動武或遭限制

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

汽車要聞

更智能更豪華 樂道L90加配置會貴多少?

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
親子
公開課
軍事航空

藝術(shù)要聞

Sean Yoro:街頭藝術(shù)界的“沖浪高手”

手機(jī)要聞

小米17降價、榮耀全家桶現(xiàn)身、vivo上映大片

親子要聞

一家人夜游天津五大道,夜賞海棠花,大家玩得很開心

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進(jìn)入關(guān)懷版