国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

歷史地理信息化與圖情研究融合的必要性與可行性——以“數(shù)字歷史黃河”為中心的考察

0
分享至


江西地名研究

關(guān)注我們,獲取更多地名資訊

摘要:[目的/意義]歷史地理信息化的深入發(fā)展遭遇瓶頸,需探索突破方法,而圖情學(xué)科知識體系在提供數(shù)字學(xué)術(shù)支撐環(huán)境方面具有獨特優(yōu)勢,能夠助力歷史地理信息化深入發(fā)展。本文即探討歷史地理信息化與圖情研究融合的意義與路徑。[研究設(shè)計/方法]在文獻(xiàn)調(diào)研、專家交流與工作實踐的基礎(chǔ)上,揭示了歷史地理信息化存在的三個困境,提出解決以上問題需引進(jìn)圖書情報學(xué)的知識體系和技術(shù)方法,尤其是加強歷史文獻(xiàn)管理方案、歷史文獻(xiàn)文本結(jié)構(gòu)分析和歷史地理數(shù)據(jù)標(biāo)準(zhǔn)三方面的建設(shè),最后以“數(shù)字歷史黃河”為例介紹了融合的若干節(jié)點。[結(jié)論/發(fā)現(xiàn)]歷史地理信息化目前的困境已經(jīng)嚴(yán)重影響到學(xué)科發(fā)展,歷史地理信息化與圖情的深度融合對推動歷史地理學(xué)適應(yīng)大數(shù)據(jù)時代具有必要性和可行性。[創(chuàng)新/價值]提出了圖情研究與歷史地理信息化融合的重要意義,并在“數(shù)字歷史黃河”工作中首次指出了融合的可行性路徑,這一融合已經(jīng)發(fā)揮了消滅“數(shù)據(jù)孤島”、建立數(shù)據(jù)關(guān)聯(lián)的重要作用。

關(guān)鍵詞:歷史地理信息化;圖情研究;數(shù)字人文;語義互操作

1

引言


近年來,隨著歷史地理信息化和數(shù)字人文的不斷發(fā)展,新問題、新史料、新方法對既有研究范式的影響力度不斷增大,作為歷史地理學(xué)新興分支的歷史地理信息化已經(jīng)初步具備了自身的理論體系和基本工作路徑。面對技術(shù)手段的日益豐富,一些學(xué)者對歷史地理信息化的發(fā)展方向產(chǎn)生了迷茫、疑惑等情緒,出現(xiàn)了少數(shù)觀點相對極端的學(xué)術(shù)見解,這緣于對歷史地理信息化(Historical Geography Information,HGI)、數(shù)字人文(Digital Huamnities,DH)、人工智能(Artificial Intelligence,AI)、大數(shù)據(jù)(Big Data)等技術(shù)和理念存在誤解和曲解,而根本問題在于忽略了技術(shù)“來源于人、服務(wù)于人”的常 理,人為設(shè)置了“技術(shù)”對立于“人性”這一前提。

新問題、新史料和新方法本身是有機(jī)整體,如果要真正評價量子計算機(jī)、人工智能、大數(shù)據(jù)等技術(shù)手段的意義,最好的做法是將這些技術(shù)手段與具體問題相聯(lián)系,在歷史地理學(xué)領(lǐng)域主要體現(xiàn)在歷史地理信息系統(tǒng)和歷史地理信息化兩個方面。歷史地理信息系統(tǒng)與歷史地理信息化既有聯(lián)系又有區(qū)別,歷史地理信息系統(tǒng)不必非要依托歷史地理學(xué)開展,只要滿足時空二維結(jié)構(gòu)與明確的專題屬性即可;而歷史地理信息化則必須以歷史地理學(xué)的研究范式為基礎(chǔ),同時,歷史地理信息化又會影響歷史地理學(xué)的研究方法論和成果表現(xiàn)。

目前,學(xué)界已有多篇成果介紹信息化手段對歷史學(xué)的價值,但信息化手段仍未得到學(xué)界的廣泛認(rèn)可。歷史地理信息化的發(fā)展仍“路漫漫其修遠(yuǎn)兮”,本文基于筆者及諸位同仁在歷史地理信息化領(lǐng)域的一些工作體會,試圖澄清學(xué)界對歷史地理信息化的一些誤解,探索歷史地理信息化在數(shù)字人文背景下發(fā)展的可能路徑。近年來歷史地理學(xué)界強調(diào)與地理信息科學(xué)領(lǐng)域、地 理 信 息 系 統(tǒng) (Geography Information System,GIS)業(yè)界加強交流與合作,希望歷史地理信息化能夠跟上地理學(xué)的腳步。同時,自2026年DH進(jìn)入史學(xué)領(lǐng)域后,歷史地理學(xué)界反思?xì)v史地理信息化的呼聲就開始出現(xiàn),比如陳剛和潘威等都明確提出HGI工作者應(yīng)主動了解、積極參與到DH研究和應(yīng)用之中。而本文之目的則是進(jìn)一步推進(jìn)HGI與DH的深度融合,并明確提出HGI與圖情融合的必要性和可能路徑。

2

歷史地理信息化的當(dāng)前困境


以GIS為骨干的HGI固然在展示、分析時空結(jié)構(gòu)方面表現(xiàn)了巨大的優(yōu)勢,但其不足之處也應(yīng)受到正視,主要包括存在與歷史文獻(xiàn)本身有疏遠(yuǎn)的傾向和存在嚴(yán)重的數(shù)據(jù)孤島現(xiàn)象。這兩個問題很大程度上源于歷史地理學(xué)界目前普遍使用的工作方法,也造成了當(dāng)前歷史地理信息化的困境,具體如下。

2.1 弱化了史料的基礎(chǔ)地位

研究中提出HGI工作一定要緊密結(jié)合史料,但就目前情況而言,HGI工作中仍然不注意確立史料基礎(chǔ)性的地位。具體表現(xiàn)在:①不注意建立個人的或團(tuán)隊的史料管理系統(tǒng),僅僅對史料中的相關(guān)信息進(jìn)行管理;②過度依賴數(shù)字型史料,即主要偏向具有數(shù)目記錄的史料,而這一類型的史料僅占已知史料的很少部分,且分布時間段集中在明代以降,導(dǎo)致HGI工作展現(xiàn)的時段和所能解決的問題受到很大限制;③史料文本分析能力低下,隨著近年來研究領(lǐng)域的史料邊界不斷擴(kuò)大,史料的規(guī)模、類型和種類較2000年左右有了明顯的增長,特別是清代民國檔案類史料、民間史料、圖形類史料和口述材料等,完全依靠人力閱讀效率低、費時長,且易出現(xiàn)錯漏、誤讀等問題。解決上述問題需要建立適應(yīng)于個人或團(tuán)隊的系統(tǒng)性史料管理方案和計算機(jī)輔助下的史料文本分析方法,尤其是人一機(jī)協(xié)同讀史料工具,可以讓研究者快速、準(zhǔn)確地了解史料的主要指向,進(jìn)而有針對性地制訂工作計劃和實施步驟。

2.2 基礎(chǔ)數(shù)據(jù)制作中標(biāo)準(zhǔn)規(guī)范應(yīng)用不足

基礎(chǔ)數(shù)據(jù)制作中標(biāo)準(zhǔn)規(guī)范應(yīng)用不足,導(dǎo)致難以在數(shù)據(jù)之間建立聯(lián)系,產(chǎn)生"數(shù)據(jù)孤島"現(xiàn)象。數(shù)據(jù)孤島分為物理性和邏輯性兩種,物理性的數(shù)據(jù)孤島指數(shù)據(jù)在不同部門間相互獨立存儲、獨立維護(hù),格式各異,彼此間相互孤立,形成了物理上的孤島;邏輯性的數(shù)據(jù)孤島指不同部門基于特別的目的對數(shù)據(jù)進(jìn)行理解和定義,使得一些相同的數(shù)據(jù)被賦予了不同的含義,這無形中加大了跨學(xué)科、跨團(tuán)隊的數(shù)據(jù)合作成本。物理性和邏輯性的數(shù)據(jù)孤島現(xiàn)象在歷史地理學(xué)界普遍存在,導(dǎo)致HGI數(shù)據(jù)在規(guī)模上處于無效增大狀態(tài),也加劇了學(xué)科各分支之間的隔閡,影響到歷史地理學(xué)在研究深度和廣度的發(fā)展,最終限制了歷史地理學(xué)的問題體系跟上時代步伐。數(shù)據(jù)驅(qū)動型研究最根本的訴求是打破甚至消滅"數(shù)據(jù)孤島"現(xiàn)象,在歷史地理信息化中必須落實"數(shù)據(jù)驅(qū)動型研究"理念,而由于缺乏一致的語義與編碼規(guī)范、存儲與交換標(biāo)準(zhǔn)導(dǎo)致的數(shù)據(jù)孤島是最主要的障礙之一。

2.3數(shù)據(jù)互操作機(jī)制和技術(shù)應(yīng)用不足

互操作可以實現(xiàn)異構(gòu)資源整合。傳統(tǒng)上互操作指“不同平臺或編程語言之間交換和共享數(shù)據(jù)的能力”,為了達(dá)到該目的,需要包括硬件、網(wǎng)絡(luò)、操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、應(yīng)用軟件、數(shù)據(jù)格式、數(shù)據(jù)語義等不同層次的互操作。其中,萬維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)倡導(dǎo)的“語義互操作”制訂了多種句法標(biāo)準(zhǔn)和敘詞表編制國際標(biāo)準(zhǔn),是實現(xiàn)異構(gòu)歷史地理學(xué)信息整合的重要手段。國內(nèi) GIS 領(lǐng)域在2002年開始引入“語義互操作”,但歷史地理學(xué)界至今未重視“互操作”建設(shè),HGI 領(lǐng)域內(nèi)普遍缺乏不同平臺之間交換和共享數(shù)據(jù)的機(jī)制和技術(shù),存在著比較嚴(yán)重的“數(shù)據(jù)隔離”情況。這一方面由于共享數(shù)據(jù)的理念尚未深入人心,另一方面數(shù)據(jù)互操作技術(shù)的掌握和應(yīng)用是主要的技術(shù)障礙。以目前歷史地理學(xué)界內(nèi)最具代表性的成果——中國歷史地理信息系統(tǒng)(China Historical Geographic Information System,CHGIS)%例,該平臺提供了目前國內(nèi)外最完整的一套中國歷史政區(qū)數(shù)據(jù),但CHGIS的數(shù)據(jù)由于缺乏互操作技術(shù)的應(yīng)用,目前仍然是一個“數(shù)據(jù)孤島”,其他用戶必須適應(yīng)其數(shù)據(jù)格式方能實現(xiàn)政區(qū)數(shù)據(jù)與自有專題數(shù)據(jù)的融合,而許多專題數(shù)據(jù)無法與CHGIS的地名數(shù)據(jù)體系對接。為解決這一不足,近年來,CHGIS項目組和哈佛大學(xué)合作開展了關(guān)聯(lián)開放數(shù)據(jù)工作,提供了將歷史地名信息與其他地名詞表實現(xiàn)融合的技術(shù)路徑,此項應(yīng)用即是應(yīng)用語義網(wǎng)的數(shù)據(jù)互操作技術(shù)實現(xiàn)異構(gòu)數(shù)據(jù)資源整合的案例(參見:http://maps.cga.harvard. edu/tgaz/)。

3

困境的可能解決路徑


當(dāng)前,HGI工作者面臨著日益繁重的資料、數(shù)據(jù)和復(fù)雜的信息管理環(huán)境,需要探索出一條能夠適應(yīng)新環(huán)境的方法。在現(xiàn)有的學(xué)科體系中,圖情領(lǐng)域的做法提供了一定的參考和借鑒,例如夏翠娟提出了較為完善的歷史地名開放數(shù)據(jù)應(yīng)用方案。將圖情方面的相關(guān)技術(shù)、理念移植到歷史地理學(xué),發(fā)揮圖情學(xué)科在信息管理與分析方面的獨特優(yōu)勢,可以幫助HGI突破目前的發(fā)展瓶頸,面向具體問題的解決路徑示例如下。

3.1 成熟的歷史文獻(xiàn)管理方案

歷史學(xué)者高度依賴史料,但對于史料的管理,特別是對大規(guī)模史料的有效管理缺乏思考和實踐。圖情學(xué)界自上世紀(jì)80年代開始將個人計算機(jī)用于文獻(xiàn)信息管理,進(jìn)入網(wǎng)絡(luò)時代以來,該領(lǐng)域亦迅速將互聯(lián)網(wǎng)技術(shù)應(yīng)用于圖書信息管理,對包括歷史文獻(xiàn)在內(nèi)的圖書信息管理已經(jīng)構(gòu)建了非常成熟的軟件、方案和路徑,尤其是圖書館業(yè)界已經(jīng)形成了具有規(guī)范結(jié)構(gòu)的元數(shù)據(jù)以進(jìn)行資源管理。例如:“資源描述結(jié)構(gòu)”(Resource Description Framework,RDF)是W3C提出的用于描述知識圖譜實體及其關(guān)系的數(shù)據(jù)模型,2009年,“資源描述與檢索”方案(Resource Description and Access,RDA)依托該模型編制完成,次年網(wǎng)絡(luò)工具包發(fā)布,2013年開始在全球主要國家的國家圖書館中使用。這一技術(shù)標(biāo)準(zhǔn)體系在國外歷史地理學(xué)界已有廣泛應(yīng)用,但尚未受到國內(nèi)歷史地理學(xué)界的重視。

目前,歷史地理研究中,研究者和研究團(tuán)隊都未充分意識到個性化的歷史文獻(xiàn)管理方案的重要性,也未開發(fā)資源描述工具。近10年來,歷史文獻(xiàn)的形式已經(jīng)由紙本文書轉(zhuǎn)為電子文本;同時,研究團(tuán)隊中跨校、跨國、跨專業(yè)合作的現(xiàn)象日益明顯,團(tuán)隊的公共資料管理平臺不僅是凝聚成員的有效途徑,更是開展工作的基礎(chǔ)性設(shè)施,歷史地理學(xué)界必須在團(tuán)隊層面建設(shè)自己的歷史文獻(xiàn)管理方案,包括個性史料的電子化、局域網(wǎng)的信息管理系統(tǒng)建設(shè)以及管理規(guī)則的制定等,而其基礎(chǔ)是具有資源描述框架,這樣才能真正實現(xiàn)有效的資料積存和管理,提升團(tuán)隊工作的持續(xù)性和管理大規(guī)模史料的能力。

3.2 歷史文獻(xiàn)文本結(jié)構(gòu)分析方案

進(jìn)入網(wǎng)絡(luò)時代后,圖情領(lǐng)域文獻(xiàn)電子化和文本化的處理技術(shù)非常成熟,并依托互聯(lián)網(wǎng)向結(jié)構(gòu)化和語義化邁進(jìn)。信息化技術(shù)的發(fā)展深刻改變了文本的處理方式,也改變了包括歷史學(xué)在內(nèi)的許多人文社會學(xué)科的研究方式。在歷史地理研究中,近20年來的信息化主流是GIS技術(shù)的應(yīng)用,但在強化時空過程可視化的同時,卻忽視了史料結(jié)構(gòu)分析的信息化手段,導(dǎo)致歷史地理信息化在史料處理環(huán)節(jié)缺乏必要的技術(shù)手段,與歷史文獻(xiàn)(特別是大規(guī)模歷史文獻(xiàn))日益脫節(jié)。

文本結(jié)構(gòu)分析技術(shù)的重要基礎(chǔ)之一是采用TOM、Voyant等軟件對史料文本進(jìn)行“機(jī)讀”,其中“主題模型”是比較主流的方法?!爸黝}模型”本質(zhì)是一種文本聚類方法,通過“詞群”(bag of words)來描述文本特征,單個詞群組可以被設(shè)想為1個主題。主題模型中的LDA算法通過“隱含狄利克雷分布”算法(Latent Dirichlet Allocation,LDA)確定主題數(shù)目(topic-K),依據(jù)“詞為中心的穩(wěn)定性分析”(Term-centric Stability Analysis)策略確定文獻(xiàn)主題數(shù)量。TOM工具提供了文本聚類的實踐環(huán)境,由使用者自主設(shè)置主題數(shù)目后經(jīng)過多次迭代,可自動擬合出設(shè)定數(shù)量的主題,每個主題包含若干組詞群。

3.3 數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范建設(shè)方案

要構(gòu)建系統(tǒng)性的歷史地理信息化研究,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)才能形成規(guī)范化的工作流程和術(shù)語體系。歷史地理信息化建設(shè)中,數(shù)據(jù)標(biāo)準(zhǔn)化問題被多次提及,例如胡迪、陳剛、潘威等強調(diào)建立統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)的重要性。但對于如何達(dá)成這一目標(biāo)的討論則不多。借鑒和引進(jìn)其他學(xué)科較為成熟的方法并在實踐中不斷調(diào)整,最終達(dá)成統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)的目的,也許是行之有效的路徑。圖情學(xué)界在標(biāo)準(zhǔn)元數(shù)據(jù)處理方面已經(jīng)具備了非常成熟的技術(shù)體系,對于HGI構(gòu)建堅實的數(shù)據(jù)標(biāo)準(zhǔn)方案具有很強的借鑒意義。例如,夏翠娟提出的“本體(Ontology)時空模型”具有歷史地理數(shù)據(jù)的開放性、可擴(kuò)展性,具備形成數(shù)據(jù)標(biāo)準(zhǔn)的良好基礎(chǔ),可嘗試將該模型引入歷史地理信息化工作。

4

融合路徑探索


上文已經(jīng)在學(xué)理上揭示了圖情領(lǐng)域?qū)v史地理信息化發(fā)展的重要價值,下一步需要通過具體研究工作落實這一理念?!皵?shù)字歷史河流”(Digital Historical River,DHR)是“歷史時期地表水文過程及人文因素影響機(jī)制模擬方法"”的簡稱。河流,是自然環(huán)境與人類社會交匯的界面,水利體系中的河流與人的關(guān)系更為全面、復(fù)雜且多變,對人—水關(guān)系的研究需要歷史學(xué)、歷史自然地理、水利史、測繪學(xué)、水文學(xué)等多方面的知識,而信息化手段也是必不可少的技術(shù)和工具。在該項目中本團(tuán)隊探索了圖情學(xué)科與歷史地理信息化融合的路徑。

4.1 數(shù)字歷史河流"理念

DHR項目旨在借由不同地區(qū)的案例從不同角度去理解現(xiàn)代水利體系的形成過程,探討國家力量、氣候因素借由水利途徑作用到人類社會的機(jī)制。包含六方面的工作:①歷史上的三維微地貌重建;②歷史水利工程與地形模型的融合方案;③河道三維形態(tài)的復(fù)原;④地表水歷史時期的運動過程模擬與展示;⑤歷史時期的降雨特征重建;⑥歷史時期河流—水利管理方式。

4.2 數(shù)字歷史河流"中的融合方案示例

4.2.1 渠道結(jié)構(gòu)的社會網(wǎng)絡(luò)分析

社會網(wǎng)絡(luò)分析(Social Network Analysis)是基于信息學(xué)、數(shù)學(xué)、社會學(xué)、管理學(xué)、心理學(xué)等多學(xué)科的理論和方法,為理解人類各種社交關(guān)系的形成、行為特點以及信息傳播的規(guī)律提供一種可計算的分析方法?!熬W(wǎng)絡(luò)”現(xiàn)象大量存在于歷史地理學(xué)研究中,例如道路網(wǎng)、機(jī)構(gòu)組織、天然或人工水系等。在GIS軟件環(huán)境下,研究者可以重建此類地理實體或現(xiàn)象的空間數(shù)據(jù),但重建結(jié)果往往結(jié)構(gòu)龐雜,需對結(jié)果進(jìn)行進(jìn)一步概括,才能揭示出其空間結(jié)構(gòu)的變化。在這一工作中,社交網(wǎng)絡(luò)成為概括渠系空間現(xiàn)象的理想手段,將此類現(xiàn)象抽象為“點軸”結(jié)構(gòu),幫助研究者觀察這一復(fù)雜體系的基本結(jié)構(gòu)。

例如,清代以來新疆渠系的空間關(guān)系產(chǎn)生了很大變化,一方面表現(xiàn)了當(dāng)?shù)剞r(nóng)業(yè)開發(fā)中水資源使用方式的變化,另一方面也體現(xiàn)了不同地區(qū)、不同人群的生產(chǎn)生活關(guān)系。圖1為新疆渭干河流域 1900 年代的渠系結(jié)構(gòu),在社交網(wǎng)絡(luò)技術(shù)支持下,概括區(qū)域渠系結(jié)構(gòu)就較為便捷,使得研究者能夠從龐雜的數(shù)據(jù)中迅速把握研究對象的變化骨干。


4.2.2 清代河工檔案文本結(jié)構(gòu)分析

主題,是介于文本與段落之間的一個語言單位,一個主題表達(dá)或闡述一個相對獨立的意義或話題,形式上由文章的若干相鄰自然段組成,各個主題構(gòu)成整體性文本。文本結(jié)構(gòu)分析的內(nèi)容包括:文本的主題數(shù)、各段落所屬主題及與全文主題的相關(guān)程度、主題與段落間的相關(guān)程度等。主題劃分及各段落主題間的聯(lián)系是文本分析的主要構(gòu)成。史料文本結(jié)構(gòu)分析即是將這一技術(shù)方法用來對各類史料文本進(jìn)行一定程度的“機(jī)讀”,使研究者能夠在較短時間內(nèi)掌握史料的大致內(nèi)容,進(jìn)而有針對性地制訂研究計劃。

在歷史地理研究實際中,明清民國檔案類史料和多種民間文獻(xiàn)日益成為骨干史料,此類史料規(guī)模大、內(nèi)容雜、形式多樣,中小型研究團(tuán)隊在閱讀、整理此類史料時,往往面臨人手不足的窘境,史料閱讀效率偏低。在文本結(jié)構(gòu)分析方法的協(xié)助下,“機(jī)讀”可以迅速呈現(xiàn)史料文本的主題特征,有助于縮短史料閱讀的時間。

以清代黃河河工檔案的處理為例,河工檔案規(guī)模巨大,依靠傳統(tǒng)方法進(jìn)行閱讀耗時過長,文本結(jié)構(gòu)分析方法可以輔助研究者迅速抓住歷史文獻(xiàn)的記錄總體特征。具體過程是:將黃河水利委員會所藏《河道錢糧》類檔案進(jìn)行手工錄入,得到近100萬字的河工銀資料長編;將這些文本輸入VOYANT軟件,以"銀兩"為中心詞,分析其與其他文本中高頻詞(重現(xiàn)次數(shù)超過30次的詞匯)的位置關(guān)系。如圖2所示,這一分析結(jié)果雖然不能完全揭示白銀在河務(wù)中的中心地位,但至少能夠反映出奏折文本中,銀兩與其他事務(wù)之間日益緊密的聯(lián)系。根據(jù)圖2所示,相較于康熙時期,道光時期的河務(wù)檔案中"銀兩"一詞明顯與其他河務(wù)事項結(jié)合更為頻繁和緊密,顯示出白銀在康熙至道光時期的河務(wù)運作中的核心地位日益凸顯。


4.2.3 古舊河工圖地名信息自動化提取

深度學(xué)習(xí)(Deep Learning)在古舊地圖地名信息提取工作中的應(yīng)用已經(jīng)有不少成功案例。我們訓(xùn)練計算機(jī)習(xí)得針對不同大小漢字的檢測模型—U-Net 算法進(jìn)行字符級文本檢測,因此文本識別模型也采用了字符級的識別模型。在文本識別領(lǐng)域,主流的光學(xué)字符識別系統(tǒng)(Optical Character Recognition,OCR)采用的是行(列)級別的識別模型,主要采用 CTC(Connectionist Temporal Classification)算法搭配卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)疊加循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對圖片中包含的文本序列進(jìn)行建模,一般而言文檔中的行和列相較于單個字符更為容易檢測。然而,古舊地圖中的地名文本排列往往不如普通文獻(xiàn)中的那樣規(guī)則,而且部分地名的字符間距較大,所以行列級別的識別在地圖文本識別中可能并不如在一般文獻(xiàn)識別中那么有效,因此我們使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行字符級別的檢測和識別。

以清代道光時期的《六省黃河埽壩全圖》為例展示U-Net算法在河工圖處理中的應(yīng)用。《六省黃河埽壩全圖》所標(biāo)注的文本絕大多數(shù)都是地名,包括村落名稱和基層河防機(jī)構(gòu)名稱(如圖3)。處理過程是:根據(jù)每個字符的定界框(Bounding Box)將檢測到的字符按尺寸進(jìn)行分層;將檢測到的文本合并成候選地名,將排名最靠前的地名列表在原始地圖上進(jìn)行可視化展示;解析文本中包含的地名(Geo-parsing),即使用自然語言處理(Natural Language Processing,NLP)技術(shù)從無結(jié)構(gòu)文本中識別地名。


5

歷史地理信息化與圖情研究融合路徑指導(dǎo)下的實踐——“數(shù)字歷史黃河”


前文介紹了三種可以在歷史地理信息化中發(fā)揮融合作用的技術(shù)手段,展示了如何在具體問題研究中引入圖情知識體系和DH方法,提供了局部融合的可能性;而體系化的 HGI 工作需要融合路徑指導(dǎo)下的體系性成果范式,本文以"數(shù)字歷史黃河"項目為例,試驗體系化HGI與圖情研究融合路徑的可行性,并展示體系化的HGI工作實踐。

5.1 基本情況

黃河自歷史時期以來就不是一條純粹的自然河流,自然環(huán)境與人文環(huán)境都會對黃河產(chǎn)生影響。“數(shù)字歷史黃河”、(Digital Historical Yellow River,DHYR)作為"數(shù)字歷史河流"理念的實踐,是河南大學(xué)經(jīng)濟(jì)學(xué)院和南大學(xué)歷史地理研究所共同建設(shè)的專題信息平臺。平臺包括專業(yè)歷史資料管理系統(tǒng)、專題數(shù)據(jù)集并具有一系列歷史信息分析和展示功能。

相較于目前已有的歷史地理信息化產(chǎn)品,本平臺具有以下特點:①具有自帶的電子資料庫系統(tǒng),將歷史文獻(xiàn)的搜集、管理與分析嵌入到整個DHYR體系中,并成為各模塊的基礎(chǔ);②將GIS與DH進(jìn)行深度融合,強調(diào)時空過程與專題屬性的平衡性;③實現(xiàn)河流自然層面與人文層面信息的融合,為多種學(xué)科領(lǐng)域的學(xué)者提供服務(wù);④采用模塊化建設(shè)理念,資料庫、數(shù)據(jù)集以及分析功能模塊可拆分使用,滿足學(xué)者的個性化需求

5.2 相關(guān)實踐與成果展示

5.2.1 資料庫

有關(guān)黃河的歷史文獻(xiàn)數(shù)量龐大、種類多樣,其中比較重要的文獻(xiàn)包括以下種類:①七部正史河渠志;②正史中的黃河水災(zāi)記錄;③治河類書;④清代河務(wù)檔案;⑤民國河務(wù)檔案等?!百Y料庫”針對管理以上五大類史料的管理而設(shè)置,是DHYR的基礎(chǔ),具有查詢、下載、在線瀏覽、標(biāo)注和資料關(guān)聯(lián)等功能(如圖4)。


結(jié)合史料情況和本系統(tǒng)的基本情況,在資料管理平臺中,本團(tuán)隊采取“突出特色、便利研究”的策略,現(xiàn)階段重點建設(shè)5類史料,即①清代河工檔案;②民國檔案,包括黃河流域近代的水土保持、農(nóng)業(yè)、科考調(diào)查等;③治河類書;④西文史料;⑤河工圖。這批史料是近年來學(xué)界深耕的資料體系,相較于之前水利史、災(zāi)害史和歷史地理學(xué)的研究材料,此類史料具有更加翔實、細(xì)節(jié)更為突出、涉及面更為廣泛等諸多優(yōu)勢?;谶@些研究材料和數(shù)據(jù),學(xué)者不僅能夠探索治河技術(shù)、黃河災(zāi)害等傳統(tǒng)研究問題,更能將觀察視角擴(kuò)展到河務(wù)用銀、修河用夫、治河機(jī)構(gòu)網(wǎng)絡(luò)等以往研究著力不夠的領(lǐng)域。

5.2.2 專題數(shù)據(jù)庫

黃河是自然與人文相結(jié)合的一個界面,要充分展示、深入研究歷史時期以來黃河的“人—水關(guān)系”“河—地關(guān)系”就必須基于環(huán)境與人文的數(shù)據(jù)。由于有關(guān)黃河的歷史文獻(xiàn)記錄規(guī)模龐大,此處以清代河務(wù)運作為例介紹DHYR的數(shù)據(jù)庫設(shè)計思想。

采用Voyant對42136份清代河務(wù)檔案進(jìn)行“機(jī)讀”,結(jié)果發(fā)現(xiàn)約85%清代河務(wù)檔案內(nèi)容涉及工程修建、水文過程、人員管理、經(jīng)費和勞動力管理中的至少一項。由此,我們順應(yīng)史料記錄的特點制訂專題數(shù)據(jù)庫框架,包括:①時空專題數(shù)據(jù)庫,記錄清代河廳—汛—堡—報汛點—河營等機(jī)構(gòu)和組織的沿革、水患事件的時空過程等信息;②水文專題數(shù)據(jù)庫,包括報汛點名稱、漲水時間、漲水尺寸等信息;③工程專題數(shù)據(jù)庫,包括工程名稱、類型、功用、建造/廢棄時間、用夫用銀規(guī)模等;④管理專題數(shù)據(jù)庫,包括河務(wù)官員的姓名、職稱、晉升路徑等(如圖5)。正是在"機(jī)讀"工具的輔助下,團(tuán)隊得以快速地把握大量文獻(xiàn)的指向,進(jìn)而建設(shè)專題數(shù)據(jù)集。


目前已經(jīng)完成了4個主要的數(shù)據(jù)庫:①清代水位數(shù)據(jù)庫,主要信息包括站點名稱、漲水日期(年/月/日)、漲水高度;②黃河流域主要河防工程數(shù)據(jù)集,包括工程類型、主持人、工程修建目的、建設(shè)時間(年/月/日)、管理機(jī)構(gòu)、建設(shè)成本等信息;③河務(wù)官僚數(shù)據(jù)庫,基于《縉紳錄》和《清實錄》整理出的各級河務(wù)官員,包括姓名、籍貫、出身、任職、所屬機(jī)構(gòu)等信息;④民國時期黃河上中游水利工程數(shù)據(jù)集,包括工程名稱、工程類型、建設(shè)時間(年/月/日)、管理機(jī)構(gòu)、建設(shè)目的、建設(shè)成本等信息。

5.3 圖情知識體系對DHYR的重要性

圖情領(lǐng)域在信息管理方面的豐富經(jīng)驗和多樣化手段能夠支持DHYR今后的發(fā)展,這也是學(xué)者應(yīng)積極嘗試圖情與HGI深度融合的主要動力。筆者認(rèn)為,圖情領(lǐng)域可以在以下方面發(fā)揮重要作用。

(1)營造更好的平臺使用體驗:圖情領(lǐng)域的數(shù)字人文技術(shù)能夠觀察各類文獻(xiàn)中的記錄特點,輔助研究者快速在大量史料中摸索出記載主線◇進(jìn)而挖掘出史料中潛在的信息。在本系統(tǒng)中,團(tuán)隊嘗試融合了文本結(jié)構(gòu)分析、社交網(wǎng)絡(luò)分析等方法,為使用者提供一個便于使用數(shù)字人文方法的工作環(huán)境。

(2)解決資料庫的“孤島”現(xiàn)象:2016年,DHYR資料庫在最初被提出時僅僅作為開發(fā)團(tuán)隊管理自身史料體系的一種工具,并沒有充分意識到該資料庫的傳播價值,因而僅規(guī)定了一套文獻(xiàn)命名方案。隨著DHYR工作的深入開展,資料庫收錄的史料種類和規(guī)模顯著增加,同時,研究員對資料庫的理解也發(fā)生了重大改變。自2021年1月開始,團(tuán)隊開始使用RDA描述資料庫中的所有記錄,RDA不僅提升了系統(tǒng)文獻(xiàn)檢索效率,而且更重要的是,元數(shù)據(jù)編碼的改變將DHYR資料庫接入網(wǎng)絡(luò)數(shù)據(jù)環(huán)境中,使得其從一個封閉的"數(shù)據(jù)孤島"變?yōu)橐?guī)范的圖情知識體系的一部分。

(3)建立各專題數(shù)據(jù)庫的有機(jī)聯(lián)系:2016年至今,各專題數(shù)據(jù)庫依靠“Palace”字段(管理地名的字段)建立鏈接,這一做法從實際效果來看已經(jīng)越發(fā)不適應(yīng)日益擴(kuò)張的平臺數(shù)據(jù)種類和維度。“Palace”字段只能表示一種空間格局,在"敘事"方面具有很大局限性。比如圖5展示的基層河務(wù)官員晉升路徑,我們能發(fā)現(xiàn)官員的晉升空間軌跡和職務(wù)軌跡,但無法從中揭示官員晉升與其他要素(比如工程修建、水患)之間的聯(lián)系。若將目前的數(shù)據(jù)可視化轉(zhuǎn)向支持“歷史敘事”,就必須學(xué)習(xí)圖情領(lǐng)域的多維信息管理方案,在技術(shù)上實現(xiàn)不同專題數(shù)據(jù)庫之間信息的有效篩選、檢索和呈現(xiàn),以揭示人—水關(guān)系的多重面相。為實現(xiàn)這一目的,圖情管理中的RDF方案應(yīng)該被引入DHYR的專題信息管理實踐中。目前,團(tuán)隊正在積極探索RDF與傳統(tǒng)專題數(shù)據(jù)表的結(jié)合方式,計劃編訂一套針對清代民國黃河河工圖的RDF 編目方案,以此作為試驗RDF與專題數(shù)據(jù)表結(jié)合的第一步。

6

結(jié)論


當(dāng)前,歷史地理信息化(HGI)存在著弱化史料地位、數(shù)據(jù)標(biāo)準(zhǔn)雜亂、缺乏數(shù)據(jù)互操作等不足,嚴(yán)重制約了HGI的進(jìn)一步發(fā)展。圖情領(lǐng)域的信息管理方法以及近年來重點建設(shè)的"數(shù)字人文"范式,成為HGI解決以上問題的重要途徑。

“數(shù)字歷史河流”與“數(shù)字歷史黃河”的相關(guān)實踐表明,HGI不能僅僅強調(diào)GIS的作用,還要實現(xiàn)圖情、GIS、歷史地理學(xué)等多個學(xué)科的平衡與深度融合,這樣才能將歷史地理學(xué)的信息化水平推上新的臺階。同時,歷史地理學(xué)信息化程度的加深也可以助推圖情領(lǐng)域在時空信息管理方面的發(fā)展,實現(xiàn)學(xué)科“共建、共享、共贏”的良性局面。

數(shù)字人文強調(diào)“跨界與融合”,實際上,近年來的學(xué)術(shù)發(fā)展已經(jīng)證明"獨行俠"式的研究模式越來越難以適應(yīng)當(dāng)前及未來的學(xué)術(shù)發(fā)展,真正意義上的團(tuán)隊協(xié)作才是今后主流的學(xué)術(shù)工作模式?!翱缃缗c融合”是數(shù)字人文的手段而非目的,數(shù)字人文的終極目標(biāo)應(yīng)當(dāng)是推進(jìn)更廣闊的視角,使用更多的工具剖析世界、社會和人群,這才是“跨界、融合”“團(tuán)隊協(xié)作”的意義。

作者:潘威、夏翠娟、張光偉、孫濤

來源:《圖書情報知識》2021年第3期

選稿:耿 曈

編輯:歐陽莉艷

校對:宋柄燃

審訂:汪依婷

責(zé)編:杜佳玲

(由于版面內(nèi)容有限,文章注釋內(nèi)容請參照原文)


微信掃碼加入

中國地名研究交流群

QQ掃碼加入

江西地名研究交流群

歡迎來稿!歡迎交流!

轉(zhuǎn)載請注明來源:“江西地名研究”微信公眾號

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1.2億天價狂飆!曼城棄子逆襲切爾西,誰能看懂這波封神?

1.2億天價狂飆!曼城棄子逆襲切爾西,誰能看懂這波封神?

卿子書
2026-02-27 08:54:16
情侶虎跳峽游玩時男子墜江失蹤!女友崩潰:我們馬上要結(jié)婚…已是五天內(nèi)第二起事故

情侶虎跳峽游玩時男子墜江失蹤!女友崩潰:我們馬上要結(jié)婚…已是五天內(nèi)第二起事故

新民晚報
2026-02-27 19:50:14
男人指責(zé)孩子哭鬧后續(xù):對乘警吼叫,正臉曝光社死,結(jié)局大快人心

男人指責(zé)孩子哭鬧后續(xù):對乘警吼叫,正臉曝光社死,結(jié)局大快人心

娛樂圈見解說
2026-02-27 16:34:19
鄭麗文3月12日訪問大陸?國民黨表態(tài),兩人公然和鄭麗文唱反調(diào)

鄭麗文3月12日訪問大陸?國民黨表態(tài),兩人公然和鄭麗文唱反調(diào)

北緯的咖啡豆
2026-02-27 23:47:48
“00后”陳某某被押赴刑場 執(zhí)行死刑

“00后”陳某某被押赴刑場 執(zhí)行死刑

閃電新聞
2026-02-07 16:53:35
特朗普沒料到,中國根本不接招!黃仁勛白忙倆月,英偉達(dá)玩不轉(zhuǎn)了

特朗普沒料到,中國根本不接招!黃仁勛白忙倆月,英偉達(dá)玩不轉(zhuǎn)了

井普椿的獨白
2026-02-27 16:33:30
這個社會允許幼兒哭鬧的年齡是幾歲

這個社會允許幼兒哭鬧的年齡是幾歲

吐槽青年
2026-02-27 18:55:19
北大天才至死評不上職稱,在癌癥晚期,卻為中國拿下五個世界第一

北大天才至死評不上職稱,在癌癥晚期,卻為中國拿下五個世界第一

談史論天地
2026-02-27 07:04:54
50歲男子酷愛喝濃茶,茶葉能占半個杯子!連續(xù)5年確診腎結(jié)石,痛到打滾如生孩子!醫(yī)生提醒→

50歲男子酷愛喝濃茶,茶葉能占半個杯子!連續(xù)5年確診腎結(jié)石,痛到打滾如生孩子!醫(yī)生提醒→

大象新聞
2026-02-26 13:45:08
2010年,重慶局長文強執(zhí)行死刑前最后4小時,保護(hù)傘文強雙面人生

2010年,重慶局長文強執(zhí)行死刑前最后4小時,保護(hù)傘文強雙面人生

北風(fēng)那個吹呀吹
2024-03-17 19:44:19
太扎心!過了40歲已經(jīng)死了,只是沒人埋,80后發(fā)千字肺腑之言…

太扎心!過了40歲已經(jīng)死了,只是沒人埋,80后發(fā)千字肺腑之言…

慧翔百科
2026-02-28 08:52:23
一個人能挑食到什么程度?網(wǎng)友:連水都挑牌子,礦泉水不喝涼的

一個人能挑食到什么程度?網(wǎng)友:連水都挑牌子,礦泉水不喝涼的

另子維愛讀史
2026-02-27 22:46:00
雞蛋被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者每天吃雞蛋,或出現(xiàn)7種變化

雞蛋被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者每天吃雞蛋,或出現(xiàn)7種變化

阿兵科普
2026-02-28 09:33:17
應(yīng)急管理部:嚴(yán)禁生產(chǎn)安全事故調(diào)查報告公開幾天后又撤回!從嚴(yán)管控祭祀用火、農(nóng)事用火等野外用火!國務(wù)院安委辦最新發(fā)聲

應(yīng)急管理部:嚴(yán)禁生產(chǎn)安全事故調(diào)查報告公開幾天后又撤回!從嚴(yán)管控祭祀用火、農(nóng)事用火等野外用火!國務(wù)院安委辦最新發(fā)聲

每日經(jīng)濟(jì)新聞
2026-02-27 15:54:21
勝利和你無關(guān),與2.5億頂薪說再見!火箭皮蓬,離交易不遠(yuǎn)了

勝利和你無關(guān),與2.5億頂薪說再見!火箭皮蓬,離交易不遠(yuǎn)了

毒舌NBA
2026-02-28 06:02:24
宗馥莉在上海高檔餐廳露面,與外籍男士共進(jìn)晚餐,同行女孩畫面溫馨

宗馥莉在上海高檔餐廳露面,與外籍男士共進(jìn)晚餐,同行女孩畫面溫馨

東方不敗然多多
2026-02-25 16:20:33
日本鹿兒島居酒屋禁中國客進(jìn)入 門口簡體字通告引熱議

日本鹿兒島居酒屋禁中國客進(jìn)入 門口簡體字通告引熱議

環(huán)球趣聞分享
2026-02-27 13:20:30
西方打死也想不通:為什么秦始皇死了2000年,中國還在他的布局里

西方打死也想不通:為什么秦始皇死了2000年,中國還在他的布局里

凡人侃史
2026-02-26 15:26:20
成都“火車北站”最新進(jìn)展來了:站房部分區(qū)域已開始裝修|人勤春來早

成都“火車北站”最新進(jìn)展來了:站房部分區(qū)域已開始裝修|人勤春來早

紅星新聞
2026-02-27 19:09:14
又一衛(wèi)健委主任被抓!

又一衛(wèi)健委主任被抓!

梅斯醫(yī)學(xué)
2026-02-28 07:53:41
2026-02-28 12:47:02
江西地名研究 incentive-icons
江西地名研究
分享地名研究信息、行業(yè)資訊。
3259文章數(shù) 302關(guān)注度
往期回顧 全部

教育要聞

開學(xué)前的作業(yè)“渡劫”:開學(xué)剩5天,男生緊急熬夜“搶救”作業(yè)

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
游戲
數(shù)碼
手機(jī)
藝術(shù)

旅游要聞

數(shù)字平臺成入境游關(guān)鍵動能,攜程帶動消費240億美元

《寶可夢》卡牌將推30周年紀(jì)念卡包 收藏價值突出

數(shù)碼要聞

移動辦公新物種:聯(lián)想ThinkBook模塊化AI PC概念前瞻

手機(jī)要聞

Counterpoint:智能手機(jī)2026年出貨恐銳減12.4%,迎最嚴(yán)重收縮

藝術(shù)要聞

2025第十四屆中國藝術(shù)節(jié)全國優(yōu)秀美術(shù)作品展 | 入選油畫選刊

無障礙瀏覽 進(jìn)入關(guān)懷版