国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

古舊地圖的信息化

0
分享至


江西地名研究

關(guān)注我們,獲取更多地名資訊

摘要:近年人文社會(huì)科學(xué)研究中古舊地圖的使用規(guī)模和數(shù)字化處理需求不斷增加,古舊地圖的信息化迫在眉睫。文章以“數(shù)字歷史黃河”(DHYR)·圖形資料庫(kù)建設(shè)為例,介紹DHYR中圖形史料的RDF編目方案和古舊地圖地名信息自動(dòng)化;通過(guò)清代基層水利單元“汛”“堡”重建黃河變遷事件研究案例,分析古舊地圖以及古舊地圖信息化方案在人文社會(huì)科學(xué)研究中的意義。RDF是用于描述知識(shí)圖譜實(shí)體及其關(guān)系的數(shù)據(jù)模型,能減少歷史地理信息化數(shù)據(jù)孤島現(xiàn)象,在DHYR中設(shè)計(jì)針對(duì)古舊地圖的編目方案和描述詞表;采用U-Net架構(gòu)模型進(jìn)行古舊地圖地名OCR識(shí)別,展現(xiàn)深度學(xué)習(xí)方法在古舊地圖信息自動(dòng)化提取中的能力,提高歷史地名提取的效率和準(zhǔn)確率。

關(guān)鍵詞:地名 古舊地圖 黃河 信息化

0

前言


古舊地圖是人文社會(huì)科學(xué)研究的重要史料,在光學(xué)字符識(shí)別(OCR)、地理信息系統(tǒng)(GIS)、數(shù)據(jù)庫(kù)技術(shù)等數(shù)據(jù)庫(kù)信息化手段支持下,可以最大限度挖掘古舊地圖中的地理信息,提升古舊地圖的使用效率。歷史地理學(xué)界針對(duì)古舊地圖的信息化處理已經(jīng)進(jìn)行多項(xiàng)實(shí)踐,如張萍等基于多種古舊地圖對(duì)西北“絲綢之路”交通路線(xiàn)和古代城市定位、韓昭慶研究康熙《皇輿全覽圖》投影方式、潘威等對(duì)近代灌渠體系的重建和分析,皆實(shí)踐了GIS手段在古舊地圖處理中的運(yùn)用。不過(guò),歷史地理學(xué)界將古舊地圖的信息化操作局限于GIS環(huán)境下的人工矢量化處理,限定了對(duì)古舊地圖的進(jìn)一步研究和更廣泛使用。解決以上問(wèn)題的方法是讓歷史地理信息化與圖情、計(jì)算機(jī)科學(xué)、信息管理等學(xué)科領(lǐng)域深度融合,在持續(xù)推動(dòng)GIS在歷史地理學(xué)中應(yīng)用的同時(shí),充分利用大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫(kù)技術(shù)、圖形計(jì)算技術(shù)、深度學(xué)習(xí)技術(shù)。通過(guò)加強(qiáng)對(duì)古舊地圖的管理、處理、使用和分析等多項(xiàng)技能,為歷史地理學(xué)、地圖學(xué)史和數(shù)字人文發(fā)展提供更多可能性。而要落實(shí)這一目標(biāo),首先應(yīng)解決古舊地圖文獻(xiàn)的數(shù)字化管理和圖幅內(nèi)容的自動(dòng)化提取。對(duì)古舊地圖的管理既是對(duì)圖幅作為文獻(xiàn)的數(shù)字化和編目,也是對(duì)圖幅內(nèi)容的提取和數(shù)據(jù)化。

在歷史地理學(xué)研究中,使用古舊地圖需要信息化管理和圖幅內(nèi)容的信息化提取,兩者實(shí)際為一有機(jī)整體。研究者首先需要建立古舊地圖資料庫(kù),采用信息化手段管理大量古舊地圖文檔,在此基礎(chǔ)上采用OCR等手段實(shí)現(xiàn)古舊地圖信息提取的自動(dòng)化,之后方才進(jìn)入具體研究環(huán)節(jié),即專(zhuān)題數(shù)據(jù)的使用層面。因此,古舊地圖的信息化管理以及圖幅內(nèi)容的自動(dòng)化提取是科研工作中的重要環(huán)節(jié)。實(shí)現(xiàn)這一目標(biāo),必須引入圖情知識(shí)體系(本文所用“圖情知識(shí)體系”一詞為圖書(shū)情報(bào)學(xué)的理論與技術(shù)體系總和,是筆者作為歷史地理學(xué)工作者對(duì)圖情學(xué)路徑的一種概括),尤其是圖情學(xué)界所采用的RDF編目、語(yǔ)義網(wǎng)和近年來(lái)大力提倡的OCR技術(shù)等,對(duì)推動(dòng)歷史地理信息化具有重要意義。本文以清代河工圖的信息化處理方法為例,通過(guò)“數(shù)字歷史黃河”(DHYR)中的圖形資料庫(kù)的設(shè)計(jì)與實(shí)現(xiàn),展現(xiàn)OCR、語(yǔ)義網(wǎng)技術(shù)、深度學(xué)習(xí)技術(shù)在歷史地理信息化建設(shè)中的重要作用,特別是對(duì)古舊地圖管理和使用中的重要作用。


1

“數(shù)字歷史黃河”·圖形資料庫(kù)


1.1 資料介紹

“數(shù)字歷史黃河”(DHYR)是由河南大學(xué)、云南大學(xué)共建共享共有的黃河歷史變遷古舊地圖資料庫(kù),目的是實(shí)現(xiàn)黃河歷史變遷的數(shù)據(jù)管理、多維展示和輔助分析。黃河流域古舊地圖數(shù)量眾多,中國(guó)國(guó)家圖書(shū)館等單位建有古舊地圖管理平臺(tái),對(duì)其已經(jīng)收藏圖形,DHYR原則上不重復(fù)收錄,專(zhuān)門(mén)針對(duì)尚未得到系統(tǒng)收集、整理和電子化處理的古舊地圖,力求與其他單位藏圖互為補(bǔ)充。該系統(tǒng)的資料管理庫(kù)有專(zhuān)門(mén)的“圖形資料庫(kù)”(本文記為“DHYR·圖形資料庫(kù)”),其中收錄有清代河工圖、民國(guó)地形圖、黃河流域規(guī)劃圖、晚清西方黃河調(diào)查圖、近代工程藍(lán)圖、手繪草圖等多種圖像。圖1列舉了被DHYR·圖形資料庫(kù)收錄的圖形史料,其中,圖1-1為1753年徐城北岸黃河支岔圖(局部);圖1-2為1932年渭北引涇灌溉圖(局部);圖1-3為1946年陜西省水利廳黃河規(guī)劃圖·洛河(局部)。DHYR覆蓋范圍為黃河流域的青、寧、甘、陜、豫、魯、蘇7省,內(nèi)容涉及黃河防洪工程、灌溉體系、交通布局、土地利用等,包括中、英、日等多種語(yǔ)言文字,已達(dá)2,100余幅,原圖收藏單位包括中國(guó)水利水電研究院、黃河水利委員會(huì)等重要機(jī)構(gòu),以及地方水利、檔案、博物館等系統(tǒng)。需要說(shuō)明的是,沿黃地區(qū)的地形圖除水利部門(mén)繪制外,還有大量為軍事部門(mén)繪制,這類(lèi)非水利機(jī)構(gòu)暫時(shí)不收錄于DHYR內(nèi)。


1.2 設(shè)計(jì)思路

DHYR·圖形資料庫(kù)的界面設(shè)計(jì)風(fēng)格簡(jiǎn)潔(見(jiàn)圖2)。DHYR·圖形資料庫(kù)建設(shè)的主要思路包括:持續(xù)收集有關(guān)黃河的各類(lèi)圖形史料;修復(fù)破損史料;對(duì)圖形進(jìn)行掃描,形成高精度電子文本;建設(shè)信息化管理方案,進(jìn)行高效管理;與平臺(tái)其他資料庫(kù)和數(shù)據(jù)庫(kù)實(shí)現(xiàn)鏈接;充分挖掘史料價(jià)值,推動(dòng)黃河變遷研究。之所以形成以上目的,主要在于這一工作面臨多種困難,包括:經(jīng)費(fèi)限制,本工作只能將經(jīng)費(fèi)用于收集與整理圖幅,突出內(nèi)容建設(shè),降低平臺(tái)建設(shè)難度;管理能力不足,作為高校小型科研團(tuán)隊(duì),缺乏公共圖書(shū)館那樣成熟的信息平臺(tái)管理能力,只能犧牲平臺(tái)功能,將其維持在團(tuán)隊(duì)能夠運(yùn)營(yíng)的水平上。實(shí)際上,這是許多高校中小型科研團(tuán)隊(duì)面臨的問(wèn)題,這一問(wèn)題造成大量的歷史地理專(zhuān)題數(shù)據(jù)庫(kù)無(wú)法持續(xù)運(yùn)營(yíng)。


DHYR·圖形資料庫(kù)在設(shè)計(jì)上采取較保守的策略,優(yōu)先保證資料庫(kù)的穩(wěn)定運(yùn)行,在這一前提下逐步嘗試新技術(shù)運(yùn)用。DHYR·圖形資料庫(kù)有四大功能模塊:(1)圖幅信息模塊:對(duì)圖形史料的基本信息進(jìn)行輸入、編輯;(2)查詢(xún)檢索模塊:按照?qǐng)D名、編碼、繪制者、管理者、時(shí)代等多種要素進(jìn)行圖幅檢索;(3)用戶(hù)管理模塊:登記、管理DHYR使用者信息;(4)數(shù)據(jù)維護(hù)模塊:對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)、備份、還原操作。圖形資料庫(kù)是DHYR的組成部分,庫(kù)結(jié)構(gòu)采用HTML+CSS設(shè)計(jì),后臺(tái)結(jié)構(gòu)采用SQL-Server。

1.3 編目方案

1.3.1 元數(shù)據(jù)方案和語(yǔ)義網(wǎng)技術(shù)

本團(tuán)隊(duì)在資料管理方式上,嘗試中國(guó)歷史地理學(xué)界內(nèi)尚未被關(guān)注和使用的一些新方法,最重要的嘗試是借鑒圖情領(lǐng)域的元數(shù)據(jù)方案方法和語(yǔ)義網(wǎng)技術(shù),對(duì)圖形史料進(jìn)行編目和元數(shù)據(jù)記錄編碼。圖幅管理的重點(diǎn)在于編目方案設(shè)計(jì),而歷史地理學(xué)界尚未重視標(biāo)準(zhǔn)化規(guī)范化的資源編目的重要性,導(dǎo)致嚴(yán)重的數(shù)據(jù)孤島現(xiàn)象。DHYR·圖形資料采用圖情領(lǐng)域的元數(shù)據(jù)方案設(shè)計(jì)方法和語(yǔ)義網(wǎng)領(lǐng)域的RDF(Resource Description Framework)模型和編碼格式。RDF是W3C提出的用于描述知識(shí)單元及其相互關(guān)系的數(shù)據(jù)模型和數(shù)據(jù)編碼標(biāo)準(zhǔn),是特色歷史文獻(xiàn)資源編目中的主流方法。RDF將元數(shù)據(jù)記錄抽象為主體(subject)、謂詞(predict)與客體(object)3個(gè)組成部分,利用標(biāo)準(zhǔn)化的數(shù)據(jù)編碼方案描述資料庫(kù)中數(shù)據(jù)記錄的每一個(gè)知識(shí)節(jié)點(diǎn)。統(tǒng)一采用這種標(biāo)準(zhǔn)化規(guī)范化的方法,不僅能夠?qū)崿F(xiàn)工作團(tuán)隊(duì)內(nèi)部和跨團(tuán)隊(duì)的數(shù)據(jù)共享,更易與圖書(shū)館系統(tǒng)中的編目數(shù)據(jù)進(jìn)行互操作和整合,將個(gè)人研究融入文化基礎(chǔ)設(shè)施體系,令歷史地理學(xué)專(zhuān)題數(shù)據(jù)具有更為廣闊的用戶(hù)群體,共同建設(shè)知識(shí)譜系。這是促進(jìn)歷史地理信息管理規(guī)范化、數(shù)據(jù)共享便捷化、豐富數(shù)據(jù)維度的重要舉措。DHYR在歷史地理學(xué)界率先針對(duì)圖形史料采用此方法,將單幅圖形本身作為主體(subject)、描述圖形元數(shù)據(jù)規(guī)范詞表中的元素作為謂語(yǔ)(predict)、元素值作為客體(object)。比如,《道光黃河六省河工埽壩全圖》的“題名(dc:title)”這一元素的編碼結(jié)果為:《道光河工埽壩全圖》實(shí)體dc:title“道光河工埽壩全圖”。

1.3.2 元素集(詞表)設(shè)計(jì)

在確定編目基本原則的基礎(chǔ)上,具體編目方案設(shè)計(jì)需要充分考慮古舊圖形記錄的獨(dú)特性,不能簡(jiǎn)單地將圖情管理系統(tǒng)中對(duì)現(xiàn)代正規(guī)出版物、檔案和一般古籍的編目方案套用至本工作。因此,需要制訂有針對(duì)性的元數(shù)據(jù)方案,設(shè)計(jì)專(zhuān)用于古舊地圖的元數(shù)據(jù)元素集(描述字段)。通過(guò)分析DHYR工作中已經(jīng)收集的古舊地圖,發(fā)現(xiàn)一些描述字段對(duì)描述圖形具有重要作用,見(jiàn)表1中的“描述字段”列,包括描述性元數(shù)據(jù)和管理性元數(shù)據(jù),是設(shè)計(jì)元數(shù)據(jù)元素集的基礎(chǔ)。在此基礎(chǔ)上,借鑒國(guó)際通用的都柏林核心(DC)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,復(fù)用其中的部分元素,并自定義一部分元素,還復(fù)用少量上海圖書(shū)館本體詞表中的部分屬性。隨著今后工作的進(jìn)展,這一方案將進(jìn)行更新、擴(kuò)展和修正。



表1是對(duì)DHYR中古舊圖形進(jìn)行描述的字段構(gòu)成及其定義。通過(guò)這些字段,能清晰描述古舊圖形的時(shí)空信息、繪制信息和平臺(tái)管理信息。

(1)“空間范圍”字段采用經(jīng)緯度坐標(biāo)體現(xiàn),這一做法可以在GIS環(huán)境中形成圖幅覆蓋范圍的空間可視化成果,更直觀(guān)地表現(xiàn)DHYR所收錄圖形史料的空間格局。

(2)“圖件標(biāo)識(shí)符”“繪制人員標(biāo)識(shí)符”“繪制機(jī)構(gòu)標(biāo)識(shí)符”等的編訂方式尚無(wú)行業(yè)標(biāo)準(zhǔn),在歷史地理學(xué)界也無(wú)前期成果可供參考,因此參考地理學(xué)界內(nèi)普遍使用的“郵政編碼方法”?!皥D件標(biāo)識(shí)符”采用7位整數(shù)進(jìn)行編碼,首2位表示圖幅的歷史階段,如清代用“12”代表;第3位代表圖幅類(lèi)型,如傳統(tǒng)時(shí)代的河工圖用“1”代表;后4位代表此類(lèi)型序號(hào),由“0000”開(kāi)始?!袄L制人員標(biāo)識(shí)符”“繪制機(jī)構(gòu)標(biāo)識(shí)符”采用4位整數(shù)進(jìn)行編碼,首2位表示人員、機(jī)構(gòu)所處的歷史階段,后2位序號(hào)由“00”開(kāi)始?!袄L制人員標(biāo)識(shí)符”“繪制機(jī)構(gòu)標(biāo)識(shí)符”分別是“水利人物數(shù)據(jù)庫(kù)”中的人物標(biāo)識(shí)碼與“水利機(jī)構(gòu)數(shù)據(jù)庫(kù)”的機(jī)構(gòu)標(biāo)識(shí)碼,通過(guò)標(biāo)識(shí)碼可以實(shí)現(xiàn)跨庫(kù)鏈接。

2

基于深度學(xué)習(xí)的

古舊地圖地名識(shí)別


在完成古舊地圖管理信息化的基礎(chǔ)上,需要重視古舊地圖圖幅內(nèi)容的自動(dòng)提取。OCR(Optical Character Recognition)是圖形識(shí)別的一種,主流的OCR系統(tǒng)使用深度神經(jīng)網(wǎng)絡(luò),能夠?qū)崿F(xiàn)高精度的文檔內(nèi)容識(shí)別。

2.1 研制的必要性

在OCR系統(tǒng)支持下,歷史文獻(xiàn)識(shí)別的精度不斷提升,數(shù)字化進(jìn)程大大加快,但通用OCR系統(tǒng)中的文檔分析與圖形識(shí)別方法難以直接應(yīng)用到古舊地圖的處理之中,是因?yàn)楣排f地圖清晰度、幅面整潔度等要素差異巨大。比如,手繪古舊地圖中,道路、邊界線(xiàn)、文本等不同的地理要素互相疊加,而手寫(xiě)手繪也導(dǎo)致樣式存在隨機(jī)性誤差,因而古舊地圖中地名的識(shí)別難度更大。古舊地圖中地理要素的定位和提取非常重要,傳統(tǒng)上由人工進(jìn)行,近年借助機(jī)器學(xué)習(xí)等手段訓(xùn)練計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)提取圖幅內(nèi)容的需求日益增多,一些研究涉及從多種地圖中提取地理信息和文本信息的方法。地理信息系統(tǒng)中的地名解析(Geoparsing或Toponym Resolution)是找出非結(jié)構(gòu)化文本中提到的地名并將轉(zhuǎn)換為對(duì)應(yīng)的經(jīng)緯度坐標(biāo)的過(guò)程。非結(jié)構(gòu)話(huà)文本中自動(dòng)檢測(cè)識(shí)別地名是自然語(yǔ)言處理(Natural Language Processing,NLP)中的命名實(shí)體識(shí)別(Named Entity Recognition,NER)。本研究與文本中地名解析目標(biāo)一致,都是從文本中提取地名:筆者的處理對(duì)象是圖片,即掃描地圖,使用OCR方法提取文本;后者的處理對(duì)象是已經(jīng)數(shù)字化的文本,使用訓(xùn)練機(jī)器從中識(shí)別出表示地名的短語(yǔ)。筆者的工作與文本中地名解析的任務(wù)部分重疊:筆者從古舊地圖中識(shí)別出的文本默認(rèn)都是地名,但識(shí)別文本中的地名是文本中地名解析的核心工作,其方法能為本研究提供思路;相同的部分是都需要將識(shí)別的地名(通過(guò)OCR或NER得到)進(jìn)行歧義消除(Disambiguation),確保提取的文本單元是合法的地名,OCR提取的文本內(nèi)容如何組合為正確的地名是本研究需要解決的關(guān)鍵問(wèn)題。

2.2 深度學(xué)習(xí)與古舊地圖地名識(shí)別

利用機(jī)器學(xué)習(xí)方法從古舊地圖中識(shí)別地名需要大量的訓(xùn)練數(shù)據(jù),因此數(shù)據(jù)標(biāo)注工作很關(guān)鍵。本研究采用逐步迭代的數(shù)據(jù)標(biāo)注方法,起初使用通用的OCR檢測(cè)和識(shí)別古舊地圖中的文本,然后人工對(duì)檢測(cè)出的文本區(qū)域以及識(shí)別的文本內(nèi)容進(jìn)行校對(duì),在新數(shù)據(jù)集上訓(xùn)練新的地名文本檢測(cè)和識(shí)別模型,這樣每迭代一次模型的性能增強(qiáng)一次,經(jīng)過(guò)若干次迭代,系統(tǒng)就具備較高的地名檢測(cè)和識(shí)別準(zhǔn)確率。

古舊地圖中地名文本的檢測(cè)屬于對(duì)象檢測(cè)的一種,深度學(xué)習(xí)在該領(lǐng)域取得了成功。對(duì)象檢測(cè)主要分為“兩步法”(Two-Stage)和“一步法”(One-Stage)?!皟刹椒ā睂?duì)圖片進(jìn)行特征提取后,得到候選框,再進(jìn)行分類(lèi)及回歸,代表算法是RCNN系列的目標(biāo)檢測(cè)算法。“一步法”是在提取的圖片的特征圖上進(jìn)行密集抽樣,產(chǎn)生大量的先驗(yàn)框,然后進(jìn)行分類(lèi)和回歸,代表方法包括YOLO、SSD、RetinaNet。本研究使用一步法檢測(cè)中國(guó)古舊地圖中所有的單個(gè)漢字,訓(xùn)練針對(duì)不同大小漢字的檢測(cè)模型。U-Net在智能語(yǔ)義分割任務(wù)中表現(xiàn)突出,最初是在醫(yī)療影像處理中得到成功應(yīng)用,然后廣泛應(yīng)用于對(duì)象檢測(cè)和語(yǔ)義分割任務(wù),本研究采用這種結(jié)構(gòu)的網(wǎng)絡(luò)進(jìn)行字符級(jí)文本檢測(cè)。

由于文本檢測(cè)是字符級(jí)的,因此文本識(shí)別模型采用字符級(jí)識(shí)別模型。在文本識(shí)別領(lǐng)域,主流的OCR系統(tǒng)采用行(列)級(jí)別的識(shí)別模型,主要采用CTC(Connectionist Temporal Classification)算法搭配卷積神經(jīng)網(wǎng)絡(luò)疊加循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)圖片中包含的文本序列進(jìn)行建模,一般而言文檔中的行和列相較于單個(gè)字符更易檢測(cè)。但是,地圖中的地名文本排列往往不像普通文獻(xiàn)那樣規(guī)則,而且有的地名字符間的距離較遠(yuǎn),所以行列級(jí)別的識(shí)別在地圖文本識(shí)別中并不像在一般文獻(xiàn)識(shí)別那么有效,因此使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行字符級(jí)別的檢測(cè)和識(shí)別。

2.3 工作流程

檢測(cè)到的文字形成正確的地名需要將這些字符合并組成地名詞語(yǔ),使用Min-Cost Flow算法,將檢測(cè)到的文字進(jìn)行適當(dāng)合并得到地名。圖片中的文本轉(zhuǎn)錄到計(jì)算機(jī),主要包含兩個(gè)步驟:文本區(qū)域的檢測(cè)和文本的識(shí)別。前者從圖片中將包含文本的部分與圖片其余區(qū)域進(jìn)行分割;后者將切割出的文本圖片進(jìn)行識(shí)別,并將對(duì)應(yīng)的文本存儲(chǔ)到計(jì)算機(jī)。

本研究的古舊地圖文本自動(dòng)提取方法包括2項(xiàng)關(guān)鍵步驟:一是古舊地圖中地名文本的檢測(cè)與識(shí)別;二是合并檢測(cè)到的文本形成正確的地名。第一步實(shí)際上是OCR系統(tǒng)功能:檢測(cè)和識(shí)別圖片中文本。有些中文地圖中文字?jǐn)?shù)量密集,使用主流的OCR框架往往很難正確檢測(cè)出所有包含的文字,也很難一步到位地將所有文字根據(jù)視覺(jué)特點(diǎn)(如排列、距離)直接生成正確的地名(見(jiàn)圖3)。


本系統(tǒng)工作流程見(jiàn)圖4。第一步,采取字符級(jí)別的文本檢測(cè),即檢測(cè)地圖中所有的字符,并使用字符識(shí)別模型識(shí)別出這些字符。第二步,首先根據(jù)檢測(cè)到的字符的視覺(jué)特點(diǎn),如相對(duì)位置、大小,構(gòu)建一個(gè)K-NN的網(wǎng)絡(luò)。在網(wǎng)路中,每個(gè)檢測(cè)到的字符是一個(gè)節(jié)點(diǎn),每個(gè)漢字代表的節(jié)點(diǎn)周?chē)嚯x它最近的K個(gè)其他漢字所對(duì)應(yīng)的節(jié)點(diǎn)之間,添加一條有向邊邊的權(quán)重是它們?cè)趫D片中檢測(cè)到的限界框(Bounding Boxes)中心之間的歐式距離,這里的權(quán)重在后面的算法中也稱(chēng)為耗費(fèi),在構(gòu)建的這個(gè)網(wǎng)絡(luò)上使用Min-Cost Flow Algorithm將符合條件的字符連綴起來(lái)形成地名候選。后續(xù)研究將嘗試使用與該古舊地圖同時(shí)代的地名詞典(Gazetteer)對(duì)候選地名進(jìn)行篩選和校對(duì),從而獲得更準(zhǔn)確的歷史地名。


2.4 系統(tǒng)關(guān)鍵部件

(1)文本檢測(cè)部件。在古舊地圖的字符檢測(cè)任務(wù)中,采用U-Net架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型。該模型能夠進(jìn)行圖片的語(yǔ)義分割(Semantic Segmentation),在歷史文獻(xiàn)自動(dòng)處理領(lǐng)域得到廣泛應(yīng)用,其中包括古舊地圖中的文本識(shí)別。因?yàn)槟繕?biāo)是進(jìn)行字符級(jí)的識(shí)別,所以字符檢測(cè)模型的數(shù)據(jù)標(biāo)注采用單個(gè)字符的標(biāo)注,標(biāo)注的信息主要是字符的定界框(bounding boxes)。檢測(cè)出的單個(gè)字符輸入中文手寫(xiě)體OCR系統(tǒng)進(jìn)行識(shí)別,該系統(tǒng)能夠?qū)?jiǎn)體、繁體中文進(jìn)行識(shí)別。

(2)文本識(shí)別部件。實(shí)施文本檢測(cè)的模塊需要記錄每個(gè)字符的坐標(biāo)和尺寸,一方面為后續(xù)查詢(xún)定位提供服務(wù),另一方面為第二步的字符合成地名提供輔助信息。地圖中的文本標(biāo)注信息具有如下特點(diǎn):一個(gè)地名用的字符大小一致,大小不一致的往往不屬于同一個(gè)地名;一個(gè)地名包含的字符往往聚在一起成為方向不定的一行(排列方向可能為多種傾斜角度)。本研究的方法是:首先根據(jù)第一步中獲得的每個(gè)字符的定界框(Bounding Box),將檢測(cè)到的字符進(jìn)行分層(位置與原圖中一樣),大小近似的在同一層次,以解決大小字符之間的干擾。將同一層的文本視為同一級(jí)別,利用地名文本的視覺(jué)特點(diǎn)組合成地名候選。

(3)中文地名合成部件。第二步類(lèi)似于解析文本中包含的地名(Geoparsing),采用基于Min-cost Flow Algorithm的地名合成算法,從無(wú)結(jié)構(gòu)文本中識(shí)別出地名(自動(dòng)化的實(shí)現(xiàn)需要自然語(yǔ)言理解相關(guān)技術(shù)),處理的是提取到的詞條,默認(rèn)是地名。但OCR識(shí)別準(zhǔn)確率難以在各種情況下都能達(dá)到100%準(zhǔn)確率,古舊地圖中有些地名文本排列密度高、與背景疊加等原因使得提取到的詞條可能是錯(cuò)誤的。因此,提取到的地名需要一個(gè)去模糊化(Toponym Disambiguation)過(guò)程,即確定提取的地名所屬歷史時(shí)期和所屬高層政區(qū)。

3

古舊地圖信息化處理

與清代黃河變遷研究


基于元數(shù)據(jù)方案、語(yǔ)義網(wǎng)技術(shù)和深度學(xué)習(xí)的古舊地圖管理、處理方法能夠?qū)崿F(xiàn)古舊地圖中地理信息的高效挖掘。這些方法是否能在歷史地理學(xué)科研實(shí)踐中發(fā)揮作用呢?下文以清代黃河變遷研究為例,介紹該方法在歷史自然地理研究中的應(yīng)用前景。

3.1 清代黃河下游的“汛”“堡”名稱(chēng)提取

清代黃河下游依靠“汛”“堡”等基層水利管理單元實(shí)現(xiàn)修防、賑災(zāi)、工程建設(shè)與管理、河銀征收、防盜等事務(wù),是清代河政運(yùn)作的基礎(chǔ)。“汛”依托于黃河一側(cè)河岸的堤防進(jìn)行劃分,“堡”則是在“汛”之下由幾個(gè)河兵或河夫駐守的據(jù)點(diǎn)?!把础薄氨ぁ钡然鶎铀麊卧奶崛『投ㄎ?,可以為清代黃河變遷研究提供定位河務(wù)運(yùn)作的空間框架,能夠?qū)⒑鱼y收支、物料貿(mào)易網(wǎng)絡(luò)、河務(wù)官員流動(dòng)路徑、堤防修護(hù)與決口等多項(xiàng)河務(wù)環(huán)節(jié)置于具體的地理空間下重新認(rèn)識(shí)。但是,“汛”“堡”的整體狀況在文字性史料中并未得到全面記錄,僅有少數(shù)舉辦大型工程或發(fā)生決堤事件的“汛”“堡”名稱(chēng)被記載。這一問(wèn)題可以依靠清代河工圖解決。

利用DHYR·圖形資料庫(kù),在規(guī)模龐大的清代河工圖中快速檢索到覆蓋下游全境、擁有“汛”-“堡”記錄的圖形史料。在史料搜尋方面,大致比傳統(tǒng)方法節(jié)省70%~80%的時(shí)間成本。以《道光黃河六省埽壩全圖》為例,利用本文提出的古舊地圖地名提取方法,訓(xùn)練計(jì)算機(jī)對(duì)圖幅中“汛”“堡”名稱(chēng)進(jìn)行快速提取,形成格式化表格,能夠快速完成“汛”“堡”名錄的制作。如圖5所示,限界框(Bounding Boxes)標(biāo)定100%的“汛”“堡”名稱(chēng),為后期實(shí)現(xiàn)定位提供基礎(chǔ)。


圖5是依據(jù)此方法重建的豫東河段“汛”“堡”空間格局。與孫濤提出的黃河蘭考以下河段“汛”界數(shù)據(jù)共同構(gòu)成完整的“汛”“堡”空間數(shù)據(jù)。在此基礎(chǔ)上,根據(jù)文字性史料,可以判斷少數(shù)“堡”所在的經(jīng)緯度位置,如中牟下汛的九堡即今中牟縣九堡村,此河段一直是豫東河防重點(diǎn),現(xiàn)代建有“九堡控導(dǎo)工程”。少數(shù)“堡”的經(jīng)緯度確定后,基本上可以在現(xiàn)代地圖上確定“汛”“堡”體系的基本格局,之后根據(jù)史料記錄和清代黃河下游形態(tài)、堤防格局推斷所有“堡”的位置,據(jù)此確定“汛”的范圍。

3.2 黃河重大變遷事件研究

19世紀(jì)以來(lái),黃河下游最重要的變化即1855年(清咸豐五年)的“銅瓦廂改道”,黃河在今蘭考東壩頭一帶改道北流,奪大清河入渤海,結(jié)束了1128年以來(lái)形成的黃河“奪淮入黃?!本置?,奠定了現(xiàn)代黃河下游基本格局。借助道光《豫省河工圖》(見(jiàn)圖6)及對(duì)其的信息化處理,可以重新認(rèn)識(shí)“銅瓦廂改道”的過(guò)程、原因和影響。


重新討論“銅瓦廂改道”,首先需要準(zhǔn)確認(rèn)識(shí)決口點(diǎn)位置,長(zhǎng)期以來(lái),學(xué)界認(rèn)為此次大改道決口點(diǎn)為黃河蘭考段的銅瓦廂,但通過(guò)閱讀清代河工檔案,結(jié)合實(shí)地調(diào)查,本研究發(fā)現(xiàn)1855年決口點(diǎn)為蘭陽(yáng)上汛三堡。從道光《豫省河工圖》中發(fā)現(xiàn),道光年間銅瓦廂段黃河已經(jīng)緊逼河堤,銅瓦廂段形成托壩、挑水壩、雞嘴壩、格堤等復(fù)合工程構(gòu)成的復(fù)雜體系,其中緊鄰黃河北岸的挑壩和格堤體系才是銅瓦廂埽工所在,黃河北擺的現(xiàn)象在道光時(shí)期已經(jīng)非常明顯。因此,確定蘭陽(yáng)上汛三堡所在位置非常重要。按前述操作方法,基于道光《豫省河工圖》,本研究確定蘭陽(yáng)上汛三堡所在地(今蘭考東壩頭鎮(zhèn)東700米黃河河道內(nèi))。決口點(diǎn)位置的重新認(rèn)識(shí)確定了決口點(diǎn)正是清代檔案中記錄的“蘭陽(yáng)無(wú)工河段”,“銅瓦廂改道”的直接原因之一其實(shí)是清政府對(duì)“工”的布局出現(xiàn)問(wèn)題,而非銅瓦廂本身工程出現(xiàn)問(wèn)題。這一認(rèn)識(shí)使得學(xué)界能夠重新思考1949年以來(lái)得出的一些認(rèn)識(shí),比如用銅瓦廂工程腐敗、太平天國(guó)戰(zhàn)爭(zhēng)導(dǎo)致清廷無(wú)暇顧及河務(wù)等解釋此次大改道的成因,而是回到清代河務(wù)制度本身,從制度結(jié)構(gòu)性不足角度重新認(rèn)識(shí)大改道的原因?!般~瓦廂改道”的重新認(rèn)識(shí)僅是一個(gè)例證,實(shí)際上,古舊地圖在歷史時(shí)期黃河變遷(改道、決口、擺動(dòng)以及管理方式)研究中的作用仍需更多案例進(jìn)行驗(yàn)證,進(jìn)而總結(jié)為歷史自然地理的系統(tǒng)性研究方法,革新歷史地理學(xué)的研究方法。

4

結(jié)論與展望


(1)古舊地圖的信息化包括管理信息化、內(nèi)容自動(dòng)化提取和專(zhuān)題數(shù)據(jù)利用3個(gè)環(huán)節(jié)。

(2)編目方案能提高古舊地圖的管理效率。DHYR建設(shè)嘗試采用RDF方案對(duì)平臺(tái)圖形資料庫(kù)進(jìn)行編目,這一方法實(shí)現(xiàn)了圖形資料信息的標(biāo)準(zhǔn)化,在提高信息檢索效率、實(shí)現(xiàn)跨庫(kù)鏈接以及不同知識(shí)體系融合方面發(fā)揮巨大作用,能解決歷史地理信息化中的數(shù)據(jù)孤島現(xiàn)象。

(3)基于深度學(xué)習(xí)的古舊地圖地名檢測(cè)和提取技術(shù)能夠快速、準(zhǔn)確地整理古舊地圖中的地名信息。本研究所采用的“U-Net架構(gòu)深度神經(jīng)網(wǎng)絡(luò)模型”在處理古舊地圖中提高了信息采集的準(zhǔn)確率和完整性,效果良好。

(4)信息化手段能夠支持中小型學(xué)術(shù)團(tuán)隊(duì)進(jìn)行批量文獻(xiàn)處理、數(shù)據(jù)重建與分析,克服人力、財(cái)力限制,完成較復(fù)雜的大型跨學(xué)科研究任務(wù)。歷史地理學(xué)界有必要學(xué)習(xí)圖情知識(shí)體系,增強(qiáng)與圖情學(xué)界的交流。

作者:潘威 張光偉 夏翠娟 孫濤

來(lái)源:《圖書(shū)館論壇》2021年第11期

選稿:耿 曈

編輯:宋柄燃

校對(duì):杜佳玲

審訂:汪鴻琴

責(zé)編:楊 琪

(由于版面內(nèi)容有限,文章注釋內(nèi)容請(qǐng)參照原文)



微信掃碼加入

中國(guó)地名研究交流群

QQ掃碼加入

江西地名研究交流群

歡迎來(lái)稿!歡迎交流!

轉(zhuǎn)載請(qǐng)注明來(lái)源:“江西地名研究”微信公眾號(hào)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
古巴高調(diào)反美!美國(guó)為啥不打古巴?因?yàn)楣虐褪亲睢跋冗M(jìn)”的國(guó)家

古巴高調(diào)反美!美國(guó)為啥不打古巴?因?yàn)楣虐褪亲睢跋冗M(jìn)”的國(guó)家

南宮一二
2026-01-10 17:41:19
馬筱梅順利產(chǎn)子后首出鏡 穿粉病號(hào)服氣色紅潤(rùn)狀態(tài)佳

馬筱梅順利產(chǎn)子后首出鏡 穿粉病號(hào)服氣色紅潤(rùn)狀態(tài)佳

阿廢冷眼觀(guān)察所
2026-02-28 16:36:38
多爾特廢人動(dòng)作引怒約基奇被驅(qū)逐,眾美媒發(fā)文:多特垃圾動(dòng)作太賤

多爾特廢人動(dòng)作引怒約基奇被驅(qū)逐,眾美媒發(fā)文:多特垃圾動(dòng)作太賤

大漠風(fēng)光
2026-02-28 13:31:38
美國(guó)正式下場(chǎng)了,大場(chǎng)面來(lái)了,伊朗的表現(xiàn)可以名譽(yù)平反了吧

美國(guó)正式下場(chǎng)了,大場(chǎng)面來(lái)了,伊朗的表現(xiàn)可以名譽(yù)平反了吧

明人明察
2026-02-28 19:47:41
半年得給華為200億,加入鴻蒙智行到底行不行?

半年得給華為200億,加入鴻蒙智行到底行不行?

差評(píng)XPIN
2026-02-28 00:11:51
王曼昱贏(yíng)了球,卻用一句話(huà)讓對(duì)手紅了眼眶!這才是大將風(fēng)范!

王曼昱贏(yíng)了球,卻用一句話(huà)讓對(duì)手紅了眼眶!這才是大將風(fēng)范!

眼界縱橫
2026-02-28 20:58:39
美軍上尉回憶:志愿軍沖入陣地后,拿刺刀捅死看到的每一個(gè)美國(guó)兵

美軍上尉回憶:志愿軍沖入陣地后,拿刺刀捅死看到的每一個(gè)美國(guó)兵

阿器談史
2026-02-26 17:42:09
誰(shuí)也別吹牛,100萬(wàn)現(xiàn)金攥在手里,你就已經(jīng)跑贏(yíng)了全國(guó)99%的家庭

誰(shuí)也別吹牛,100萬(wàn)現(xiàn)金攥在手里,你就已經(jīng)跑贏(yíng)了全國(guó)99%的家庭

白淺娛樂(lè)聊
2026-02-15 07:00:34
河南內(nèi)鄉(xiāng)縣一居民在農(nóng)業(yè)農(nóng)村局上廁所遭工作人員“辱罵”,官方通報(bào)

河南內(nèi)鄉(xiāng)縣一居民在農(nóng)業(yè)農(nóng)村局上廁所遭工作人員“辱罵”,官方通報(bào)

環(huán)球網(wǎng)資訊
2026-02-28 06:36:10
王一博風(fēng)波升級(jí)!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對(duì)上,爆料者被扒!

王一博風(fēng)波升級(jí)!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對(duì)上,爆料者被扒!

古希臘掌管月桂的神
2026-02-28 09:35:27
臉在江山在?事實(shí)證明,失去黃曉明的楊穎,又回到了她的“怪圈”

臉在江山在?事實(shí)證明,失去黃曉明的楊穎,又回到了她的“怪圈”

觀(guān)察鑒娛
2026-02-28 10:07:44
上海地鐵曝出大消息…

上海地鐵曝出大消息…

新浪財(cái)經(jīng)
2026-02-27 17:35:27
伊朗襲擊美軍基地!

伊朗襲擊美軍基地!

環(huán)球時(shí)報(bào)國(guó)際
2026-02-28 18:14:50
巴阿全面開(kāi)戰(zhàn)!24小時(shí)戰(zhàn)局反轉(zhuǎn),巴軍狂奪40據(jù)點(diǎn)插旗宣誓主權(quán)

巴阿全面開(kāi)戰(zhàn)!24小時(shí)戰(zhàn)局反轉(zhuǎn),巴軍狂奪40據(jù)點(diǎn)插旗宣誓主權(quán)

聚焦光輝與陰暗
2026-02-28 07:09:48
打虎!韓嵩,主動(dòng)投案

打虎!韓嵩,主動(dòng)投案

農(nóng)民日?qǐng)?bào)
2026-02-28 20:17:51
伊朗用血淚換來(lái)的教訓(xùn):一旦中美開(kāi)戰(zhàn),中國(guó)必須首先鎖定這一點(diǎn)

伊朗用血淚換來(lái)的教訓(xùn):一旦中美開(kāi)戰(zhàn),中國(guó)必須首先鎖定這一點(diǎn)

冷峻視角下的世界
2026-02-20 07:45:35
保住聯(lián)盟第一!活塞加時(shí)險(xiǎn)勝無(wú)哈登騎士 杜倫33+16三人6犯

保住聯(lián)盟第一!活塞加時(shí)險(xiǎn)勝無(wú)哈登騎士 杜倫33+16三人6犯

醉臥浮生
2026-02-28 11:33:18
春節(jié)前將牛肉飯忘在辦公室!節(jié)后牛肉飯長(zhǎng)出15厘米高“黑色叢林”!

春節(jié)前將牛肉飯忘在辦公室!節(jié)后牛肉飯長(zhǎng)出15厘米高“黑色叢林”!

天津人
2026-02-28 07:09:58
重慶“限行”范圍擴(kuò)大! 2026年3月1日起執(zhí)行

重慶“限行”范圍擴(kuò)大! 2026年3月1日起執(zhí)行

車(chē)市紅點(diǎn)
2026-02-28 11:28:49
瀨戶(hù)環(huán)奈、小湊四葉、山田玲奈、三葉彌生、三上悠亞 日美女明星

瀨戶(hù)環(huán)奈、小湊四葉、山田玲奈、三葉彌生、三上悠亞 日美女明星

鹿鹿156
2026-02-27 17:12:21
2026-02-28 21:48:49
江西地名研究 incentive-icons
江西地名研究
分享地名研究信息、行業(yè)資訊。
3260文章數(shù) 302關(guān)注度
往期回顧 全部

頭條要聞

87歲哈梅內(nèi)伊對(duì)拉里賈尼委以重任 還建立完整繼承體系

頭條要聞

87歲哈梅內(nèi)伊對(duì)拉里賈尼委以重任 還建立完整繼承體系

體育要聞

球隊(duì)主力全報(bào)銷(xiāo)?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

疑似王一博被爆私密聊天記錄

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話(huà)

汽車(chē)要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

數(shù)碼
本地
時(shí)尚
手機(jī)
公開(kāi)課

數(shù)碼要聞

Pulsar推出X2N CrazyLight輕量化鼠標(biāo),收腰高背對(duì)稱(chēng)抓握模具

本地新聞

津南好·四時(shí)總相宜

發(fā)現(xiàn)4種春季很襯膚色的辦法,照著穿

手機(jī)要聞

酷比魔方掌玩mini 4 Ultra要上Flyme?官方表態(tài):在談適配

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版