国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

觀點(diǎn)丨徐擁軍 成徐慧:如何建設(shè)面向人工智能的高質(zhì)量檔案數(shù)據(jù)集?

0
分享至


徐擁軍

中國人民大學(xué)國家發(fā)展與戰(zhàn)略研究院研究員

信息資源管理學(xué)院教授

成徐慧

中國人民大學(xué)信息資源管理學(xué)院碩士生

在數(shù)智時(shí)代,高質(zhì)量數(shù)據(jù)集作為人工智能模型訓(xùn)練與應(yīng)用的基石,已成為國家科技發(fā)展與戰(zhàn)略安全的核心稀缺要素?!吨泄仓醒腙P(guān)于制定國民經(jīng)濟(jì)和社會發(fā)展第十五個(gè)五年規(guī)劃的建議》要求:“強(qiáng)化算力、算法、數(shù)據(jù)等高效供給?!薄秶鴦?wù)院關(guān)于深入實(shí)施“人工智能+”行動的意見》提出:“加強(qiáng)數(shù)據(jù)供給創(chuàng)新。以應(yīng)用為導(dǎo)向,持續(xù)加強(qiáng)人工智能高質(zhì)量數(shù)據(jù)集建設(shè)?!痹诖吮尘跋?,加強(qiáng)優(yōu)質(zhì)數(shù)據(jù)供給,以高質(zhì)量數(shù)據(jù)集驅(qū)動人工智能創(chuàng)新發(fā)展變得愈發(fā)關(guān)鍵。

檔案作為人類社會活動的原始記錄,在高質(zhì)量數(shù)據(jù)集建設(shè)方面具有突出優(yōu)勢。目前,已有電子疾病檔案(EDR)數(shù)據(jù)集、公共信用檔案數(shù)據(jù)集等入選國家數(shù)據(jù)局高質(zhì)量數(shù)據(jù)集典型案例,初步展現(xiàn)了檔案資源向高質(zhì)量語料轉(zhuǎn)化的可行路徑。檔案部門應(yīng)該面向人工智能積極行動,將檔案信息化建設(shè)重心轉(zhuǎn)向高質(zhì)量檔案數(shù)據(jù)集建設(shè)。

面向場景開展數(shù)據(jù)需求識別與規(guī)劃設(shè)計(jì)

建設(shè)高質(zhì)量檔案數(shù)據(jù)集,首要前提是弄清楚“數(shù)據(jù)要用來干什么”,將數(shù)據(jù)需求與具體應(yīng)用場景緊密耦合。具體而言,高質(zhì)量檔案數(shù)據(jù)集的建設(shè)需求應(yīng)當(dāng)從三個(gè)方面入手加以系統(tǒng)梳理:一是面向外部模型的通用需求,如支持人工智能模型的價(jià)值對齊。二是面向數(shù)據(jù)要素市場的開發(fā)需求,如檔案資源在醫(yī)療健康、城市治理、文化創(chuàng)意、金融風(fēng)控等領(lǐng)域的深度利用。三是面向檔案業(yè)務(wù)的內(nèi)部應(yīng)用需求,如檔案鑒定、開放審核、利用服務(wù)、編研選題等環(huán)節(jié)的智能輔助。在此基礎(chǔ)上,圍繞不同應(yīng)用場景,開展系統(tǒng)化的數(shù)據(jù)規(guī)劃設(shè)計(jì),界定所需檔案數(shù)據(jù)的來源、屬性與范圍,并制定涵蓋全流程的實(shí)施計(jì)劃,明確數(shù)據(jù)采集、預(yù)處理、標(biāo)注、模型驗(yàn)證等環(huán)節(jié)的責(zé)任分工、時(shí)間安排與質(zhì)量控制要求,形成可執(zhí)行的路線圖。

為提高高質(zhì)量檔案數(shù)據(jù)集的建設(shè)效率,建議在數(shù)據(jù)集規(guī)劃設(shè)計(jì)階段統(tǒng)籌考慮既有檔案數(shù)字化成果、檔案數(shù)據(jù)庫,有效整合分散資源,避免重復(fù)采集與處理。因此,高質(zhì)量檔案數(shù)據(jù)集對檔案信息化建設(shè)也提出了更高要求。例如,在檔案數(shù)據(jù)化階段,應(yīng)同步考慮樣本切分、語義標(biāo)注和脫敏處理等需求,使數(shù)據(jù)化成果成為數(shù)據(jù)集建設(shè)的前期基礎(chǔ)。在檔案數(shù)據(jù)庫建模時(shí),既要滿足管理需要,也要盡量保留有助于數(shù)據(jù)集構(gòu)建的結(jié)構(gòu)信息與語義線索,避免因過度簡化而削弱后續(xù)數(shù)據(jù)集建設(shè)空間。

統(tǒng)籌推進(jìn)數(shù)據(jù)采集與預(yù)處理

對既有檔案數(shù)據(jù)庫和數(shù)字化成果開展資源盤點(diǎn)和可用性評估,識別其中可通過格式轉(zhuǎn)換、字段映射、批量抽取等方式直接轉(zhuǎn)化為訓(xùn)練樣本的部分,將其作為數(shù)據(jù)集建設(shè)的“優(yōu)先利用層”;對尚未數(shù)字化或數(shù)字化質(zhì)量難以滿足要求的檔案,則納入增量采集范圍,通過補(bǔ)掃、重掃、補(bǔ)錄等方式完善數(shù)據(jù)來源。在此基礎(chǔ)上,對檔案數(shù)據(jù)進(jìn)行預(yù)處理。針對掃描件、版式文件、結(jié)構(gòu)化元數(shù)據(jù)和自由文本等不同形態(tài)的檔案數(shù)據(jù),通過版面分析、OCR、版式還原、字段解析等過程,完成結(jié)構(gòu)轉(zhuǎn)換。進(jìn)而根據(jù)不同任務(wù)需求,將文本拆分為文件級、段落級、句子級或字段級等多粒度樣本,并繼承保留全宗號、案卷號、時(shí)間節(jié)點(diǎn)、責(zé)任主體等既有元數(shù)據(jù)字段,維持必要的上下文關(guān)聯(lián),使模型既能學(xué)習(xí)局部特征,又能把握檔案形成過程和業(yè)務(wù)邏輯。

圍繞完整性、準(zhǔn)確性、一致性等關(guān)鍵質(zhì)量特征,構(gòu)建自動檢測與人工抽查相結(jié)合的質(zhì)檢機(jī)制,重點(diǎn)識別并修正OCR誤識、字段錯(cuò)位、時(shí)間格式混亂、重復(fù)記錄、缺頁漏頁等問題,對嚴(yán)重影響使用的數(shù)據(jù)予以標(biāo)記或剔除,避免“臟數(shù)據(jù)”在下游應(yīng)用環(huán)節(jié)被放大。針對含有個(gè)人隱私、國家秘密等敏感信息的檔案數(shù)據(jù),按照相關(guān)法律法規(guī)要求,采用匿名化、去標(biāo)識化、模糊化、分級展示等方式進(jìn)行脫敏,并明確可用范圍和使用限制,確保在不損害檔案真實(shí)性和研究價(jià)值的前提下,將數(shù)據(jù)使用風(fēng)險(xiǎn)控制在可接受水平。

構(gòu)建面向語義的數(shù)據(jù)標(biāo)注體系

數(shù)據(jù)標(biāo)注是對初級數(shù)據(jù)進(jìn)行加工處理,并轉(zhuǎn)換為機(jī)器可識別信息的過程。在數(shù)據(jù)預(yù)處理階段保留的全宗號等基礎(chǔ)管理元數(shù)據(jù)主要服務(wù)于檔案管理,對檔案內(nèi)容所包含的事件結(jié)構(gòu)、語義關(guān)系和制度語境缺乏刻畫能力,難以滿足人工智能模型在實(shí)體識別、關(guān)系抽取、因果推理等方面的訓(xùn)練需求。因此,有必要在現(xiàn)有元數(shù)據(jù)之上疊加一層面向語義的數(shù)據(jù)標(biāo)注體系,將檔案知識結(jié)構(gòu)和業(yè)務(wù)規(guī)則顯性化為模型可學(xué)習(xí)的目標(biāo)變量。

以應(yīng)用場景和任務(wù)需求為牽引,形成場景任務(wù)標(biāo)簽。例如,對于醫(yī)療健康等專業(yè)檔案,可增加疾病分類、診療過程節(jié)點(diǎn)、干預(yù)措施與結(jié)果指標(biāo)等標(biāo)簽;在開放審核場景中則增加涉密信息類型、個(gè)人隱私敏感度、公開風(fēng)險(xiǎn)等級等標(biāo)簽。

在具體標(biāo)注過程中,根據(jù)不同任務(wù)的復(fù)雜程度和專業(yè)要求,合理配置領(lǐng)域?qū)<?、檔案工作人員和數(shù)據(jù)標(biāo)注人員,將業(yè)務(wù)規(guī)章和專業(yè)經(jīng)驗(yàn)固化為標(biāo)注指南,通過試標(biāo)、示例庫建設(shè)和標(biāo)注培訓(xùn),減少標(biāo)注者之間的理解差異。在流程設(shè)計(jì)上,可采用“初標(biāo)—復(fù)核—抽檢”相結(jié)合的方式,對關(guān)鍵任務(wù)或高風(fēng)險(xiǎn)標(biāo)簽(如開放屬性、風(fēng)險(xiǎn)類別等)實(shí)施更高強(qiáng)度的復(fù)核比例。同時(shí),運(yùn)用一致性指標(biāo)和錯(cuò)誤分析報(bào)告,對易混淆標(biāo)簽、模糊規(guī)則進(jìn)行針對性修訂,使標(biāo)簽體系和標(biāo)注規(guī)程在實(shí)踐中不斷迭代。

建立閉環(huán)反饋的模型驗(yàn)證機(jī)制

數(shù)據(jù)標(biāo)注完成后,需通過模型驗(yàn)證環(huán)節(jié)檢驗(yàn)高質(zhì)量數(shù)據(jù)集對人工智能任務(wù)的支持能力。模型驗(yàn)證的核心目標(biāo),在于判斷數(shù)據(jù)集是否具備支撐語義理解與知識推理等任務(wù)的能力、是否能夠有效提升下游模型性能。為此,應(yīng)圍繞具體應(yīng)用場景,設(shè)定具有代表性的基準(zhǔn)任務(wù)和評估指標(biāo),對結(jié)構(gòu)識別、術(shù)語抽取、情境判斷等典型任務(wù)進(jìn)行系統(tǒng)測試,以綜合判斷數(shù)據(jù)集的訓(xùn)練有效性與場景適配性。

當(dāng)模型在相應(yīng)任務(wù)上的表現(xiàn)達(dá)到預(yù)期,說明數(shù)據(jù)集在樣本覆蓋、標(biāo)簽體系與語義深度等方面具備較高的匹配度;反之,則需啟動“診斷—反饋—優(yōu)化”的閉環(huán)機(jī)制。具體而言,一方面,要首先厘清問題是否主要源于數(shù)據(jù)質(zhì)量,而非算法設(shè)計(jì);另一方面,應(yīng)對訓(xùn)練與驗(yàn)證過程中暴露出的錯(cuò)誤樣本和系統(tǒng)性偏差進(jìn)行歸納,據(jù)此優(yōu)化樣本構(gòu)成、調(diào)整結(jié)構(gòu)轉(zhuǎn)換規(guī)則、細(xì)化標(biāo)注規(guī)范或修訂標(biāo)簽體系。

綜上,推動檔案高質(zhì)量數(shù)據(jù)集建設(shè),關(guān)鍵在于打破組織與資源壁壘,實(shí)現(xiàn)跨領(lǐng)域的系統(tǒng)規(guī)劃與多元協(xié)同。一方面,應(yīng)堅(jiān)持試點(diǎn)先行、示范帶動的推進(jìn)思路,依托國家高水平數(shù)字檔案館(室)、重點(diǎn)科研項(xiàng)目或區(qū)域性平臺率先布局?jǐn)?shù)據(jù)集建設(shè)與模型測試任務(wù),探索形成可復(fù)制、可推廣的技術(shù)方案和經(jīng)驗(yàn)?zāi)J?。另一方面,要推動協(xié)同共建,構(gòu)建良好生態(tài)。既要鼓勵(lì)檔案館、高校、科研機(jī)構(gòu)與技術(shù)企業(yè)等多元主體深度參與,在檔案本體構(gòu)建、語義標(biāo)注與模型評估等關(guān)鍵環(huán)節(jié)協(xié)同攻關(guān),也要秉持長期主義理念,推動檔案數(shù)據(jù)的持續(xù)治理與動態(tài)更新,構(gòu)建可滾動優(yōu)化的檔案數(shù)據(jù)資產(chǎn)體系。

檔案高質(zhì)量數(shù)據(jù)集的建設(shè)是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及法規(guī)標(biāo)準(zhǔn)、數(shù)據(jù)治理、技術(shù)研發(fā)、平臺建設(shè)與場景應(yīng)用等多個(gè)環(huán)節(jié),需要多方共建、協(xié)同推進(jìn),以充分釋放檔案作為數(shù)據(jù)要素的潛力,將靜態(tài)資源轉(zhuǎn)化為驅(qū)動人工智能創(chuàng)新的智慧動能。

文章來源:《中國檔案》

微信編輯:張菁菁


人大國發(fā)院是中國人民大學(xué)集全校之力重點(diǎn)打造的中國特色新型高校智庫,現(xiàn)任理事長為學(xué)校黨委書記張東剛,現(xiàn)任院長為林尚立教授。2015年入選全國首批“國家高端智庫”建設(shè)試點(diǎn)單位,并入選全球智庫百強(qiáng),2018年初在“中國大學(xué)智庫機(jī)構(gòu)百強(qiáng)排行榜”中名列第一。2019年在國家高端智庫綜合評估中入選第一檔次梯隊(duì),是唯一入選第一檔次梯隊(duì)的高校智庫。

人大國發(fā)院積極打造“新平臺、大網(wǎng)絡(luò),跨學(xué)科、重交叉,促創(chuàng)新、高產(chǎn)出”的高端智庫平臺。圍繞經(jīng)濟(jì)治理與經(jīng)濟(jì)發(fā)展、政治治理與法治建設(shè)、社會治理與社會創(chuàng)新、公共外交與國際關(guān)系四大研究領(lǐng)域,匯聚全校一流學(xué)科優(yōu)質(zhì)資源,在基礎(chǔ)建設(shè)、決策咨詢、公共外交、理論創(chuàng)新、輿論引導(dǎo)和內(nèi)部治理等方面取得了顯著成效。人大國發(fā)院以“中國特色新型高校智庫的引領(lǐng)者”為目標(biāo),扎根中國大地,堅(jiān)守國家戰(zhàn)略,秉承時(shí)代使命,致力于建設(shè)成為具有全球影響力的世界一流大學(xué)智庫。

微信二維碼

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
罕見!羅永浩高情商回應(yīng),沒有爆粗,有博主說他啥時(shí)嗝屁就放煙花

罕見!羅永浩高情商回應(yīng),沒有爆粗,有博主說他啥時(shí)嗝屁就放煙花

火山詩話
2026-05-01 06:07:17
斯諾克世錦賽半決賽第一階段:吳宜澤6-2領(lǐng)先強(qiáng)敵,墨菲4-4希金斯

斯諾克世錦賽半決賽第一階段:吳宜澤6-2領(lǐng)先強(qiáng)敵,墨菲4-4希金斯

側(cè)身凌空斬
2026-05-01 04:59:37
商務(wù)部新聞發(fā)言人就美國聯(lián)邦通信委員會審議通過檢測認(rèn)證和電信領(lǐng)域相關(guān)限制措施事答記者問

商務(wù)部新聞發(fā)言人就美國聯(lián)邦通信委員會審議通過檢測認(rèn)證和電信領(lǐng)域相關(guān)限制措施事答記者問

界面新聞
2026-05-01 11:51:46
伊能靜回應(yīng)兒子從女生嘴里喝飲料,罵網(wǎng)友是老登,說大家刻薄

伊能靜回應(yīng)兒子從女生嘴里喝飲料,罵網(wǎng)友是老登,說大家刻薄

錢小刀娛樂
2026-05-01 15:22:53
深度:大巴黎在沒有了超級球星后為何更強(qiáng)了?

深度:大巴黎在沒有了超級球星后為何更強(qiáng)了?

K唐伯虎
2026-05-01 07:59:25
臺灣候任“檢察總長”曾任職情報(bào)單位,藍(lán)白民代擬聯(lián)手封殺

臺灣候任“檢察總長”曾任職情報(bào)單位,藍(lán)白民代擬聯(lián)手封殺

海峽導(dǎo)報(bào)社
2026-05-01 16:56:19
提前鎖定2026!A股八大核心賽道曝光,這些細(xì)分龍頭必須拿穩(wěn)

提前鎖定2026!A股八大核心賽道曝光,這些細(xì)分龍頭必須拿穩(wěn)

慧眼看世界哈哈
2026-05-01 06:07:10
樓市爆火了!網(wǎng)傳武漢一799平米公寓賣出6452萬,單價(jià)高達(dá)80750元

樓市爆火了!網(wǎng)傳武漢一799平米公寓賣出6452萬,單價(jià)高達(dá)80750元

火山詩話
2026-04-30 09:33:39
19人對6人不表決!藍(lán)營為8000億徹底撕破臉,藍(lán)營內(nèi)斗大戲太狗血

19人對6人不表決!藍(lán)營為8000億徹底撕破臉,藍(lán)營內(nèi)斗大戲太狗血

愛意隨風(fēng)起呀
2026-05-01 14:59:28
葉新萍已被查實(shí),舉報(bào)人再爆院長兒子:一個(gè)人占了整個(gè)科室的福利

葉新萍已被查實(shí),舉報(bào)人再爆院長兒子:一個(gè)人占了整個(gè)科室的福利

娛樂圈見解說
2026-05-01 00:33:10
李斌現(xiàn)場演示做飯!蔚來全新車型預(yù)售15.98萬起

李斌現(xiàn)場演示做飯!蔚來全新車型預(yù)售15.98萬起

汽車工程師
2026-04-28 22:04:44
海牛差1分上岸,德比打出自信,葉博亞與安佩姆拼速度 海港虐菜穩(wěn)

海牛差1分上岸,德比打出自信,葉博亞與安佩姆拼速度 海港虐菜穩(wěn)

替補(bǔ)席看球
2026-05-01 13:35:52
申花與蓉城比賽沒開踢!斯盧茨基就做出重要決定,事關(guān)球隊(duì)獲勝

申花與蓉城比賽沒開踢!斯盧茨基就做出重要決定,事關(guān)球隊(duì)獲勝

張麗說足球
2026-05-01 16:35:33
伊朗購買中國導(dǎo)彈了?美防長斬釘截鐵一句話,令聽證會鴉雀無聲

伊朗購買中國導(dǎo)彈了?美防長斬釘截鐵一句話,令聽證會鴉雀無聲

果媽聊娛樂
2026-05-01 11:53:51
李湘在長沙小區(qū)被路人偶遇,整個(gè)人瘦到像換了個(gè)人,忒美了

李湘在長沙小區(qū)被路人偶遇,整個(gè)人瘦到像換了個(gè)人,忒美了

動物奇奇怪怪
2026-04-30 17:30:48
杭州靈隱景區(qū)五一呼吁游客守約,大喇叭抽象喊話怎么還不來?

杭州靈隱景區(qū)五一呼吁游客守約,大喇叭抽象喊話怎么還不來?

眼光很亮
2026-05-01 15:36:57
震驚!有人直接把月供干到了0.44元,直言在職場上徹底沒“弱點(diǎn)”

震驚!有人直接把月供干到了0.44元,直言在職場上徹底沒“弱點(diǎn)”

火山詩話
2026-03-19 08:38:38
DeepSeek“開眼”背后的技術(shù),公開了!

DeepSeek“開眼”背后的技術(shù),公開了!

智東西
2026-04-30 22:35:23
廣東隊(duì)能否贏廣州?徐杰給出了一個(gè)肯定的答案!

廣東隊(duì)能否贏廣州?徐杰給出了一個(gè)肯定的答案!

體育哲人
2026-05-01 10:33:30
程曉玥二胎產(chǎn)子后首曝光!氣色紅潤狀態(tài)絕佳,兒女雙全人生贏家

程曉玥二胎產(chǎn)子后首曝光!氣色紅潤狀態(tài)絕佳,兒女雙全人生贏家

笑飲孤鴻非
2026-05-01 01:34:45
2026-05-01 17:43:00
人大國發(fā)院 incentive-icons
人大國發(fā)院
首批25家國家高端智庫
4179文章數(shù) 1835關(guān)注度
往期回顧 全部

科技要聞

蘋果上季在華收入繼續(xù)大增 iPhone收入新高

頭條要聞

人販推倒奶奶入室搶走1歲男童 娃爸曾懷疑奶奶是同伙

頭條要聞

人販推倒奶奶入室搶走1歲男童 娃爸曾懷疑奶奶是同伙

體育要聞

無奈!約基奇:這要在塞爾維亞 全隊(duì)早被炒了

娛樂要聞

鄧超在景德鎮(zhèn)被偶遇,穿黑外套逛茶園

財(cái)經(jīng)要聞

GPU神話松動,AI真正的戰(zhàn)場變了

汽車要聞

限時(shí)9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態(tài)度原創(chuàng)

親子
游戲
數(shù)碼
教育
健康

親子要聞

萌娃認(rèn)不出化妝的媽媽,電梯里全程一臉懵,寶媽:化了妝就不認(rèn)識了

《風(fēng)啟之旅》更新補(bǔ)丁幫助玩家解決網(wǎng)絡(luò)延遲問題

數(shù)碼要聞

小米推出“米家智能洗碗機(jī)Pro嵌入式18套”,6999元

教育要聞

孩子憂郁躺平三個(gè)月,我用這3個(gè)字把他拉了回來|不花錢不找專家

干細(xì)胞治燒燙傷面臨這些“瓶頸”

無障礙瀏覽 進(jìn)入關(guān)懷版