国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

國家語言文字信息化十大新聞,廣州入選!

0
分享至

近日,教育部語言文字信息管理司“國家語言資源監(jiān)測與研究中心”發(fā)布2025年度中國語言文字信息化十大新聞。

由廣州市社科聯(lián)與廣州大學(xué)聯(lián)合建設(shè)的粵語語料庫建設(shè)與大模型評(píng)測重點(diǎn)實(shí)驗(yàn)室原創(chuàng)應(yīng)用成果AI-DimSum多模態(tài)通用粵語語料庫平臺(tái)以第四序列入選,成為國家數(shù)字中文建設(shè)的關(guān)鍵領(lǐng)域標(biāo)桿。


圖源AI-DimSum官網(wǎng)

國家戰(zhàn)略牽引:實(shí)驗(yàn)室應(yīng)運(yùn)而生

2024年11月14日,廣州社科重點(diǎn)實(shí)驗(yàn)室——“粵語語料庫建設(shè)與大模型評(píng)測重點(diǎn)實(shí)驗(yàn)室”正式成立。該實(shí)驗(yàn)室旨在通過“粵語+人工智能”文化科技融合創(chuàng)新,推動(dòng)嶺南文化傳承、傳播和創(chuàng)新發(fā)展。

針對粵語的人工智能友好型語料庫建設(shè)的現(xiàn)實(shí)問題,粵語語料庫建設(shè)與大模型評(píng)測重點(diǎn)實(shí)驗(yàn)室牽頭,開發(fā)了以“文化忠實(shí)、安全可信、AI友好、持續(xù)成長”為特色的AI-DimSum通用粵語語料庫。

該語料庫提供的不只是單純的“語料收集”或“語言檔案保存”,而是一整套“從語料獲取到AI應(yīng)用落地”的閉環(huán)服務(wù),是服務(wù)多種需求,特別是面向人工智能應(yīng)用的新型方言語料庫。

創(chuàng)新技術(shù)架構(gòu):

七大子系統(tǒng)實(shí)現(xiàn)全流程閉環(huán)

AI-DimSum粵語語料庫平臺(tái)首創(chuàng)語料采集、標(biāo)注、大模型對接、確權(quán)檢索、質(zhì)量評(píng)估、管理、應(yīng)用商店七大子系統(tǒng),實(shí)現(xiàn)從數(shù)據(jù)采集、清洗、標(biāo)注到應(yīng)用發(fā)布的一體化流程。


來源:南方+

核心創(chuàng)新包括:

“1+1+N”協(xié)同機(jī)制:以廣州市社科聯(lián)與廣州大學(xué)為雙核心(兩個(gè)“1”),聯(lián)動(dòng)其他高校、企業(yè)、開源社區(qū)等N方資源,構(gòu)建共建共享生態(tài);

SaaS服務(wù)模式:通過模塊化設(shè)計(jì)支持教育、文化、產(chǎn)業(yè)等多場景快速落地;


來源:南方+

文化忠實(shí)與安全可信:融合嶺南文化精神標(biāo)識(shí)體系與價(jià)值對齊規(guī)則,確保語料庫兼具文化內(nèi)涵與安全性。


來源:南方+

豐碩成果:

政策肯定與資源規(guī)模雙突破

2025年3月,教育部召開新聞發(fā)布會(huì),介紹深入貫徹落實(shí)《教育強(qiáng)國建設(shè)規(guī)劃綱要(2024—2035年)》、推進(jìn)語言文字信息化發(fā)展情況。發(fā)布會(huì)上,廣東省教育廳副廳長朱建華介紹了廣東省以數(shù)字化注入新動(dòng)力全面賦能強(qiáng)省建設(shè)的舉措和成效,重點(diǎn)推介了AI-DimSum粵語語料庫。

2025年6月,實(shí)驗(yàn)室團(tuán)隊(duì)提交的《粵語語料庫建設(shè)建設(shè)現(xiàn)狀及通用型粵語語料庫建設(shè)建議》獲國家語委肯定性批示,稱“此舉事關(guān)重大,是數(shù)字中文建設(shè)的核心重要‘關(guān)鍵領(lǐng)域’,指導(dǎo)支持中心以標(biāo)準(zhǔn)規(guī)范為引領(lǐng),以價(jià)值對齊為導(dǎo)向,以規(guī)范安全為底線,以共建共享為機(jī)制,深化該項(xiàng)語料庫建設(shè),夯實(shí)‘新基建’,服務(wù)人工智能大語言模型應(yīng)用‘制高點(diǎn)’”。

自發(fā)布以來,平臺(tái)已匯聚超100萬字文本、3000小時(shí)高保真語音、1TB音視頻、1萬張嶺南文化圖像,構(gòu)建了包含6669條權(quán)威詞條、30000條擴(kuò)展詞條的粵語安全語料庫等,規(guī)模居全球粵語語料庫前列。


圖源AI-DimSum官網(wǎng)

2025年12月18日,在中國數(shù)字文娛大會(huì)“新技術(shù)—智慧文娛解鎖消費(fèi)密碼”分論壇上,實(shí)驗(yàn)室發(fā)布了6個(gè)支持人工智能應(yīng)用的嶺南文化數(shù)據(jù)集。其中5個(gè)為自主研發(fā)的數(shù)據(jù)集,包括嶺南建筑圖像標(biāo)注數(shù)據(jù)集、粵語內(nèi)容安全檢測關(guān)鍵詞庫數(shù)據(jù)集、粵鑒—粵語大模型安全評(píng)測數(shù)據(jù)集、面向影視劇AI配音的細(xì)粒度標(biāo)注粵語語料數(shù)據(jù)集、面向大模型訓(xùn)練的粵語大模型語料數(shù)據(jù)集,另外1個(gè)是與羊城晚報(bào)嶺南文化大模型團(tuán)隊(duì)聯(lián)合研制的粵語文化思維鏈語料數(shù)據(jù)集。

嶺南建筑圖像標(biāo)注數(shù)據(jù)集對碉樓、騎樓、祠堂等嶺南典型建筑的外觀特征進(jìn)行標(biāo)注,涵蓋建筑類型、構(gòu)件、裝飾工藝、材質(zhì)、顏色等多維度信息,構(gòu)建了面向嶺南建筑文化的多模態(tài)基礎(chǔ)資源,為數(shù)字化保護(hù)與文化大模型應(yīng)用提供數(shù)據(jù)支撐,對于活化和傳承嶺南文化具有重要意義。

粵語內(nèi)容安全檢測關(guān)鍵詞庫數(shù)據(jù)集圍繞粵語整合多源語料,針對三大核心領(lǐng)域(涉政違法、侮辱歧視、嶺南文化禁忌),采用“分級(jí)+標(biāo)簽”的動(dòng)態(tài)詞庫管理方式,構(gòu)建了粵語內(nèi)容安全檢測關(guān)鍵詞庫數(shù)據(jù)集,旨在填補(bǔ)大模型對粵語內(nèi)容安全檢測缺乏關(guān)鍵詞庫的缺口,保障大模型粵語內(nèi)容安全與粵語網(wǎng)絡(luò)內(nèi)容安全治理。

粵鑒—粵語大模型安全評(píng)測數(shù)據(jù)集是面向粵語內(nèi)容安全的高質(zhì)量多模態(tài)評(píng)測數(shù)據(jù)集,規(guī)模約20萬條(含10萬文本、10萬音頻、3000圖片),依據(jù)《生成式人工智能服務(wù)安全基本要求》,覆蓋政治、暴力、倫理、隱私、地域歧視等5大類31小類,深度融合粵語俚語、諧音等特色,可用于大模型安全對齊、合規(guī)評(píng)估和多方言內(nèi)容治理,助力粵港澳大灣區(qū)AI安全發(fā)展。

面向影視劇AI配音的細(xì)粒度標(biāo)注粵語語料數(shù)據(jù)通過多渠道語料收集與細(xì)粒度編碼,構(gòu)建了涵蓋超過30個(gè)影視劇人物、13種情緒、超過1000分鐘的音頻語料庫,有效解決粵語影視劇人工配音成本高、智能配音缺乏高質(zhì)量標(biāo)注語料的實(shí)際產(chǎn)業(yè)痛點(diǎn)。

面向大模型訓(xùn)練的粵語大模型語料數(shù)據(jù)集是面向大模型小語種能力訓(xùn)練的高質(zhì)量多模態(tài)數(shù)據(jù)集,覆蓋多種生活場景,超過5000個(gè)問答對,成功將普通話等通用語言數(shù)據(jù)轉(zhuǎn)為粵語語料,為粵語大模型的數(shù)據(jù)訓(xùn)練和微調(diào)等后續(xù)泛化能力提供支持。

全國首個(gè)方言文化思維鏈訓(xùn)練語料集—粵語文化思維鏈語料數(shù)據(jù)集搭建了3層結(jié)構(gòu),涵蓋17個(gè)文化類別、360余個(gè)核心文化概念,并配套逾1萬多組高質(zhì)量標(biāo)注語料,可直接服務(wù)于大模型的精調(diào)訓(xùn)練。

生態(tài)應(yīng)用:

10余款A(yù)PP激活產(chǎn)業(yè)創(chuàng)新

AI-DimSum多模態(tài)通用粵語語料庫平臺(tái)已孵化粵語數(shù)字人、智能配音、廉州話小程序等10余款應(yīng)用,覆蓋文旅、教育、短劇等領(lǐng)域。例如,與百度合作開發(fā)的“粵語智聲”系統(tǒng)支持復(fù)雜場景語音識(shí)別,準(zhǔn)確率達(dá)90%。


圖源AI-DimSum官網(wǎng)

推廣價(jià)值:

方言數(shù)字化范本的全球路徑

平臺(tái)構(gòu)建的“采集—標(biāo)注—確權(quán)—應(yīng)用”全流程體系可復(fù)制至客家話等方言,為國家方言語言資源保護(hù)提供技術(shù)樣板。未來將通過開源開放支持全球粵語數(shù)字生態(tài),助力“數(shù)字中國”建設(shè)。

據(jù)悉,2025年1月8日,教育部、國家語委、中央網(wǎng)信辦印發(fā)《關(guān)于加強(qiáng)數(shù)字中文建設(shè) 推進(jìn)語言文字信息化發(fā)展的意見》,首次提出“數(shù)字中文”概念;到年底的12月27日,第十四屆全國人民代表大會(huì)常務(wù)委員會(huì)第十九次會(huì)議表決通過新修訂的《中華人民共和國國家通用語言文字法》,明確規(guī)定“推進(jìn)國家通用語言文字的信息化、數(shù)字化、智能化建設(shè)”。

“數(shù)字中文”及其建設(shè)迅速統(tǒng)合引領(lǐng)相關(guān)研究與實(shí)踐,成為語言文字領(lǐng)域重要的新興增長點(diǎn)。

參考來源

南方+《國家語言文字信息化十大新聞,廣州入選!》

https://www.nfnews.com/content/voApmjea6R.html

廣州大學(xué)荔灣研究院《粵語語料庫建設(shè)與大模型評(píng)測重點(diǎn)實(shí)驗(yàn)室在中國數(shù)字文娛大會(huì)發(fā)布數(shù)據(jù)集成果》

https://mp.weixin.qq.com/s/jdmmiWdcZJw8LdE8qNFEOw?scene=1

圖片來源同上,非商業(yè)用途,若構(gòu)成侵權(quán),請聯(lián)系我們進(jìn)行刪除

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

廣州市科協(xié) incentive-icons
廣州市科協(xié)
廣州市科學(xué)技術(shù)協(xié)會(huì)官方網(wǎng)易號(hào)
5726文章數(shù) 1902關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版