国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Science Advances:全頻譜實(shí)時(shí)解碼突破中文語音 BCI 瓶頸

0
分享至


摘要

語音腦機(jī)接口(BCI)為因肌萎縮側(cè)索硬化癥或腦干中風(fēng)等神經(jīng)系統(tǒng)疾病導(dǎo)致構(gòu)音障礙的患者,提供了恢復(fù)功能性交流能力的希望?,F(xiàn)有語音解碼研究主要面向英語,并多采用以音素為驅(qū)動(dòng)的架構(gòu)。而對(duì)普通話這類有聲調(diào)、以單音節(jié)為主的語言,實(shí)現(xiàn)實(shí)時(shí)解碼仍是一項(xiàng)重大挑戰(zhàn)。本研究展示了一種普通話語音腦機(jī)接口,可直接從神經(jīng)信號(hào)中解碼單音節(jié)單位。研究團(tuán)隊(duì)使用 256 通道微皮層腦電腦機(jī)接口,僅通過神經(jīng)信號(hào)就實(shí)現(xiàn)了對(duì) 394 個(gè)不同音節(jié)的穩(wěn)定解碼,在單字朗讀任務(wù)中取得71.2%的音節(jié)識(shí)別中位準(zhǔn)確率?;谶@一高性能音節(jié)解碼器,研究進(jìn)一步實(shí)現(xiàn)了實(shí)時(shí)句子解碼。研究證實(shí)了 “融合聲調(diào)的直接音節(jié)神經(jīng)解碼方法” 在漢語普通話解碼中的有效性,為聲調(diào)單音節(jié)語言的全覆蓋腦機(jī)接口系統(tǒng)研發(fā)奠定了基礎(chǔ)。

關(guān)鍵詞:腦機(jī)接口(brain-computer interface, BCI),微皮層腦電(electrocorticography, ECoG),漢語普通話解碼,實(shí)時(shí)音節(jié)解碼

王璇丨作者

趙思怡丨審校


論文題目:Real-time decoding of full-spectrum Chinese using brain-computer interface 論文鏈接:https://www.science.org/doi/epdf/10.1126/sciadv.adz9968 發(fā)表時(shí)間:2025年11月5日 論文來源:Science Advances

基于語音腦機(jī)接口(BCI)的普通話解碼:

背景與挑戰(zhàn)

神經(jīng)系統(tǒng)疾病,如中風(fēng)、ALS 常導(dǎo)致患者構(gòu)音障礙,嚴(yán)重影響其溝通能力,而能直接從神經(jīng)信號(hào)解碼言語的 BCI,是這類患者重建溝通的核心希望。目前主流 BCI 聚焦腹側(cè)感覺運(yùn)動(dòng)皮層(vSMC,編碼發(fā)音運(yùn)動(dòng)軌跡),已實(shí)現(xiàn)英語實(shí)時(shí)解碼。將腦活動(dòng)轉(zhuǎn)化為文本或語音,為嚴(yán)重構(gòu)音障礙患者提供幫助,但在漢語普通話等聲調(diào)語言的可靠解碼上,領(lǐng)域仍面臨根本性挑戰(zhàn)。

與英語不同,漢語普通話具有單音節(jié)語素、聲調(diào)承載語義、同音詞密度極高的特點(diǎn),這種極低的語音冗余度會(huì)放大解碼誤差。其次,普通話同音詞密度極高,單個(gè)音節(jié)常對(duì)應(yīng) 20 余個(gè)漢字,即便解碼誤差僅 5%,也可能因同音詞混淆造成嚴(yán)重語義偏差。更重要的是,中文 “音節(jié) - 漢字” 映射規(guī)模懸殊,418 個(gè)基礎(chǔ)音節(jié)需對(duì)應(yīng) 3500 個(gè)常用字及 13000 個(gè)現(xiàn)代字,而英語約 44 個(gè)音素,沿用英語 BCI “音素拼接成音節(jié)” 只會(huì)加劇誤差累積。

針對(duì)這一問題,此研究提出將包含音段信息與聲調(diào)信息的普通話音節(jié),作為最優(yōu)中間解碼單元。相比音素,音節(jié)的表征更穩(wěn)定,且具有語言意義,能更好地抵御輕微解碼誤差。研究團(tuán)隊(duì)基于一名接受臨床癲癇監(jiān)測患者的 ECoG 記錄,構(gòu)建了實(shí)時(shí)BCI框架,可解碼普通話口語的全譜系音節(jié)。僅通過神經(jīng)信號(hào),研究便實(shí)現(xiàn)了71.2%的離線音節(jié)級(jí)解碼準(zhǔn)確率。在此基礎(chǔ)上,進(jìn)一步采用“字符-句子”層級(jí)解碼策略,最終使系統(tǒng)的溝通速率達(dá)到49.7字符/分鐘。這些發(fā)現(xiàn)不僅驗(yàn)證了普通話音節(jié)解碼的可行性,更為不同語言群體中“具有單音節(jié)語素的聲調(diào)語言”實(shí)時(shí)語音神經(jīng)假體,提供了可擴(kuò)展的研究策略。


圖 1. 實(shí)時(shí)漢語句子解碼 BCI 框架。A. 示意圖:一名植入柔性 256 通道 ECoG 陣列電極的參與者,正在執(zhí)行實(shí)時(shí)句子解碼任務(wù);B. 實(shí)時(shí)解碼流程;C. 音節(jié)解碼器與聲調(diào)解碼器的訓(xùn)練數(shù)據(jù)來源于 394 個(gè)不同音節(jié),每個(gè)音節(jié)在不同試次中重復(fù)多次;D. 利用術(shù)前功能磁共振成像(fMRI)定位口部運(yùn)動(dòng)皮層;E. 通過皮層熱圖可視化累計(jì)貢獻(xiàn) 90% 解碼性能的電極。

解碼架構(gòu):394 個(gè)音節(jié)上的雙流解碼

研究團(tuán)隊(duì)采用了“雙流解碼”架構(gòu)(dual-stream decoder):系統(tǒng)從語音起始點(diǎn)附近截取神經(jīng)信號(hào),將其分別送入兩個(gè)并行的解碼器,一個(gè)負(fù)責(zé)識(shí)別音節(jié)本身,另一個(gè)識(shí)別聲調(diào),最終再將兩者組合得到完整的普通話音節(jié)。這種設(shè)計(jì)更貼近中文的語言結(jié)構(gòu),也能減少解碼誤差的級(jí)聯(lián)放大。

在多種模型架構(gòu)的對(duì)比中(包括 CNN-LSTM、Vision Transformer 等),四層 LSTM 在覆蓋 394 個(gè)普通話常用音節(jié)的全譜任務(wù)中表現(xiàn)最佳。離線測試中,音節(jié)解碼的中位準(zhǔn)確率達(dá)到 71.2%,聲調(diào)準(zhǔn)確率達(dá) 69.1%,顯著高于隨機(jī)水平。更重要的是,該模型在音節(jié)數(shù)量從 50 擴(kuò)展到 350 的訓(xùn)練條件下,準(zhǔn)確率僅小幅下降,提示該框架具備處理大詞表解碼任務(wù)的潛力。


圖 2. 漢語的獨(dú)特性及區(qū)分漢語音節(jié)與聲調(diào)的皮層電極。A. 上方表格展示漢語與英語的差異;B. 根據(jù)電極對(duì)漢語音節(jié)與聲調(diào)的差異響應(yīng)性進(jìn)行分類;C、D. 分別為101號(hào)電極在5個(gè)不同音節(jié)中的高γ信號(hào),以及124號(hào)電極在4個(gè)不同聲調(diào)中的高γ信號(hào)。

從單字到句子:層級(jí)解碼與三元語言模型

如果說“全量音節(jié)解碼”解決的是中文語音 BCI 的覆蓋問題,那么“實(shí)時(shí)句子輸出”則檢驗(yàn)系統(tǒng)在自然交流任務(wù)中的綜合能力。研究團(tuán)隊(duì)因此引入三元語法語言模型(3-gram language model, LM)。

性能結(jié)果方面,論文使用字符準(zhǔn)確率(character accuracy rate, CAR)與每分鐘字符數(shù)(characters per minute, CPM)衡量實(shí)用性。僅基于神經(jīng)解碼,實(shí)時(shí)句子 CAR 為 61.5%。引入三元語法語言模型后提升至 73.1%。速度上,神經(jīng)解碼對(duì)應(yīng) 56.7 CPM,而結(jié)合語言模型后為 49.7 CPM。同時(shí),系統(tǒng)采用束搜索(beam search)在“神經(jīng)證據(jù)”與“語言先驗(yàn)”之間尋找最優(yōu)序列,使得字符級(jí)輸出具備可持續(xù)擴(kuò)展到更復(fù)雜應(yīng)用場景的可能。

這些數(shù)據(jù)并不意味著系統(tǒng)已經(jīng)達(dá)到臨床無障礙對(duì)話的理想狀態(tài),但它們首次在一個(gè)更接近普通話真實(shí)結(jié)構(gòu)的全覆蓋音節(jié)空間里,給出了可復(fù)現(xiàn)的速度-準(zhǔn)確率權(quán)衡點(diǎn)。

從研究演示走向交互應(yīng)用:

機(jī)械臂、數(shù)字人與大模型

另一亮點(diǎn),作者展示了“解碼結(jié)果如何進(jìn)入真實(shí)世界任務(wù)”,構(gòu)建了集成式 BCI 系統(tǒng),將解碼出的發(fā)聲意圖對(duì)接到多種外部應(yīng)用,并通過用戶界面讓參與者在預(yù)設(shè)功能中進(jìn)行選擇。概念驗(yàn)證中,參與者使用解碼輸出完成機(jī)械臂(robotic arm)控制、數(shù)字人語音生成(digital avatar)以及與大語言模型的交互。


圖 3. 實(shí)時(shí)語音解碼和基于語音的腦機(jī)接口用于控制多個(gè)軟硬件系統(tǒng)。A. 基于語音的腦機(jī)接口系統(tǒng)架構(gòu);B. 實(shí)時(shí)語言指令人機(jī)交互(HMI)系統(tǒng)的界面;C. 有限句子集在有無語言模型(LM)時(shí)的實(shí)時(shí)解碼準(zhǔn)確率;D. 有無語言模型時(shí)解碼速度的比較;E. 基于語音的腦機(jī)接口在現(xiàn)實(shí)世界中的應(yīng)用,展示控制靈巧的機(jī)械手、激活數(shù)字化身以及與大型語言模型的交互通信。

機(jī)械臂控制場景CAR,即單個(gè)字符解碼正確的比例為78.3%,但由于命令多由一到三個(gè)字符構(gòu)成且需“完全匹配”,命令準(zhǔn)確率僅54.0%,數(shù)字人場景CAR為76.9%,與大模型交互場景CAR為65.4%。這些結(jié)果表明,真實(shí)應(yīng)用性能不僅由解碼器決定,還與任務(wù)指令設(shè)計(jì)、交互容錯(cuò)機(jī)制及語言先驗(yàn)匹配度密切相關(guān)。

未來方向:搭建跨學(xué)科橋梁

未來普通話語音BCI的研究,圍繞技術(shù)泛化、硬件優(yōu)化、功能擴(kuò)展與臨床落地四大核心方向,構(gòu)建多學(xué)科協(xié)同推進(jìn)的研究路徑。這一技術(shù)的發(fā)展并非單一工程問題,而是神經(jīng)科學(xué)、生物醫(yī)學(xué)工程、計(jì)算機(jī)科學(xué)、臨床醫(yī)學(xué)與倫理學(xué)多領(lǐng)域深度聯(lián)動(dòng)的系統(tǒng)工程。通過跨學(xué)科的深度對(duì)齊與協(xié)作,有望推動(dòng)該技術(shù)從實(shí)驗(yàn)室研究走向臨床實(shí)用,為肌萎縮側(cè)索硬化癥(ALS)、腦干中風(fēng)等致構(gòu)音障礙患者,真正搭建起“腦-語”溝通的橋梁。

腦機(jī)接口讀書會(huì)

腦機(jī)接口是通過讀取大腦神經(jīng)信號(hào)來實(shí)現(xiàn)人腦與外部設(shè)備交流與控制的前沿技術(shù)。作為一個(gè)前沿交叉領(lǐng)域,腦機(jī)接口技術(shù)是跨學(xué)科研究的典型代表,融合了控制科學(xué)、神經(jīng)科學(xué)、計(jì)算機(jī)科學(xué)、工程學(xué)等多個(gè)學(xué)科領(lǐng)域。針對(duì)相關(guān)領(lǐng)域,集智已經(jīng)舉辦了多個(gè)系列讀書會(huì)與課程,追蹤計(jì)算神經(jīng)科學(xué)、NeuroAI、神經(jīng)動(dòng)力學(xué)模型、控制科學(xué)等進(jìn)展。

為了進(jìn)一步梳理腦機(jī)接口相關(guān)理論與技術(shù)前沿,集智俱樂部聯(lián)合清華大學(xué)高小榕、中科院自動(dòng)化所劉冰、中科院深圳先進(jìn)院李驍健、清華大學(xué)眭亞楠四位老師,發(fā)起。讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。

詳情請(qǐng)見:

1.

2.

3.

4.

5.

6.

7.

8.

9.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
原來iPhone自帶的這些軟件這么香,之前刪了的我血虧!

原來iPhone自帶的這些軟件這么香,之前刪了的我血虧!

我不叫阿哏
2026-01-05 13:17:43
8國在白宮開會(huì),討論廢掉中國王牌?關(guān)鍵時(shí)刻,印度作了重要決斷

8國在白宮開會(huì),討論廢掉中國王牌?關(guān)鍵時(shí)刻,印度作了重要決斷

近史談
2026-01-07 19:18:15
一顆榴蓮,快讓東南亞卷成“晉西北”了!

一顆榴蓮,快讓東南亞卷成“晉西北”了!

流蘇晚晴
2026-01-07 20:13:10
安徽小伙在小國家創(chuàng)業(yè),“享受”一夫多妻、開放生活的他如今怎樣

安徽小伙在小國家創(chuàng)業(yè),“享受”一夫多妻、開放生活的他如今怎樣

牛牛叨史
2026-01-06 12:59:43
雷軍回應(yīng)為了一個(gè)杯子開15次會(huì):不是專門為杯子開會(huì) 只是會(huì)議中討論過

雷軍回應(yīng)為了一個(gè)杯子開15次會(huì):不是專門為杯子開會(huì) 只是會(huì)議中討論過

快科技
2026-01-08 10:22:16
汪小菲又說臺(tái)灣扣留他孩子不讓回北京了

汪小菲又說臺(tái)灣扣留他孩子不讓回北京了

名字是浮云
2026-01-08 12:30:08
新疆喀什駐扎期間,娶了個(gè)維族姑娘,兄弟們都笑我傻...

新疆喀什駐扎期間,娶了個(gè)維族姑娘,兄弟們都笑我傻...

城事錄主
2026-01-06 16:48:00
別被誤導(dǎo)!美軍突破委內(nèi)瑞拉防空網(wǎng),原來真不是中國雷達(dá)的問題

別被誤導(dǎo)!美軍突破委內(nèi)瑞拉防空網(wǎng),原來真不是中國雷達(dá)的問題

兵國大事
2026-01-08 00:05:06
首屆柬埔寨精釀啤酒節(jié)將于1月31日舉行

首屆柬埔寨精釀啤酒節(jié)將于1月31日舉行

啤酒日?qǐng)?bào)
2026-01-07 18:48:30
5個(gè)億沒白砸!江西贛縣那棟“沉睡”的爛尾樓,終于動(dòng)了!

5個(gè)億沒白砸!江西贛縣那棟“沉睡”的爛尾樓,終于動(dòng)了!

GA環(huán)球建筑
2026-01-08 14:36:22
美司令曾警告:若大陸武力收臺(tái),美軍將摧毀中方火箭軍和核武庫!

美司令曾警告:若大陸武力收臺(tái),美軍將摧毀中方火箭軍和核武庫!

壹知眠羊
2025-12-21 07:15:19
起底太子集團(tuán)創(chuàng)始人陳志

起底太子集團(tuán)創(chuàng)始人陳志

中國新聞周刊
2026-01-08 11:39:09
麻省理工研究警告:未來華北平原不宜人類居住!理論依據(jù)是什么?

麻省理工研究警告:未來華北平原不宜人類居住!理論依據(jù)是什么?

小熊侃史
2026-01-08 07:55:03
委內(nèi)瑞拉宣布兩項(xiàng)重要人事任命

委內(nèi)瑞拉宣布兩項(xiàng)重要人事任命

政知新媒體
2026-01-07 13:20:02
美軍如何進(jìn)行電子壓制,讓委內(nèi)瑞拉部署的中俄防空系統(tǒng)失效?

美軍如何進(jìn)行電子壓制,讓委內(nèi)瑞拉部署的中俄防空系統(tǒng)失效?

兵國大事
2026-01-05 18:02:20
誰也沒想到,丁克半生的張鐸,在46歲迎來了人生高光時(shí)刻

誰也沒想到,丁克半生的張鐸,在46歲迎來了人生高光時(shí)刻

生性灑脫
2026-01-08 04:53:26
看著挺大,為何委內(nèi)瑞拉70%的土地都是無人區(qū),人口全擠在海邊?

看著挺大,為何委內(nèi)瑞拉70%的土地都是無人區(qū),人口全擠在海邊?

經(jīng)緯史觀
2025-12-10 15:59:44
重磅!總投資8063億!廣東2026十大超級(jí)工程 重塑灣區(qū)發(fā)展格局

重磅!總投資8063億!廣東2026十大超級(jí)工程 重塑灣區(qū)發(fā)展格局

小鬼頭體育
2026-01-08 10:07:54
山西懸崖上廢棄道觀,發(fā)現(xiàn)張三豐墓和閉關(guān)洞,墓中竟有金身骸骨!

山西懸崖上廢棄道觀,發(fā)現(xiàn)張三豐墓和閉關(guān)洞,墓中竟有金身骸骨!

銘記歷史呀
2026-01-07 02:43:09
田樸珺回應(yīng)和王石離婚!王思聰罕見發(fā)聲,翻出12年前微博諷刺!

田樸珺回應(yīng)和王石離婚!王思聰罕見發(fā)聲,翻出12年前微博諷刺!

生性灑脫
2026-01-06 15:12:34
2026-01-08 20:12:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識(shí)技能
5593文章數(shù) 4661關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

女子取240萬現(xiàn)金"給外甥當(dāng)彩禮" 外甥:根本沒有對(duì)象

頭條要聞

女子取240萬現(xiàn)金"給外甥當(dāng)彩禮" 外甥:根本沒有對(duì)象

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評(píng)

財(cái)經(jīng)要聞

微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

房產(chǎn)
教育
旅游
健康
藝術(shù)

房產(chǎn)要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

教育要聞

9歲女孩在學(xué)校寫試卷時(shí)昏倒去世,母親:我不忍心尸檢,怕女兒疼。當(dāng)?shù)匾殉闪⒐ぷ鲗0嗖⑴浜霞覍偕坪?/h3>

旅游要聞

文旅賦能 讓重慶城市更新更有戲

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

頤和園金光穿洞

無障礙瀏覽 進(jìn)入關(guān)懷版