国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

里程碑!邏輯智能發(fā)布全球首個完全開源語音大模型框架LLaSO,語音AI迎來新紀元

0
分享至


它像一個“全家桶”,打包提供了高質量的數(shù)據、統(tǒng)一的評測基準和強大的基礎模型。

作者丨北京深度邏輯科技

你是否想過,未來的智能音箱或手機語音助手,不僅能準確識別你的每一句話,還能聽出你語氣中的疲憊、興奮或是焦慮?在你口述一段會議錄音后,它不僅能生成文字稿,還能自動提煉摘要、分析每個人的發(fā)言情緒?

這些場景的實現(xiàn),依賴于一種能深度理解和處理人類語音的大型AI模型。然而,與當前能“看懂”圖像的大模型飛速發(fā)展不同,語音大模型領域的發(fā)展一直顯得有些“各自為戰(zhàn)”,進展緩慢。

該領域長期被碎片化的技術路線、不透明的訓練數(shù)據和缺失的統(tǒng)一評測標準所困擾,導致各種模型難以公平比較,嚴重阻礙了技術的進步。許多研究雖然發(fā)布了模型,但其成功的關鍵——訓練數(shù)據和方法細節(jié)——卻常常被“雪藏”起來。


為了打破這一僵局,北京深度邏輯智能科技有限公司推出了LLaSO——首個完全開放、端到端的語音大模型研究框架。它像一個“全家桶”,打包提供了高質量的數(shù)據、統(tǒng)一的評測基準和強大的基礎模型,旨在為整個行業(yè)鋪平道路,加速創(chuàng)新。


論文地址:https://arxiv.org/abs/2508.15418v1

代碼地址:https://github.com/EIT-NLP/LLaSO

模型地址:https://huggingface.co/papers/2508.15418

01

語音大模型的困境:標準不一的“華山論劍”

為什么語音大模型的發(fā)展會遇到瓶頸?這就像一群頂尖廚師,雖然各有絕活,但因為菜譜、廚具和評價標準完全不同,大家根本不知道誰的廚藝更勝一籌,也難以學習借鑒。該領域主要面臨幾大核心挑戰(zhàn):

  1. 技術路線分歧:在如何讓AI同時理解語音和文字上,目前的技術路線非常多,但沒有一個公認的、效果最好的標準范式。

  2. 數(shù)據私有化:許多領先模型都依賴私有的海量數(shù)據進行訓練。這使得其他研究者無法復現(xiàn)其結果,也難以判斷模型的優(yōu)越性是來自算法創(chuàng)新還是數(shù)據“堆料”。

  3. 任務范圍局限:現(xiàn)有數(shù)據集大多只關注“語音轉文字”等基礎任務,而忽略了語音中更豐富的信息,例如情感、口音、語調和說話意圖。

  4. 交互模式單一:大多數(shù)模型僅支持“用文字下指令,讓模型分析音頻”的單一模式,很少能處理更復雜的純語音對話。

這些問題共同導致了研究的碎片化,使得系統(tǒng)性的技術突破變得異常困難。

02

LLaSO框架:用“三件套”打造統(tǒng)一標準


圖一:llaso語料庫的制作流程

為應對上述挑戰(zhàn),研究者構建了LLaSO框架,它由三個核心的公開資源組成:

  1. LLaSO-Align(對齊數(shù)據集):一個包含1200萬樣本的龐大語料庫。它的核心任務是“語音轉文字”,通過海量數(shù)據讓模型學會將語音信號和文字的語義精準對應起來,這是模型“聽懂”話語的基礎。

  2. LLaSO-Instruct(指令數(shù)據集):一個擁有1350萬樣本的多任務指令庫。它不再局限于簡單的語音轉文字,而是涵蓋了20種不同的任務,不僅能識別文字,還能識別說話人的情感、口音、年齡,甚至判斷話語的意圖。這正是打造下一代智能助理和高效會議紀要工具的關鍵。更重要的是,它系統(tǒng)性地支持三種交互模式,包括純語音對話。


    圖二: LLaSO語料庫的任務組成

  3. LLaSO-Eval(評估基準):一個包含超過1.5萬個樣本的“標準化考場”。所有模型都可以在這個統(tǒng)一的基準上進行測試,得分高低一目了然,確保了評估的公平性和可復現(xiàn)性。


圖三:LLaSO-Base在LLaSO-Eval基準測試上的表現(xiàn)結果

這三大組件共同構成了一個完整的訓練、微調和評估流水線,為語音大模型研究提供了前所未有的開放性和便利性。

03

LLaSO-Base:一個強大且可復現(xiàn)的參考模型

為了驗證LLaSO框架的有效性,研究團隊還訓練并發(fā)布了一個名為LLaSO-Base的參考模型。該模型擁有38億參數(shù),其設計目標并非追求性能的極致,而是為了提供一個完全依賴LLaSO公開數(shù)據、可被輕松復現(xiàn)的強大基線。

  • 模型架構:LLaSO-Base采用了已被驗證的成功架構,由三部分組成:一個語音編碼器(聽覺)、一個投影器(轉換)和一個大型語言模型(大腦)。

  • 訓練過程:訓練分為“對齊”和“指令微調”兩個階段,先讓模型學會語音和文字的對應關系,再通過海量指令任務教會模型如何“思考”和執(zhí)行復雜任務。


圖四:LLaSO模型架構示意圖

04

LLaSO-Base 模型實驗結果分析

我們在一系列嚴格設計的實驗中,將LLaSO-Base 與多個業(yè)界領先的語音語言模型(LSLMs)進行了直接對比。所有實驗均在我們構建的標準化評估基準 LLaSO-Eval 上完成,確保了比較的公平性和結果的可復現(xiàn)性。

  1. 實驗設置與評估基準

    為確保評估的全面性,我們選取了10個主流的語音語言模型作為基準,包括Qwen2-Audio、Typhoon-Audio、Salmonn、GLM-4-Voice、Mini-Omni、Kimi-Audio 等。所有模型的評估均在統(tǒng)一的LLaSO-Eval 測試集上進行。


    圖五:詳細描述了 LLaSO-Eval 評估基準的構成。

  1. 該基準包含15,044 個樣本,覆蓋了 20 種不同任務。

    這些任務被系統(tǒng)地劃分為三大類別,以實現(xiàn)對模型能力的深度剖析:

    ●語言學任務(Linguistic): 核心是自動語音識別 (ASR),評估模型最基礎的語音轉文本能力 。

    ●語義任務(Semantic): 核心是音頻問答 (AQA),評估模型對音頻內容的高層次理解、推理和生成能力 。

    ●副語言學任務(Paralinguistic): 進一步細分為“以說話人為中心”(如性別、年齡、口音識別)和“以內容為中心”(如意圖預測、實體提取)兩類,旨在評估模型對言外之意的捕捉能力 。

  2. 評估指標說明

    我們的評估體系采用了多種指標,以確保對模型各方面性能的精確衡量:

    ●WER/CER (詞/字錯誤率): 用于 ASR 等轉錄任務,數(shù)值越低,表示準確率越高。

    ●Accuracy (準確率): 用于分類任務(如性別、口音識別),數(shù)值越高,性能越好。

    ●MAE (平均絕對誤差): 用于數(shù)值預測任務(如年齡識別),數(shù)值越低,預測越精準。

    ●GPT-4o Score (GPT-4o 評分): 針對 AQA 等開放式生成任務,我們使用 GPT-4o 對模型輸出的相關性和準確性進行1-5 分的打分,分數(shù)越高代表表現(xiàn)越好。

    ●Abstention Rate (拒絕回答率): 衡量模型在面對不熟悉或困難任務時的“回避”傾向。此比率越低,說明模型的指令遵循能力和魯棒性越強。

  3. 總體性能對比:LLaSO-Base 表現(xiàn)全面領先


    圖六:直觀地展示了所有模型在 LLaSO-Eval 上的總體性能得分(經過歸一化處理)。

    從圖中可以清晰地看到,LLaSO-Base 取得了 0.72 的最高分,位列第一 。這一成績顯著優(yōu)于其他所有競爭模型,例如表現(xiàn)次之的Kimi-Audio (0.65) 和 Qwen2-Audio (0.57) 。這一結果強有力地證明了 LLaSO-Base 的綜合實力。研究發(fā)現(xiàn),像 LLaSO-Base 這樣在更多樣化的任務上進行訓練的模型,其綜合性能遠超那些主要針對 AQA 等少數(shù)任務進行優(yōu)化的模型(如 Llama-Omni 和 Mini-Omni)。這凸顯了我們所提倡的廣泛任務覆蓋訓練策略的有效性。

  4. 詳細任務性能分析


圖七:深入比較了各模型在語言學 (ASR) 和語義 (AQA) 任務上的具體表現(xiàn) 。

●在ASR 任務上,LLaSO-Base 展現(xiàn)了壓倒性優(yōu)勢。其 WER 和 CER 分別低至 0.08 和 0.03,是所有模型中最低的,這意味著它擁有最精準的語音轉錄能力 。相比之下,即便是 Kimi-Audio (WER 0.14) 和 Typhoon-Audio (WER 0.11) 等強勁對手,也存在明顯差距 。

●在AQA 任務上,競爭十分激烈。Kimi-Audio 在標準“文本指令+音頻輸入”模態(tài)下表現(xiàn)突出,獲得了 3.35 的高分 。LLaSO-Base 在此項上得分 2.58,表現(xiàn)穩(wěn)健 。但值得注意的是,在更具挑戰(zhàn)性的“音頻指令+文本輸入”模態(tài)下,

LLaSO-Base 的得分 (2.70) 展現(xiàn)了更強的模態(tài)適應性,超過了多數(shù)模型 。


圖八:呈現(xiàn)了在 18 個細分的副語言學任務上的對比結果,這是對模型能否理解 “弦外之音” 的終極考驗。

在這些更復雜的任務上,LLaSO-Base 幾乎在所有任務上都取得了頂尖或接近頂尖的成績。

●以說話人為中心的任務:在說話人性別識別(SGC) 和口音分類 (AC) 任務上,LLaSO-Base 的準確率名列前茅,展現(xiàn)了對說話人特征的敏銳洞察力 。

●以內容為中心的任務:LLaSO-Base 的優(yōu)勢更為顯著。在音素識別 (PR) 任務中,其 PER 僅為 0.03;在語音命令識別 (SCR) 任務中,WER/CER 低至 0.04/0.02 。這兩項指標均以數(shù)量級的優(yōu)勢領先于所有其他模型,展示了其在精細語音內容分析上的卓越能力。

指令遵循能力:更重要的是,LLaSO-Base 在這些任務中的拒絕回答率極低。相比之下,Llama-Omni 和 Mini-Omni 等模型在許多副語言學任務上直接選擇“拒絕回答”(表格中標記為 "Reject"),這表明它們缺乏處理此類任務的能力。LLaSO-Base 的穩(wěn)定響應證明了其強大的指令遵循能力和任務泛化性。

05
總結與展望

LLaSO的出現(xiàn),為相對混亂的語音大模型領域樹立了一個開放、統(tǒng)一的基礎標準。通過首次發(fā)布涵蓋數(shù)據、基準和模型的完整開源資源,LLaSO極大地降低了研究門檻,使開發(fā)者能在一個公平、透明的平臺上進行比較和創(chuàng)新。

我們有理由相信,這個“全家桶”式的開源項目將催化語音大模型領域的下一波浪潮,為開發(fā)者們鋪平了道路,讓打造出真正懂你心聲的AI語音應用成為可能。


未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區(qū)進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
掃地出門,倆兒子被婆家“控制”?張嘉倪官宣喜訊,徹底打臉買超

掃地出門,倆兒子被婆家“控制”?張嘉倪官宣喜訊,徹底打臉買超

距離距離
2025-12-19 19:38:42
世道變壞,從老同志們愛上古董字畫開始

世道變壞,從老同志們愛上古董字畫開始

木蹊說
2025-12-23 18:08:20
特朗普宣布從委扣押的中國油輪將由美國“永久保留”,船和油都要

特朗普宣布從委扣押的中國油輪將由美國“永久保留”,船和油都要

古史青云啊
2025-12-25 21:16:14
迷人的大腿:生命的等高線

迷人的大腿:生命的等高線

疾跑的小蝸牛
2025-12-19 07:25:05
美國被中國拖入拉鋸戰(zhàn),國產光刻機投產之日,就是中國反攻之時

美國被中國拖入拉鋸戰(zhàn),國產光刻機投產之日,就是中國反攻之時

花花娛界
2025-12-25 21:07:55
體系核心 vs. 單打尖刀:哈登與杜蘭特的賽場價值分野

體系核心 vs. 單打尖刀:哈登與杜蘭特的賽場價值分野

劉寶杰聊球
2025-12-25 21:54:07
6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

小熊侃史
2025-12-25 11:24:12
拉什福德發(fā)布離隊聲明,桑喬有望獲維拉逃生通道

拉什福德發(fā)布離隊聲明,桑喬有望獲維拉逃生通道

順靜自然
2025-12-25 08:08:14
2025最慘大撤退:18萬家快遞驛站,快把所有人得罪光了

2025最慘大撤退:18萬家快遞驛站,快把所有人得罪光了

金錯刀
2025-12-14 15:34:35
退無可退后,克林頓正式宣戰(zhàn),寧可身敗名裂,也要拉懂王“陪葬”

退無可退后,克林頓正式宣戰(zhàn),寧可身敗名裂,也要拉懂王“陪葬”

知鑒明史
2025-12-24 19:44:00
金發(fā)科技:公司下半年在手訂單充足,整體產能利用率較高

金發(fā)科技:公司下半年在手訂單充足,整體產能利用率較高

每日經濟新聞
2025-12-25 18:16:12
上海足協(xié)官宣!水慶霞離任,執(zhí)教不足半年,全運會排名第四

上海足協(xié)官宣!水慶霞離任,執(zhí)教不足半年,全運會排名第四

奧拜爾
2025-12-25 19:58:57
楊瀚森NBA總得分38分亞洲第十二,但亞洲第一卻不是姚明

楊瀚森NBA總得分38分亞洲第十二,但亞洲第一卻不是姚明

姜大叔侃球
2025-12-25 09:51:41
值得反思!父親與兒子斷絕關系,房子贈予親戚,回家遭拒后自殺

值得反思!父親與兒子斷絕關系,房子贈予親戚,回家遭拒后自殺

不與世俗同
2025-12-24 12:22:29
Google 這對組合拳太狠了!3 句話讓我的 Idea 變成真 App,全程不寫代碼,爽翻!

Google 這對組合拳太狠了!3 句話讓我的 Idea 變成真 App,全程不寫代碼,爽翻!

AI范兒
2025-12-25 14:01:00
小心!支付寶好醫(yī)保“偷偷”扣費8個月,多人已中招!

小心!支付寶好醫(yī)?!巴低怠笨圪M8個月,多人已中招!

山西經濟日報
2025-12-25 11:04:10
17歲差算個球?姆巴佩牽手伊萬卡,空窗期緋聞比進球還吸金

17歲差算個球?姆巴佩牽手伊萬卡,空窗期緋聞比進球還吸金

羅氏八卦
2025-12-25 11:45:55
《風與潮》何賢大結局:75歲逝世,被小行星命名,其子成首任特首

《風與潮》何賢大結局:75歲逝世,被小行星命名,其子成首任特首

洲洲影視娛評
2025-12-25 16:11:34
乒乓球再傳捷報!王楚欽、孫穎莎雙雙鎖定年終世界第一

乒乓球再傳捷報!王楚欽、孫穎莎雙雙鎖定年終世界第一

老垯科普
2025-12-24 18:46:17
大佬這一把賺了上百億啊,太牛逼了?。?!

風風順
2025-12-17 12:25:24

2025-12-25 22:27:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7024文章數(shù) 20717關注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經過她身邊就會死"

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經過她身邊就會死"

體育要聞

單賽季11冠,羽壇“安洗瑩時代”真的來了

娛樂要聞

朱孝天把阿信好意當球踢!

財經要聞

時隔15月,人民幣升破7,三大推手曝光

汽車要聞

速來!智界在上海西岸準備了年末潮流盛典

態(tài)度原創(chuàng)

藝術
親子
房產
公開課
軍事航空

藝術要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

親子要聞

冬季是孩子補營養(yǎng)的關鍵期,超值福利就在直播間

房產要聞

太猛了!單月新增企業(yè)4.1萬家,又一波巨頭涌向海南!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基版“和平計劃”透露哪些信息

無障礙瀏覽 進入關懷版