国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Mini-Omni-Reasoner:實(shí)時(shí)推理,定義下一代端到端對(duì)話(huà)模型

0
分享至



本文第一作者謝之非,共同第一作者馬子陽(yáng)皆是來(lái)自于南洋理工大學(xué)的博士生。通訊作者為新加坡國(guó)立大學(xué)特聘教授顏水成和南洋理工大學(xué)數(shù)據(jù)與科學(xué)系校長(zhǎng)講席教授苗春燕。共同作者為騰訊AI首席專(zhuān)家葉德珩和新加坡國(guó)立大學(xué)博士后研究員廖越。

兩千多年前,孔子說(shuō)過(guò)「三思而后行」。這句古老箴言,其實(shí)點(diǎn)出了人類(lèi)面對(duì)復(fù)雜問(wèn)題的核心智慧:一步步推理,層層拆解,最終做出可靠的決策。

現(xiàn)在,已有諸多模型在復(fù)雜推理方面展現(xiàn)出顯著進(jìn)展,如 DeepSeek-R1 和 OpenAI o1,部分多模態(tài)系統(tǒng)甚至能夠處理跨領(lǐng)域的復(fù)雜任務(wù),展現(xiàn)出解決復(fù)雜現(xiàn)實(shí)問(wèn)題的潛力。然而,在端到端對(duì)話(huà)模型中,推理能力尚未解鎖。

原因并不復(fù)雜。深度思考意味著模型往往需要在輸出前生成完整推理鏈,而這直接帶來(lái)延遲。對(duì)于語(yǔ)音對(duì)話(huà)系統(tǒng)而言,速度與質(zhì)量同樣關(guān)鍵。一旦停頓過(guò)長(zhǎng),哪怕答案再精妙,也會(huì)破壞交互的自然感。

設(shè)想一個(gè)場(chǎng)景:你問(wèn)語(yǔ)音助手「這份研究報(bào)告的結(jié)論可靠嗎?」。如果模型沉默十秒才給出語(yǔ)音的回復(fù),則完全失去對(duì)話(huà)的體驗(yàn);若它立刻回答,但推理缺乏深度,又容易顯得表面化。問(wèn)題在于:要么得到一個(gè)「強(qiáng)大但反應(yīng)遲鈍」的助手,要么得到一個(gè)「迅速但思維簡(jiǎn)單」的助手。魚(yú)與熊掌,似乎不可兼得。

基于這一挑戰(zhàn),我們提出了 Mini-Omni-Reasoner——一種專(zhuān)為對(duì)話(huà)場(chǎng)景打造的實(shí)時(shí)推理新范式。它通過(guò)「Thinking-in-Speaking」實(shí)現(xiàn)邊思考邊表達(dá),既能實(shí)時(shí)反饋、輸出自然流暢的語(yǔ)音內(nèi)容,又能保持高質(zhì)量且可解釋的推理過(guò)程。



  • 論文標(biāo)題:MINI-OMNI-REASONER: TOKEN-LEVEL THINKING-IN-SPEAKING IN LARGE SPEECH MODELS
  • 論文鏈接
  • https://arxiv.org/pdf/2508.15827
  • 項(xiàng)目主頁(yè)
  • https://github.com/xzf-thu/Mini-Omni-Reasoner

Mini-Omni-Reasoner:

邊思考,邊表達(dá)



讓我們暫時(shí)把視角放回人類(lèi)自己。當(dāng)一個(gè)人面對(duì)復(fù)雜問(wèn)題時(shí),往往不是「想完再說(shuō)」,而是「邊說(shuō)邊想」。當(dāng)被問(wèn)到「如何理解人工智能的未來(lái)」時(shí),大多數(shù)人不會(huì)先默默推理數(shù)分鐘再完整輸出結(jié)論,而是會(huì)邊思考邊組織語(yǔ)言:「這個(gè)問(wèn)題挺復(fù)雜的……我覺(jué)得可以從技術(shù)和社會(huì)兩個(gè)層面來(lái)看……」

Mini-Omni-Reasoner 正是受到這一啟發(fā),探索「邊思考,邊表達(dá)」的新范式。它允許模型在生成回答的同時(shí)進(jìn)行內(nèi)部推理,實(shí)現(xiàn)token 級(jí)別的思維流與輸出流交替生成。這樣既能保留邏輯深度與可解釋性,又能提供自然、低延遲的交互體驗(yàn)。

「一心二用」——如何在大模型中實(shí)現(xiàn)?



「Thinking-in-Speaking」推理范式:傳統(tǒng)推理模型遵循「thinking-before-speaking」路線:先完整生成推理鏈,再一次性給出答案。邏輯雖完整,但交互性差,用戶(hù)必須等待較長(zhǎng)時(shí)間。尤其在語(yǔ)音交互場(chǎng)景下,這種長(zhǎng)時(shí)間的停頓極大削弱了使用體驗(yàn)。

Mini-Omni-Reasoner 提出的則是「thinking-in-speaking」范式。模型在生成過(guò)程中同時(shí)維護(hù)兩條流:回答流(response stream)和推理流(reasoning stream)。二者像兩支交錯(cuò)前進(jìn)的隊(duì)伍,一邊輸出用戶(hù)可聽(tīng)到的回答,一邊在后臺(tái)繼續(xù)進(jìn)行邏輯演算。

通俗理解為:模型循環(huán)輸出p 個(gè)回答 token + q 個(gè)推理 token,直到完成任務(wù)。用戶(hù)感受到的是自然、幾乎無(wú)停頓的對(duì)話(huà),而模型在內(nèi)部始終維持嚴(yán)謹(jǐn)?shù)耐评礞。整個(gè)推理過(guò)程如下。



這種機(jī)制突破了「要么快,要么準(zhǔn)」的二元困境,讓「會(huì)想、會(huì)說(shuō)」真正成為可能。

模型架構(gòu):Mini-Omni-Reasoner 采用了Thinker-Talker架構(gòu),像一對(duì)分工明確的搭檔:

  • Thinker:大腦擔(dān)當(dāng),負(fù)責(zé)語(yǔ)音理解和邏輯推理,交替產(chǎn)出回答 token 和推理 token。內(nèi)部結(jié)構(gòu)是「音頻編碼器 + 大模型」。

  • Talker:嘴巴擔(dān)當(dāng),只負(fù)責(zé)把回答 token 變成語(yǔ)音,而對(duì)推理 token 保持沉默,確保輸出始終簡(jiǎn)潔、自然。

這種解耦方式的好處很直觀:Thinker 全力搞邏輯,Talker 專(zhuān)心搞對(duì)話(huà),誰(shuí)也不分心。

2:8 Token 交替設(shè)計(jì):我們最終選擇了2:8 的回答–推理 token 比例,背后有幾層考量:

  • 推理比例更高 → 思維更完整,但可能反應(yīng)太慢,實(shí)時(shí)性差。

  • 回答比例更高 → 說(shuō)得快,但容易「說(shuō)過(guò)頭」,邏輯沒(méi)跟上,甚至產(chǎn)生幻覺(jué)。

  • Chunk 過(guò)長(zhǎng) → 不管是全推理還是全回答,都會(huì)帶來(lái)延遲或質(zhì)量問(wèn)題。

結(jié)合實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn)推理鏈長(zhǎng)度大約是回答的 2~3 倍,因此 2:8 是一個(gè)平衡點(diǎn):既保證推理深度,又能保持實(shí)時(shí)語(yǔ)音合成的流暢性。比如,當(dāng)模型每秒生成 50 token,就能給用戶(hù)帶來(lái) 10 個(gè)回答 token——對(duì)實(shí)時(shí)對(duì)話(huà)來(lái)說(shuō)已經(jīng)非常充裕。

「點(diǎn)石成金」——四階段數(shù)據(jù)合成管線



僅有架構(gòu)還不夠,要真正掌握「邊思考邊表達(dá)」,還需要精心設(shè)計(jì)的數(shù)據(jù)與訓(xùn)練流程。為此,我們構(gòu)建了Spoken-Math-Problems-3M數(shù)據(jù)集,并設(shè)計(jì)了嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)管線。

在數(shù)據(jù)構(gòu)建中,我們面臨一個(gè)核心挑戰(zhàn)——解決**「邏輯錯(cuò)位」(Anticipation Drift)**問(wèn)題。即如何防止模型在回答時(shí)「搶跑」,說(shuō)出推理流中尚未得出的結(jié)論。我們?yōu)榇嗽O(shè)計(jì)了兩大核心策略:

  • 異步推理機(jī)制:我們?cè)跀?shù)據(jù)層面「教會(huì)」模型一種新的說(shuō)話(huà)藝術(shù)。在回答流中,先說(shuō)一些「鋪墊語(yǔ)境」的話(huà),為后續(xù)的推理爭(zhēng)取時(shí)間;而在推理流中,則要求模型「開(kāi)門(mén)見(jiàn)山」,直奔主題,不講廢話(huà)。

  • 反序列化驗(yàn)證:我們像一位嚴(yán)格的考官,將所有交錯(cuò)的 token 重新組合成自然語(yǔ)言文本,然后利用強(qiáng)大的 GPT 模型進(jìn)行語(yǔ)義和時(shí)間一致性檢查,剔除所有邏輯不連貫或存在「超越」現(xiàn)象的不合格樣本。

通過(guò)上圖中的四階段數(shù)據(jù)管線,我們?yōu)?Mini-Omni-Reasoner 提供了超過(guò)百萬(wàn)份高質(zhì)量的訓(xùn)練數(shù)據(jù)。

「百煉成鋼」——五階段訓(xùn)練方法

訓(xùn)練 Mini-Omni-Reasoner 需要一個(gè)精心設(shè)計(jì)的五階段管線,因?yàn)槟P筒粌H引入了定制化架構(gòu),還采用了全新的輸出形式。為了確保穩(wěn)定收斂并有效將文本推理能力遷移到語(yǔ)音,我們將訓(xùn)練過(guò)程分解為五個(gè)逐步遞進(jìn)的階段,總體思路為先在文本模態(tài)中保持或增強(qiáng)推理能力,再將其與語(yǔ)音模態(tài)對(duì)齊。

  • 對(duì)齊訓(xùn)練:我們從 Qwen2.5-Omni-3B 初始化模型,解決架構(gòu)不兼容問(wèn)題,并先只微調(diào)音頻適配器,使用語(yǔ)音問(wèn)答和對(duì)話(huà)數(shù)據(jù)橋接語(yǔ)音編碼器與 LLM 主干的接口,然后解凍除音頻編碼器外的所有模塊,適應(yīng)新加入的特殊 token,確保模型在定制化 token 格式下無(wú)縫工作。

  • 混合數(shù)學(xué)預(yù)訓(xùn)練:在模型對(duì)齊后,我們?cè)鰪?qiáng)其數(shù)學(xué)推理能力,使用標(biāo)準(zhǔn)的「先推理再說(shuō)話(huà)」數(shù)據(jù)集(包括文本和語(yǔ)音形式)進(jìn)行預(yù)訓(xùn)練,確保在引入 token 級(jí)交錯(cuò)生成之前具備扎實(shí)的推理能力和數(shù)據(jù)對(duì)齊。

  • 文本 thinking-in-speaking 訓(xùn)練:在文本模態(tài)中訓(xùn)練模型交替生成推理 token 和回應(yīng) token,僅更新語(yǔ)言模型參數(shù),專(zhuān)注于掌握交錯(cuò)推理-回應(yīng)結(jié)構(gòu),不涉及語(yǔ)音變化。

  • 語(yǔ)音 thinking-in-speaking 訓(xùn)練:將輸入替換為語(yǔ)音,僅微調(diào)音頻編碼器,保持 LLM 固定,使模型能夠在語(yǔ)音條件下保持推理增強(qiáng)的生成方式,實(shí)現(xiàn)推理范式在模態(tài)間的遷移。

  • Talker 訓(xùn)練:最終階段訓(xùn)練說(shuō)話(huà)模塊,實(shí)現(xiàn)流暢自然的語(yǔ)音生成,整個(gè) Thinker 組件凍結(jié),僅訓(xùn)練 Talker 以將交錯(cuò)輸出轉(zhuǎn)換為語(yǔ)音,同時(shí)保留前面階段建立的邏輯基礎(chǔ)和推理能力。

「真金火煉」——實(shí)驗(yàn)數(shù)據(jù)與案例分析

為了驗(yàn)證 Mini-Omni-Reasoner 的有效性,我們?cè)?Spoken-MQA 數(shù)據(jù)集上測(cè)試了模型與多種不同類(lèi)型方法的對(duì)比,模型相比于基座模型 Qwen2.5-Omni-3B 有明顯的性能提升。



為了進(jìn)一步展現(xiàn) Mini-Omni-Reasoner 與傳統(tǒng)的對(duì)話(huà)模型和基礎(chǔ)模型 Qwen2.5-Omni 模型的區(qū)別,我們分析了針對(duì)同樣問(wèn)題不同模型的回答結(jié)果:實(shí)驗(yàn)證明「Thinking-in-Speaking」方法可以有效地在保持回復(fù)內(nèi)容自然簡(jiǎn)潔的情況下保持高質(zhì)量的推理過(guò)程。



結(jié)語(yǔ)

當(dāng)下,大模型的推理能力已逐漸成為解決復(fù)雜問(wèn)題的核心驅(qū)動(dòng)力。但遺憾的是,這一能力在對(duì)話(huà)系統(tǒng)中仍未被真正釋放。為此,我們提出了Mini-Omni-Reasoner——一次早期的嘗試。誠(chéng)然,它距離成熟應(yīng)用還有很長(zhǎng)的路要走,但「thinking-in-speaking」的實(shí)時(shí)推理機(jī)制,我們相信正是對(duì)話(huà)模型邁向復(fù)雜問(wèn)題解決的必經(jīng)之路。

展望未來(lái),我們認(rèn)為至少有幾個(gè)值得深入探索的方向:

  • 如何科學(xué)地評(píng)測(cè)模型在通用問(wèn)題上的推理增益,如「人生的意義是什么」;
  • 如何讓對(duì)話(huà)模型自主決定何時(shí)需要「思考」;
  • 如何突破固定比例生成,探索更靈活多樣的思維范式。

總的來(lái)說(shuō),Mini-Omni-Reasoner 并非終點(diǎn),而是一個(gè)起點(diǎn)。我們更希望它能成為拋磚引玉,引發(fā)學(xué)界和產(chǎn)業(yè)界對(duì)「對(duì)話(huà)中的推理能力」的持續(xù)關(guān)注與探索。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
從頭到腳皆可替?郭京飛這個(gè)鏡頭,給了多少流量明星們一記耳光

從頭到腳皆可替?郭京飛這個(gè)鏡頭,給了多少流量明星們一記耳光

糊咖娛樂(lè)
2025-12-19 18:35:43
向佐再現(xiàn)“摸鼻梁”,坦言自己非常幸運(yùn)!首談弟弟向佑“每個(gè)家庭都有故事”

向佐再現(xiàn)“摸鼻梁”,坦言自己非常幸運(yùn)!首談弟弟向佑“每個(gè)家庭都有故事”

鄉(xiāng)野小珥
2025-12-20 03:00:36
網(wǎng)友支持龐家人將捐贈(zèng)都要回來(lái),南博:捐贈(zèng)已歸國(guó)家,無(wú)義務(wù)返還

網(wǎng)友支持龐家人將捐贈(zèng)都要回來(lái),南博:捐贈(zèng)已歸國(guó)家,無(wú)義務(wù)返還

映射生活的身影
2025-12-19 17:57:15
除了李盈瑩,伊薩奇巴希球迷渴望吳夢(mèng)潔!莊宇珊與意大利隊(duì)友團(tuán)建

除了李盈瑩,伊薩奇巴希球迷渴望吳夢(mèng)潔!莊宇珊與意大利隊(duì)友團(tuán)建

金毛愛(ài)女排
2025-12-20 00:00:06
婚禮上新娘天庭飽滿(mǎn)意外走紅,明艷動(dòng)人成焦點(diǎn),網(wǎng)友:美到心坎了

婚禮上新娘天庭飽滿(mǎn)意外走紅,明艷動(dòng)人成焦點(diǎn),網(wǎng)友:美到心坎了

詩(shī)意世界
2025-12-17 10:47:30
海南剛封關(guān),越南就坐不住了?面對(duì)無(wú)解“陽(yáng)謀”,連夜抄作業(yè)!

海南剛封關(guān),越南就坐不住了?面對(duì)無(wú)解“陽(yáng)謀”,連夜抄作業(yè)!

知鑒明史
2025-12-19 19:21:41
看了董潔的冬季打扮后,我悟了:大衣不配無(wú)痕褲、小白鞋,好高級(jí)

看了董潔的冬季打扮后,我悟了:大衣不配無(wú)痕褲、小白鞋,好高級(jí)

時(shí)尚穿搭生活館
2025-12-19 21:12:27
為何大勝江蘇?為何棄用洛夫頓?賽后盧偉給出答案,又點(diǎn)名張鎮(zhèn)麟

為何大勝江蘇?為何棄用洛夫頓?賽后盧偉給出答案,又點(diǎn)名張鎮(zhèn)麟

萌蘭聊個(gè)球
2025-12-19 23:32:59
明日冬至,有錢(qián)沒(méi)錢(qián),3種食物多吃,驅(qū)寒“補(bǔ)陽(yáng)氣”,平安過(guò)寒冬

明日冬至,有錢(qián)沒(méi)錢(qián),3種食物多吃,驅(qū)寒“補(bǔ)陽(yáng)氣”,平安過(guò)寒冬

Lily美食談
2025-12-20 00:06:11
再爆大冷4-3!周躍龍?zhí)蕴耸澜绻谲姡?強(qiáng)對(duì)陣出爐中國(guó)3席附賽程

再爆大冷4-3!周躍龍?zhí)蕴耸澜绻谲姡?強(qiáng)對(duì)陣出爐中國(guó)3席附賽程

球場(chǎng)沒(méi)跑道
2025-12-19 08:08:37
特朗普簽署行政命令:指示要在月球和軌道上部署核反應(yīng)堆

特朗普簽署行政命令:指示要在月球和軌道上部署核反應(yīng)堆

新京報(bào)
2025-12-19 07:33:05
片約不斷,演啥毀啥,央視《老舅》這倆戲混子,趁早收手吧

片約不斷,演啥毀啥,央視《老舅》這倆戲混子,趁早收手吧

查爾菲的筆記
2025-12-18 16:03:46
兩個(gè)事實(shí)證明,中國(guó)實(shí)際已經(jīng)控制了面積80平方公里的南沙五方礁?

兩個(gè)事實(shí)證明,中國(guó)實(shí)際已經(jīng)控制了面積80平方公里的南沙五方礁?

阿器談史
2025-12-15 15:51:21
金正恩,正面臨一個(gè)前所未有重大危機(jī),是足以撼動(dòng)國(guó)家根基的問(wèn)題

金正恩,正面臨一個(gè)前所未有重大危機(jī),是足以撼動(dòng)國(guó)家根基的問(wèn)題

百態(tài)人間
2025-12-19 16:53:39
美術(shù)館回應(yīng)“4斤黃金鳳冠損毀”:張先生本人將卡槽式保護(hù)罩換成亞克力防塵罩;事件發(fā)生后“張凱毅”已掉粉超46萬(wàn)

美術(shù)館回應(yīng)“4斤黃金鳳冠損毀”:張先生本人將卡槽式保護(hù)罩換成亞克力防塵罩;事件發(fā)生后“張凱毅”已掉粉超46萬(wàn)

揚(yáng)子晚報(bào)
2025-12-19 12:21:59
上海著名百貨商場(chǎng)官宣改名、啟動(dòng)不停業(yè)改造!屋頂觀景平臺(tái)目測(cè)要火

上海著名百貨商場(chǎng)官宣改名、啟動(dòng)不停業(yè)改造!屋頂觀景平臺(tái)目測(cè)要火

新民晚報(bào)
2025-12-19 19:28:59
冬天高中生席地而坐趴凳子上考試?涉事學(xué)校老師:當(dāng)時(shí)溫度回升,時(shí)間約15分鐘

冬天高中生席地而坐趴凳子上考試?涉事學(xué)校老師:當(dāng)時(shí)溫度回升,時(shí)間約15分鐘

紅星新聞
2025-12-19 18:32:09
內(nèi)娛好久不見(jiàn)這么有性張力的小鮮肉了!

內(nèi)娛好久不見(jiàn)這么有性張力的小鮮肉了!

ChicMyGeek
2025-12-19 15:14:08
明成化二年,廣西大藤峽瑤族叛亂,叛軍被平定后,土司一家被斬。按慣例,男童閹了進(jìn)宮當(dāng)太監(jiān),女童被送入宮中作為奴婢

明成化二年,廣西大藤峽瑤族叛亂,叛軍被平定后,土司一家被斬。按慣例,男童閹了進(jìn)宮當(dāng)太監(jiān),女童被送入宮中作為奴婢

歷史按察使司
2025-12-18 14:46:14
小米集團(tuán)CEO雷軍官宣:小米17 Ultra下周正式發(fā)布!小米與徠卡方面的合作或?qū)⒂瓉?lái)進(jìn)一步的深入

小米集團(tuán)CEO雷軍官宣:小米17 Ultra下周正式發(fā)布!小米與徠卡方面的合作或?qū)⒂瓉?lái)進(jìn)一步的深入

和訊網(wǎng)
2025-12-18 10:23:19
2025-12-20 05:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11957文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來(lái)了?貨幣三國(guó)殺

汽車(chē)要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

數(shù)碼
健康
房產(chǎn)
藝術(shù)
教育

數(shù)碼要聞

機(jī)械大師E06臥式ITX機(jī)箱上市:支持200mm長(zhǎng)半高顯卡,298元

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

藝術(shù)要聞

60幅流失海外的中國(guó)畫(huà),件件精品

教育要聞

教育部試卷禁令下的教育反思,老師是該重拾命題能力了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版