国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

Mini-Omni-Reasoner:實時推理,定義下一代端到端對話模型

0
分享至



本文第一作者謝之非,共同第一作者馬子陽皆是來自于南洋理工大學的博士生。通訊作者為新加坡國立大學特聘教授顏水成和南洋理工大學數(shù)據(jù)與科學系校長講席教授苗春燕。共同作者為騰訊AI首席專家葉德珩和新加坡國立大學博士后研究員廖越。

兩千多年前,孔子說過「三思而后行」。這句古老箴言,其實點出了人類面對復雜問題的核心智慧:一步步推理,層層拆解,最終做出可靠的決策。

現(xiàn)在,已有諸多模型在復雜推理方面展現(xiàn)出顯著進展,如 DeepSeek-R1 和 OpenAI o1,部分多模態(tài)系統(tǒng)甚至能夠處理跨領域的復雜任務,展現(xiàn)出解決復雜現(xiàn)實問題的潛力。然而,在端到端對話模型中,推理能力尚未解鎖。

原因并不復雜。深度思考意味著模型往往需要在輸出前生成完整推理鏈,而這直接帶來延遲。對于語音對話系統(tǒng)而言,速度與質量同樣關鍵。一旦停頓過長,哪怕答案再精妙,也會破壞交互的自然感。

設想一個場景:你問語音助手「這份研究報告的結論可靠嗎?」。如果模型沉默十秒才給出語音的回復,則完全失去對話的體驗;若它立刻回答,但推理缺乏深度,又容易顯得表面化。問題在于:要么得到一個「強大但反應遲鈍」的助手,要么得到一個「迅速但思維簡單」的助手。魚與熊掌,似乎不可兼得。

基于這一挑戰(zhàn),我們提出了 Mini-Omni-Reasoner——一種專為對話場景打造的實時推理新范式。它通過「Thinking-in-Speaking」實現(xiàn)邊思考邊表達,既能實時反饋、輸出自然流暢的語音內容,又能保持高質量且可解釋的推理過程。



  • 論文標題:MINI-OMNI-REASONER: TOKEN-LEVEL THINKING-IN-SPEAKING IN LARGE SPEECH MODELS
  • 論文鏈接
  • https://arxiv.org/pdf/2508.15827
  • 項目主頁
  • https://github.com/xzf-thu/Mini-Omni-Reasoner

Mini-Omni-Reasoner:

邊思考,邊表達



讓我們暫時把視角放回人類自己。當一個人面對復雜問題時,往往不是「想完再說」,而是「邊說邊想」。當被問到「如何理解人工智能的未來」時,大多數(shù)人不會先默默推理數(shù)分鐘再完整輸出結論,而是會邊思考邊組織語言:「這個問題挺復雜的……我覺得可以從技術和社會兩個層面來看……」

Mini-Omni-Reasoner 正是受到這一啟發(fā),探索「邊思考,邊表達」的新范式。它允許模型在生成回答的同時進行內部推理,實現(xiàn)token 級別的思維流與輸出流交替生成。這樣既能保留邏輯深度與可解釋性,又能提供自然、低延遲的交互體驗。

「一心二用」——如何在大模型中實現(xiàn)?



「Thinking-in-Speaking」推理范式:傳統(tǒng)推理模型遵循「thinking-before-speaking」路線:先完整生成推理鏈,再一次性給出答案。邏輯雖完整,但交互性差,用戶必須等待較長時間。尤其在語音交互場景下,這種長時間的停頓極大削弱了使用體驗。

Mini-Omni-Reasoner 提出的則是「thinking-in-speaking」范式。模型在生成過程中同時維護兩條流:回答流(response stream)和推理流(reasoning stream)。二者像兩支交錯前進的隊伍,一邊輸出用戶可聽到的回答,一邊在后臺繼續(xù)進行邏輯演算。

通俗理解為:模型循環(huán)輸出p 個回答 token + q 個推理 token,直到完成任務。用戶感受到的是自然、幾乎無停頓的對話,而模型在內部始終維持嚴謹?shù)耐评礞湣U麄€推理過程如下。



這種機制突破了「要么快,要么準」的二元困境,讓「會想、會說」真正成為可能。

模型架構:Mini-Omni-Reasoner 采用了Thinker-Talker架構,像一對分工明確的搭檔:

  • Thinker:大腦擔當,負責語音理解和邏輯推理,交替產出回答 token 和推理 token。內部結構是「音頻編碼器 + 大模型」。

  • Talker:嘴巴擔當,只負責把回答 token 變成語音,而對推理 token 保持沉默,確保輸出始終簡潔、自然。

這種解耦方式的好處很直觀:Thinker 全力搞邏輯,Talker 專心搞對話,誰也不分心。

2:8 Token 交替設計:我們最終選擇了2:8 的回答–推理 token 比例,背后有幾層考量:

  • 推理比例更高 → 思維更完整,但可能反應太慢,實時性差。

  • 回答比例更高 → 說得快,但容易「說過頭」,邏輯沒跟上,甚至產生幻覺。

  • Chunk 過長 → 不管是全推理還是全回答,都會帶來延遲或質量問題。

結合實驗結果,我們發(fā)現(xiàn)推理鏈長度大約是回答的 2~3 倍,因此 2:8 是一個平衡點:既保證推理深度,又能保持實時語音合成的流暢性。比如,當模型每秒生成 50 token,就能給用戶帶來 10 個回答 token——對實時對話來說已經非常充裕。

「點石成金」——四階段數(shù)據(jù)合成管線



僅有架構還不夠,要真正掌握「邊思考邊表達」,還需要精心設計的數(shù)據(jù)與訓練流程。為此,我們構建了Spoken-Math-Problems-3M數(shù)據(jù)集,并設計了嚴謹?shù)臄?shù)據(jù)管線。

在數(shù)據(jù)構建中,我們面臨一個核心挑戰(zhàn)——解決**「邏輯錯位」(Anticipation Drift)**問題。即如何防止模型在回答時「搶跑」,說出推理流中尚未得出的結論。我們?yōu)榇嗽O計了兩大核心策略:

  • 異步推理機制:我們在數(shù)據(jù)層面「教會」模型一種新的說話藝術。在回答流中,先說一些「鋪墊語境」的話,為后續(xù)的推理爭取時間;而在推理流中,則要求模型「開門見山」,直奔主題,不講廢話。

  • 反序列化驗證:我們像一位嚴格的考官,將所有交錯的 token 重新組合成自然語言文本,然后利用強大的 GPT 模型進行語義和時間一致性檢查,剔除所有邏輯不連貫或存在「超越」現(xiàn)象的不合格樣本。

通過上圖中的四階段數(shù)據(jù)管線,我們?yōu)?Mini-Omni-Reasoner 提供了超過百萬份高質量的訓練數(shù)據(jù)。

「百煉成鋼」——五階段訓練方法

訓練 Mini-Omni-Reasoner 需要一個精心設計的五階段管線,因為模型不僅引入了定制化架構,還采用了全新的輸出形式。為了確保穩(wěn)定收斂并有效將文本推理能力遷移到語音,我們將訓練過程分解為五個逐步遞進的階段,總體思路為先在文本模態(tài)中保持或增強推理能力,再將其與語音模態(tài)對齊。

  • 對齊訓練:我們從 Qwen2.5-Omni-3B 初始化模型,解決架構不兼容問題,并先只微調音頻適配器,使用語音問答和對話數(shù)據(jù)橋接語音編碼器與 LLM 主干的接口,然后解凍除音頻編碼器外的所有模塊,適應新加入的特殊 token,確保模型在定制化 token 格式下無縫工作。

  • 混合數(shù)學預訓練:在模型對齊后,我們增強其數(shù)學推理能力,使用標準的「先推理再說話」數(shù)據(jù)集(包括文本和語音形式)進行預訓練,確保在引入 token 級交錯生成之前具備扎實的推理能力和數(shù)據(jù)對齊。

  • 文本 thinking-in-speaking 訓練:在文本模態(tài)中訓練模型交替生成推理 token 和回應 token,僅更新語言模型參數(shù),專注于掌握交錯推理-回應結構,不涉及語音變化。

  • 語音 thinking-in-speaking 訓練:將輸入替換為語音,僅微調音頻編碼器,保持 LLM 固定,使模型能夠在語音條件下保持推理增強的生成方式,實現(xiàn)推理范式在模態(tài)間的遷移。

  • Talker 訓練:最終階段訓練說話模塊,實現(xiàn)流暢自然的語音生成,整個 Thinker 組件凍結,僅訓練 Talker 以將交錯輸出轉換為語音,同時保留前面階段建立的邏輯基礎和推理能力。

「真金火煉」——實驗數(shù)據(jù)與案例分析

為了驗證 Mini-Omni-Reasoner 的有效性,我們在 Spoken-MQA 數(shù)據(jù)集上測試了模型與多種不同類型方法的對比,模型相比于基座模型 Qwen2.5-Omni-3B 有明顯的性能提升。



為了進一步展現(xiàn) Mini-Omni-Reasoner 與傳統(tǒng)的對話模型和基礎模型 Qwen2.5-Omni 模型的區(qū)別,我們分析了針對同樣問題不同模型的回答結果:實驗證明「Thinking-in-Speaking」方法可以有效地在保持回復內容自然簡潔的情況下保持高質量的推理過程。



結語

當下,大模型的推理能力已逐漸成為解決復雜問題的核心驅動力。但遺憾的是,這一能力在對話系統(tǒng)中仍未被真正釋放。為此,我們提出了Mini-Omni-Reasoner——一次早期的嘗試。誠然,它距離成熟應用還有很長的路要走,但「thinking-in-speaking」的實時推理機制,我們相信正是對話模型邁向復雜問題解決的必經之路。

展望未來,我們認為至少有幾個值得深入探索的方向:

  • 如何科學地評測模型在通用問題上的推理增益,如「人生的意義是什么」;
  • 如何讓對話模型自主決定何時需要「思考」;
  • 如何突破固定比例生成,探索更靈活多樣的思維范式。

總的來說,Mini-Omni-Reasoner 并非終點,而是一個起點。我們更希望它能成為拋磚引玉,引發(fā)學界和產業(yè)界對「對話中的推理能力」的持續(xù)關注與探索。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
后續(xù)!絕情臭豆腐最新進展:負責人正臉曝光社死,店老板公開道歉

后續(xù)!絕情臭豆腐最新進展:負責人正臉曝光社死,店老板公開道歉

離離言幾許
2026-02-28 18:08:15
0-1到2-1!卡里克神了:曼聯(lián)奇跡逆襲,神鋒再次破門:8場轟入7球

0-1到2-1!卡里克神了:曼聯(lián)奇跡逆襲,神鋒再次破門:8場轟入7球

足球狗說
2026-03-01 23:58:18
江西女子用公驢器官泡酒,三個月后給丈夫喝,不料發(fā)生意外

江西女子用公驢器官泡酒,三個月后給丈夫喝,不料發(fā)生意外

古怪奇談錄
2025-06-28 13:49:02
伊朗使用集束彈藥轟炸特拉維夫!以色列淡水廠被炸!美國被惹怒了

伊朗使用集束彈藥轟炸特拉維夫!以色列淡水廠被炸!美國被惹怒了

妙知
2026-03-01 15:23:50
一夜虧掉4600億!被限制進入中國市場后,外企炸鍋:饒了我們吧

一夜虧掉4600億!被限制進入中國市場后,外企炸鍋:饒了我們吧

探史
2026-02-22 22:46:21
伊朗德黑蘭被炸給世界上了一課:中國防空系統(tǒng)到底有多恐怖?

伊朗德黑蘭被炸給世界上了一課:中國防空系統(tǒng)到底有多恐怖?

荷蘭豆愛健康
2026-03-01 22:22:27
即日起,廣州全面禁止!

即日起,廣州全面禁止!

羊城攻略
2026-03-01 23:03:39
臺關注我軍機活動“斷崖式銳減”動因

臺關注我軍機活動“斷崖式銳減”動因

沃德輿情觀察
2026-02-28 23:26:00
69歲伊朗前總統(tǒng)內賈德遇襲身亡,從鐵匠之子成長為總統(tǒng),高舉反美大旗,開創(chuàng)首位非神職人員擔任總統(tǒng)先例

69歲伊朗前總統(tǒng)內賈德遇襲身亡,從鐵匠之子成長為總統(tǒng),高舉反美大旗,開創(chuàng)首位非神職人員擔任總統(tǒng)先例

極目新聞
2026-03-02 00:03:17
最美司理理,慶余年第一美人,居然這么高,皮膚好白啊

最美司理理,慶余年第一美人,居然這么高,皮膚好白啊

草莓解說體育
2026-03-02 01:02:37
又涼了一個

又涼了一個

求實處
2026-03-01 00:04:15
這老師真是絕代美人??!

這老師真是絕代美人??!

東方不敗然多多
2026-03-01 01:09:31
不到24小時,美以對伊完成二次打擊,俄媒警告:川普在逼中國下場

不到24小時,美以對伊完成二次打擊,俄媒警告:川普在逼中國下場

東極妙嚴
2026-02-28 17:56:12
迪拜多地爆炸聲不斷,世界最高樓與導彈“擦肩而過”;全球唯一七星級酒店遇襲,游客被巨大爆炸聲驚醒,震感強烈

迪拜多地爆炸聲不斷,世界最高樓與導彈“擦肩而過”;全球唯一七星級酒店遇襲,游客被巨大爆炸聲驚醒,震感強烈

每日經濟新聞
2026-03-01 15:31:12
中國95%的房子,其實已經沒有任何投資價值

中國95%的房子,其實已經沒有任何投資價值

流蘇晚晴
2026-03-01 16:56:00
中國男籃險勝中國臺北!郭士強抱住陳盈駿與王晗,全員吶喊慶祝!

中國男籃險勝中國臺北!郭士強抱住陳盈駿與王晗,全員吶喊慶祝!

籃球資訊達人
2026-03-01 18:12:11
男單頒獎!開心接獎杯,與莎莎合影現(xiàn)場爆棚,主導男女單冠軍自拍

男單頒獎!開心接獎杯,與莎莎合影現(xiàn)場爆棚,主導男女單冠軍自拍

籃球資訊達人
2026-03-01 21:58:15
再年輕也沒用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

再年輕也沒用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

青梅侃史啊
2026-02-27 23:44:02
經中央軍委批準,全軍今起制發(fā)啟用

經中央軍委批準,全軍今起制發(fā)啟用

日照日報
2026-03-01 14:39:13
布倫森打爆福克斯,文班25+13+4帽難救主,尼克斯終結馬刺11連勝

布倫森打爆??怂?,文班25+13+4帽難救主,尼克斯終結馬刺11連勝

釘釘陌上花開
2026-03-02 05:22:30
2026-03-02 06:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

特朗普警告伊朗“不要報復” 伊朗外長回應

頭條要聞

特朗普警告伊朗“不要報復” 伊朗外長回應

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

房產
數(shù)碼
親子
健康
教育

房產要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

數(shù)碼要聞

曝蘋果WWDC 26將推Core AI框架取代Core ML并公布多項AI功能

親子要聞

帶娃看醫(yī)生,聽懂這幾句話少走90%彎路!

轉頭就暈的耳石癥,能開車上班嗎?

教育要聞

收27fall新的學生了:英國最強留學工作室了解下?

無障礙瀏覽 進入關懷版