国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MiniCPM-o 4.5 技術報告發(fā)布:全雙工全模態(tài) API 開放,RTX5070 即可實時運行

0
分享至


作者 | OpenBMB 團隊

你有沒有想過,不用聯(lián)網(wǎng)、僅用一張消費級顯卡,就能在個人電腦上擁有一個「邊看、邊聽、邊說、還能主動提醒」的類人 AI 助手?它既能實時感知環(huán)境變化、同步理解你的意圖,又能全程保護隱私。

這就是MiniCPM-o 4.5所能做到的。在技術創(chuàng)新下,它僅憑 9B 參數(shù),實現(xiàn)了業(yè)界首個端到端全雙工全模態(tài)大模型,讓端側 AI 普惠成為現(xiàn)實。其自 2026 年 2 月模型發(fā)布以來,在 Hugging Face 上的下載量已突破 25 萬 +。

? 模型用例展示:https://openbmb.github.io/minicpm-o-4_5-omni/

? 在線體驗(無需注冊 / 下載):https://minicpmo45.modelbest.cn/

今天,面壁智能聯(lián)合 OpenBMB 開源社區(qū)、清華大學 THUNLP 實驗室和 THUMAI 實驗室正式發(fā)布MiniCPM-o 4.5 技術報告,首次公開面壁智能在全雙工全模態(tài)交互領域的核心技術——Omni-Flow 流式全模態(tài)框架

? 技術報告:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

在技術報告發(fā)布的同時,MiniCPM-o 4.5 同步推出在線體驗 Demo、全模態(tài)全雙工 API、端側安裝包 Comni 和 Demo 倉庫。

在線體驗 Demo

在線 Demo 是 MiniCPM-o 4.5 的原型示例網(wǎng)頁應用,展現(xiàn)傳統(tǒng)輪次交互、語音雙工交互、視頻雙工交互三大類應用原型,并完整開放模型支持的全部配置,包括 prompt 和參考音頻設置。

Demo 可在手機、電腦端直接訪問,并配套提供排隊、錄制、保存、分享、回看等功能,提升用戶體驗。

? 在線體驗(手機端推薦)

https://minicpmo45.modelbest.cn/mobile/

? 在線體驗(電腦端推薦)

https://minicpmo45.modelbest.cn/

全模態(tài)全雙工 API

同步開放的 MiniCPM-o 4.5 API 支持全模態(tài)全雙工實時交互,全雙工下無需 VAD 機制控制對話輪次,便于開發(fā)者基于 MiniCPM-o 4.5 構建應用。

API 目前免費開放。詳細使用方式見官網(wǎng)中的 API 文檔 :https://minicpmo45.modelbest.cn/docs。

Windows / macOS 端側安裝包 Comni

MiniCPM-o 4.5 已基于 llama.cpp 完成模型量化和推理性能優(yōu)化,實測最低 12GB 顯存的 RTX 5070 即可流暢運行全雙工模式(RTF0.4),極大降低了個人端側部署的準入門檻。

為進一步降低端側部署的操作門檻,桌面軟件Comni集成了模型下載、環(huán)境安裝和 Demo 運行能力,提供 Windows / macOS 版本。軟件包下載鏈接如下:

上方視頻展示了 MiniCPM-o 4.5 在個人筆記本上的完整部署與運行過程,包括全雙工語音對話、實時視覺理解、主動提醒等能力演示

Demo 倉庫開源和 Linux 部署

上述 Demo 的全棧代碼已開源,Linux 用戶可克隆代碼倉并部署完整的 Demo 服務。這也是首批可本地部署的全雙工全模態(tài)交互演示項目之一。

?Demo GitHub 倉庫:https://github.com/OpenBMB/MiniCPM-o-Demo

為什么「全雙工」是

AI 交互的下一站?

人類交流是流暢、并行的。我們邊聽邊思考,甚至可以打斷對方。

但過去,AI 與人類的交互模式是半雙工的,像用對講機:你說完,它才能處理;它說的時候,又聽不見你的新指令。

AI 與人類的不同頻,使得大多數(shù)用戶無法在與大模型產(chǎn)品的交互中獲得良好的體驗感,甚至由于交流的「時空割裂」逐漸失去耐心。長此以往,大模型在多模態(tài)場景的落地無疑大大受阻。

而 MiniCPM-o 4.5 在全球范圍內首創(chuàng)「全雙工全模態(tài)」,模型能在持續(xù)感知環(huán)境(看視頻、聽聲音)的同時進行思考和響應,這讓 AI 從一個被動的工具變成了一個可以主動幫助人類的真正助手。

這背后離不開面壁智能與清華大學共同研發(fā)的Omni-Flow 流式全模態(tài)框架。本次技術報告也首次披露了 Omni-Flow 的技術核心:

簡單來說,它創(chuàng)造了一個共享的「時間軸」,把視覺、音頻、語言等所有信息流都對齊到毫秒級的時間片上。模型在每個極小的時間片內,完成一次「感知 - 思考 - 響應」的循環(huán)。

這套機制從底層賦予了模型持續(xù)感知即時反應的能力,是 MiniCPM-o 實現(xiàn)全雙工的基石。

此外,MiniCPM-o 4.5 本次發(fā)布并堅持開源可本地部署的 Web Demo,這對開發(fā)者與用戶意味著:

  • 絕對的隱私安全:全天候陪伴式 AI 會接觸大量敏感信息。數(shù)據(jù)不出本地,是最好的隱私保護。

  • 斷網(wǎng)也能跑的可靠性:沒有網(wǎng)絡也能用。即使在隧道、野外,你的 AI 助手也不會「掉線」。

  • 開發(fā)者的游樂場:完整的 Demo 前后端代碼已開源。你可以基于此快速構建自己的全雙工多模態(tài)應用,無論是智能座艙、無障礙輔助還是具身智能,MiniCPM-o 4.5 都能成為你將想象變成現(xiàn)實的助推器。

技術報告深度解讀:

揭秘 MiniCPM-o 4.5 的實現(xiàn)之道

MiniCPM-o 4.5 采用端到端全模態(tài)架構,總參數(shù)量 9B。核心設計包括:

  • 全模態(tài)端到端架構:多模態(tài)編碼器 / 語音解碼器與 LLM 通過逐 token 級隱藏狀態(tài)緊密連接,在高壓縮率下實現(xiàn)通用視覺、聽覺感知和語音對話。

  • 時分復用機制:將并行多模態(tài)流劃分為周期性時間片內的順序信息組,實現(xiàn)高效的流式處理。

  • 可配置語音建模:支持文本 + 音頻雙系統(tǒng)提示,通過參考音頻和角色提示詞即可實現(xiàn)聲音克隆角色扮演。

  • 雙模式支持:同一模型支持傳統(tǒng)的輪次交互模式與 Omni-Flow 全模態(tài)全雙工模式。

實時交互:Omni-Flow 流式全模態(tài)框架

傳統(tǒng)多模態(tài)模型將交互視為一系列孤立的回合,而 Omni-Flow 將其重塑為一個連續(xù)的過程。


圖 1:交互范式的演進,MiniCPM-o 4.5 實現(xiàn)了最右側的全雙工流式交互

如圖所示,Omni-Flow 將視覺、音頻輸入流和模型的文本、語音輸出流,在時間上進行精確切片和對齊。模型不再是被動地等待用戶輸入完成,而是以極高的頻率(例如每秒一次)持續(xù)刷新自己的“世界觀”,并自主決定在哪個時間點介入(說話或提醒)。

這套機制原生支持了打斷、插話等高級交互行為,徹底擺脫了對外部 VAD (語音活動檢測) 等輔助工具的依賴。

端到端架構:9B 模型如何協(xié)同工作?

為了實現(xiàn) Omni-Flow,面壁智能團隊設計了一套高效的端到端全模態(tài)架構,總參數(shù)量 9B。


圖 2:MiniCPM-o 4.5 的端到端全模態(tài)架構

其核心組件包括:

  • 視覺編碼器(0.4B):SigLIP-ViT,負責「看」。

  • 音頻編碼器(0.3B):Whisper-Medium,負責「聽」。

  • LLM 基座(8B):Qwen3-8B,負責「思考」和理解。

  • 語音 Token 解碼器(0.3B):輕量級 Llama 架構,負責將 LLM 的「想法」(文本)轉化為語音單元。

  • 聲碼器: 將語音單元合成為最終的波形。

這個架構最巧妙的設計之一是:LLM 基座只生成文本 Token,而專業(yè)的語音合成任務「外包」給了一個更小、更專業(yè)的語音解碼器。這避免了讓大模型直接處理復雜的聲學任務,從而保證了其核心的語言和推理能力不受損害。同時通過各模塊的 token 級稠密連接,保證了模型能力的高上限。

為實時而生:TAIL 語音生成方案

流式語音的一大難題是延遲。為了讓語音聽起來自然,模型通常需要「預讀」一大段文本,但這會導致輸出的語音遠遠滯后于用戶的輸入。在需要「即時打斷」的全雙工場景里,這是致命的。

因此,面壁智能團隊提出了TAIL(Time-Aligned Interleaving)方案,可以讓每個語音塊的生成都緊緊跟隨實時最新的文本內容,而不是讓文本「搶跑」太多。

同時,通過一個輕量級的「預讀」(pre-look) 機制,解決了跨詞發(fā)音的連貫性問題。最終,TAIL 在保證音頻流暢悅耳的同時,將語音輸出與交互發(fā)生的延遲降到了最低。

性能表現(xiàn):9B 模型硬剛業(yè)界頂尖

參數(shù)規(guī)模小不等于模型性能弱。MiniCPM-o 4.5 在多個維度的評測中,展現(xiàn)了與 SOTA 大模型掰手腕的實力。



  • 推理效率:在顯存方面,MiniCPM-o 4.5 的 INT4 量化版僅需 12GB 顯存即可運行,幾乎是 Qwen3-Omni INT4 版本的一半,使得其在消費級顯卡上的本地部署成為可能。在性能方面,MiniCPM-o 4.5 的推理速度也更快,其 INT4 版本的解碼速度達到了 212 tokens/s,比 Qwen3 快了 40% 以上,響應延遲更低。



  • 綜合視覺能力:在 OpenCompass、MMBench 等多個視覺基準上,9B 的 MiniCPM-o 4.5與 Gemini 2.5 Flash 表現(xiàn)相當

  • 全模態(tài)與全雙工交互:在需要聯(lián)合音視頻理解的基準上,MiniCPM-o 4.5全面超越了 Gemini 2.5 Flash 和 Qwen3-Omni。在全雙工視頻理解基準 LiveSports-3K-CC 上,其勝率(54.4%)更是大幅領先專用的流式視頻模型。

  • 語音生成:無論是中文還是英文,MiniCPM-o 4.5 的語音生成質量(字符 / 單詞錯誤率更低)和情感表現(xiàn)力都優(yōu)于 Qwen3-Omni 和業(yè)界領先的 CosyVoice2。

真 · 全雙工,潛力無限

全雙工全模態(tài)大模型不是一個遙遠的概念,而是會催生一系列全新的應用,例如:

  • 主動式伴侶:在你烹飪、修理或運動時,給你實時的指導和提醒。

  • 無障礙輔助:成為視障人士的「眼睛」,為視障人士持續(xù)觀察環(huán)境,主動播報綠燈亮起、水杯將滿等關鍵環(huán)境信息,幫助他們安全生活。

  • 智能座艙:持續(xù)監(jiān)控路況和駕駛員狀態(tài),主動提示「左側有可用車位」并引導泊車,提供更智能、更及時的安全預警和駕駛輔助。

  • 具身智能:作為機器人的「大腦」,持續(xù)感知動態(tài)環(huán)境并自主決策交互時機。

這些場景的共同點是:需求并非一次性問答,而是需要 AI 作為「沉默的觀察者」和「及時的提醒者」融入動態(tài)生活流——這正是傳統(tǒng)輪次對話模型無法勝任的。

MiniCPM-o 4.5 是原生全雙工模型,擺脫了對 VAD 的依賴。這意味著:支持 general 聲音感知(環(huán)境噪音、音樂等,不僅是語音);畫面變化跟進更快(native 全雙工,無需等上句說完);AI 說話時可被實時引導改變內容。

當然,MiniCPM-o 4.5 目前還存在可提升空間,如長時間交互的穩(wěn)定性、主動行為的豐富性等。多模態(tài)智能的下一個前沿,不僅在于模型能力的擴展,更在于重新思考智能表達的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在這一方向上的關鍵探索。

? 技術報告 PDF:

https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

? 在線體驗:

https://minicpmo45.modelbest.cn/

? GitHub Demo(含本地安裝包):

https://github.com/OpenBMB/MiniCPM-o-Demo

? Hugging Face 下載鏈接:

https://huggingface.co/openbmb/MiniCPM-o-4_5

? ModelScope 下載鏈接:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

會議推薦

世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構,還能撐多久?

AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態(tài)智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰(zhàn)經(jīng)驗。AICon 2026,期待與你同行。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
十年前,易建聯(lián)花1000萬在洛杉磯買下豪宅,如今出售市值多少?

十年前,易建聯(lián)花1000萬在洛杉磯買下豪宅,如今出售市值多少?

小蘭聊歷史
2026-04-26 08:44:22
國企機關化帶來的問題,已經(jīng)愈來愈嚴重了

國企機關化帶來的問題,已經(jīng)愈來愈嚴重了

細說職場
2026-05-07 13:25:20
王海稱胖東來套取國家補貼資金,情節(jié)嚴重負責人可承擔刑事責任

王海稱胖東來套取國家補貼資金,情節(jié)嚴重負責人可承擔刑事責任

映射生活的身影
2026-05-06 23:38:17
女子趁男友熟睡 偷偷通過人臉識別解鎖其手機 刷臉21次盜轉27萬余元 女子已被刑拘

女子趁男友熟睡 偷偷通過人臉識別解鎖其手機 刷臉21次盜轉27萬余元 女子已被刑拘

閃電新聞
2026-05-07 10:24:02
李敏因生病入住301醫(yī)院,護士得知她是毛主席的女兒,開了個玩笑

李敏因生病入住301醫(yī)院,護士得知她是毛主席的女兒,開了個玩笑

翠羽
2026-04-29 08:50:11
置換了2輛車,才知道舊車賣給給4S店和車販子的差別,都是真心話

置換了2輛車,才知道舊車賣給給4S店和車販子的差別,都是真心話

侃故事的阿慶
2026-05-07 07:27:26
波波維奇出山!馬刺133-95狂勝森林狼,誰是贏球功臣?數(shù)據(jù)不說謊

波波維奇出山!馬刺133-95狂勝森林狼,誰是贏球功臣?數(shù)據(jù)不說謊

毒舌NBA
2026-05-07 12:24:32
南宋為洗靖康之恥有多狠?700萬金人僅剩10萬,辱金后還留一畫作

南宋為洗靖康之恥有多狠?700萬金人僅剩10萬,辱金后還留一畫作

掠影后有感
2026-05-07 10:01:40
《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
歐冠狂歡夜:凱恩補時破門絕平 拜仁5-6遭巴黎淘汰 決賽對陣誕生

歐冠狂歡夜:凱恩補時破門絕平 拜仁5-6遭巴黎淘汰 決賽對陣誕生

侃球熊弟
2026-05-07 03:57:40
蘋果新品上架,5月8日,正式開售

蘋果新品上架,5月8日,正式開售

科技堡壘
2026-05-06 12:16:23
手球不判 兩黃不罰 越位硬吹 VAR裝睡!拜仁輸給了1只看不見的手

手球不判 兩黃不罰 越位硬吹 VAR裝睡!拜仁輸給了1只看不見的手

看透足球專欄
2026-05-07 05:53:52
央視不播世界杯?萬達出局3中國贊助商恐成最大輸家:34億打水漂

央視不播世界杯?萬達出局3中國贊助商恐成最大輸家:34億打水漂

念洲
2026-05-07 11:04:47
伊朗外長向中方通報伊美談判情況,中方:全面止戰(zhàn)刻不容緩,重啟戰(zhàn)端更不可取,堅持談判尤為重要

伊朗外長向中方通報伊美談判情況,中方:全面止戰(zhàn)刻不容緩,重啟戰(zhàn)端更不可取,堅持談判尤為重要

環(huán)球網(wǎng)資訊
2026-05-07 06:48:13
黃仁勛很生氣:中國芯片用“落后”7nm工藝,搶走了英偉達50%市場

黃仁勛很生氣:中國芯片用“落后”7nm工藝,搶走了英偉達50%市場

科技專家
2026-05-07 11:39:11
終于理解王京花了,就沖孫怡吃飯的這個樣子,沒幾個婆婆能喜歡

終于理解王京花了,就沖孫怡吃飯的這個樣子,沒幾個婆婆能喜歡

西樓知趣雜談
2026-05-06 10:58:39
一塊H200芯片都沒賣出去!黃仁勛不裝了:中國不應獲得最先進芯片

一塊H200芯片都沒賣出去!黃仁勛不裝了:中國不應獲得最先進芯片

混沌錄
2026-05-06 16:51:09
突發(fā)異動!300868,強勢20%漲停!002384,超27億主力資金凈流入!

突發(fā)異動!300868,強勢20%漲停!002384,超27億主力資金凈流入!

證券時報e公司
2026-05-07 12:20:59
吳宜澤名下臺球館人流量暴增,接受“臺球皇帝”專訪時談奧沙利文,在比賽時他曾發(fā)私信“支招”

吳宜澤名下臺球館人流量暴增,接受“臺球皇帝”專訪時談奧沙利文,在比賽時他曾發(fā)私信“支招”

極目新聞
2026-05-06 16:55:05
2026-05-07 16:51:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領域技術資訊。
1476文章數(shù) 149關注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

費高云落馬:任市委書記僅一年多 曾因爆炸事故被問責

頭條要聞

費高云落馬:任市委書記僅一年多 曾因爆炸事故被問責

體育要聞

巴黎再進歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業(yè)照

財經(jīng)要聞

特朗普:美伊“很有可能”達成協(xié)議

汽車要聞

理想為什么不做轎車,有了解釋……

態(tài)度原創(chuàng)

游戲
時尚
教育
本地
公開課

索尼PS5獨占新作銷量太爛了!前十都進不去 回本堪憂

“白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

教育要聞

再說一次:這其實是幾何題

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版