国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓大模型【告別回合制】:同時(shí)看、聽、說(shuō)、一直察言觀色|MiniCPM-o 4.5 開源

0
分享至

我做了一面「言出法隨」的墻:表面上是一面墻,隨時(shí)在任何區(qū)域出現(xiàn)任何我想要的東西

這面墻,會(huì)出現(xiàn)在我的新的 AGI Bar 里(正在裝修,很大)

整個(gè)酒吧會(huì)變成一個(gè)大的具身空間,布滿麥克風(fēng),識(shí)別我朝哪兒、說(shuō)了什么,然后對(duì)應(yīng)區(qū)域的墻面開始變化,機(jī)械臂開始運(yùn)動(dòng)

甚至,我還可以讓墻面去干活,比如可以讓它去我的某個(gè)賬號(hào)里拉取資料,也可以讓它執(zhí)行各種操作。生成內(nèi)容、找材料、執(zhí)行動(dòng)作,都行


但我遇到一個(gè)很頭疼的問(wèn)題

現(xiàn)有的語(yǔ)音交互方案,一旦我腦子卡殼、話說(shuō)到一半停頓了,系統(tǒng)就會(huì)判斷「他說(shuō)完了」,然后開始執(zhí)行

這讓交互變得很別扭。我不想每次都說(shuō)一個(gè)喚醒詞,也不想用「over」來(lái)告訴 AI 我說(shuō)完了。我需要的是一個(gè)能感知我有沒(méi)有說(shuō)完話、能理解我到底想干什么的 AI

正常人聊天,不會(huì)是這樣的

微信里聊天,可能我說(shuō)兩句、你說(shuō)三句,甚至我不理你你又說(shuō)了兩句?,F(xiàn)在的 AI 對(duì)話太刻板了,必須一問(wèn)一答,顯得很傻


而且把...你讓它從 1 數(shù)到 10,數(shù)到 7 的時(shí)候問(wèn)它數(shù)到幾了,很多模型會(huì)直接說(shuō)「10」。因?yàn)樗X子里已經(jīng)預(yù)排到 10 了,中間打斷它根本沒(méi)用

之前只有一個(gè)解決方案,就是用 OpenAI 的 Realtime API,在加上一點(diǎn)魔改,實(shí)踐下來(lái)每個(gè)麥克風(fēng)每個(gè)小時(shí)的成本在 30 美金左右...太特么貴了,而且中文并不好

前些日子跟面壁智能的朋友聊,他們整出了個(gè)新東西:全雙工全模態(tài)

全雙工的意思是,模型可以同時(shí)輸入和輸出,互不阻塞。它說(shuō)話的時(shí)候還在聽、還在看,你可以隨時(shí)打斷它,它也能根據(jù)環(huán)境變化隨時(shí)調(diào)整

更關(guān)鍵的是,模型自己判斷什么時(shí)候該說(shuō)話。不需要你說(shuō)喚醒詞,不需要你說(shuō)「over」,它能根據(jù)語(yǔ)義判斷你說(shuō)完沒(méi)、你想要什么,在生活的場(chǎng)景中,成為真正的交互伙伴

這正好是我的墻壁需要的能力,而這個(gè)模型今天開源了:MiniCPM-o 4.5,9B 參數(shù)


MiniCPM-o 4.5 模型架構(gòu) 先說(shuō)清楚語(yǔ)音交互的幾種模式

目前市面上的語(yǔ)音交互方案,大概分兩類

第一類是「對(duì)講機(jī)模式」

大多數(shù)語(yǔ)音助手用的都是這個(gè)。系統(tǒng)先把你說(shuō)的話識(shí)別成文字,處理完之后再用 TTS(文字轉(zhuǎn)語(yǔ)音)播報(bào)出來(lái)

流程是:語(yǔ)音 → 文字 → 處理 → TTS 播報(bào)


很顯然...這里的延遲是打不下去的,而且語(yǔ)音里的語(yǔ)氣,比如不同音調(diào)的 wocao,完全無(wú)法區(qū)分含義

第二類是端到端模式

OpenAI 的 Realtime API 和面壁的 MiniCPM-o 都屬于這一類。模型直接處理語(yǔ)音,不需要先轉(zhuǎn)成文字,交互更自然

Realtime API 的對(duì)話能力很強(qiáng),但它只能處理語(yǔ)音,看不到畫面


MiniCPM-o 能同時(shí)處理語(yǔ)音和視頻。這是它的核心差異

這里要說(shuō)一下,很多模型號(hào)稱能「看視頻」,其實(shí)是在你說(shuō)話的間隙截一張攝像頭的圖片,然后處理這張靜態(tài)圖。不是真正的實(shí)時(shí)視頻流

MiniCPM-o 4.5 做的是原生全雙工全模態(tài)

「邊看、邊聽、主動(dòng)說(shuō)」


無(wú)論模型在沉默還是在說(shuō)話,都保持著對(duì)外界的感知。你可以隨時(shí)打斷它,它也可以根據(jù)環(huán)境變化隨時(shí)調(diào)整輸出

比如在下面的這個(gè)例子中,模型會(huì)隨著畫面的變化,不斷描述

全雙工具體是怎么回事

說(shuō)人話就是:模型的眼睛、耳朵、嘴巴可以同時(shí)工作,互不干擾

技術(shù)上怎么實(shí)現(xiàn)的?

模型把視頻流、音頻流、文本輸出這些并行的信息,切成很小的時(shí)間片(毫秒級(jí)),輪流處理。宏觀上看起來(lái)是同時(shí)進(jìn)行的,實(shí)際上是快速切換


這樣做的好處是,模型說(shuō)話的時(shí)候不會(huì)「閉眼捂耳」,可以根據(jù)你的反應(yīng)隨時(shí)調(diào)整

還有一個(gè)關(guān)鍵能力:模型自己判斷什么時(shí)候該說(shuō)話

現(xiàn)在很多產(chǎn)品靠 VAD(語(yǔ)音活動(dòng)檢測(cè))來(lái)判斷用戶說(shuō)完沒(méi)。簡(jiǎn)單說(shuō)就是檢測(cè)到你停頓了一段時(shí)間(比如 1 秒),就認(rèn)為你說(shuō)完了

VAD 的問(wèn)題很明顯:

  • ? 不知道是誰(shuí)在說(shuō)話,嘈雜環(huán)境下容易誤判

  • ? 拍個(gè)桌子可能被當(dāng)成說(shuō)話

  • ? 必須硬等一段時(shí)間才能判斷,延遲高

MiniCPM-o 4.5 不用 VAD。模型自己每秒判斷很多次,根據(jù)語(yǔ)義來(lái)決定要不要回應(yīng)

它可以預(yù)判你是否說(shuō)完,不需要硬等;也可以被打斷,根據(jù)你說(shuō)的內(nèi)容判斷而不只是聲音大小


主動(dòng)交互機(jī)制示意 主動(dòng)擇機(jī)回復(fù)

全雙工帶來(lái)的另一個(gè)能力是「主動(dòng)交互」

你可以給模型下一個(gè)條件指令,它會(huì)持續(xù)監(jiān)測(cè),在條件觸發(fā)時(shí)主動(dòng)回應(yīng)

比如:「等綠燈亮了叫我」


模型會(huì)一直盯著畫面,看到信號(hào)燈變化就提醒你。這對(duì)視力不好的人過(guò)馬路很有用

比如:「等電梯到 24 層了叫我」模型實(shí)時(shí)跟蹤樓層數(shù)字,到了就喊你

這種模式,也可能會(huì)帶了更多人與AI的交互創(chuàng)新,比如和 AI 打個(gè)撲克

更有意思的是環(huán)境音識(shí)別

現(xiàn)有很多視頻通話模型只能聽懂人說(shuō)話(Speech),聽不懂環(huán)境音(Audio)。MiniCPM-o 4.5 可以識(shí)別環(huán)境音

「微波爐叮了告訴我」、「聽到門鈴聲提醒我」、「水流聲停了喊我」這些它都能處理。因?yàn)槭窃p工,不靠外掛工具,對(duì)環(huán)境音的識(shí)別比那些只能聽人聲的模型靈敏很多


持續(xù)在線的兩個(gè)層面

之前介紹過(guò)一個(gè)叫 OpenClaw 的項(xiàng)目

它是一個(gè)本地 AI Agent,可以理解為封裝了一個(gè)類似 Claude Code 的東西。通過(guò)心跳機(jī)制(Heartbeat)和定時(shí)任務(wù)(Cron),實(shí)現(xiàn)周期性監(jiān)控。比如每 30 分鐘掃描一次緊急郵件,檢測(cè)到異??梢园胍拱l(fā)消息

OpenClaw 做的是Agent 側(cè)的持續(xù)在線。它負(fù)責(zé)執(zhí)行任務(wù)、調(diào)用工具、管理流程

MiniCPM-o 4.5 做的是模型側(cè)的持續(xù)在線。它負(fù)責(zé)感知環(huán)境、理解語(yǔ)義、決定何時(shí)回應(yīng)

這兩個(gè)層面如果結(jié)合起來(lái)會(huì)很有意思

一個(gè)持續(xù)感知的模型,加上一個(gè)持續(xù)執(zhí)行的 Agent。模型看到什么、聽到什么,Agent 就去做什么

這才是我想要的「言出法隨」墻壁的完整形態(tài)


前幾天開了個(gè)溝通會(huì)

前幾天有個(gè)面壁的小會(huì),聊了不少東西

有人問(wèn)到具身智能。劉知遠(yuǎn)說(shuō):MiniCPM-o 4.5 這種全雙工模型,非常接近機(jī)器人所需的狀態(tài)。人類就是邊聽邊說(shuō)、多通道并行處理的。以前的模型做不到,一說(shuō)話就不能看

姚遠(yuǎn)(面壁多模態(tài)研發(fā)負(fù)責(zé)人)補(bǔ)充:目前具身智能最大的問(wèn)題不在底層控制,在泛化性和長(zhǎng)程規(guī)劃。全模態(tài)大模型是具身智能實(shí)現(xiàn)通用性的機(jī)會(huì)

李大海把具身智能分成三層:

  • ? 0.1 Hz:深度思考

  • ? 1 Hz:日常感知、規(guī)劃(MiniCPM-o 4.5 做的這層)

  • ? 10 Hz:具體動(dòng)作控制


現(xiàn)在行業(yè)缺的是把 1Hz 的「大腦」和 10Hz 的「小腦」結(jié)合起來(lái)

面壁還將在今年年中,發(fā)布一個(gè)叫「松果派」的開發(fā)板,類似樹莓派,預(yù)裝了端側(cè)這套模型和推理框架。開發(fā)者可以直接上手做 AI 硬件原型


回到我的墻

我的「言出法隨」墻壁,硬件層面已經(jīng) ready 了。畢竟我是硬件出身

模型層面的需求是:一個(gè)能持續(xù)感知、不需要喚醒詞、能自己判斷我有沒(méi)有說(shuō)完話的 AI

MiniCPM-o 4.5 給了一個(gè)方案

9B 參數(shù),端側(cè)可部署,中文原生支持,成本可控

交互模式也變了。從「一問(wèn)一答」到「隨時(shí)插話」,從「對(duì)講機(jī)」到正常人聊天

最后...再給大家看一個(gè)我覺(jué)得很有意義的東西:在盲道上,大模型會(huì)一直幫你看著路面,如果有不對(duì)的地方,它就會(huì)和你交互

然后,現(xiàn)在這個(gè)模型已經(jīng)開源了,歡迎體驗(yàn)


GitHub
https://github.com/OpenBMB/MiniCPM-o

Hugging Face
https://huggingface.co/spaces/openbmb/minicpm-omni

體驗(yàn)鏈接
https://minicpm-omni.openbmb.cn/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
英國(guó)首相:不會(huì)參與美以對(duì)伊朗的進(jìn)攻性打擊

英國(guó)首相:不會(huì)參與美以對(duì)伊朗的進(jìn)攻性打擊

澎湃新聞
2026-03-03 05:04:05
伊朗已徹底認(rèn)慫

伊朗已徹底認(rèn)慫

仰望星空的一粒沙子
2026-03-02 09:55:15
美伊沖突引市場(chǎng)巨震,更會(huì)對(duì)我國(guó),產(chǎn)生兩個(gè)重大影響!關(guān)乎你我!

美伊沖突引市場(chǎng)巨震,更會(huì)對(duì)我國(guó),產(chǎn)生兩個(gè)重大影響!關(guān)乎你我!

藝?yán)?/span>
2026-03-02 06:00:03
老媽要到迪拜旅游遭女兒勸阻!旅行社:目前暫無(wú)大連旅客滯留中東

老媽要到迪拜旅游遭女兒勸阻!旅行社:目前暫無(wú)大連旅客滯留中東

半島晨報(bào)
2026-03-02 17:16:12
女明星不紅了只能接商演,聽說(shuō)一小時(shí)僅5萬(wàn)元真是太可憐了

女明星不紅了只能接商演,聽說(shuō)一小時(shí)僅5萬(wàn)元真是太可憐了

阿廢冷眼觀察所
2026-03-03 03:17:50
玄學(xué)真相:凡事“反著來(lái)”,你就贏了——這才是人生最高級(jí)的破局之道

玄學(xué)真相:凡事“反著來(lái)”,你就贏了——這才是人生最高級(jí)的破局之道

青蘋果sht
2026-02-27 06:28:52
以軍轟炸黎巴嫩首都

以軍轟炸黎巴嫩首都

界面新聞
2026-03-02 08:53:26
金·凱瑞“大變臉”驚呆網(wǎng)友!巴黎領(lǐng)獎(jiǎng)被質(zhì)疑是冒牌貨:五官咋全變了?

金·凱瑞“大變臉”驚呆網(wǎng)友!巴黎領(lǐng)獎(jiǎng)被質(zhì)疑是冒牌貨:五官咋全變了?

新歐洲
2026-03-02 20:59:31
在小縣城名聲很臭是啥體驗(yàn)?網(wǎng)友:臉皮夠厚,一切不成問(wèn)題

在小縣城名聲很臭是啥體驗(yàn)?網(wǎng)友:臉皮夠厚,一切不成問(wèn)題

解讀熱點(diǎn)事件
2026-02-04 00:05:07
伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場(chǎng)“昂貴的煙花秀”

伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場(chǎng)“昂貴的煙花秀”

有你便是晴天呢
2026-03-03 03:40:31
美軍用AI殺死了哈梅內(nèi)伊?很抱歉,大家都被營(yíng)銷號(hào)騙了

美軍用AI殺死了哈梅內(nèi)伊?很抱歉,大家都被營(yíng)銷號(hào)騙了

互聯(lián)網(wǎng)大觀
2026-03-01 19:29:49
尷尬!扣12分,春節(jié)最冤種司機(jī)出現(xiàn)!一粵s車牌兩次駛?cè)霊?yīng)急車道

尷尬!扣12分,春節(jié)最冤種司機(jī)出現(xiàn)!一粵s車牌兩次駛?cè)霊?yīng)急車道

火山詩(shī)話
2026-03-02 10:11:01
英國(guó)曾阻止美軍使用迪戈加西亞基地打擊伊朗,特朗普抱怨:斯塔默“花太長(zhǎng)時(shí)間”改變主意

英國(guó)曾阻止美軍使用迪戈加西亞基地打擊伊朗,特朗普抱怨:斯塔默“花太長(zhǎng)時(shí)間”改變主意

環(huán)球網(wǎng)資訊
2026-03-02 21:27:19
3打5!又兩國(guó)參戰(zhàn)中東,3國(guó)加入美以,關(guān)鍵時(shí)刻,普京對(duì)中承諾

3打5!又兩國(guó)參戰(zhàn)中東,3國(guó)加入美以,關(guān)鍵時(shí)刻,普京對(duì)中承諾

面包夾知識(shí)
2026-03-02 13:35:18
47歲保姆坦言:可以做有償陪伴保姆,但必須要遵守3個(gè)約定

47歲保姆坦言:可以做有償陪伴保姆,但必須要遵守3個(gè)約定

孢木情感
2026-02-22 11:24:44
讓你不選我!廣廈寶島內(nèi)援盛贊胡金秋朱俊龍 若有他男籃想贏很難

讓你不選我!廣廈寶島內(nèi)援盛贊胡金秋朱俊龍 若有他男籃想贏很難

大嘴爵爺侃球
2026-03-02 15:28:51
李莉評(píng)論區(qū)被沖,過(guò)往言論被反復(fù)吐槽,伊朗半小時(shí)滅以,回旋鏢!

李莉評(píng)論區(qū)被沖,過(guò)往言論被反復(fù)吐槽,伊朗半小時(shí)滅以,回旋鏢!

眼光很亮
2026-03-01 15:39:43
莫迪殺紅了眼!吞了中企幾百億,又派人來(lái)偷火,中國(guó)不能坐以待斃

莫迪殺紅了眼!吞了中企幾百億,又派人來(lái)偷火,中國(guó)不能坐以待斃

梁訊
2026-02-28 15:40:12
薺菜、韭菜靠邊站!春天最適合吃這菜,拌餡時(shí)加一點(diǎn),清香不膩

薺菜、韭菜靠邊站!春天最適合吃這菜,拌餡時(shí)加一點(diǎn),清香不膩

阿龍美食記
2026-02-27 10:57:11
活得通透:能自理就好好活著,不能自理,便坦然落幕

活得通透:能自理就好好活著,不能自理,便坦然落幕

青蘋果sht
2026-02-23 05:26:25
2026-03-03 05:32:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對(duì)伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對(duì)伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

時(shí)尚
家居
本地
房產(chǎn)
軍事航空

今年春天一定要擁有的4件衣服,太好看了!

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

本地新聞

津南好·四時(shí)總相宜

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

軍事要聞

美國(guó)中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版