国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

2億多人開始和AI打電話,他們在聊什么?

0
分享至

前段時間我在即刻上吐槽了一件事,就是一連數(shù)次,有好幾個人拿著和豆包聊天的結(jié)果給我當建議...有我50多歲的丈母娘,有和我對接的某視頻平臺的運營。

emmm...我好像也沒問你們啊。

似乎,大家使用豆包的意愿和接納程度比我想象得高多了。

然后我查了下,根據(jù)QuestMobile的數(shù)據(jù),2025年12月豆包的月活躍用戶達到了2.27億,是第二名DeepSeek的將近兩倍。經(jīng)過今年春節(jié)的一波增長,現(xiàn)在的數(shù)字只會更高。


講道理,這數(shù)據(jù)實在有點超出我慣常的認知了,雖然大家都懂字節(jié)做增長是強項。

然后我特意去了解了下大家平時都是怎么用豆包的,大多數(shù)是拿來問問題、寫寫東西,用完就走。但也有個越來越有趣的變化:越來越多人開始和豆包「打電話」。

語音交互,終于等到了它的時代

說到和AI語音對話,我總會想起一個人——羅永浩。

2018年,老羅在鳥巢開了一場萬人發(fā)布會,發(fā)布了一個叫TNT的產(chǎn)品。核心理念是:未來的電腦交互應(yīng)該是語音+觸控,不再需要鍵盤和鼠標。

發(fā)布會現(xiàn)場翻車了。語音識別磕磕絆絆,老羅急得滿頭大汗,臺下的笑聲從善意變成了尷尬。后來他自己回憶說:當年的語音沒有AI加持,準確率雖然能到百分之九十幾,但現(xiàn)場那個環(huán)境確實搞砸了。

TNT被當成了笑話,當年科技圈最大的樂子之一。但老羅說的那個方向,錯了嗎?

快進到2026年,你會發(fā)現(xiàn)一件有意思的事:老羅8年前暢想的東西,正在以另一種形式變成現(xiàn)實。

第一個信號是vibe coding。現(xiàn)在用AI寫代碼的開發(fā)者越來越多,其中相當一部分人開始用語音來下指令。道理很簡單:說話速度是打字的3-4倍,對著Cursor說「把這個按鈕改成藍色」比打字快多了。我自己也是,用AI寫代碼這兩年,越來越覺得很多指令用嘴說比打字自然。

第二個信號是Typeless這類語音輸入產(chǎn)品火了。一個語音輸入法,年度會員要1000多塊人民幣,居然還賣得不錯。更有意思的是,很多vibe coder覺得貴,干脆自己用AI做了一個語音輸入工具——用AI做的工具,來給AI輸入指令,套娃了屬于是。

第三個信號,就是豆包的2億多用戶。

這三件事其實都在說同一件事:語音交互不是未來,就是現(xiàn)在正在發(fā)生的事。 只不過它沒有發(fā)生在老羅想象的桌面電腦上,它發(fā)生在手機上,發(fā)生在人和AI的對話里。

但語音交互有一個老問題一直沒解決好。

為什么之前和AI打電話總覺得「不對勁」

你大概試過和AI語音對話吧。不管是Siri還是之前版本的豆包,體驗都有一個共同的別扭感:你和AI之間,其實是在「輪流發(fā)言」,不是在「對話」。

你說一句,等一兩秒,AI回一句。你還沒說完,AI就搶話了。你在嘈雜的地方說話,AI把旁邊大爺?shù)膹V場舞指令當成了你的問題。

為什么會這樣?其實是技術(shù)架構(gòu)決定的。之前的AI語音基本都是一條流水線:先把你說的話轉(zhuǎn)成文字(語音識別),再讓大模型理解文字生成回復(fù)(語言模型),最后把回復(fù)轉(zhuǎn)成語音播出來(語音合成)。三個環(huán)節(jié)排隊走,每一步都有延遲,加起來就是那個尷尬的空白。就像你發(fā)微信等回復(fù),只不過這個「正在輸入…」變成了你們面對面干瞪眼。

但更別扭的地方在于,這條流水線是單向的。AI在說話的時候,它聽不到你。你說話的時候,AI也沒在聽。跟打電話完全不是一回事。你以為你倆在聊天,其實你倆在輪流發(fā)語音。

打電話的時候,你和對方是同時在聽、同時在說的。你說到一半停頓了,對方知道你在想,會等你。你說完了,對方馬上接話。背景很吵,對方也能分辨出哪個是你的聲音。

這個能力叫全雙工。人類打電話天生就是全雙工的,但AI語音對話一直做不到。

直到最近豆包的這次升級。

豆包語音通話的這次升級到底改了什么

豆包這次把語音通話的底層模型換成了端到端的全雙工模型。

翻譯成人話:以前是「你說完→它轉(zhuǎn)文字→它想→它轉(zhuǎn)語音→它說」,現(xiàn)在是「你說→它直接說」。中間少了好幾道工序,就像從轉(zhuǎn)三次公交變成了打直達車。這帶來了三個直觀的變化:

第一,它能一邊說一邊聽了。 你打斷它,它馬上停。你嗯嗯啊啊表示在想,它知道你沒說完,會等你。就這一點,體驗差距就非常大。

第二,抗干擾能力明顯變強。 旁邊有人說話、有音樂、有環(huán)境噪音,它不會被誤觸發(fā),也不會把別人的話當成你的指令。

第三,延遲降低了。 在需要快速接話的場景(比如玩成語接龍),它的反應(yīng)速度明顯快了。

聽起來都是技術(shù)參數(shù)。但你真正用起來的時候,感受是很直接的:和豆包打電話,第一次開始像在打電話了。

我決定拿一整天來測一下,到底有多「像」。

帶著豆包去逛AIFUT

4月8號,卡茲克辦的AIFUT大會在北京亦莊開幕,就是之前Faker和TheShy打表演賽的那個電競館。34個AI展位,主論壇1000張票秒光,展區(qū)免費開放,從早8點到晚9點。

我決定做一個實驗:這一整天的出行,在不同環(huán)境里和豆包打電話,看看全雙工在真實場景下到底表現(xiàn)怎么樣。


不過在出發(fā)之前,我做了一件事:先在對話里把AIFUT的活動信息喂給了豆包。 展會時間、地點、簽到規(guī)則、展位分布,全部告訴它。這一步后來證明非常關(guān)鍵。

場景一:網(wǎng)約車上

坐上車,我撥通了豆包的語音通話。

「我一會要去參加那個AIFUT的展會,我有什么需要注意的嗎?」

因為之前已經(jīng)喂過信息,豆包馬上就給了很具體的建議:提前在小程序完成簽到能領(lǐng)5個FUT幣、今天氣溫10到20度建議帶件外套、場館里不能吃螺螄粉臭豆腐這些重味食物。

挺順的。然后我追問:「哎我有什么東西是必須帶著才行的嗎?入場有啥要求不?」

它說身份證原件必帶,簽到領(lǐng)FUT幣和主論壇入場都需要。

我一下慌了:「我靠我好像忘帶身份證了,這怎么辦?」

我當時是真慌了。但它倒是比我淡定,分情況回答:如果只是逛免費展區(qū)不用身份證直接進場就行,如果買了主論壇門票可以試試微信或支付寶的電子身份證,在卡包或證件夾里能找到,現(xiàn)場工作人員一般會認可。

坐在旁邊的司機師傅看了我一眼,大概在想這人為什么對著手機自言自語還急得不行。

這段對話最讓我意外的不是它回答得對不對,而是聊天的感覺。 因為提前喂了上下文,整個對話省去了大量解釋背景的時間。我不需要說「AIFUT是一個AI展會,在北京亦莊,有34個展位」——它都知道。這讓語音對話的效率提高了一個量級。

還有幾個細節(jié)讓我覺得這個對話確實不一樣。

它在回答簽到規(guī)則的時候,我突然想起來一個事,直接插了一句「等等」。它幾乎是瞬間就停了,沒有像以前那樣把剩下的話說完才停。等我說完補充的問題,它接著往下講,銜接得很自然。

另一個細節(jié)是節(jié)奏。我問「忘帶身份證怎么辦」的時候,其實后面猶豫了一下才補了一句「這怎么辦」。中間大概停了兩三秒。如果是之前的AI語音,這兩三秒的空白它大概率就開始回答了,因為它以為你說完了。但豆包沒有,它等到我真正說完了才接話。該等的時候等,該接的時候秒接。 這個節(jié)奏感確實挺像在和人聊天。

網(wǎng)約車里有一點路噪和導(dǎo)航播報聲,完全沒影響到對話。

場景二:主論壇辯論賽進行中

下午三點多,主論壇正在進行一場辯論賽,題目是「教別人用AI是可以教會的嗎」。臺上AJ、卡爾的AI沃茨、葬AI、Max For AI幾個AI博主吵得不可開交,賽博禪心主持,駱軼航當評委。電競館的音響系統(tǒng)本來就是給英雄聯(lián)盟比賽設(shè)計的,臺上的聲音在整個場館里回蕩,跟看世界賽團戰(zhàn)差不多。

我就坐在觀眾席上。

這時候我掏出手機撥通了豆包。但我不太好意思大聲說話——周圍都是在聽辯論的觀眾。所以我壓低聲音,問了一個很日常的問題:「我們現(xiàn)在打車回國貿(mào)的話,大概需要多久?」

這個問題其實不簡單。首先,臺上辯論聲遠比我的聲音大。 這不是「有點背景噪音」的程度,而是臺上好幾個人在激烈對話、音響全開的那種環(huán)境,我的聲音在里面幾乎可以忽略不計。其次,要回答這個問題,豆包不僅要聽清我說了什么,還需要知道我現(xiàn)在在哪(亦莊的電競館),再結(jié)合當前時間點來預(yù)估路程。

但它回答了,而且接話速度很快。我說完最后一個字,大概不到一秒它就開始回復(fù)了。不僅聽懂了我的問題,還給出了從亦莊到國貿(mào)的打車時間預(yù)估。整個過程中,它沒有一次被臺上幾個人的辯論聲打斷,也沒有把辯手的話混進我的問題里。

你想想這個場景:一個幾百人的電競館,臺上四五個人在激烈辯論,音響全開,而你在觀眾席上小聲問了一句「打車回國貿(mào)要多久」,AI居然能只聽到你,還給出了靠譜的回答。

半年前的AI語音助手在這個環(huán)境里,大概率兩種結(jié)果:要么直接聽不清你在說什么,要么把臺上辯手的話當成你的指令來回復(fù)。

但這次豆包在電競館里的表現(xiàn),確實讓我對全雙工有了更直觀的理解。它真正做到了在一堆人聲里只聽你一個人的聲音。 這個能力聽起來簡單,但你親身體驗過在那種噪音里它還能準確回答你,感受是完全不同的。

一個讓語音對話好用10倍的小技巧

測完這兩個場景,我還發(fā)現(xiàn)一個挺實際的事:語音對話好不好用,不只取決于模型,還取決于你怎么用它。

之前我試過直接冷啟動和豆包打電話,聊幾句就覺得沒什么意思。感覺像跟一個什么都不知道的陌生人尬聊,你說什么它都得從頭理解,對話很淺。

但這次我在出發(fā)前花了兩分鐘,把AIFUT的活動信息喂給了它。結(jié)果整個出行過程中的對話質(zhì)量完全不同:我說「展會」它知道我說的是哪個展會,我問「簽到」它知道FUT幣的規(guī)則,我說「忘帶身份證」它能給出針對這個展會的具體建議。

這個發(fā)現(xiàn)其實很實際:如果你要在某個場景下持續(xù)用語音對話,先花1-2分鐘把背景信息喂給它。 出差前告訴它你的行程、會議前告訴它議題、出門前告訴它今天的安排。有了上下文的語音對話和沒有上下文的,完全是兩種體驗。

全雙工解決的是「對話像不像打電話」的問題,但上下文解決的是「對話有沒有用」的問題。兩個加在一起,才是語音對話真正好用的狀態(tài)。

和ChatGPT語音比起來怎么樣

說到AI語音對話,繞不開ChatGPT的Advanced Voice Mode。

ChatGPT的語音模式也是端到端模型,也支持打斷和情感表達,不少評測都說它是目前「最像真人的AI語音」。

但在國內(nèi)用的話,豆包確實有幾個實際的優(yōu)勢:

中文能力。 這不是客氣話。AI語音對話對語言的要求遠高于文字聊天——你要處理口音、方言、語氣詞、說話習慣。豆包能聽懂18種方言,能用粵語、東北話、四川話輸出。ChatGPT做英文沒問題,做中文還是差一截。

在果殼的一次測評中,有一個很有意思的數(shù)據(jù):讓測試者判斷「這是不是AI在說話」,ChatGPT有30%的對話被認為「一聽就是AI」,豆包這個比例不到2%。

免費。 ChatGPT的Advanced Voice Mode需要Plus訂閱,$20/月,而且有每日使用限制。豆包的語音通話功能是免費的。

可用性。 這個不展開說了,你懂的。能直接用和需要折騰才能用,這本身就是一道篩選。

不過公平地說,ChatGPT的語音在英文場景下的表現(xiàn)確實非常好,情感表達和幽默感都很自然。兩個產(chǎn)品各有擅長的領(lǐng)域。

我的判斷

回到開頭的問題:2億多人和AI打電話,他們在聊什么?

我覺得答案可能不在于「聊什么」。更有意思的問題是「什么時候聊」。

人和AI的交互,文字聊天覆蓋的是你坐在電腦前、拿著手機、眼睛盯著屏幕的時間。但你回憶一下自己的一天:通勤、走路、排隊、等人、發(fā)呆——這些時間加起來可能有好幾個小時,過去AI根本觸達不到。

語音通話打開的就是這塊時間。

而全雙工解決的是一個更底層的問題:讓這種交互不再別扭。 之前的AI語音像是在用對講機,按一下說一句,松開等回復(fù)。全雙工之后,才真正像打電話。

在AIFUT逛了一整天,我印象最深的倒不是哪個展臺的產(chǎn)品有多厲害。而是在網(wǎng)約車上和豆包聊展會攻略,我停頓了兩三秒它耐心等著沒插嘴;在電競館辯論賽最激烈的時候我小聲問了句打車要多久,它一秒接話還答對了。

這些不是什么「黑科技」,這就是一個正常打電話應(yīng)該有的體驗。只不過電話那頭不是人,是AI。

老羅2018年說語音交互是未來。他說對了。只不過這個未來的樣子,是2億多人拿起手機,和一個叫豆包的AI打了個電話。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

健康之光
2026-04-13 09:01:59
304萬億,我國的貨幣發(fā)行總量已經(jīng)是世界第一了。

304萬億,我國的貨幣發(fā)行總量已經(jīng)是世界第一了。

流蘇晚晴
2025-11-18 20:20:14
睡一覺5萬沒了!全國多地爆發(fā)新型盜刷,睡前必查手機這4處

睡一覺5萬沒了!全國多地爆發(fā)新型盜刷,睡前必查手機這4處

洞見小能手
2026-04-20 16:03:26
茅臺不行了,貴州靠什么?

茅臺不行了,貴州靠什么?

BT財經(jīng)
2026-04-21 22:25:03
收拾完伊朗,下一個輪到中國?以色列發(fā)戰(zhàn)爭威脅,中方送出5個字

收拾完伊朗,下一個輪到中國?以色列發(fā)戰(zhàn)爭威脅,中方送出5個字

千羽解讀
2026-04-18 10:12:15
叔本華:性欲是一切欲望的焦點

叔本華:性欲是一切欲望的焦點

聽哲學
2026-03-24 21:42:04
寧波K11是不是要涼了?曾經(jīng)受萬眾矚目的商業(yè)廣場

寧波K11是不是要涼了?曾經(jīng)受萬眾矚目的商業(yè)廣場

石辰搞笑日常
2026-04-21 12:04:32
澤連斯基怒批特朗普:烏克蘭之所以打不贏俄羅斯,全是你幫倒忙

澤連斯基怒批特朗普:烏克蘭之所以打不贏俄羅斯,全是你幫倒忙

流年恰似繁花汐
2026-04-21 18:00:40
警察絕對不能插手的5件事,真不能管,否則違法!

警察絕對不能插手的5件事,真不能管,否則違法!

細說職場
2026-04-20 15:52:21
中央5臺直播乒乓球時間表:4月21日CCTV5直播國乒!附國乒新消息

中央5臺直播乒乓球時間表:4月21日CCTV5直播國乒!附國乒新消息

生活新鮮市
2026-04-21 17:13:40
王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

深度知局
2026-04-08 07:41:14
其實任何一個女人,都希望得到男人的青睞和認可

其實任何一個女人,都希望得到男人的青睞和認可

加油丁小文
2026-04-21 07:00:12
新一輪四大名著翻拍潮來了,高希希和正午陽光正面競爭《三國》

新一輪四大名著翻拍潮來了,高希希和正午陽光正面競爭《三國》

歪歌社團
2026-04-17 01:45:20
23日冷空氣后,還有2波大范圍雨水,雨要下到5月4號立夏之后?

23日冷空氣后,還有2波大范圍雨水,雨要下到5月4號立夏之后?

風云圈天氣
2026-04-22 00:25:02
突然調(diào)整!南京多所新建學校改建、緩建、停建!

突然調(diào)整!南京多所新建學校改建、緩建、停建!

南京擇校
2026-04-21 10:57:34
與李晨分手6年后嫁普通人,以為是好牌打爛,其實她才是人生贏家

與李晨分手6年后嫁普通人,以為是好牌打爛,其實她才是人生贏家

悅君兮君不知
2026-04-20 21:07:31
毛主席給救命恩人敬酒,不由得搖了搖頭:你不是當年背我的那個人

毛主席給救命恩人敬酒,不由得搖了搖頭:你不是當年背我的那個人

大運河時空
2026-04-21 12:20:03
14億人都不會忘卻!揭開核酸大王張核子的真面具:權(quán)力變現(xiàn)大公

14億人都不會忘卻!揭開核酸大王張核子的真面具:權(quán)力變現(xiàn)大公

大魚簡科
2026-02-07 09:52:29
事實證明,面館只是表象,離婚多年的文章,終于找到了自己翻身路

事實證明,面館只是表象,離婚多年的文章,終于找到了自己翻身路

趣味萌寵的日常
2026-04-20 19:49:54
提幫功放假返回泰國,帶朋友海邊度假,瘦了白了有西拉米美貌加成

提幫功放假返回泰國,帶朋友海邊度假,瘦了白了有西拉米美貌加成

可樂談情感
2026-04-19 20:55:49
2026-04-22 04:51:00
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
189文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

創(chuàng)造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經(jīng)要聞

現(xiàn)實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態(tài)度原創(chuàng)

手機
健康
家居
親子
旅游

手機要聞

iOS 26.5 Beta 3新版體驗:改進解鎖流暢度,信號也變好了?

干細胞抗衰4大誤區(qū),90%的人都中招

家居要聞

詩意光影 窺見自然之境

親子要聞

為什么幼兒園里,很多小朋友會做不好的事?

旅游要聞

京城今春“濱水+”玩法迭代

無障礙瀏覽 進入關(guān)懷版