国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

聲音克隆+視頻通話,豆包猜出了我住哪個(gè)小區(qū)

0
分享至

豆包的新功能,大家都試了嗎?

在最新版的豆包APP里,已經(jīng)有“視頻通話”的功能。

也就是說,你現(xiàn)在可以打開攝像頭,讓豆包直接“看”了。

我測(cè)試的時(shí)候,豆包不僅一眼看出我家龜背竹是仿真的假貨,還通過窗景猜出了我家小區(qū)的名字,真是刺激。

目前,“視頻通話”已經(jīng)是各家AI廠商爭(zhēng)相上線的功能:OpenAI的ChatGPT、谷歌的Gemini,以及國(guó)內(nèi)的智譜等,都已經(jīng)讓AI“開眼”。騰訊緊緊跟上,預(yù)計(jì)下周就會(huì)在元寶中看到類似功能。

別忘了,下一代硬件的尋找和創(chuàng)造,正在世界范圍里上演。當(dāng)我們不再需要舉起攝像頭,視頻通話還會(huì)帶來更多想象力。

01

“視頻通話”,相當(dāng)于豆包有了眼睛

豆包的視頻通話入口在“打電話”里,只不過從前點(diǎn)擊通話,僅有語(yǔ)音通話的功能,現(xiàn)在出現(xiàn)了一個(gè)攝像機(jī)按鈕。實(shí)際體驗(yàn)下來,這樣的安排符合使用邏輯。

點(diǎn)擊按鈕,畫面上出現(xiàn)你手機(jī)鏡頭拍攝的實(shí)時(shí)畫面。

所以要注意的是,和豆包視頻通話,與和人視頻通話有很大區(qū)別,不是說豆包作為一個(gè)虛擬形象和你面對(duì)面,而只會(huì)有你單方面的視頻畫面。更像是在給豆包做一對(duì)一的視頻直播,或者說邀請(qǐng)豆包通過你的攝像頭看你的世界。

我們進(jìn)行了以下測(cè)試:

第一,這是什么?

作為熱身項(xiàng)目,先測(cè)試一下豆包對(duì)各種事物的判斷是否準(zhǔn)確。

攝像頭打開后,豆包主動(dòng)發(fā)言,描述我正坐在電腦前,后方的電視正在播放美劇。

對(duì)家具、電器等的判斷沒有難度,輕松回答。令人驚訝的是以下三件:

在刻意搖晃鏡頭的情況下,一個(gè)看起來是大馬克杯的保溫杯,一盆(很多來我家的朋友都以為是真植物的)仿真龜背竹,在貓窩里只露出兩只腳和尾巴(且堆疊在一起)的橘貓,豆包都回答正確。

第二,我在哪兒?

判斷物品沒問題,我試圖將豆包帶到更有挑戰(zhàn)的場(chǎng)景里。

鏡頭對(duì)準(zhǔn)窗外,讓豆包幫我看看我在哪里。豆包先是根據(jù)街景和綠化度,給出了三個(gè)城市的名稱,其中包括正確答案,另外兩個(gè)城市也距離很近。接著看到了路牌上的街名,這條街道非常長(zhǎng),有幾公里,但是豆包準(zhǔn)確說出了我所在的小區(qū)的名字。

第三,這怎么用?

接下來是一個(gè)日常的“有用”場(chǎng)景,讓豆包教我使用電器。

鏡頭對(duì)準(zhǔn)一個(gè)小電器,豆包準(zhǔn)確判斷這是一款“膠囊咖啡機(jī)”。我隨后便問“膠囊是什么”邊用鏡頭快速掃過桌面,它用很自然的語(yǔ)言告訴我:“就在那兒啊,一個(gè)米色袋子里”。

隨后,豆包又指導(dǎo)我將膠囊放入咖啡機(jī)并按下按鈕,在我表示按了按鈕沒反應(yīng)后,又指導(dǎo)我檢查水箱。全程豆包并非機(jī)械式地“背誦使用說明”,而是根據(jù)看到的畫面進(jìn)行指導(dǎo),比如“機(jī)器后方的兩個(gè)黑色按鈕”“把機(jī)器側(cè)一下,我看看水箱在哪里”“就是后面帶刻度、塑料的那個(gè)”。

整個(gè)過程非常絲滑、自然。

第四,我該買點(diǎn)啥?

很多人已經(jīng)在用AI輔助減肥,比如制定飲食、健身計(jì)劃,但是人嘛,自述情況很有可能有偏差,要是直接讓AI看呢?

打開冰箱,讓豆包猜猜我的飲食習(xí)慣,并給出采購(gòu)建議。豆包準(zhǔn)確總結(jié)我的食物種類很多,肉食和速凍食品比較多,建議我購(gòu)買綠葉蔬菜??梢哉f是一針見血了。

幾個(gè)簡(jiǎn)單的測(cè)試走下來,可以看出豆包可以透過鏡頭,頗為準(zhǔn)確地判斷看到的事物,并且和用戶產(chǎn)生實(shí)時(shí)的互動(dòng)。這提供了很多想象力,如在旅游時(shí)提供幫助、在采購(gòu)時(shí)提供建議、教用戶使用物品等。

02

視頻通話仍擺脫不了“AI味兒”

特別要指出的一點(diǎn)是,豆包在視頻通話時(shí),語(yǔ)言平實(shí),表達(dá)方式生活化、口語(yǔ)化,不會(huì)有很機(jī)械、死板的感受,這非常重要。

順便推薦一個(gè)“進(jìn)階”玩法:豆包語(yǔ)音克隆+視頻通話。語(yǔ)音克隆的功能已經(jīng)在豆包里很久了,用戶不僅可以選擇豆包提供的預(yù)設(shè)音色,還可以通過簡(jiǎn)單的步驟獲得克隆的音色。

我的豆包里一直用的是姐姐的克隆音,豆包在視頻通話中的語(yǔ)言又非常日常,也因此,視頻通話時(shí)真的有一種在和我姐打視頻的錯(cuò)覺。

不敢想象如果我給我媽的豆包安排一個(gè)我的克隆音,再教會(huì)她怎么視頻通話,她會(huì)有多愛用。

我們也同步測(cè)試了ChatGPT,在視頻通話模式下,二者的準(zhǔn)確度都很高。但是ChatGPT沒有看出彩色馬克杯實(shí)際上是一個(gè)保溫杯,進(jìn)一步追問才給出判斷,且在“看窗景猜地點(diǎn)”的小測(cè)中,ChatGPT的回答離正確答案差得很遠(yuǎn)。

另外很明顯的感受是,ChatGPT在視頻通話模式下的表達(dá)方式“更AI”,措辭比較書面化,不確定使用英文的話,ChatGPT會(huì)不會(huì)更自然一些。

但也不是沒有遺憾,目前豆包視頻通話還是要“等一下”AI的回復(fù)。而且有時(shí)候可能是問題比較難回答,“思考”時(shí)間會(huì)更長(zhǎng)一些,經(jīng)常出現(xiàn)以為AI卡住了,結(jié)果和AI一起開口的情況。

另一個(gè)遺憾是,在視頻通話中,依然遵循用戶說話、AI回答的模式。在實(shí)際體驗(yàn)中,豆包會(huì)在自己的句尾主動(dòng)和用戶互動(dòng),比如“你在看《無恥之徒》嗎”,但是它做不到“主動(dòng)出擊”。

如當(dāng)我告訴豆包,我現(xiàn)在要打字,當(dāng)看到“2”的時(shí)候立刻告訴我。雖然豆包欣然答應(yīng),但是它并不會(huì)在看到“2”的時(shí)候立刻指出,而是必須等我詢問,它再回答。同樣地,對(duì)“看到掃地機(jī)器人就立刻告訴我”的請(qǐng)求,它也同樣無法做到。它的確看到了機(jī)器人,但是需要等我再說一句話,才輪到它發(fā)言。

當(dāng)然,這些不僅是豆包視頻通話的遺憾,ChatGPT也是同理。和已經(jīng)普及的“語(yǔ)音通話”一樣,AI依然需要遵循既定的對(duì)話模式,而非像人與人溝通時(shí)那般靈活。

03

AI交互方式再次迭代

“視頻通話”可以帶來很多想象力,尤其是在如今“AI代理”成為風(fēng)口、“超級(jí)AI助理”成為桂冠上的明珠之時(shí)。

豆包此次的升級(jí)基于“豆包·視覺理解模型”。該模型去年年底發(fā)布,此后又經(jīng)歷了升級(jí),同時(shí)具備內(nèi)容識(shí)別能力、理解和推理能力以及更細(xì)膩的視覺描述能力。

從2022年底ChatGPT橫空出世之后,我們與AI的交互方式已經(jīng)不斷進(jìn)化:純文本交互(你打字給AI,AI也回復(fù)文字)、實(shí)時(shí)語(yǔ)音交互(直接和AI說話,AI也用聲音回復(fù))、圖像交互(你發(fā)給AI一張圖片或視頻,AI可以解讀)、實(shí)時(shí)圖像交互(視頻通話)。

能直接打開攝像頭,讓AI自己“看”,直接邀請(qǐng)AI“進(jìn)入”所處的世界,相當(dāng)于揭開了我們和AI之間始終隔著的一層名為“描述”的薄紗。從實(shí)際體驗(yàn)來說,在視頻通話時(shí),AI的“Agent”屬性更加凸顯,而非一個(gè)手機(jī)里的小小工具。

去年12月,OpenAI就給ChatGPT加入了視頻通話的功能,谷歌的項(xiàng)目Project Astra也已經(jīng)啟動(dòng)。在國(guó)內(nèi),包括智譜在內(nèi)的頭部AI玩家也已經(jīng)配上了視頻通話。此外,就在上周,騰訊旗下語(yǔ)音通話模型Hunyuan-Voice宣布將于6月登陸元寶APP,直接對(duì)標(biāo)字節(jié)跳動(dòng)旗下豆包AI的視頻通話功能。

讓AI“開眼”,已經(jīng)越來越普遍。

對(duì)此,前不久在谷歌I/O開發(fā)者大會(huì)上,谷歌DeepMind創(chuàng)始人兼CEO戴密斯·哈薩比斯(Demis Hassabis)稱,他們將Gemini打造成一個(gè)世界模型,是開發(fā)一種新型、更通用、更有用AI助手的關(guān)鍵一步。

這家巨頭目標(biāo)直接指向構(gòu)建通用AI助手。大會(huì)上宣布,Gemini Live正式向 iOS 和安卓用戶開放。這項(xiàng)功能可以實(shí)時(shí)識(shí)別并回應(yīng)用戶手機(jī)攝像頭和屏幕上的內(nèi)容。

更值得注意的是,Gemini Live是Project Astra的延伸,而后者也在大會(huì)上展示了新的進(jìn)展:更主動(dòng)。比如AI“看”著用戶做題,在發(fā)現(xiàn)錯(cuò)誤的時(shí)候會(huì)直接指出。

這也對(duì)應(yīng)了在使用現(xiàn)有AI視頻通話功能時(shí)的那個(gè)困擾,即雖然AI已經(jīng)看到了某個(gè)物品,但仍然要“用戶一句,它一句”,等著輪到自己發(fā)言。

而以上討論還僅限于手機(jī)這個(gè)核心硬件。但未來的“AI硬件”未必還會(huì)是手機(jī),如果下一代硬件比手機(jī)更小巧、更靈活,那視頻通話的能力還會(huì)發(fā)揮更大潛力。

比如如今已經(jīng)被AI廠商積極嘗試的XR眼鏡,通過這個(gè)設(shè)備“觀察”世界,不需要用戶舉起手機(jī)??梢韵胂?,如果你戴著一副AR眼鏡,打開攝像頭,AI將可以更“無形”地提供幫助(甚至只是陪伴)。

隨處可見“自言自語(yǔ)”的人類,這樣的未來也許已經(jīng)不遠(yuǎn)了。

歡迎在評(píng)論區(qū)留言~
如需開白請(qǐng)加小編微信:dongfangmark

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
許利民怒批球員擺大牌!賽后整頓更衣室,怒批一人不是周琦而是他

許利民怒批球員擺大牌!賽后整頓更衣室,怒批一人不是周琦而是他

理工男評(píng)籃球
2026-01-12 00:01:12
閆學(xué)晶朋友圈發(fā)文,坦白“哭窮”真實(shí)原因,趙本山的話含金量上升

閆學(xué)晶朋友圈發(fā)文,坦白“哭窮”真實(shí)原因,趙本山的話含金量上升

削桐作琴
2026-01-12 16:33:06
“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

深藍(lán)夜讀
2025-09-24 16:00:09
2025年,內(nèi)娛最賺錢的10位明星,劉德華第四,第一名讓人意外

2025年,內(nèi)娛最賺錢的10位明星,劉德華第四,第一名讓人意外

林雁飛
2026-01-06 13:15:06
漁村逆襲?“電詐惡魔”陳志老婆是四川人,150億比特幣沾滿血淚

漁村逆襲?“電詐惡魔”陳志老婆是四川人,150億比特幣沾滿血淚

豆腐腦觀察局
2025-11-17 06:50:03
某外派大廠家屬:老公喜歡上一位非洲黑妹

某外派大廠家屬:老公喜歡上一位非洲黑妹

螞蟻大喇叭
2025-12-20 17:16:34
發(fā)現(xiàn)一個(gè)奇怪現(xiàn)象:越是獨(dú)來獨(dú)往、沒有朋友、不合群的人,人品往往越?jīng)]問題,慢慢你就知道了

發(fā)現(xiàn)一個(gè)奇怪現(xiàn)象:越是獨(dú)來獨(dú)往、沒有朋友、不合群的人,人品往往越?jīng)]問題,慢慢你就知道了

二胡的歲月如歌
2026-01-11 17:53:51
29分+30分+25分,眾人拾柴火焰高!掘金7戰(zhàn)4勝,約基奇安心養(yǎng)傷吧

29分+30分+25分,眾人拾柴火焰高!掘金7戰(zhàn)4勝,約基奇安心養(yǎng)傷吧

世界體育圈
2026-01-12 15:26:33
580萬年薪返聘8名原高管、年齡最大近90歲,康尼機(jī)電最新回應(yīng)

580萬年薪返聘8名原高管、年齡最大近90歲,康尼機(jī)電最新回應(yīng)

界面新聞
2026-01-12 11:39:33
致敬詹姆斯,阿爾卡拉斯澳網(wǎng)開賽前訓(xùn)練中上身詹姆斯湖人球衣

致敬詹姆斯,阿爾卡拉斯澳網(wǎng)開賽前訓(xùn)練中上身詹姆斯湖人球衣

懂球帝
2026-01-12 12:50:10
難掩失望,弗格森在老特拉福德的包廂內(nèi)露出震驚表情

難掩失望,弗格森在老特拉福德的包廂內(nèi)露出震驚表情

懂球帝
2026-01-12 05:02:22
越南不恨美國(guó),不恨日本,連殖民幾十年的法國(guó)都不恨,就只恨中國(guó)

越南不恨美國(guó),不恨日本,連殖民幾十年的法國(guó)都不恨,就只恨中國(guó)

我心縱橫天地間
2026-01-07 19:17:18
林良鋒:聽好了,弗萊徹這話說得對(duì)

林良鋒:聽好了,弗萊徹這話說得對(duì)

體壇周報(bào)
2026-01-12 14:26:18
日媒稱高市早苗或解散眾議院提前大選

日媒稱高市早苗或解散眾議院提前大選

新京報(bào)
2026-01-12 15:12:04
千人殺豬飯后續(xù):女子“闖大禍”,哭了不殺豬了,家里已負(fù)擔(dān)不起

千人殺豬飯后續(xù):女子“闖大禍”,哭了不殺豬了,家里已負(fù)擔(dān)不起

李健政觀察
2026-01-12 11:44:44
吊帶紅裙,性感尤物

吊帶紅裙,性感尤物

吃瓜黨二號(hào)頭目
2026-01-09 09:59:03
醫(yī)生:堅(jiān)持走路鍛煉的老人,過不了幾個(gè)月,身體會(huì)迎來5大變化

醫(yī)生:堅(jiān)持走路鍛煉的老人,過不了幾個(gè)月,身體會(huì)迎來5大變化

岐黃傳人孫大夫
2025-12-24 09:08:19
勇士111-124不敵老鷹,庫(kù)里空砍31分,誰(shuí)是輸球罪魁?數(shù)據(jù)不會(huì)說謊!

勇士111-124不敵老鷹,庫(kù)里空砍31分,誰(shuí)是輸球罪魁?數(shù)據(jù)不會(huì)說謊!

劉哥談體育
2026-01-12 15:07:08
多家存儲(chǔ)封測(cè)廠漲價(jià):漲幅約三成 后續(xù)不排除啟動(dòng)第二波漲價(jià)

多家存儲(chǔ)封測(cè)廠漲價(jià):漲幅約三成 后續(xù)不排除啟動(dòng)第二波漲價(jià)

財(cái)聯(lián)社
2026-01-12 09:18:10
洗碗機(jī)后續(xù),女方提離婚,知情人女方真實(shí)情況,身上buff疊滿了

洗碗機(jī)后續(xù),女方提離婚,知情人女方真實(shí)情況,身上buff疊滿了

辣條小劇場(chǎng)
2026-01-10 05:57:26
2026-01-12 17:15:00
直面派 incentive-icons
直面派
講述值得講述的真實(shí)故事
244文章數(shù) 236關(guān)注度
往期回顧 全部

科技要聞

小米二手車價(jià)大跳水:SU7半年跌5萬元

頭條要聞

深圳"望郎歸"一徒步男子倒地猝死:突然倒地頭砸石頭上

頭條要聞

深圳"望郎歸"一徒步男子倒地猝死:突然倒地頭砸石頭上

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

閆學(xué)晶:脫離群眾太久 忘了自己的根

財(cái)經(jīng)要聞

A股大漲 兩市成交額3.6萬億創(chuàng)歷史新高

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

健康
教育
手機(jī)
時(shí)尚
房產(chǎn)

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

教育要聞

成都協(xié)同外語(yǔ)學(xué)校家長(zhǎng)成長(zhǎng)學(xué)院關(guān)注心理健康:讀懂孩子的情緒世界

手機(jī)要聞

榮耀Magic 8 RSR保時(shí)捷設(shè)計(jì)開啟預(yù)約,1月19日正式發(fā)布

伊姐周日熱推:電視劇《御賜小仵作2》;電視劇《偶像瘋子》......

房產(chǎn)要聞

重磅調(diào)規(guī)!417畝商改住+教育地塊!??谖骱0队忠l(fā)!

無障礙瀏覽 進(jìn)入關(guān)懷版