国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-Realtime-2上線!全球AI巨頭加碼,語音一夜成了AI圈香餑餑

0
分享至

2024 年 2 月,OpenAI 發(fā)布了 Sora。這個能生成視頻的 AI 模型用極短的時間改寫了移動互聯(lián)網(wǎng)時代的內(nèi)容創(chuàng)作方式,甚至連迪士尼都曾計劃為此注資十億美元,并計劃在 Sora 2 中引入自己的核心影視 IP。但就在 26 年 3 月,OpenAI 宣布關(guān)閉 Sora,相關(guān) API 也會在 9 月停止提供。

對此,OpenAI 的解釋是「將計算資源重新分配至核心企業(yè)產(chǎn)品」。

那到底是怎樣的產(chǎn)品值得 OpenAI 不惜「壯士斷腕」呢?剛剛過去的四月里,OpenAI 先后發(fā)布了 GPT-Image 2.0、GPT-5.5 等新服務(wù)。5 月 7 日,OpenAI 也乘勝追擊,接連上線了 GPT-5.5 Instant 和今天我們要談的重點——GPT-Realtime-2 系列模型。

GPT RT2讓 AI 像真人一樣說話

簡單來說,GPT-Realtime-2(簡稱GPT RT2)是一個全面優(yōu)化 AI 語音能力的模型系列,包含原版(GPT-Realtime-2)、翻譯(GPT-Realtime-Translate)和轉(zhuǎn)錄(GPT-Realtime-Whisper)三個分支。其中 GPT-Realtime-2 具備 GPT-5 級別推理能力,開發(fā)者甚至可以自定義模型的推理深度,在準(zhǔn)確性、時效性和算力成本之間找到自己的平衡。



圖片來源:OpenAI

而這些新技術(shù)的目的有且只有一個——讓 AI 能像真人一樣說話。

我知道,其實現(xiàn)在不少 AI 模型在 TTS 音色上已經(jīng)和真人非常接近了,大家平時接到的運營商、銀行的騷擾電話,十有八九就是 AI 打出的,在通話的「全損音質(zhì)」下,想分清對方是真人還是 AI 確實有點難度。

但只要我們一張嘴,這些 AI 客服就會馬上露餡,在雷科技看來,這種 AI 語音模型和真人的能力差距,主要體現(xiàn)在復(fù)雜任務(wù)處理能力上。以一個經(jīng)典笑話舉例:

下班路上買一個西瓜,如果看到蘋果,就買兩個。

沒有推理能力的 AI 會按照自己的想法把「就買兩個」的對象當(dāng)成西瓜或蘋果;而有推理能力的 AI 會發(fā)現(xiàn)這是個有歧義的病句,反過來要求用戶給出更清晰的要求。再舉一個例子:你要求車機「折疊副駕駛位,打開零重力模式」時,車機是否能主動推理出你要打開零重力模式的,其實是副駕駛后排的座位呢?

而 GPT-Realtime-2 的出現(xiàn),就給 AI 帶來了真正理解用戶需求的能力。

除此之外,GPT-Realtime-2 的平行工具調(diào)用(Parallel tool calls)可以一次拉起多個組件,以響應(yīng)用戶的復(fù)雜語音指令;GPT-Realtime-Whisper 可以以近乎實時的速度把語音轉(zhuǎn)寫成文檔,讓「實時字幕」成為可能;GPT-Realtime-Translate 的同步翻譯功能可以在對方還在說話時直接生成語音譯文,效率堪比同聲傳譯。



圖片來源:OpenAI

毫不夸張地說,GPT-Realtime-2 的出現(xiàn),很有可能會改變未來 AI 的交互方式,讓語音交互取代文字,成為未來日常 AI (非工作等生產(chǎn)力 AI)的主要交互模式。

「老登」習(xí)慣打字,年輕人愛動口?

但話又說回來,在語音交互賽道上發(fā)力,其實是近幾年 AI 賽道的共識了:

5 月 7 日千問 PC 端上線 AI 語音輸入,用極強語義解析能力打造了可以用于工作場景的 AI 用例,在此之前,豆包、Claude、ChatGPT、Gemini等AI均已支持桌面語音模式,允許用戶用嘴與AI交互,包括編程;4 月 27 日影石 Insta360 聯(lián)手字節(jié)跳動 AI 編程平臺 TRAE 推出了適用于 Vibe-Coding 的領(lǐng)夾麥克風(fēng);4 月 23 日涂鴉在全球開發(fā)者大會上發(fā)布了 PVAD 自訓(xùn)練模型和 TTS增強引擎,提出了 LUI(語言交互界面,與圖形交互界面 GUI 對應(yīng))的概念。

甚至在就在今天,馬斯克也在 X 上為 xAI 的打造的Grok Voice Think Fast 1.0 語音助手宣傳造勢。



圖片來源:X

那為什么 2026 年的 AI 戰(zhàn)場會落在語音交互界面上呢?OpenAI CEO Sam Altman 就提到了一個觀點:

順便提一句,年輕人似乎更喜歡通過語音與 AI 互動,而老年人以及中間年齡段的人更喜歡打字。我想知道這會不會改變。

在雷科技看來,這一現(xiàn)象背后不僅是習(xí)慣問題,也是年輕人與中年人思維模式的差異。對于在全時在線、觸屏環(huán)境中長大的 00 后、10 后(以及誕生于語音交互時代的 20 后)來說,鍵盤帶有濃厚的「班味」,除了打游戲外幾乎不會碰。



圖片來源:X

順著這個角度想,在過去 20 年里,鍵鼠組合高效、精準(zhǔn)的輸入方式為 PC 的生產(chǎn)力工具的身份打下了基礎(chǔ),但也限制了我們「必須在電腦前才能工作」。而 LUI 的出現(xiàn)改變了這個刻板印象:起身接杯水也好、下樓透氣也好,甚至只是癱在椅子上思考時,AI 都能通過我們的「只言片語」跟上我們的思維,讓靈感隨時在線。

事實上,語音輸入「有效信息含量低」的特點,也確實只有 AI 可以解決。以千問今天上線的 PC 端上線 AI 語音輸入為例,雷科技簡單體驗了一下。除了基礎(chǔ)的語音輸入外,千問 PC 語音輸入還可以自動過濾掉說話過程中那些沒有意義的語氣詞、填充詞。

比如在輸入圖中這個需求時,我?guī)缀踉诿恳粋€停頓處都加入了大量的「呃」「就是」,千問也能直接過濾掉。



圖片來源:雷科技

不可否認(rèn)的是,在辦公室等公共場所使用語音輸入,多少會對其他同事產(chǎn)生影響。但 AI 語音能力的提升,確實讓語音輸入在工作場景也具備了「實用性」,如果你像年輕人一樣說話跳脫、思如泉涌、「腦子比嘴快」,又或者喜歡用語音輸入,那千問的語音輸入功能對你確實很有幫助。

從這個角度看,擁抱語音交互,本質(zhì)上是 AI 巨頭們在搶占這些年輕用戶的市場。誰能把語音交互做穩(wěn),誰就能壟斷這些年輕人碎片化時間的「交互主權(quán)」。

其實這種迎合下一代使用習(xí)慣,超前建立用戶粘性的做法也并非新鮮事,MacBook Neo、Chromebook、iPad 等電子產(chǎn)品在海外燒錢發(fā)力教育市場,背后也是同樣的邏輯。

只不過在雷科技看來,除了面向下一代的超前布局外,AI 巨頭不約而同發(fā)力 LUI,背后還有別的推動力:LUI 和 AI 的的終極目標(biāo)一致,都帶有「永遠(yuǎn)待命、隨時可用」的屬性。

文字界面(TUI、命令行)也好、圖形界面(GUI)也罷,經(jīng)過多年的發(fā)展,這類視覺交互能覆蓋的場景早已到頭。但在開車、鍛煉、下廚、洗澡這些「手腳被占用」的場景里,語音交互的價值仍未被完全挖掘。

以最常見的駕駛場景為例:為了填補實體按鍵缺失帶來了交互空白,國內(nèi)新能源品牌早已在 LUI 語音交互界面上發(fā)力;對著車機下超長復(fù)雜指令,也成為了大家體驗智能座艙時的保留節(jié)目。

作為回應(yīng),不少車企也開始與頭部 AI 企業(yè)合作,利用外部的語音大模型完善智能座艙的體驗。比如在去年的廣州車展上,不少車企就向雷科技透露自己的車機「融入了豆包」的能力。



圖片來源:雷科技

可以說,在 AI 市場風(fēng)起云涌的 2026 年,哪家 AI 企業(yè)能搶先完善 AI 語音,帶領(lǐng)行業(yè)從 GUI 交互走向 LUI,誰就能搶先一步吃上「新的蛋糕」。

語音成了AI硬件交互的入口

即使我們拋開 LUI 這種長遠(yuǎn)命題不談,從用戶、智能硬件的角度來看,語音交互其實也是加速 IoT 設(shè)備轉(zhuǎn)型為 AIoT 設(shè)備的捷徑。

以往的智能硬件要變「聰明」,需要堆屏幕、堆算力芯片。而 AI 語音對設(shè)備端的硬件要求極低,一個用來收音的麥克風(fēng)、一個處理音頻數(shù)據(jù)的計算模塊、一個用于跑端側(cè)模型的算力平臺(這個對部分 AI 硬件來說甚至是可選項)再加上最基本的網(wǎng)絡(luò)連接能力,任何一個曾經(jīng)不起眼的 IoT 產(chǎn)品,都能搖身一變成為 AIoT 硬件。



圖片來源:雷科技

為雷科技報道海外展會和高管群訪立下汗馬功勞的釘釘 A1 錄音卡就是最好的例子。過去雷科技也試過不少智能錄音設(shè)備,甚至買過運行端側(cè)本地模型的智能錄音筆。但受模型能力限制,這類「智能錄音筆」效果通常都不盡如人意。

不過釘釘 A1 就沒有這個問題了:手機里裝著完整的大模型,能以近乎同步的速度輸出翻譯結(jié)果。而把轉(zhuǎn)寫、翻譯的任務(wù)交給手機后,A1 里的端側(cè)小模型也能將更多的資源用在語音拾取、降噪等方面,從源頭優(yōu)化錄音效果。

在錄音、轉(zhuǎn)寫、翻譯這三大功能外,釘釘 A1 錄音卡也充分發(fā)揮了 AI 智能體的能力,可以將錄音內(nèi)容直接轉(zhuǎn)化為符合標(biāo)準(zhǔn)格式的會議記錄、待辦事項,甚至可以在基礎(chǔ)上對內(nèi)容進(jìn)行二次深度理解。

而從產(chǎn)品多樣性的角度看,除了給傳統(tǒng) IoT 設(shè)備「賦能」外,AI 語音交互的出現(xiàn)甚至催生了不少 AI 新概念產(chǎn)品。像科大訊飛就基于其在語音識別領(lǐng)域多年的技術(shù)積累,打造了包括 AI 翻譯機、AI 墨水屏辦公本、會議耳機、AI 眼鏡甚至是 AI 鍵盤、AI 鼠標(biāo)等產(chǎn)品。

盡管產(chǎn)品品類繁多,但按照其對 AI 技術(shù)的應(yīng)用,雷科技認(rèn)為這些 AI 產(chǎn)品依舊有一條橫跨品類的「主線」——用語音 AI 豐富硬件的交互方式,從而優(yōu)化產(chǎn)品的體驗。



圖片來源:訊飛

以訊飛的 AI 辦公本為例,受限于像素響應(yīng)時間,電子墨水屏設(shè)備天然就不適合鍵盤輸入。用過 Kindle 的朋友應(yīng)該對 Kindle 連 Wi-Fi、打密碼的流程深有體會。這種輸入手段的缺失讓電子墨水屏設(shè)備長期以來只能當(dāng)作單純的「顯示設(shè)備」,不具備真正的辦公能力。

但 LUI 的出現(xiàn)改變了電子墨水屏「只有輸出沒有輸入」的局面:訊飛星火大模型的外語和方言識別能力,解鎖了電子墨水屏的輸入能力,讓墨水屏從「顯示器」真正升級成了「辦公本」。搭配圖片理解等多模態(tài)輸入能力,訊飛早已將電子墨水屏設(shè)備打造成了「全能辦公設(shè)備」。

可以說,無論從產(chǎn)品、用戶還是 AI 供應(yīng)商的角度看,語音交互對 AI 的重要性都毋庸置疑。

中國AI的優(yōu)勢:更會聽/說中文

另外,發(fā)力 AI 語音交互對國內(nèi) AI 巨頭來說,其實還有另一個意義——中國的 AI 公司,天生更懂中文。

按第一語言(母語)來算,中文是世界使用人數(shù)最大的語言;按照總使用人數(shù)(母語+第二語言)來計算,中文是世界使用人數(shù)第二大的語言。

可能有人認(rèn)為「懂中文」只對國內(nèi)用戶有意義,上升不到國際角度,但事實并非如此。雷科技前段時間去美國舊金山參加了追覓的發(fā)布會,更早之前也在巴塞羅那、柏林等非英語城市參與了海外展會的報道。

就雷科技的所見所聞而言,大量一代移民即使身處海外,也只會說中國話(主要為粵語)。很多上年紀(jì)的華人即使在溫哥華、舊金山、巴塞羅那、墨爾本等移民城市生活多年,依舊過不了最基本的入籍語言關(guān)。

很顯然,他們也有使用 AI 的需求,甚至對于不會打字的老人群體來說,語音交互是他們使用電子產(chǎn)品的唯一手段。但無論 Google 的 Gemini、OpenAI 的 ChatGPT 或 xAI 的 Grok,其對中文語音的支持都相當(dāng)有限。以 ChatGPT 為例,過年策劃主流 AI 助手中文和方言支持時,雷科技就發(fā)現(xiàn) ChatGPT 并不能穩(wěn)定、持續(xù)輸出廣東話,說著說著就會自動切換回英語。

對 ChatGPT、Gemini、Grok 來說,「說中文」是個不小的挑戰(zhàn);但對豆包、千問、Kimi、訊飛等國內(nèi) AI 服務(wù)來說,這恰恰是「與生俱來」的優(yōu)勢。



圖片來源:豆包

相比英語,中文存在大量的倒裝、省略以及「只可意會」的潛臺詞。再加上中國龐大的方言體系,廣東話、四川話、東北話……每一個方言背后都是一套獨立的文化邏輯。海外巨頭的大模型雖然能翻譯中文,但在處理帶口音的口語、特定語境下的俚語時,往往無從下手。

而這恰恰為豆包、千問、訊飛等國內(nèi)頭部品牌建立了天然的護(hù)城河。像剛剛提到的千問 PC 端語音輸入能力,甚至可以對語音素材進(jìn)行規(guī)整,精準(zhǔn)找到用戶語音中的重點,不需要用戶「意思意思」。前幾年,商湯甚至還推出了首個面向粵語用戶的 AI 服務(wù)「日日新」。

不可否認(rèn),無感 AI 交互是一切 AI 服務(wù)的終極目標(biāo)。但在這種主動感知 AI 交互普及之前,語音依然是最高效、最直接的橋梁。國內(nèi) AI 行業(yè)通過死磕中文和方言,實際上也換來了「海外華人」這一被海外 AI 巨頭長期忽略的用戶群體,找到了一條躋身世界頭部品牌的快車道。

2026 年,AI 競爭邏輯已經(jīng)倒轉(zhuǎn):以前的 AI「需要人學(xué)」,現(xiàn)在的 AI「拼命學(xué)人」。隨著語音交互、LUI 等概念的普及,那個對著輸入框摳字的日子,真的該翻篇了。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“4只皮皮蝦1035元”門店停業(yè),標(biāo)價牌撤下椅子堆疊,店內(nèi)監(jiān)控提交相關(guān)部門,店主病逝后家屬已回老家;三亞將發(fā)布詳細(xì)調(diào)查報告

“4只皮皮蝦1035元”門店停業(yè),標(biāo)價牌撤下椅子堆疊,店內(nèi)監(jiān)控提交相關(guān)部門,店主病逝后家屬已回老家;三亞將發(fā)布詳細(xì)調(diào)查報告

大象新聞
2026-05-09 14:46:04
重磅!中國接力隊37秒85戰(zhàn)勝牙買加,“短跑王者”神話被打破?

重磅!中國接力隊37秒85戰(zhàn)勝牙買加,“短跑王者”神話被打破?

林子說事
2026-05-09 16:03:37
廣東擊敗北京,三人滿分,杜鋒完勝許利民,賽后聽聽杜鋒怎么說

廣東擊敗北京,三人滿分,杜鋒完勝許利民,賽后聽聽杜鋒怎么說

小徐講八卦
2026-05-10 05:59:45
六世達(dá)賴:白天是西藏權(quán)力最大的王,晚上化身貴族公子當(dāng)風(fēng)流情郎

六世達(dá)賴:白天是西藏權(quán)力最大的王,晚上化身貴族公子當(dāng)風(fēng)流情郎

娛樂圈的嗶嗶王
2026-05-10 05:45:12
便宜幾千塊!三星家電撤出中國后,閑魚上的「骨折價」值得買嗎?

便宜幾千塊!三星家電撤出中國后,閑魚上的「骨折價」值得買嗎?

雷科技
2026-05-08 21:48:42
二手車市場幾乎沒有新能源車,“賣得太快”還是“不敢收”?

二手車市場幾乎沒有新能源車,“賣得太快”還是“不敢收”?

華夏時報
2026-05-08 09:50:03
朱辰杰拯救申花!8分鐘頭球雙響,中超生涯首次,創(chuàng)單季進(jìn)球紀(jì)錄

朱辰杰拯救申花!8分鐘頭球雙響,中超生涯首次,創(chuàng)單季進(jìn)球紀(jì)錄

奧拜爾
2026-05-09 21:21:53
毫無格局!杜鋒賽后發(fā)言引爭議,知名大V怒批,粵迷也不認(rèn)同

毫無格局!杜鋒賽后發(fā)言引爭議,知名大V怒批,粵迷也不認(rèn)同

畫夕
2026-05-10 00:01:36
足壇一夜動態(tài):利物浦切爾西互相傷害,曼城3-0大勝施壓阿森納

足壇一夜動態(tài):利物浦切爾西互相傷害,曼城3-0大勝施壓阿森納

釘釘陌上花開
2026-05-10 06:11:33
5年坐擁7首輪+1互換權(quán)!火箭隊交易籌碼太豪華!追逐4巨星有戲了

5年坐擁7首輪+1互換權(quán)!火箭隊交易籌碼太豪華!追逐4巨星有戲了

熊哥愛籃球
2026-05-09 12:39:39
“骨盆前傾成這樣,還不去醫(yī)院?”家長曬一年級女兒體態(tài),被群嘲

“骨盆前傾成這樣,還不去醫(yī)院?”家長曬一年級女兒體態(tài),被群嘲

妍妍教育日記
2026-04-24 11:15:25
豪門玩物遭多年虐待折磨,瘦骨嶙峋慘狀驚人

豪門玩物遭多年虐待折磨,瘦骨嶙峋慘狀驚人

孤芳自賞的小李
2026-05-10 01:22:56
沈春陽大變樣!瘦身后臉小一圈,下頜線清晰撞臉孔孝真

沈春陽大變樣!瘦身后臉小一圈,下頜線清晰撞臉孔孝真

人間煙火記事本
2026-05-09 02:04:28
8家新能源車企遠(yuǎn)程“鎖電”被約談,3家被立案;有車主稱續(xù)航一夜蒸發(fā)200公里

8家新能源車企遠(yuǎn)程“鎖電”被約談,3家被立案;有車主稱續(xù)航一夜蒸發(fā)200公里

魯中晨報
2026-05-08 11:46:14
1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

文史達(dá)觀
2026-05-08 06:45:13
成都演唱會這天,人情冷暖、江湖地位,在謝娜身上展現(xiàn)得淋漓盡致

成都演唱會這天,人情冷暖、江湖地位,在謝娜身上展現(xiàn)得淋漓盡致

夢在深巷qw
2026-05-07 07:46:01
妮可·基德曼機場穿搭揭秘:這雙39美元球鞋成關(guān)鍵

妮可·基德曼機場穿搭揭秘:這雙39美元球鞋成關(guān)鍵

娛圈觀察員
2026-05-10 05:35:57
38歲梅西獲評9.4分+加冕官方MVP:一球兩助攻,率隊4-2大勝而歸

38歲梅西獲評9.4分+加冕官方MVP:一球兩助攻,率隊4-2大勝而歸

側(cè)身凌空斬
2026-05-10 03:13:34
跟低學(xué)歷妹子談戀愛是啥體驗?網(wǎng)友:低社會化人群被女版黃毛拿下

跟低學(xué)歷妹子談戀愛是啥體驗?網(wǎng)友:低社會化人群被女版黃毛拿下

帶你感受人間冷暖
2026-03-28 16:48:21
3-0!倫敦世乒賽!決賽誕生,日本大勝,松島強勢,張本智和爆發(fā)

3-0!倫敦世乒賽!決賽誕生,日本大勝,松島強勢,張本智和爆發(fā)

帛河體育
2026-05-10 05:04:14
2026-05-10 07:19:00
雷科技 incentive-icons
雷科技
專注AI硬科技
36852文章數(shù) 812087關(guān)注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達(dá)成代工協(xié)議

頭條要聞

演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

頭條要聞

演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

體育要聞

成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認(rèn)不出!

財經(jīng)要聞

多地號召,公職人員帶頭繳納物業(yè)費

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

房產(chǎn)
健康
親子
數(shù)碼
手機

房產(chǎn)要聞

低價甩賣!??谶@個地標(biāo)商業(yè),無人接盤!

干細(xì)胞能讓人“返老還童”嗎

親子要聞

剪給媽媽看的視頻,當(dāng)然全部都是愛

數(shù)碼要聞

有鴻蒙·更美的——全球首臺鴻蒙智選美的智能空調(diào)上市

手機要聞

iQOO 15T首發(fā)天璣9500特別版:實測幀率無敵 穩(wěn)如泰山

無障礙瀏覽 進(jìn)入關(guān)懷版