国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話時空壺田力:當(dāng)AI遇上同傳,建造跨語言溝通的巴別塔

0
分享至

電影《銀河系漫游指南》中的巴別魚

科幻小說《銀河系漫游指南》里面有種叫巴別魚的生物,可以突破傳統(tǒng)翻譯工具的物理限制,通過解析腦電波實現(xiàn)跨物種語言的即時互譯。這個看似遙不可及的幻想,如今在深圳一家名為時空壺的公司手中,正逐步走向現(xiàn)實。

時空壺是全球首創(chuàng)AI同傳翻譯耳機的公司,他們正在用技術(shù)打破人類之間的語言壁壘,讓跨語言交流變得如同說同一種母語一樣自然。從2016年創(chuàng)立至今,他們的產(chǎn)品已銷往全球170多個國家,并且在北美市場占據(jù)了40%的份額,用戶突破百萬。今年初,中國海關(guān)總署甚至將時空湖的W4 Pro同傳翻譯耳機作為中國從“制造”到“智造”轉(zhuǎn)型的代表展示給全世界。

隨著大模型技術(shù)的發(fā)展,AI翻譯正從簡單的“直譯”進化為理解語境、把握情感的"意譯"。年初在拉斯維加斯舉辦的消費電子展(CES)上,時空壺發(fā)布了翻譯行業(yè)的首個人工智能同聲傳譯系統(tǒng)Timekettle Babel OS (The Road to Babel Fish 通往巴別魚之路),首次將大語言模型作為AI翻譯的底層能力,打造逼近母語的自然交流體驗,賦能時空壺各終端硬件和軟件應(yīng)用。

其中“Babel”在希伯來語中的原意是“混亂”。《圣經(jīng)》中有一個“巴別塔”(Tower of Babel)的故事。根據(jù)這個故事,人類原本說同一種語言,并試圖建造一座通天塔。上帝為了阻止這一計劃,讓人類說不同的語言,相互無法理解,從而使塔無法完成。

在跟時空壺創(chuàng)始人田力的對話中,他提到當(dāng)美國一位牧師使用時空壺的產(chǎn)品讓說不同語言的教徒能在同一次禮拜中交流時,牧師感嘆道:“上帝要愛世人,但是你們這個產(chǎn)品幫助我們把不同的族裔的人聚在了一起……宗教還沒做到這一點,科技產(chǎn)品幫我們做到這一點?!?/p>

在一個日益全球化但語言障礙依然存在的世界,科技能否真正打破人類交流的最后屏障?我跟田力探討了時空壺面臨和克服的技術(shù)挑戰(zhàn):從雙向收音的藍牙通信難題,到無需喚醒詞的語音識別,再到真正意義上的雙向同聲傳譯。時空壺的技術(shù)壁壘到底在哪里?為什么連蘋果、科大訊飛這樣的科技巨頭也難以復(fù)制他們的核心功能?在AI時代,語言翻譯技術(shù)的未來在哪里?

存在于科幻小說中的“巴別魚”如何在現(xiàn)實中逐步成形,以及它將如何改變我們理解與交流的方式,這是本期播客的主要內(nèi)容。

以下為節(jié)選。

品牌淵源與科幻DNA

潘亂:“時空壺”這個名字聽起來像科幻小說中的裝置,它有什么來源或典故嗎?

田力:這個淵源很有意思。我是科幻迷,最喜歡的作家之一是阿西莫夫。他有本被譽為歷史上最偉大的中篇科幻之一《永恒的終結(jié)》,里面有個懸浮在空中的時間機器叫”時空壺”。我們公司前臺就做了這么一個裝置,公司名字就這么來的。

潘亂:貝佐斯曾表示《星際迷航》影響了Alexa的設(shè)計,馬斯克則稱《銀河系漫游指南》啟發(fā)了他的太空探索。我看你們公司會議室也都是用科幻元素的名字命名的,時空壺還有哪些元素是直接從科幻作品中獲得靈感的?

田力:我們的會議室都是以著名科幻作家或作品命名的。我們現(xiàn)在所在的會議室叫“三體”。我們即將建設(shè)的聲學(xué)實驗室很可能會叫“42實驗室”,取自《銀河系漫游指南》中“宇宙的終極答案”。

還有一個會議室叫“巴別魚”,也來自《銀河系漫游指南》。主角在宇宙飛船上聽不懂外星人說話,就塞了一只魚在耳朵里,就能聽懂外星人說話。這個形象在英美國家非常深入人心,知名度接近西游記在中國的地位。

在科幻世界中,翻譯設(shè)備的想象有兩個著名IP:一個是巴別魚,另一個是《星際迷航》里的宇宙翻譯器。這些科幻作品對我們的產(chǎn)品開發(fā)有天然的啟發(fā)。

創(chuàng)業(yè)初心與技術(shù)突破

潘亂:你大概是什么樣的從業(yè)背景,為什么會想到創(chuàng)業(yè)做AI同傳耳機這個方向?

田力:我并沒有一開始就想做這件事。我的性格比較喜歡折騰,不太喜歡做同質(zhì)化的事情。我從上一家硬件創(chuàng)業(yè)公司出來后,因為之前的工作關(guān)系,認識了很多AI公司的人,包括微軟、谷歌、科大訊飛等。

創(chuàng)業(yè)的契機源于三件事:

  • 第一,當(dāng)時我意識到2016年左右AI技術(shù)有了重大突破,但很多公司在做AI To B,做解決方案和項目,最后變成了軟件項目外包公司。很少有公司能做出產(chǎn)品讓普通消費者感受到AI的價值。

  • 第二,我父母去歐洲旅游時,雖然我給他們下載了很多翻譯APP,但他們回來說連去便利店買水的勇氣都沒有。我媽媽在阿爾卑斯山突發(fā)高原反應(yīng),但無法與說法語的醫(yī)生交流。他們覺得拿著手機那種尷尬的姿勢交流不符合習(xí)慣。

  • 第三,我在深圳高交會親自嘗試用翻譯APP與外國展商交流,發(fā)現(xiàn)實際效果很差。需要按住說話、松開翻譯,對方要看屏幕,反應(yīng)遲鈍,還容易錯過對方的開頭幾句話。很難堅持超過一分鐘的交流。

這讓我認識到,雖然AI翻譯技術(shù)已經(jīng)較為成熟,但在現(xiàn)實中兩個不同語言的人很難像朋友聊天一樣自然交流。問題不在于翻譯技術(shù)本身,而是需要創(chuàng)造一個讓人們愿意交流的場景。

潘亂:你曾是華為中國區(qū)最年輕的金牌個人獲獎?wù)?,華為工作經(jīng)歷對你有什么幫助?

田力:華為對我是從0到1的歷練。它在中國可能是管理最好的公司,沒有之一。在華為我做市場工作,雖然學(xué)的是工科。華為教會我基本素養(yǎng)和思維方式的轉(zhuǎn)變。比如,做一個好的銷售,首先是利他而非利己的,需要關(guān)心對方的感受,理解對方的價值點。華為也教會我職業(yè)素養(yǎng)、如何與上下級同事合作、如何交付等基本訓(xùn)練。

開拓新品類的挑戰(zhàn)與思考

潘亂:時空壺最近被《新聞聯(lián)播》深度報道了近四分鐘,這是很有含金量的認可。中國海關(guān)總署也認可它為代表中國從“制造”到“智能制造”轉(zhuǎn)型的典范。你如何看待中國在全球AI硬件行業(yè)中的地位演變,像時空壺這樣的公司能扮演什么角色?

田力:首先感謝CCTV和海關(guān)領(lǐng)導(dǎo)的認可。我們對自己定位很清晰,我們是產(chǎn)品公司,是小公司,在這個大潮中只是一朵小浪花,但努力成為“弄潮兒”。

從我的角度看,中國的基礎(chǔ)設(shè)施、技術(shù)和信息流動,已經(jīng)讓深圳的創(chuàng)業(yè)者,或中國任何角落的創(chuàng)業(yè)者能夠共享全球資源和視野。我們站在巨人肩膀上,以前是谷歌、微軟、科大訊飛,今天則是OpenAI、DeepSeek等。

就像從哈勃到韋伯望遠鏡,是有遞進關(guān)系的。我們享受了基礎(chǔ)設(shè)施的便利,包括物理和信息層面的,開發(fā)時可以利用大家的經(jīng)驗和教訓(xùn)。

潘亂:為什么這波AI硬件公司大多聚集在深圳?

田力:硬件這塊主要是產(chǎn)業(yè)鏈便利。在深圳,打車半小時就能到達很多上下游合作伙伴,有很多交流活動。比如韶音在我們旁邊,大疆在15分鐘車程內(nèi),還有很多優(yōu)秀硬件公司都在附近,方便交流。

上游如東莞、惠州有很多工廠,非常開放,即使我們是小公司,他們也愿意嘗試合作。我們第一代產(chǎn)品就是在一家上市公司的幾千人工廠生產(chǎn)的,很感謝他們。

深圳還有很多方案商,這在其他地方可能不是特色。想做產(chǎn)品時,不需要從零開始思考用什么芯片,而是可以找方案商,他們像導(dǎo)師一樣幫你完成市場認知建立、技術(shù)方案選擇、芯片選型等全流程,幾乎可以“拎包入駐”。

潘亂:作為新品類的開創(chuàng)者,時空壺最大的優(yōu)勢是什么?在沒有成熟市場參照的情況下,你如何判斷產(chǎn)品方向的正確性?

田力:正因為我們是新品類的開拓者,在無人區(qū)行走,就像發(fā)現(xiàn)新大陸一樣有先發(fā)優(yōu)勢。前提是你沒有“死在沙灘上”,而是真的登陸了。

關(guān)于如何判斷方向正確性,實事求是地說,最初我們并不確定。我們的第一代產(chǎn)品設(shè)計——兩個人各戴一只耳機交流——當(dāng)時有很大爭議。大家認為陌生人很難接受這種方式。

但我們決定先做出我們設(shè)想中的體驗,再檢驗市場接受度。即使只有少部分人接受,只要他們的體驗被顛覆,那這個無人區(qū)的探索就算階段性成功。然后通過與用戶深度交流,發(fā)現(xiàn)產(chǎn)品問題,進一步改進。

我們的終極目標(biāo)很清晰:就是讓人們像我們現(xiàn)在這樣自然交流。蘋果產(chǎn)品的目標(biāo)是“disappear”,讓用戶幾乎感覺不到它的存在。我們也一樣,希望最終的體驗不需要規(guī)劃、不需要教育,就像人類上百萬年的自然交流方式——看著對方的眼睛,張口說話,不需要做操作,像朋友一樣聊天。

技術(shù)突破:從無到有的探索

潘亂:“把翻譯軟件塞進藍牙耳機”這事難在哪里?

田力:最初我以為很簡單,找人開發(fā)翻譯軟件,找個藍牙耳機和它結(jié)合就完了。但我找遍了很多方案商,都說做不了。

為什么?我們設(shè)想的場景是兩個人各帶一個耳機進行交流。但標(biāo)準的藍牙耳機在錄音時只有一只耳機在工作。雖然播放音樂是左右聲道立體聲,但錄音時變成了單通道,像單行道一樣。這就導(dǎo)致兩人各戴一只耳機對話時,只有一人的聲音能被錄進來,給對方戴耳機就沒意義了。

這是我們首先遇到的挑戰(zhàn),是通信技術(shù)問題,而不是AI技術(shù)問題。之前沒有人解決是因為沒有這個需求。過去人們可能會分享耳機聽音樂,但很少有人想分享耳機一起通話。所以從藍牙協(xié)議1.0到現(xiàn)在,一直沒有解決多人錄音的問題。

作為創(chuàng)業(yè)公司,我們本想把現(xiàn)有技術(shù)組合起來,但立刻撞上第一堵墻。在深圳這樣的硬件之都都找不到解決方案,甚至咨詢了高通、海思等芯片廠商的工程師,他們都確認這個問題沒有現(xiàn)成解決方案。

所以我們只能自己搞。雖然公司2016年成立,但真正作為正式項目開始是2017年,第一代產(chǎn)品到2019年才出來。當(dāng)時我預(yù)計三個月能出產(chǎn)品,結(jié)果搞了一年半才做出來,而且只能算40分的產(chǎn)品。

潘亂:在對話過程中如何確保只收錄我們兩個人的對話,過濾掉背景噪音?

田力:解決了通信問題后,我們面臨的第二個挑戰(zhàn)是語音識別問題。人與人的對話與人機對話不同,不能有喚醒詞。我們需要開發(fā)一套算法,不需要喚醒詞但能檢測說話的開始和結(jié)束。

當(dāng)時智能音箱流行,都需要喚醒詞。還有耳機可以用“嘿,Siri!”喚醒。但我們的產(chǎn)品不能有喚醒詞,因為這不符合人類交流習(xí)慣。

這需要先降噪,然后檢測說話的開始和結(jié)束,專業(yè)術(shù)語叫VAD(Voice Activity Detection))檢測。目的是解放雙手,讓兩個人交流時能自由自在地溝通,不需要每次都點一下按鈕。我們的目標(biāo)是“想說就說,想停就?!?,甚至可以打斷對方,像正常人類交流一樣。

我們解決了通信問題、喚醒問題后,終于達到了兩個人可以相對自在地交流的程度。但那時還是“單向同傳”——我說話你可以邊聽翻譯,但你說話必須等我說完。下一步挑戰(zhàn)是實現(xiàn)兩個人可以同時說話。

W4 Pro的設(shè)計理念

潘亂:時空壺W4 Pro的外觀與普通TWS耳機有明顯區(qū)別,為什么選擇這種形狀?它如何支持你們的技術(shù)需求?

田力:我們做W4 Pro是想嘗試開放式耳機設(shè)計,有些用戶覺得這種設(shè)計長時間佩戴更舒適。其次,我們希望在上面展現(xiàn)更好的技術(shù),比如三麥克風(fēng)陣列算法,形成更強的降噪效果。

這對我們的場景非常關(guān)鍵,因為兩個人各戴一個耳機交流時,我的聲音很容易串到你的耳機里。普通耳機場景不存在這個問題,因為人們通常不會在旁邊有人說話時打電話。但我們的產(chǎn)品恰恰是兩個人戴著耳機互相對話,兩個耳機都在收音。

我們必須屏蔽掉對方的聲音,只收集佩戴者的聲音。普通耳機很難做到這一點。而且我們對聲音質(zhì)量的要求更高,因為這個聲音最終要給機器識別并翻譯。機器對錯誤的容忍度比人耳低,因為人有大腦可以自行腦補。所以我們使用三麥克風(fēng)和更先進的技術(shù)來更好地屏蔽周圍聲音,包括對話對象的聲音。

從挫折中重生

潘亂:新聞聯(lián)播報道提到2019年時空壺面臨重大挫折。你們的復(fù)盤結(jié)果是什么,之后做了哪些調(diào)整?

田力:這像是技術(shù)拼圖。就像大疆要實現(xiàn)航拍,先要做飛控,然后是遠程圖傳系統(tǒng),再到自己做攝像頭、云臺等,一點點拼成完整技術(shù)鏈條。

我們也是如此。當(dāng)你戴上我們的耳機時,從錄音到傳輸?shù)皆贫颂幚碓俜祷囟鷻C,整個過程延遲要控制在幾百毫秒內(nèi),是一個完整技術(shù)鏈條。翻譯部分主要在云端,包含語音識別、機器翻譯、語音合成三個步驟。

2019-2020年時,我們沒有能力自己做這些AI引擎,因為燒錢且有些是“重復(fù)造輪子”。我們與翻譯引擎的關(guān)系像滴滴與地圖的關(guān)系—滴滴需要地圖,但不必從創(chuàng)業(yè)第一天就自己做地圖。當(dāng)時幾乎所有互聯(lián)網(wǎng)公司都做翻譯和識別,而且差別不大,成本也低。

所以我們更關(guān)注當(dāng)時業(yè)界未解決的問題—真正沉浸式的交流場景,而翻譯只是整個過程中的一個環(huán)節(jié)。直到最近我們才開始自己做引擎。

差異化競爭優(yōu)勢

潘亂:蘋果為AirPods增加了實時翻譯功能,科大訊飛也推出支持40多種語言的翻譯耳機。時空壺與它們相比有何獨特之處?為什么這些擁有強大語音識別和AI技術(shù)的公司不能簡單復(fù)制你們的雙向同聲傳譯能力?

田力:最初他們可能看不上這個市場。我們?yōu)榱私鉀Q通信問題,犧牲了聽音樂功能。這部分是技術(shù)限制,也是戰(zhàn)略決策。我們希望消費者把我們的產(chǎn)品視為可穿戴的翻譯設(shè)備,而不是能翻譯的音樂耳機。

其實早在2018-2019年,谷歌的Pixel Buds配合Pixel手機已能進行翻譯,但交流方式是戴耳機的人把手機湊到對方面前,像采訪一樣。對陌生人來說挺尷尬的。

我們與大公司相比的最大優(yōu)勢是專注。這是我們看好但別人不看好的領(lǐng)域,我們投入大量精力、技術(shù)和know-how,形成了今天的壁壘。但必須承認,創(chuàng)業(yè)公司的壁壘大多是動態(tài)的,不是靜態(tài)的。就像特斯拉如果停止創(chuàng)新,其他公司可能三年內(nèi)就能追上。

我們的領(lǐng)先窗口期可能只有半年。我們的優(yōu)勢是在這個領(lǐng)域的專注積累,以及解決通信技術(shù)、降噪技術(shù)上的突破。這些技術(shù)是為特定交流場景服務(wù)的,不一定適用于其他領(lǐng)域。

用戶體驗與場景拓展

潘亂:讓陌生人愿意戴耳機交流有難度。你有沒有想過開發(fā)不需要對方佩戴但仍可轉(zhuǎn)化為語音的產(chǎn)品形式?

田力:耳機對我們來說不是最重要的,重要的是場景。我們希望提供自由、沉浸式的跨語言交流體驗。

很顯然,在路上隨便問路這種簡單交流,給陌生人分享耳機不方便。所以我們最初設(shè)計就明確,這不是為所有場景設(shè)計的產(chǎn)品。

人類交流在時間、空間和對象上非常多元豐富。今天我們一對一交流是一種場景;爬山時遇到背包客想邊走邊聊是另一種場景;開會時一對多又是另一種場景...這是一個排列組合的網(wǎng)絡(luò),我們目前只解決了其中一個點。

我們有其他模式,比如我戴耳機通過外設(shè)收音,適合聽會為主不需要交流的場景;或者通過手機外放讓對方聽到翻譯,交流不那么自由但更簡便。

至于不需要對方佩戴的交流方式,我們在研究。眼鏡可以快速看到翻譯結(jié)果,但對方是否有眼鏡?除非全世界都有你的眼鏡,這需要難以想象的市場占有率。

全球反饋與獨特使用案例

潘亂:你們的產(chǎn)品已銷往170多個國家,有哪些使用方式讓你印象深刻?

田力:因為我們在無人區(qū)探索,看到的風(fēng)景總是不一樣的。最初我們以為產(chǎn)品主要用于旅行,但發(fā)現(xiàn)很多意想不到的使用方式。

舉兩個例子:在英國,家長買我們的產(chǎn)品與孩子練習(xí)外語。比如,中國家長英語不好但想和孩子練習(xí),他們接孩子放學(xué)路上,家長戴一只耳機說中文“我們?nèi)コ邪伞?,孩子戴另一只聽到“Let's go to supermarket”,可以用英語回答。普通翻譯APP也能做,但沒有這種沉浸感。

另一個是美國一個教堂的神父。他的教堂有講西班牙語的墨西哥信眾,他本會說西班牙語,但要做兩次禮拜,一次英語一次西班牙語。他用我們的產(chǎn)品,讓墨西哥信眾戴耳機,自己用英語布道,聽不懂英語的人戴耳機聽西班牙語。神父反饋說:“上帝要愛世人,你們的產(chǎn)品幫助我們把不同族裔的人聚在一起(bring people together)。”這正好對應(yīng)圣經(jīng)中巴別塔的故事—上帝讓人類說不同語言使他們無法合作。

這些使用方式表明,人們渴望更親密的關(guān)系,渴望更自然的交流狀態(tài),超越了翻譯技術(shù)本身。

潘亂:你們的產(chǎn)品能用于跨國戀愛或家庭交流嗎?

田力:這是很經(jīng)典的使用場景,尤其在美國和歐洲。今年1月在美國時,我約了一位用戶吃飯,他是拉斯維加斯曼達里灣酒店的調(diào)酒師,在哥倫比亞有個女朋友。他們語言不通,有時她來美國找他,有時他去哥倫比亞。他們用我們的產(chǎn)品交流。

還有使用場景是與外國親屬溝通。比如與岳父母交流,過去總要讓配偶充當(dāng)翻譯,現(xiàn)在可以直接交流,建立更好的關(guān)系。所有這些都指向一件事:更好的人際關(guān)系。

AI與翻譯技術(shù)進化

潘亂:你們的產(chǎn)品支持40種語言和93種口音,準確率達95-96%。哪些語言最難準確翻譯,你們?nèi)绾魏饬糠g的“準確性”?

田力:翻譯不存在絕對的準確性問題。有人說“翻譯是遺憾的藝術(shù)”,因為你永遠不能完全理解一個民族的思想。語言背后是文化、是文明的思考,中英文有很多無法完全準確還原的內(nèi)容。

一般來說,中英德日法西這些大語種翻譯準確率相對較高。小語種如印尼語、馬來語,甚至阿拉伯語(雖不算小語種)的識別和翻譯準確率都不高。

部分原因是語言結(jié)構(gòu)不同,但很大原因是這些語言為主的國家在AI投入和人才密集度較低。阿拉伯世界在AI上的投入、積累的數(shù)據(jù)比中美差很遠?;A(chǔ)設(shè)施差一點,使用體驗就會與中英文翻譯相距甚遠。

這也是我們在研究的方向—大廠關(guān)注的大語種之外,很多角落被遺忘,但實際痛點依然存在。

潘亂:在翻譯過程中,如何處理語氣詞、停頓詞、重復(fù)詞?

田力:這涉及直譯和意譯的區(qū)別。絕大多數(shù)情況下人們需要的是意譯。所以語氣詞等是否保留取決于目的—有人希望保留因為它表達了情緒,而不僅是把口語表達變成新聞稿。

大模型時代的翻譯正逐漸從直譯向意譯進化,這更符合人類表達習(xí)慣,尤其對口語化溝通更有價值。

大模型時代的翻譯革命

潘亂:用戶反饋中提到翻譯錯誤、語種不全、延遲高、易掉線等問題。大型語言模型的出現(xiàn)會如何改變這些問題?

田力:首先討論“快”(延遲)和“準”(準確率)。關(guān)于延遲,我們需要理解體驗變化—從過去按住說完放開等翻譯的交替?zhèn)髯g,到現(xiàn)在邊說邊聽到翻譯的同聲傳譯,用戶感知的延遲概念已經(jīng)變了。

現(xiàn)在的挑戰(zhàn)不是說完一句話到翻譯出來的延遲,而是開始說話到開始翻譯的延遲。對人類同傳譯員的要求是兩三秒內(nèi)開始翻譯,無論句子多長,這要求更高。

關(guān)于準確率,大模型時代確實有顯著改善。它更容易理解真實意思,而不是逐字直譯。它能去掉廢話語氣詞,糾正語法錯誤,使表達更清晰。

潘亂:與傳統(tǒng)生硬翻譯相比,時空壺結(jié)合大模型的翻譯有何改進?

田力:這就像人類頂級同傳譯員的能力。一個頂級譯員能在你開始說話后兩三秒內(nèi)開始翻譯,即使你的句子很長或有轉(zhuǎn)折。

他們?nèi)绾巫龅??首先會提前了解會議主題背景,分析講話主旨。他們能從上下文理解避免低級錯誤—比如在金融論壇,如果聽到“披薩”一詞可能會自動忽略或糾正,因為背景是金融概念。

他們關(guān)注的是傳達概念而非逐字翻譯。這正是大模型時代AI能做到的—更深刻理解主旨,這是我們正在做的。

潘亂:時空壺開發(fā)的Babel OS系統(tǒng)是業(yè)界首個AI同傳翻譯大模型,它與通用大模型在翻譯場景下有何專業(yè)優(yōu)勢?

田力:我們的Babel OS不僅是語言模型,而是包含整套技術(shù)的系統(tǒng)。它服務(wù)于完整交流場景,包含翻譯引擎和前端技術(shù)。

在大模型時代,最直接的變化是在“快”和“準”兩方面。從技術(shù)角度,過去是從識別到翻譯到語音合成的級聯(lián)式模型,現(xiàn)在大模型正向端到端模型發(fā)展—中文語音進,英文語音出(speech to speech translation)。

這像是多語言精通者的思維方式—不是先翻譯再理解,而是直接理解后用另一種語言表達。當(dāng)AI通過這種方式處理時,能更精準傳達意思。

此外,當(dāng)一個模型處理多種語言時,可以利用語言間的相通性,提高效率和準確率。當(dāng)然,即使是OpenAI、微軟、谷歌也難以覆蓋所有語種(全球有4000多種定義語言)。我們可以在某些小語種發(fā)揮優(yōu)勢,大語種則采用大公司已做好的部分。從終極角度看,翻譯能力不可能被一家公司壟斷,一定是博采眾長的過程。

翻譯技術(shù)的分級標(biāo)準

潘亂:現(xiàn)在很多產(chǎn)品宣稱能實現(xiàn)實時翻譯,但它們之間有何區(qū)別?可以定量分析嗎?

田力:我們現(xiàn)在自己有時會拿自動駕駛作參照物,就比方自動駕駛的分級,你看它是從 L1 到L5,那我們其實也同樣可以對標(biāo)。比方說什么是L1?就是當(dāng)年大家拿一個電子詞典,或者一個手機 APP 去打字給對方看的翻譯,這是一個文本翻譯,它的效率是最低的。然后到了進化到 L2 的時代的時候,它更像是接近于那種終于可以從逐字逐句的翻譯變成我說話,他幫我語音的翻譯了。

我們給自己定義成我們當(dāng)前處于 L3,就是類似于那種語音的同傳翻譯,比方說我邊說你會邊聽到,而且你也可以就是雙向同傳的這種交流,正常的交流不會變成了我說話的時候你就被禁言了,你想補充一個什么事兒想說就說,想停就停。所以 L3 我們定義是類似于語音同傳的這種翻譯,這是我們現(xiàn)在能做到的事兒,但這個還僅僅只是在翻譯的交互模式上的一個進化。

L3 到 L4 的本質(zhì)的最大的區(qū)別是在于從直譯到意譯的質(zhì)變。L4 可能就能從捕捉你的聲音的語氣、情緒的很多東西,包括你的意思的一些真實的表達的意圖的東西,和人類的水平是同樣了。L3 可能只能說你接近于人,但是 L4 你就能達到和人的水平是一致了。比方說你說話時是疑問的,是質(zhì)問的、是憤怒的還是愉悅的,都可以在翻譯過程中把這個結(jié)果進行修正。很多個性化的表達,習(xí)慣性的表達,很多的專業(yè)術(shù)語都能在 L4 這個檔位得到解決,也就是說它就可以等同于人類頂尖語言的水平。

L5就是超越人類的水平了。超越人類水平就是什么呢?它可以在一個多模態(tài)的層面上去觀察你想要表達的意思,比方說現(xiàn)在大家還是基于你說話的信息,但未來可能是你的表情,你的過去的積累的一些你的溝通習(xí)慣,這些東西就相當(dāng)于你真的是有了一個私人秘書,對你“察言觀色”,理解你說話的“弦外之音”,甚至可以替你發(fā)言。

端側(cè)AI的未來

潘亂:考慮到網(wǎng)絡(luò)環(huán)境和隱私顧慮,你們是否計劃將翻譯處理從云端轉(zhuǎn)移到設(shè)備本地?

田力:這非常重要。由于網(wǎng)絡(luò)不穩(wěn)定和隱私需求,對端側(cè)處理的需求越來越大。我們正在開發(fā)端側(cè)方案,雖然有算力限制導(dǎo)致翻譯能力弱化的權(quán)衡。

人的交流對實時性要求非常高。網(wǎng)絡(luò)不好時,用戶會焦慮,甚至導(dǎo)致交流中斷。所以端側(cè)模型勢在必行。我們正研究如何用僅有過去1%參數(shù)量的模型在終端設(shè)備上實現(xiàn)翻譯體驗。大概今年下半年會發(fā)布相關(guān)消息。

未來展望

潘亂:耳機是一個自然的起點,但肯定不是跨語言交流的唯一解決方案。你們已經(jīng)推出了X1語音翻譯機等非耳機產(chǎn)品,未來還計劃開發(fā)哪些非耳機產(chǎn)品?針對不同的使用場景(例如旅游、會議、工廠、學(xué)校等),你對擴展到耳機之外的其他形態(tài)有什么愿景?

田力:無論是耳機還是其他形態(tài),都只是一種介質(zhì)(手段),不是目的。我們的目標(biāo)是讓不同場景中的人們能自然無障礙地交流。

介質(zhì)可能是眼鏡、領(lǐng)夾式麥克風(fēng)、手表或純軟件(我們也有純軟件產(chǎn)品)。重要的是在特定場景下讓交流舒適自然。

比如X1的演講模式,臺下觀眾不需要我們的硬件產(chǎn)品,只需手機掃碼就能聽到自己語言的翻譯。這不會增加我們的硬件銷量,但能創(chuàng)造更好的體驗,讓人們眼睛一亮:“我終于能聽懂你說什么了!”

我們的終極目標(biāo)始終是做出現(xiàn)實版的“巴別魚”,在此過程中會嘗試各種形態(tài)。

潘亂:感覺你是一個非常謹慎的創(chuàng)業(yè)者,會把很多問題都前置思考,然后再去做決定,這會不會讓你在這個速度上產(chǎn)生一些問題?你怎么平衡這個事情的?

田力:這個問題其實你會發(fā)現(xiàn)其實它是一個雙向的,一方面我們確實是在做一個無人區(qū)的探索,但另一方面你也感覺到好像我們對這個事又比較謹慎。在你看來這兩個是矛盾的,但其實在我看起來它不算矛盾,是因為你本來就是在做一個新的東西,那新的東西你確實就要想清楚你到底在服務(wù)什么樣的人群,而不是擴大化的事情。

我們是希望你真的有需求的時候找我們,因為這個時候你的產(chǎn)品的方向,你的該迭代的東西,你才會看的更清楚。我覺得這個其實并不影響我們在往前進的速度,只不過我們要清晰的認知到現(xiàn)在的產(chǎn)品,在我的心目中,現(xiàn)在可能還沒有達到那種理想的狀態(tài),還沒有達到那種真正的像科幻里邊那種,是一個珠穆朗瑪峰的東西。我們現(xiàn)在可能只是還達不到這個 8,800 多米的高度,我可能還在五六千米的位置,還在往上攀登,但是我們的慶幸之處在于,當(dāng)我爬到五六千米的時候,其實已經(jīng)能滿足相當(dāng)一部分人他的需求了,只是 8,000 多米的時候,是一個任何人都能感受到你這個產(chǎn)品魅力的時候,都能解決他的問題的時候。

潘亂:你給時空壺的產(chǎn)品打多少分?什么會代表“100分產(chǎn)品”?你覺得8 千米那時候是一個什么樣的產(chǎn)品形態(tài)?

田力:從產(chǎn)品適用范圍和細節(jié)改善角度,我給70分。這不是說質(zhì)量有問題,而是我們還不能解決所有語言障礙。語言障礙非常多,是個多維矩陣,我們只解決了一點點。

未來隨著AI模型進化,能更好傳遞意圖、情緒,體驗細節(jié)更實時、延遲更短,AI總結(jié)能讓交流更及時,就像從L3到L4自動駕駛,L3還需要人接管,L4就不用總是操心了。

那如果說到8,000米理想的狀態(tài),理想狀態(tài)就是巴別魚—戴在耳朵里的設(shè)備,讓你不再擔(dān)心語言障礙。第一天就能看到遠方的大洋,但需要哪條河流能到達,你不知道,只知道一直向那個方向走。

潘亂:如果不考慮當(dāng)前技術(shù)限制,你認為語言翻譯的終極形態(tài)是什么?

田力:我經(jīng)常問新同事:“30年后翻譯產(chǎn)品會變成什么樣?”有人說是腦機接口,如三體人用腦電波交流;有人提到《黑鏡》里的隱形眼鏡;《流浪地球》里吳京與俄羅斯人交流時各戴一個耳機。

郭帆導(dǎo)演曾在節(jié)目中用過我們的耳機,調(diào)侃說:現(xiàn)在科幻電影不好拍,還沒拍完,產(chǎn)品先做出來了。

終極狀態(tài)是你感受不到它的存在,像空氣一般無感。它可能在不同場景有不同形態(tài)—銀行或醫(yī)院里的固定裝置,戶外則是便攜設(shè)備。形態(tài)一定是多元化的。

最終這些分支是否會閉合成統(tǒng)一形態(tài)?

這是非常有趣的問題??凑麄€產(chǎn)業(yè)的進化史會很有意思。我們希望活到那一天,成為基礎(chǔ)設(shè)施提供者之一。那時人們不再擔(dān)心語言障礙,像基礎(chǔ)設(shè)施一樣隨處可用,我們希望成為其中最重要的玩家之一。

結(jié)語

潘亂:在這個充滿不確定性的世界,語言障礙仍是人類連接的最大挑戰(zhàn)之一。時空壺正用科技力量打破這一障礙,讓我們距離科幻小說中描繪的無障礙交流未來更近一步。期待有朝一日,語言不再是人類溝通的障礙,希望時空壺能加速這一天的到來。

田力:謝謝。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
辦公室不雅行為!攝像頭忘關(guān)視頻曝光,這些人把“體面”丟了一地

辦公室不雅行為!攝像頭忘關(guān)視頻曝光,這些人把“體面”丟了一地

就一點
2026-03-29 00:19:23
人口告別世界第一?二孩催生無效后,國家終于向住房出手了

人口告別世界第一?二孩催生無效后,國家終于向住房出手了

豬小艷吖
2026-03-16 19:59:46
5億美元就這么沒了,美軍一架E3預(yù)警機被伊朗導(dǎo)彈摧毀

5億美元就這么沒了,美軍一架E3預(yù)警機被伊朗導(dǎo)彈摧毀

三叔的裝備空間
2026-03-29 11:21:47
很多人只看到了"老頭樂起訴小米"的荒誕感,卻沒看到雷軍不敢戀戰(zhàn)背后的“惶恐”

很多人只看到了"老頭樂起訴小米"的荒誕感,卻沒看到雷軍不敢戀戰(zhàn)背后的“惶恐”

新浪財經(jīng)
2026-03-28 00:31:15
周一,將有一只“高中簽率”可申購

周一,將有一只“高中簽率”可申購

新浪財經(jīng)
2026-03-29 17:50:06
江淮做夢都想不到,自己做成中國的賓利,100萬一輛還供不應(yīng)求

江淮做夢都想不到,自己做成中國的賓利,100萬一輛還供不應(yīng)求

財經(jīng)老莊
2026-03-27 18:40:20
登場14戰(zhàn)全勝鎖西部第一!布朗尼26+7+6三分:連續(xù)4天鏖戰(zhàn)太硬了

登場14戰(zhàn)全勝鎖西部第一!布朗尼26+7+6三分:連續(xù)4天鏖戰(zhàn)太硬了

顏小白的籃球夢
2026-03-29 12:50:32
江浙滬人對青菜的執(zhí)念火了!網(wǎng)友:我們這兒,只認這一種叫青菜?

江浙滬人對青菜的執(zhí)念火了!網(wǎng)友:我們這兒,只認這一種叫青菜?

房產(chǎn)衫哥
2026-03-29 08:33:50
比賴清德更狂的人出現(xiàn)了,如果她當(dāng)臺灣地區(qū)領(lǐng)導(dǎo)人,我軍該怎么辦

比賴清德更狂的人出現(xiàn)了,如果她當(dāng)臺灣地區(qū)領(lǐng)導(dǎo)人,我軍該怎么辦

聽風(fēng)喃
2026-03-27 17:40:05
沈南落淚回憶送別張雪峰,遺體告別時張母扛不住,全場親友大哭

沈南落淚回憶送別張雪峰,遺體告別時張母扛不住,全場親友大哭

國際阿嘗
2026-03-29 15:55:51
乘風(fēng)2026官宣:無人氣擔(dān)當(dāng),甄嬛姐妹相會,范瑋琪或是爭議焦點

乘風(fēng)2026官宣:無人氣擔(dān)當(dāng),甄嬛姐妹相會,范瑋琪或是爭議焦點

李守智
2026-03-29 10:47:19
今天南北經(jīng)濟的失衡,達到了歷史上最嚴重的時期。

今天南北經(jīng)濟的失衡,達到了歷史上最嚴重的時期。

流蘇晚晴
2026-03-28 13:37:46
“特朗普被內(nèi)塔尼亞胡坑了”,萬斯把鍋甩得這么響 | 京釀館

“特朗普被內(nèi)塔尼亞胡坑了”,萬斯把鍋甩得這么響 | 京釀館

新京報
2026-03-28 19:39:38
復(fù)婚二胎傳聞落定七月,趙麗穎近況曝光讓人揪心

復(fù)婚二胎傳聞落定七月,趙麗穎近況曝光讓人揪心

阿廢冷眼觀察所
2026-03-29 18:46:36
詹姆斯或小卡!曝勇士預(yù)計全力追兩大巨星 為庫里時代畫圓滿句號

詹姆斯或小卡!曝勇士預(yù)計全力追兩大巨星 為庫里時代畫圓滿句號

羅說NBA
2026-03-29 05:44:18
83分耗盡畢生運氣!阿德巴約近三場狀態(tài)慘淡,50投僅得49分!

83分耗盡畢生運氣!阿德巴約近三場狀態(tài)慘淡,50投僅得49分!

田先生籃球
2026-03-28 20:36:33
終于有了結(jié)果,曾醫(yī)生能保住醫(yī)院的工作,最應(yīng)該感謝的三位貴人!

終于有了結(jié)果,曾醫(yī)生能保住醫(yī)院的工作,最應(yīng)該感謝的三位貴人!

凌風(fēng)的世界觀
2025-11-14 08:38:31
為什么要加入CPTPP?啃不下這6塊硬骨頭,未來中國可能會很難!

為什么要加入CPTPP?啃不下這6塊硬骨頭,未來中國可能會很難!

世界圈
2026-03-28 12:25:46
退休以后,提醒大家:盡量別讓任何人知道你的狀態(tài),尤其這5件事

退休以后,提醒大家:盡量別讓任何人知道你的狀態(tài),尤其這5件事

小談食刻美食
2026-03-28 09:42:18
江浙滬人說“難吃”有多委婉?網(wǎng)友:吃不來 應(yīng)該好吃 但沒學(xué)會吃

江浙滬人說“難吃”有多委婉?網(wǎng)友:吃不來 應(yīng)該好吃 但沒學(xué)會吃

墻頭草
2026-03-29 13:32:42
2026-03-29 20:51:00
亂翻書 incentive-icons
亂翻書
研究公司興衰的循環(huán)
254文章數(shù) 1010關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

中國警告美國:勿將"沖突戰(zhàn)亂"引入亞太地區(qū)

頭條要聞

中國警告美國:勿將"沖突戰(zhàn)亂"引入亞太地區(qū)

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

游戲
時尚
家居
教育
軍事航空

PS6硬件成本曝光!比PS5貴50%以上:你會買嗎?

伊姐周日熱推:電視劇《冬去春來》;電視劇《你是遲來的歡喜》......

家居要聞

曲線華爾茲 現(xiàn)代簡約

教育要聞

1分鐘學(xué)會不規(guī)則圖形的面積計算方法!

軍事要聞

美兩棲攻擊艦載3500名增援到達

無障礙瀏覽 進入關(guān)懷版