国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話時空壺田力:當AI遇上同傳,建造跨語言溝通的巴別塔

0
分享至

電影《銀河系漫游指南》中的巴別魚

科幻小說《銀河系漫游指南》里面有種叫巴別魚的生物,可以突破傳統(tǒng)翻譯工具的物理限制,通過解析腦電波實現(xiàn)跨物種語言的即時互譯。這個看似遙不可及的幻想,如今在深圳一家名為時空壺的公司手中,正逐步走向現(xiàn)實。

時空壺是全球首創(chuàng)AI同傳翻譯耳機的公司,他們正在用技術(shù)打破人類之間的語言壁壘,讓跨語言交流變得如同說同一種母語一樣自然。從2016年創(chuàng)立至今,他們的產(chǎn)品已銷往全球170多個國家,并且在北美市場占據(jù)了40%的份額,用戶突破百萬。今年初,中國海關(guān)總署甚至將時空湖的W4 Pro同傳翻譯耳機作為中國從“制造”到“智造”轉(zhuǎn)型的代表展示給全世界。

隨著大模型技術(shù)的發(fā)展,AI翻譯正從簡單的“直譯”進化為理解語境、把握情感的"意譯"。年初在拉斯維加斯舉辦的消費電子展(CES)上,時空壺發(fā)布了翻譯行業(yè)的首個人工智能同聲傳譯系統(tǒng)Timekettle Babel OS (The Road to Babel Fish 通往巴別魚之路),首次將大語言模型作為AI翻譯的底層能力,打造逼近母語的自然交流體驗,賦能時空壺各終端硬件和軟件應(yīng)用。

其中“Babel”在希伯來語中的原意是“混亂”。《圣經(jīng)》中有一個“巴別塔”(Tower of Babel)的故事。根據(jù)這個故事,人類原本說同一種語言,并試圖建造一座通天塔。上帝為了阻止這一計劃,讓人類說不同的語言,相互無法理解,從而使塔無法完成。

在跟時空壺創(chuàng)始人田力的對話中,他提到當美國一位牧師使用時空壺的產(chǎn)品讓說不同語言的教徒能在同一次禮拜中交流時,牧師感嘆道:“上帝要愛世人,但是你們這個產(chǎn)品幫助我們把不同的族裔的人聚在了一起……宗教還沒做到這一點,科技產(chǎn)品幫我們做到這一點。”

在一個日益全球化但語言障礙依然存在的世界,科技能否真正打破人類交流的最后屏障?我跟田力探討了時空壺面臨和克服的技術(shù)挑戰(zhàn):從雙向收音的藍牙通信難題,到無需喚醒詞的語音識別,再到真正意義上的雙向同聲傳譯。時空壺的技術(shù)壁壘到底在哪里?為什么連蘋果、科大訊飛這樣的科技巨頭也難以復(fù)制他們的核心功能?在AI時代,語言翻譯技術(shù)的未來在哪里?

存在于科幻小說中的“巴別魚”如何在現(xiàn)實中逐步成形,以及它將如何改變我們理解與交流的方式,這是本期播客的主要內(nèi)容。

以下為節(jié)選。

品牌淵源與科幻DNA

潘亂:“時空壺”這個名字聽起來像科幻小說中的裝置,它有什么來源或典故嗎?

田力:這個淵源很有意思。我是科幻迷,最喜歡的作家之一是阿西莫夫。他有本被譽為歷史上最偉大的中篇科幻之一《永恒的終結(jié)》,里面有個懸浮在空中的時間機器叫”時空壺”。我們公司前臺就做了這么一個裝置,公司名字就這么來的。

潘亂:貝佐斯曾表示《星際迷航》影響了Alexa的設(shè)計,馬斯克則稱《銀河系漫游指南》啟發(fā)了他的太空探索。我看你們公司會議室也都是用科幻元素的名字命名的,時空壺還有哪些元素是直接從科幻作品中獲得靈感的?

田力:我們的會議室都是以著名科幻作家或作品命名的。我們現(xiàn)在所在的會議室叫“三體”。我們即將建設(shè)的聲學實驗室很可能會叫“42實驗室”,取自《銀河系漫游指南》中“宇宙的終極答案”。

還有一個會議室叫“巴別魚”,也來自《銀河系漫游指南》。主角在宇宙飛船上聽不懂外星人說話,就塞了一只魚在耳朵里,就能聽懂外星人說話。這個形象在英美國家非常深入人心,知名度接近西游記在中國的地位。

在科幻世界中,翻譯設(shè)備的想象有兩個著名IP:一個是巴別魚,另一個是《星際迷航》里的宇宙翻譯器。這些科幻作品對我們的產(chǎn)品開發(fā)有天然的啟發(fā)。

創(chuàng)業(yè)初心與技術(shù)突破

潘亂:你大概是什么樣的從業(yè)背景,為什么會想到創(chuàng)業(yè)做AI同傳耳機這個方向?

田力:我并沒有一開始就想做這件事。我的性格比較喜歡折騰,不太喜歡做同質(zhì)化的事情。我從上一家硬件創(chuàng)業(yè)公司出來后,因為之前的工作關(guān)系,認識了很多AI公司的人,包括微軟、谷歌、科大訊飛等。

創(chuàng)業(yè)的契機源于三件事:

  • 第一,當時我意識到2016年左右AI技術(shù)有了重大突破,但很多公司在做AI To B,做解決方案和項目,最后變成了軟件項目外包公司。很少有公司能做出產(chǎn)品讓普通消費者感受到AI的價值。

  • 第二,我父母去歐洲旅游時,雖然我給他們下載了很多翻譯APP,但他們回來說連去便利店買水的勇氣都沒有。我媽媽在阿爾卑斯山突發(fā)高原反應(yīng),但無法與說法語的醫(yī)生交流。他們覺得拿著手機那種尷尬的姿勢交流不符合習慣。

  • 第三,我在深圳高交會親自嘗試用翻譯APP與外國展商交流,發(fā)現(xiàn)實際效果很差。需要按住說話、松開翻譯,對方要看屏幕,反應(yīng)遲鈍,還容易錯過對方的開頭幾句話。很難堅持超過一分鐘的交流。

這讓我認識到,雖然AI翻譯技術(shù)已經(jīng)較為成熟,但在現(xiàn)實中兩個不同語言的人很難像朋友聊天一樣自然交流。問題不在于翻譯技術(shù)本身,而是需要創(chuàng)造一個讓人們愿意交流的場景。

潘亂:你曾是華為中國區(qū)最年輕的金牌個人獲獎?wù)?,華為工作經(jīng)歷對你有什么幫助?

田力:華為對我是從0到1的歷練。它在中國可能是管理最好的公司,沒有之一。在華為我做市場工作,雖然學的是工科。華為教會我基本素養(yǎng)和思維方式的轉(zhuǎn)變。比如,做一個好的銷售,首先是利他而非利己的,需要關(guān)心對方的感受,理解對方的價值點。華為也教會我職業(yè)素養(yǎng)、如何與上下級同事合作、如何交付等基本訓練。

開拓新品類的挑戰(zhàn)與思考

潘亂:時空壺最近被《新聞聯(lián)播》深度報道了近四分鐘,這是很有含金量的認可。中國海關(guān)總署也認可它為代表中國從“制造”到“智能制造”轉(zhuǎn)型的典范。你如何看待中國在全球AI硬件行業(yè)中的地位演變,像時空壺這樣的公司能扮演什么角色?

田力:首先感謝CCTV和海關(guān)領(lǐng)導(dǎo)的認可。我們對自己定位很清晰,我們是產(chǎn)品公司,是小公司,在這個大潮中只是一朵小浪花,但努力成為“弄潮兒”。

從我的角度看,中國的基礎(chǔ)設(shè)施、技術(shù)和信息流動,已經(jīng)讓深圳的創(chuàng)業(yè)者,或中國任何角落的創(chuàng)業(yè)者能夠共享全球資源和視野。我們站在巨人肩膀上,以前是谷歌、微軟、科大訊飛,今天則是OpenAI、DeepSeek等。

就像從哈勃到韋伯望遠鏡,是有遞進關(guān)系的。我們享受了基礎(chǔ)設(shè)施的便利,包括物理和信息層面的,開發(fā)時可以利用大家的經(jīng)驗和教訓。

潘亂:為什么這波AI硬件公司大多聚集在深圳?

田力:硬件這塊主要是產(chǎn)業(yè)鏈便利。在深圳,打車半小時就能到達很多上下游合作伙伴,有很多交流活動。比如韶音在我們旁邊,大疆在15分鐘車程內(nèi),還有很多優(yōu)秀硬件公司都在附近,方便交流。

上游如東莞、惠州有很多工廠,非常開放,即使我們是小公司,他們也愿意嘗試合作。我們第一代產(chǎn)品就是在一家上市公司的幾千人工廠生產(chǎn)的,很感謝他們。

深圳還有很多方案商,這在其他地方可能不是特色。想做產(chǎn)品時,不需要從零開始思考用什么芯片,而是可以找方案商,他們像導(dǎo)師一樣幫你完成市場認知建立、技術(shù)方案選擇、芯片選型等全流程,幾乎可以“拎包入駐”。

潘亂:作為新品類的開創(chuàng)者,時空壺最大的優(yōu)勢是什么?在沒有成熟市場參照的情況下,你如何判斷產(chǎn)品方向的正確性?

田力:正因為我們是新品類的開拓者,在無人區(qū)行走,就像發(fā)現(xiàn)新大陸一樣有先發(fā)優(yōu)勢。前提是你沒有“死在沙灘上”,而是真的登陸了。

關(guān)于如何判斷方向正確性,實事求是地說,最初我們并不確定。我們的第一代產(chǎn)品設(shè)計——兩個人各戴一只耳機交流——當時有很大爭議。大家認為陌生人很難接受這種方式。

但我們決定先做出我們設(shè)想中的體驗,再檢驗市場接受度。即使只有少部分人接受,只要他們的體驗被顛覆,那這個無人區(qū)的探索就算階段性成功。然后通過與用戶深度交流,發(fā)現(xiàn)產(chǎn)品問題,進一步改進。

我們的終極目標很清晰:就是讓人們像我們現(xiàn)在這樣自然交流。蘋果產(chǎn)品的目標是“disappear”,讓用戶幾乎感覺不到它的存在。我們也一樣,希望最終的體驗不需要規(guī)劃、不需要教育,就像人類上百萬年的自然交流方式——看著對方的眼睛,張口說話,不需要做操作,像朋友一樣聊天。

技術(shù)突破:從無到有的探索

潘亂:“把翻譯軟件塞進藍牙耳機”這事難在哪里?

田力:最初我以為很簡單,找人開發(fā)翻譯軟件,找個藍牙耳機和它結(jié)合就完了。但我找遍了很多方案商,都說做不了。

為什么?我們設(shè)想的場景是兩個人各帶一個耳機進行交流。但標準的藍牙耳機在錄音時只有一只耳機在工作。雖然播放音樂是左右聲道立體聲,但錄音時變成了單通道,像單行道一樣。這就導(dǎo)致兩人各戴一只耳機對話時,只有一人的聲音能被錄進來,給對方戴耳機就沒意義了。

這是我們首先遇到的挑戰(zhàn),是通信技術(shù)問題,而不是AI技術(shù)問題。之前沒有人解決是因為沒有這個需求。過去人們可能會分享耳機聽音樂,但很少有人想分享耳機一起通話。所以從藍牙協(xié)議1.0到現(xiàn)在,一直沒有解決多人錄音的問題。

作為創(chuàng)業(yè)公司,我們本想把現(xiàn)有技術(shù)組合起來,但立刻撞上第一堵墻。在深圳這樣的硬件之都都找不到解決方案,甚至咨詢了高通、海思等芯片廠商的工程師,他們都確認這個問題沒有現(xiàn)成解決方案。

所以我們只能自己搞。雖然公司2016年成立,但真正作為正式項目開始是2017年,第一代產(chǎn)品到2019年才出來。當時我預(yù)計三個月能出產(chǎn)品,結(jié)果搞了一年半才做出來,而且只能算40分的產(chǎn)品。

潘亂:在對話過程中如何確保只收錄我們兩個人的對話,過濾掉背景噪音?

田力:解決了通信問題后,我們面臨的第二個挑戰(zhàn)是語音識別問題。人與人的對話與人機對話不同,不能有喚醒詞。我們需要開發(fā)一套算法,不需要喚醒詞但能檢測說話的開始和結(jié)束。

當時智能音箱流行,都需要喚醒詞。還有耳機可以用“嘿,Siri!”喚醒。但我們的產(chǎn)品不能有喚醒詞,因為這不符合人類交流習慣。

這需要先降噪,然后檢測說話的開始和結(jié)束,專業(yè)術(shù)語叫VAD(Voice Activity Detection))檢測。目的是解放雙手,讓兩個人交流時能自由自在地溝通,不需要每次都點一下按鈕。我們的目標是“想說就說,想停就?!保踔量梢源驍鄬Ψ?,像正常人類交流一樣。

我們解決了通信問題、喚醒問題后,終于達到了兩個人可以相對自在地交流的程度。但那時還是“單向同傳”——我說話你可以邊聽翻譯,但你說話必須等我說完。下一步挑戰(zhàn)是實現(xiàn)兩個人可以同時說話。

W4 Pro的設(shè)計理念

潘亂:時空壺W4 Pro的外觀與普通TWS耳機有明顯區(qū)別,為什么選擇這種形狀?它如何支持你們的技術(shù)需求?

田力:我們做W4 Pro是想嘗試開放式耳機設(shè)計,有些用戶覺得這種設(shè)計長時間佩戴更舒適。其次,我們希望在上面展現(xiàn)更好的技術(shù),比如三麥克風陣列算法,形成更強的降噪效果。

這對我們的場景非常關(guān)鍵,因為兩個人各戴一個耳機交流時,我的聲音很容易串到你的耳機里。普通耳機場景不存在這個問題,因為人們通常不會在旁邊有人說話時打電話。但我們的產(chǎn)品恰恰是兩個人戴著耳機互相對話,兩個耳機都在收音。

我們必須屏蔽掉對方的聲音,只收集佩戴者的聲音。普通耳機很難做到這一點。而且我們對聲音質(zhì)量的要求更高,因為這個聲音最終要給機器識別并翻譯。機器對錯誤的容忍度比人耳低,因為人有大腦可以自行腦補。所以我們使用三麥克風和更先進的技術(shù)來更好地屏蔽周圍聲音,包括對話對象的聲音。

從挫折中重生

潘亂:新聞聯(lián)播報道提到2019年時空壺面臨重大挫折。你們的復(fù)盤結(jié)果是什么,之后做了哪些調(diào)整?

田力:這像是技術(shù)拼圖。就像大疆要實現(xiàn)航拍,先要做飛控,然后是遠程圖傳系統(tǒng),再到自己做攝像頭、云臺等,一點點拼成完整技術(shù)鏈條。

我們也是如此。當你戴上我們的耳機時,從錄音到傳輸?shù)皆贫颂幚碓俜祷囟鷻C,整個過程延遲要控制在幾百毫秒內(nèi),是一個完整技術(shù)鏈條。翻譯部分主要在云端,包含語音識別、機器翻譯、語音合成三個步驟。

2019-2020年時,我們沒有能力自己做這些AI引擎,因為燒錢且有些是“重復(fù)造輪子”。我們與翻譯引擎的關(guān)系像滴滴與地圖的關(guān)系—滴滴需要地圖,但不必從創(chuàng)業(yè)第一天就自己做地圖。當時幾乎所有互聯(lián)網(wǎng)公司都做翻譯和識別,而且差別不大,成本也低。

所以我們更關(guān)注當時業(yè)界未解決的問題—真正沉浸式的交流場景,而翻譯只是整個過程中的一個環(huán)節(jié)。直到最近我們才開始自己做引擎。

差異化競爭優(yōu)勢

潘亂:蘋果為AirPods增加了實時翻譯功能,科大訊飛也推出支持40多種語言的翻譯耳機。時空壺與它們相比有何獨特之處?為什么這些擁有強大語音識別和AI技術(shù)的公司不能簡單復(fù)制你們的雙向同聲傳譯能力?

田力:最初他們可能看不上這個市場。我們?yōu)榱私鉀Q通信問題,犧牲了聽音樂功能。這部分是技術(shù)限制,也是戰(zhàn)略決策。我們希望消費者把我們的產(chǎn)品視為可穿戴的翻譯設(shè)備,而不是能翻譯的音樂耳機。

其實早在2018-2019年,谷歌的Pixel Buds配合Pixel手機已能進行翻譯,但交流方式是戴耳機的人把手機湊到對方面前,像采訪一樣。對陌生人來說挺尷尬的。

我們與大公司相比的最大優(yōu)勢是專注。這是我們看好但別人不看好的領(lǐng)域,我們投入大量精力、技術(shù)和know-how,形成了今天的壁壘。但必須承認,創(chuàng)業(yè)公司的壁壘大多是動態(tài)的,不是靜態(tài)的。就像特斯拉如果停止創(chuàng)新,其他公司可能三年內(nèi)就能追上。

我們的領(lǐng)先窗口期可能只有半年。我們的優(yōu)勢是在這個領(lǐng)域的專注積累,以及解決通信技術(shù)、降噪技術(shù)上的突破。這些技術(shù)是為特定交流場景服務(wù)的,不一定適用于其他領(lǐng)域。

用戶體驗與場景拓展

潘亂:讓陌生人愿意戴耳機交流有難度。你有沒有想過開發(fā)不需要對方佩戴但仍可轉(zhuǎn)化為語音的產(chǎn)品形式?

田力:耳機對我們來說不是最重要的,重要的是場景。我們希望提供自由、沉浸式的跨語言交流體驗。

很顯然,在路上隨便問路這種簡單交流,給陌生人分享耳機不方便。所以我們最初設(shè)計就明確,這不是為所有場景設(shè)計的產(chǎn)品。

人類交流在時間、空間和對象上非常多元豐富。今天我們一對一交流是一種場景;爬山時遇到背包客想邊走邊聊是另一種場景;開會時一對多又是另一種場景...這是一個排列組合的網(wǎng)絡(luò),我們目前只解決了其中一個點。

我們有其他模式,比如我戴耳機通過外設(shè)收音,適合聽會為主不需要交流的場景;或者通過手機外放讓對方聽到翻譯,交流不那么自由但更簡便。

至于不需要對方佩戴的交流方式,我們在研究。眼鏡可以快速看到翻譯結(jié)果,但對方是否有眼鏡?除非全世界都有你的眼鏡,這需要難以想象的市場占有率。

全球反饋與獨特使用案例

潘亂:你們的產(chǎn)品已銷往170多個國家,有哪些使用方式讓你印象深刻?

田力:因為我們在無人區(qū)探索,看到的風景總是不一樣的。最初我們以為產(chǎn)品主要用于旅行,但發(fā)現(xiàn)很多意想不到的使用方式。

舉兩個例子:在英國,家長買我們的產(chǎn)品與孩子練習外語。比如,中國家長英語不好但想和孩子練習,他們接孩子放學路上,家長戴一只耳機說中文“我們?nèi)コ邪伞保⒆哟髁硪恢宦牭健癓et's go to supermarket”,可以用英語回答。普通翻譯APP也能做,但沒有這種沉浸感。

另一個是美國一個教堂的神父。他的教堂有講西班牙語的墨西哥信眾,他本會說西班牙語,但要做兩次禮拜,一次英語一次西班牙語。他用我們的產(chǎn)品,讓墨西哥信眾戴耳機,自己用英語布道,聽不懂英語的人戴耳機聽西班牙語。神父反饋說:“上帝要愛世人,你們的產(chǎn)品幫助我們把不同族裔的人聚在一起(bring people together)?!边@正好對應(yīng)圣經(jīng)中巴別塔的故事—上帝讓人類說不同語言使他們無法合作。

這些使用方式表明,人們渴望更親密的關(guān)系,渴望更自然的交流狀態(tài),超越了翻譯技術(shù)本身。

潘亂:你們的產(chǎn)品能用于跨國戀愛或家庭交流嗎?

田力:這是很經(jīng)典的使用場景,尤其在美國和歐洲。今年1月在美國時,我約了一位用戶吃飯,他是拉斯維加斯曼達里灣酒店的調(diào)酒師,在哥倫比亞有個女朋友。他們語言不通,有時她來美國找他,有時他去哥倫比亞。他們用我們的產(chǎn)品交流。

還有使用場景是與外國親屬溝通。比如與岳父母交流,過去總要讓配偶充當翻譯,現(xiàn)在可以直接交流,建立更好的關(guān)系。所有這些都指向一件事:更好的人際關(guān)系。

AI與翻譯技術(shù)進化

潘亂:你們的產(chǎn)品支持40種語言和93種口音,準確率達95-96%。哪些語言最難準確翻譯,你們?nèi)绾魏饬糠g的“準確性”?

田力:翻譯不存在絕對的準確性問題。有人說“翻譯是遺憾的藝術(shù)”,因為你永遠不能完全理解一個民族的思想。語言背后是文化、是文明的思考,中英文有很多無法完全準確還原的內(nèi)容。

一般來說,中英德日法西這些大語種翻譯準確率相對較高。小語種如印尼語、馬來語,甚至阿拉伯語(雖不算小語種)的識別和翻譯準確率都不高。

部分原因是語言結(jié)構(gòu)不同,但很大原因是這些語言為主的國家在AI投入和人才密集度較低。阿拉伯世界在AI上的投入、積累的數(shù)據(jù)比中美差很遠?;A(chǔ)設(shè)施差一點,使用體驗就會與中英文翻譯相距甚遠。

這也是我們在研究的方向—大廠關(guān)注的大語種之外,很多角落被遺忘,但實際痛點依然存在。

潘亂:在翻譯過程中,如何處理語氣詞、停頓詞、重復(fù)詞?

田力:這涉及直譯和意譯的區(qū)別。絕大多數(shù)情況下人們需要的是意譯。所以語氣詞等是否保留取決于目的—有人希望保留因為它表達了情緒,而不僅是把口語表達變成新聞稿。

大模型時代的翻譯正逐漸從直譯向意譯進化,這更符合人類表達習慣,尤其對口語化溝通更有價值。

大模型時代的翻譯革命

潘亂:用戶反饋中提到翻譯錯誤、語種不全、延遲高、易掉線等問題。大型語言模型的出現(xiàn)會如何改變這些問題?

田力:首先討論“快”(延遲)和“準”(準確率)。關(guān)于延遲,我們需要理解體驗變化—從過去按住說完放開等翻譯的交替?zhèn)髯g,到現(xiàn)在邊說邊聽到翻譯的同聲傳譯,用戶感知的延遲概念已經(jīng)變了。

現(xiàn)在的挑戰(zhàn)不是說完一句話到翻譯出來的延遲,而是開始說話到開始翻譯的延遲。對人類同傳譯員的要求是兩三秒內(nèi)開始翻譯,無論句子多長,這要求更高。

關(guān)于準確率,大模型時代確實有顯著改善。它更容易理解真實意思,而不是逐字直譯。它能去掉廢話語氣詞,糾正語法錯誤,使表達更清晰。

潘亂:與傳統(tǒng)生硬翻譯相比,時空壺結(jié)合大模型的翻譯有何改進?

田力:這就像人類頂級同傳譯員的能力。一個頂級譯員能在你開始說話后兩三秒內(nèi)開始翻譯,即使你的句子很長或有轉(zhuǎn)折。

他們?nèi)绾巫龅??首先會提前了解會議主題背景,分析講話主旨。他們能從上下文理解避免低級錯誤—比如在金融論壇,如果聽到“披薩”一詞可能會自動忽略或糾正,因為背景是金融概念。

他們關(guān)注的是傳達概念而非逐字翻譯。這正是大模型時代AI能做到的—更深刻理解主旨,這是我們正在做的。

潘亂:時空壺開發(fā)的Babel OS系統(tǒng)是業(yè)界首個AI同傳翻譯大模型,它與通用大模型在翻譯場景下有何專業(yè)優(yōu)勢?

田力:我們的Babel OS不僅是語言模型,而是包含整套技術(shù)的系統(tǒng)。它服務(wù)于完整交流場景,包含翻譯引擎和前端技術(shù)。

在大模型時代,最直接的變化是在“快”和“準”兩方面。從技術(shù)角度,過去是從識別到翻譯到語音合成的級聯(lián)式模型,現(xiàn)在大模型正向端到端模型發(fā)展—中文語音進,英文語音出(speech to speech translation)。

這像是多語言精通者的思維方式—不是先翻譯再理解,而是直接理解后用另一種語言表達。當AI通過這種方式處理時,能更精準傳達意思。

此外,當一個模型處理多種語言時,可以利用語言間的相通性,提高效率和準確率。當然,即使是OpenAI、微軟、谷歌也難以覆蓋所有語種(全球有4000多種定義語言)。我們可以在某些小語種發(fā)揮優(yōu)勢,大語種則采用大公司已做好的部分。從終極角度看,翻譯能力不可能被一家公司壟斷,一定是博采眾長的過程。

翻譯技術(shù)的分級標準

潘亂:現(xiàn)在很多產(chǎn)品宣稱能實現(xiàn)實時翻譯,但它們之間有何區(qū)別?可以定量分析嗎?

田力:我們現(xiàn)在自己有時會拿自動駕駛作參照物,就比方自動駕駛的分級,你看它是從 L1 到L5,那我們其實也同樣可以對標。比方說什么是L1?就是當年大家拿一個電子詞典,或者一個手機 APP 去打字給對方看的翻譯,這是一個文本翻譯,它的效率是最低的。然后到了進化到 L2 的時代的時候,它更像是接近于那種終于可以從逐字逐句的翻譯變成我說話,他幫我語音的翻譯了。

我們給自己定義成我們當前處于 L3,就是類似于那種語音的同傳翻譯,比方說我邊說你會邊聽到,而且你也可以就是雙向同傳的這種交流,正常的交流不會變成了我說話的時候你就被禁言了,你想補充一個什么事兒想說就說,想停就停。所以 L3 我們定義是類似于語音同傳的這種翻譯,這是我們現(xiàn)在能做到的事兒,但這個還僅僅只是在翻譯的交互模式上的一個進化。

L3 到 L4 的本質(zhì)的最大的區(qū)別是在于從直譯到意譯的質(zhì)變。L4 可能就能從捕捉你的聲音的語氣、情緒的很多東西,包括你的意思的一些真實的表達的意圖的東西,和人類的水平是同樣了。L3 可能只能說你接近于人,但是 L4 你就能達到和人的水平是一致了。比方說你說話時是疑問的,是質(zhì)問的、是憤怒的還是愉悅的,都可以在翻譯過程中把這個結(jié)果進行修正。很多個性化的表達,習慣性的表達,很多的專業(yè)術(shù)語都能在 L4 這個檔位得到解決,也就是說它就可以等同于人類頂尖語言的水平。

L5就是超越人類的水平了。超越人類水平就是什么呢?它可以在一個多模態(tài)的層面上去觀察你想要表達的意思,比方說現(xiàn)在大家還是基于你說話的信息,但未來可能是你的表情,你的過去的積累的一些你的溝通習慣,這些東西就相當于你真的是有了一個私人秘書,對你“察言觀色”,理解你說話的“弦外之音”,甚至可以替你發(fā)言。

端側(cè)AI的未來

潘亂:考慮到網(wǎng)絡(luò)環(huán)境和隱私顧慮,你們是否計劃將翻譯處理從云端轉(zhuǎn)移到設(shè)備本地?

田力:這非常重要。由于網(wǎng)絡(luò)不穩(wěn)定和隱私需求,對端側(cè)處理的需求越來越大。我們正在開發(fā)端側(cè)方案,雖然有算力限制導(dǎo)致翻譯能力弱化的權(quán)衡。

人的交流對實時性要求非常高。網(wǎng)絡(luò)不好時,用戶會焦慮,甚至導(dǎo)致交流中斷。所以端側(cè)模型勢在必行。我們正研究如何用僅有過去1%參數(shù)量的模型在終端設(shè)備上實現(xiàn)翻譯體驗。大概今年下半年會發(fā)布相關(guān)消息。

未來展望

潘亂:耳機是一個自然的起點,但肯定不是跨語言交流的唯一解決方案。你們已經(jīng)推出了X1語音翻譯機等非耳機產(chǎn)品,未來還計劃開發(fā)哪些非耳機產(chǎn)品?針對不同的使用場景(例如旅游、會議、工廠、學校等),你對擴展到耳機之外的其他形態(tài)有什么愿景?

田力:無論是耳機還是其他形態(tài),都只是一種介質(zhì)(手段),不是目的。我們的目標是讓不同場景中的人們能自然無障礙地交流。

介質(zhì)可能是眼鏡、領(lǐng)夾式麥克風、手表或純軟件(我們也有純軟件產(chǎn)品)。重要的是在特定場景下讓交流舒適自然。

比如X1的演講模式,臺下觀眾不需要我們的硬件產(chǎn)品,只需手機掃碼就能聽到自己語言的翻譯。這不會增加我們的硬件銷量,但能創(chuàng)造更好的體驗,讓人們眼睛一亮:“我終于能聽懂你說什么了!”

我們的終極目標始終是做出現(xiàn)實版的“巴別魚”,在此過程中會嘗試各種形態(tài)。

潘亂:感覺你是一個非常謹慎的創(chuàng)業(yè)者,會把很多問題都前置思考,然后再去做決定,這會不會讓你在這個速度上產(chǎn)生一些問題?你怎么平衡這個事情的?

田力:這個問題其實你會發(fā)現(xiàn)其實它是一個雙向的,一方面我們確實是在做一個無人區(qū)的探索,但另一方面你也感覺到好像我們對這個事又比較謹慎。在你看來這兩個是矛盾的,但其實在我看起來它不算矛盾,是因為你本來就是在做一個新的東西,那新的東西你確實就要想清楚你到底在服務(wù)什么樣的人群,而不是擴大化的事情。

我們是希望你真的有需求的時候找我們,因為這個時候你的產(chǎn)品的方向,你的該迭代的東西,你才會看的更清楚。我覺得這個其實并不影響我們在往前進的速度,只不過我們要清晰的認知到現(xiàn)在的產(chǎn)品,在我的心目中,現(xiàn)在可能還沒有達到那種理想的狀態(tài),還沒有達到那種真正的像科幻里邊那種,是一個珠穆朗瑪峰的東西。我們現(xiàn)在可能只是還達不到這個 8,800 多米的高度,我可能還在五六千米的位置,還在往上攀登,但是我們的慶幸之處在于,當我爬到五六千米的時候,其實已經(jīng)能滿足相當一部分人他的需求了,只是 8,000 多米的時候,是一個任何人都能感受到你這個產(chǎn)品魅力的時候,都能解決他的問題的時候。

潘亂:你給時空壺的產(chǎn)品打多少分?什么會代表“100分產(chǎn)品”?你覺得8 千米那時候是一個什么樣的產(chǎn)品形態(tài)?

田力:從產(chǎn)品適用范圍和細節(jié)改善角度,我給70分。這不是說質(zhì)量有問題,而是我們還不能解決所有語言障礙。語言障礙非常多,是個多維矩陣,我們只解決了一點點。

未來隨著AI模型進化,能更好傳遞意圖、情緒,體驗細節(jié)更實時、延遲更短,AI總結(jié)能讓交流更及時,就像從L3到L4自動駕駛,L3還需要人接管,L4就不用總是操心了。

那如果說到8,000米理想的狀態(tài),理想狀態(tài)就是巴別魚—戴在耳朵里的設(shè)備,讓你不再擔心語言障礙。第一天就能看到遠方的大洋,但需要哪條河流能到達,你不知道,只知道一直向那個方向走。

潘亂:如果不考慮當前技術(shù)限制,你認為語言翻譯的終極形態(tài)是什么?

田力:我經(jīng)常問新同事:“30年后翻譯產(chǎn)品會變成什么樣?”有人說是腦機接口,如三體人用腦電波交流;有人提到《黑鏡》里的隱形眼鏡;《流浪地球》里吳京與俄羅斯人交流時各戴一個耳機。

郭帆導(dǎo)演曾在節(jié)目中用過我們的耳機,調(diào)侃說:現(xiàn)在科幻電影不好拍,還沒拍完,產(chǎn)品先做出來了。

終極狀態(tài)是你感受不到它的存在,像空氣一般無感。它可能在不同場景有不同形態(tài)—銀行或醫(yī)院里的固定裝置,戶外則是便攜設(shè)備。形態(tài)一定是多元化的。

最終這些分支是否會閉合成統(tǒng)一形態(tài)?

這是非常有趣的問題??凑麄€產(chǎn)業(yè)的進化史會很有意思。我們希望活到那一天,成為基礎(chǔ)設(shè)施提供者之一。那時人們不再擔心語言障礙,像基礎(chǔ)設(shè)施一樣隨處可用,我們希望成為其中最重要的玩家之一。

結(jié)語

潘亂:在這個充滿不確定性的世界,語言障礙仍是人類連接的最大挑戰(zhàn)之一。時空壺正用科技力量打破這一障礙,讓我們距離科幻小說中描繪的無障礙交流未來更近一步。期待有朝一日,語言不再是人類溝通的障礙,希望時空壺能加速這一天的到來。

田力:謝謝。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
當我把“有線電視”換成“網(wǎng)絡(luò)電視”后,有些心里話,不吐不快

當我把“有線電視”換成“網(wǎng)絡(luò)電視”后,有些心里話,不吐不快

小柱解說游戲
2025-12-24 12:53:06
秦嵐的腳部照片在網(wǎng)上爆紅,這背后是否有利益鏈的爭議?

秦嵐的腳部照片在網(wǎng)上爆紅,這背后是否有利益鏈的爭議?

動物奇奇怪怪
2025-12-22 05:25:09
1959 年,特赦后的邱行湘打算去做搬運工糊口,周總理了解情況后告訴他:“你是國家干部啊!”

1959 年,特赦后的邱行湘打算去做搬運工糊口,周總理了解情況后告訴他:“你是國家干部啊!”

源溯歷史
2025-12-21 15:01:27
攤牌!美國搶中國180萬桶原油,要絞殺人民幣?中方反殺已就位

攤牌!美國搶中國180萬桶原油,要絞殺人民幣?中方反殺已就位

現(xiàn)代小青青慕慕
2025-12-24 22:12:19
倫納德狂砍41分,哈登拼盡全力,快船20分大勝!火箭8換1交易血虧

倫納德狂砍41分,哈登拼盡全力,快船20分大勝!火箭8換1交易血虧

毒舌NBA
2025-12-24 14:05:54
A股:大家要做好心理準備,明后兩天,或?qū)⒂瓉砀蠹墑e的變盤?

A股:大家要做好心理準備,明后兩天,或?qū)⒂瓉砀蠹墑e的變盤?

好賢觀史記
2025-12-24 15:06:43
宋徽宗用瘦金體寫的圣旨,幾經(jīng)戰(zhàn)亂而流傳至今,乃真正的國寶

宋徽宗用瘦金體寫的圣旨,幾經(jīng)戰(zhàn)亂而流傳至今,乃真正的國寶

幸福娃3790
2025-12-11 11:34:53
1980 年張铚秀對越立功升任司令,徐帥卻搖頭不滿,這是為何

1980 年張铚秀對越立功升任司令,徐帥卻搖頭不滿,這是為何

嘮叨說歷史
2025-12-24 14:30:34
笑死了,這才是普通人最真實的存款

笑死了,這才是普通人最真實的存款

夜深愛雜談
2025-12-12 19:25:44
優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

岐黃傳人孫大夫
2025-12-20 10:00:03
真要當恒大二隊?不挑食!意外:曝中超四冠王有意前廣州隊后衛(wèi)

真要當恒大二隊?不挑食!意外:曝中超四冠王有意前廣州隊后衛(wèi)

足球大腕
2025-12-24 15:16:46
搶在特朗普開戰(zhàn)前,普京政府通知美國,俄要保一人,中方也介入了

搶在特朗普開戰(zhàn)前,普京政府通知美國,俄要保一人,中方也介入了

流云青史
2025-12-24 21:36:57
晚年張震將軍與家人的合影,百歲高齡得知兒子去世,63天后也逝世

晚年張震將軍與家人的合影,百歲高齡得知兒子去世,63天后也逝世

史之銘
2025-12-24 19:29:38
造出EUV光刻機?中國如何突破

造出EUV光刻機?中國如何突破

南風窗
2025-12-24 13:29:46
為什么女朋友覺得年入百萬很簡單?網(wǎng)友:她一定有個做足浴的閨蜜

為什么女朋友覺得年入百萬很簡單?網(wǎng)友:她一定有個做足浴的閨蜜

帶你感受人間冷暖
2025-11-04 16:38:29
普京報仇不隔夜!俄中將遇害后,基輔被炸成火海,更可怕的在后面

普京報仇不隔夜!俄中將遇害后,基輔被炸成火海,更可怕的在后面

云上烏托邦
2025-12-24 12:10:48
國資入主!002036,控制權(quán)擬變更!明天復(fù)牌

國資入主!002036,控制權(quán)擬變更!明天復(fù)牌

證券時報e公司
2025-12-24 22:40:05
樊振東歸來后由馬龍執(zhí)教,林詩棟則叫張繼科執(zhí)鞭,這個提議靠譜嗎

樊振東歸來后由馬龍執(zhí)教,林詩棟則叫張繼科執(zhí)鞭,這個提議靠譜嗎

鴻印百合
2025-12-24 21:32:30
2026年元旦起駕照年齡限制調(diào)整!超這個歲數(shù)不能開,你還能開幾年

2026年元旦起駕照年齡限制調(diào)整!超這個歲數(shù)不能開,你還能開幾年

復(fù)轉(zhuǎn)這些年
2025-12-22 16:42:10
蘋果2026年25款新品曝光,建議暫緩換手機!

蘋果2026年25款新品曝光,建議暫緩換手機!

趣聊科技圈
2025-12-24 22:25:25
2025-12-24 23:12:49
亂翻書 incentive-icons
亂翻書
研究公司興衰的循環(huán)
233文章數(shù) 1006關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

頭條要聞

61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進一步放松限購 滬深是否會跟進?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

房產(chǎn)
旅游
親子
數(shù)碼
公開課

房產(chǎn)要聞

硬核!央企海口一線江景頂流紅盤,上演超預(yù)期交付!

旅游要聞

解鎖東方慢生活,年末來南京玄武逛“雅集”

親子要聞

母嬰下半場:科研與全齡的雙重突圍|世研消費指數(shù)品牌榜Vol.93

數(shù)碼要聞

華碩上架a豆TF存儲卡:讀速至高100MB/s,35.9元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版