網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

十年磨一劍！谷歌 TPU v7 掀翻 AI 算力格局，Meta 投懷送抱、英偉達(dá)急聲表態(tài)|【經(jīng)緯低調(diào)分享】

2025-12-01 19:56:12　來源: 經(jīng)緯創(chuàng)投

北京舉報(bào)

分享至

2025年，谷歌第七代TPU芯片Ironwood橫空出世，不僅在性能上與英偉達(dá)旗艦產(chǎn)品正面抗衡，更憑借超大規(guī)模系統(tǒng)優(yōu)勢(shì)重塑AI基礎(chǔ)設(shè)施競(jìng)爭(zhēng)格局。

這顆誕生于十年前的“自救芯片”，最初只是為解決谷歌數(shù)據(jù)中心算力與功耗危機(jī)而設(shè)，如今已成長(zhǎng)為公司的“經(jīng)濟(jì)支柱”，甚至吸引Meta等巨頭計(jì)劃部署。

從2016年TPU v1支撐谷歌翻譯，到2021年v4助力PaLM 540B模型訓(xùn)練，再到v7實(shí)現(xiàn)9216顆芯片集群的超大規(guī)模擴(kuò)展，谷歌用全棧整合思路走出差異化道路。其獨(dú)特的環(huán)面拓?fù)渑c光路交換技術(shù)，讓推理成本較GPU系統(tǒng)低30%-40%，徹底打破“英偉達(dá)稅”的壟斷。

在AI競(jìng)爭(zhēng)從訓(xùn)練轉(zhuǎn)向推理的關(guān)鍵節(jié)點(diǎn)，谷歌TPU正以系統(tǒng)級(jí)降維打擊，改寫全球AI算力的游戲規(guī)則。未來，芯片市場(chǎng)的風(fēng)云再起，誰能撐起新的大旗？以下，Enjoy：

來源丨騰訊科技（ID:qqtech）

文丨無忌

編輯丨蘇揚(yáng)

股價(jià)“跌跌不休”，英偉達(dá)都不得不站出來表態(tài)，“我們領(lǐng)先了全行業(yè)一代”。

事情要從巴菲特“謝幕之作”說起——伯克希爾·哈撒韋公司首次建倉(cāng)谷歌母公司Alphabet股票，隨后更勁爆的是市場(chǎng)又傳出英偉達(dá)大客戶Meta考慮2027年在其數(shù)據(jù)中心部署谷歌TPU，并于2026年通過谷歌云租用TPU算力。

英偉達(dá)在緊急聲明中，強(qiáng)調(diào)GPU在性能、通用性和可移植性方面“遠(yuǎn)優(yōu)于”ASIC（專用集成電路），并重申自研TPU無法替代 GPU的靈活性。谷歌發(fā)言人也表示繼續(xù)和英偉達(dá)保持合作關(guān)系，并強(qiáng)調(diào)公司致力于同時(shí)支持TPU和英偉達(dá)GPU。

TPU，從一個(gè)10年前為了解決AI計(jì)算效率瓶頸的“救命項(xiàng)目”，如今已經(jīng)發(fā)展成為谷歌的“經(jīng)濟(jì)支柱”。

作為自研ASIC芯片的代表，TPU已經(jīng)具備動(dòng)搖英偉達(dá)根基的潛力，只不過谷歌的邏輯不是和英偉達(dá)比單卡性能，而是在用一套完全不同的超大規(guī)模系統(tǒng)哲學(xué)，重新定義AI基礎(chǔ)設(shè)施的未來。

一切都要從10年前，TPU誕生的那一刻說起。

01

TPU的前世今生

TPU v1

谷歌在2015年啟動(dòng)TPU項(xiàng)目，這并非出于炫技，更不是為了彰顯技術(shù)實(shí)力，而是被逼入了一個(gè)“不自研將難以支撐未來業(yè)務(wù)規(guī)模”的現(xiàn)實(shí)。

隨著深度學(xué)習(xí)在谷歌內(nèi)部的應(yīng)用不斷擴(kuò)散，谷歌工程團(tuán)隊(duì)當(dāng)時(shí)意識(shí)到一個(gè)關(guān)鍵問題正在逼近——包括搜索、廣告等谷歌核心服務(wù)都涉及巨量用戶請(qǐng)求，如果全面采用深度學(xué)習(xí)模型，那么谷歌全球數(shù)據(jù)中心的功耗將暴漲至難以承受的程度，即使采購(gòu)再多GPU也無法滿足需求，更不用說成本上的激增。

彼時(shí)GPU更適合訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)，但其能效并非針對(duì)實(shí)時(shí)在線推理設(shè)計(jì)。

谷歌內(nèi)部甚至出現(xiàn)過預(yù)測(cè)：如果未來所有核心業(yè)務(wù)上線深度模型，全球數(shù)據(jù)中心的電力成本會(huì)增長(zhǎng)十倍。內(nèi)部高層意識(shí)到，繼續(xù)依賴 CPU和GPU的現(xiàn)有路線不可持續(xù)。

因此，谷歌決定自研ASIC加速器，目標(biāo)不是造一個(gè)“最強(qiáng)通用芯片”，而是造一個(gè)“可大量部署在數(shù)據(jù)中心、用于特定矩陣運(yùn)算的高能效芯片”。

最終，TPU v1在2016年正式投入使用，用于支持谷歌翻譯以及部分搜索功能，證明了ASIC方案具備可行性。

2017年Transformer論文發(fā)表后，谷歌幾乎在同一時(shí)間意識(shí)到：這個(gè)新架構(gòu)的計(jì)算模式高度規(guī)則、矩陣密度極高、并行度驚人，簡(jiǎn)直是為TPU量身定做的。與其讓外部硬件廠商慢慢跟進(jìn)，不如自己把軟件框架、編譯器、芯片架構(gòu)、網(wǎng)絡(luò)拓?fù)洹⑸嵯到y(tǒng)全部握在手里，形成全棧閉環(huán)。

于是，TPU不再是一個(gè)孤立的芯片，而升級(jí)為谷歌AI基礎(chǔ)設(shè)施的底座：既要訓(xùn)練出世界最強(qiáng)的模型，也要讓AI以最低成本滲透到公司每一條產(chǎn)品線。

從v2、v3開始，谷歌逐步開放TPU給谷歌云客戶，正式進(jìn)入商業(yè)化階段。

雖然早期生態(tài)和兼容性仍遜于GPU，但谷歌用XLA編譯器、高效Pod架構(gòu)、液冷數(shù)據(jù)中心、軟硬件深度共設(shè)計(jì)，硬生生蹚出一條差異化道路。

2021年，TPU v4橫空出世，第一次把4096顆芯片組成一個(gè)超節(jié)點(diǎn)，靠自研的環(huán)形拓?fù)渚W(wǎng)絡(luò)（2D/3D torus）實(shí)現(xiàn)近乎無損的跨芯片通信。這套系統(tǒng)讓數(shù)千顆加速器像一顆“巨型芯片”一樣協(xié)同工作，直接把谷歌帶入超大規(guī)模AI時(shí)代，PaLM 540B模型正是在v4 Pod上訓(xùn)練完成的。

谷歌用實(shí)際行動(dòng)證明：只要集群規(guī)模夠大、互聯(lián)效率夠高，模型性能就會(huì)隨著計(jì)算量近乎線性增長(zhǎng)，而TPU的網(wǎng)絡(luò)拓?fù)浜驼{(diào)度系統(tǒng)，正是實(shí)現(xiàn)這一規(guī)律的最關(guān)鍵硬件支撐。

2023到2024年，TPU v5p成為轉(zhuǎn)折點(diǎn)。

它首次大規(guī)模進(jìn)入谷歌廣告系統(tǒng)、搜索核心排序、YouTube推薦、地圖實(shí)時(shí)預(yù)測(cè)等賺錢產(chǎn)品線，性能較v4翻倍，同時(shí)推出彈性節(jié)點(diǎn)架構(gòu)，讓企業(yè)客戶可以按需擴(kuò)展到近9000顆芯片的規(guī)模。

Meta、Anthropic等頭部模型公司開始認(rèn)真評(píng)估并采購(gòu)TPU v5p，這標(biāo)志著TPU終于從“內(nèi)部黑科技”成長(zhǎng)為“生態(tài)可選項(xiàng)”。

2024年發(fā)布的第六代TPU v6（代號(hào)Trillium）則徹底亮明態(tài)度：谷歌未來的主戰(zhàn)場(chǎng)不再是訓(xùn)練，而是推理。推理成本正在成為全球AI公司最大的單項(xiàng)支出，v6從架構(gòu)到指令集全部圍繞推理負(fù)載重新設(shè)計(jì)，F(xiàn)P8吞吐暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度優(yōu)化、芯片間帶寬大幅提升，能效比上一代提升67%。

谷歌公開表示，這一代TPU的目標(biāo)是成為“推理時(shí)代最省錢的商業(yè)引擎”。

從2015年為了解決AI計(jì)算的效率瓶頸被迫自研，到2025年即將把TPU部署到客戶自有數(shù)據(jù)中心，谷歌用十年時(shí)間，把一個(gè)“不得不做的救命項(xiàng)目”，一步步打造成可能撼動(dòng)英偉達(dá)霸權(quán)的戰(zhàn)略級(jí)武器。

TPU從來不是為了和誰比性能，而是為了讓AI真正跑得起、賺得到錢。這正是谷歌與眾不同的打法，也是它最可怕的地方。

02

從“實(shí)驗(yàn)項(xiàng)目”到“數(shù)據(jù)中心命脈”

TPU v7，代號(hào)Ironwood

2025年，谷歌推出的第七代TPU（TPU v7，代號(hào)Ironwood）成為全球AI基礎(chǔ)設(shè)施領(lǐng)域最受關(guān)注的硬件產(chǎn)品。

這一代在架構(gòu)、規(guī)模、可靠性、網(wǎng)絡(luò)與軟件系統(tǒng)上的一次全面重構(gòu)。

Ironwood的誕生，正式宣告TPU從“追趕者時(shí)代”邁入“進(jìn)攻時(shí)代”，也標(biāo)志著谷歌將推理時(shí)代視為未來十年的決戰(zhàn)主戰(zhàn)場(chǎng)。

Ironwood之所以特殊，首先在于它是TPU歷史上第一款專用推理芯片。與此前以訓(xùn)練為主的v5p和以能效為主的v6e不同，Ironwood從第一天起就鎖定超大規(guī)模在線推理這一終極場(chǎng)景，并在多項(xiàng)關(guān)鍵指標(biāo)上首次與英偉達(dá)Blackwell系列實(shí)現(xiàn)正面交鋒。

單芯片層面，Ironwood的FP8稠密算力達(dá)到4.6 petaFLOPS，略高于Nvidia B200的4.5 petaFLOPS，已躋身全球旗艦加速器第一梯隊(duì)。內(nèi)存配置為192GB HBM3e，帶寬7.4 TB/s，與B200的192GB/8 TB/s僅一步之遙。芯片間通信帶寬9.6 Tbps，雖數(shù)字上不及Blackwell的14.4 Tbps，但谷歌走的是一條完全不同的系統(tǒng)級(jí)道路，單純數(shù)值對(duì)比已失去意義。

真正讓Ironwood成為里程碑的，是其超大規(guī)模擴(kuò)展能力。

一個(gè)Ironwood Pod可集成9216顆芯片，構(gòu)成一個(gè)超節(jié)點(diǎn)，F(xiàn)P8峰值性能超過42.5 exaFLOPS。谷歌在技術(shù)文檔中指出，在特定FP8負(fù)載下，該P(yáng)od性能相當(dāng)于最接近競(jìng)品系統(tǒng)的118倍。這不是單芯片差距，而是系統(tǒng)架構(gòu)與拓?fù)湓O(shè)計(jì)的碾壓。

支撐這一規(guī)模的核心，是谷歌十年磨一劍的2D/3D環(huán)面拓?fù)浣Y(jié)合光路交換（OCS）網(wǎng)絡(luò)。

與英偉達(dá)依賴NVLink+高階交換機(jī)構(gòu)建的NVL72（僅72顆GPU）不同，谷歌從根本上放棄了傳統(tǒng)交換機(jī)為中心的設(shè)計(jì)，轉(zhuǎn)而用三維環(huán)面拓?fù)浣Y(jié)構(gòu)直接連接所有芯片，并通過OCS實(shí)現(xiàn)動(dòng)態(tài)光路重構(gòu)。

OCS本質(zhì)上是一套“光版人工電話交換臺(tái)”，利用MEMS微鏡在毫秒級(jí)完成光信號(hào)物理切換，幾乎不引入額外延遲，更重要的是，當(dāng)集群內(nèi)出現(xiàn)芯片故障時(shí)，OCS能瞬間繞開壞點(diǎn)，保持整個(gè)計(jì)算域不中斷。

得益于此，谷歌液冷Ironwood系統(tǒng)的年可用性達(dá)到99.999%，即全年停機(jī)時(shí)間不到六分鐘。這一數(shù)字在超大規(guī)模AI集群中堪稱恐怖，遠(yuǎn)超業(yè)界基于GPU的訓(xùn)練集群常見水平。

谷歌已將TPU集群從“實(shí)驗(yàn)玩具”徹底升級(jí)為“數(shù)據(jù)中心命脈”。

在推理場(chǎng)景下，Ironwood展現(xiàn)出系統(tǒng)級(jí)的降維打擊能力。整個(gè)節(jié)點(diǎn)提供1.77 PB高帶寬HBM，所有芯片均可近乎等距訪問，這對(duì)KV緩存管理至關(guān)重要。推理時(shí)代最貴的不是算力，而是內(nèi)存帶寬和緩存命中率，Ironwood通過共享巨量高速內(nèi)存和極低通信開銷，大幅減少重復(fù)計(jì)算。

內(nèi)部實(shí)測(cè)顯示，同等負(fù)載下Ironwood的推理成本較GPU旗艦系統(tǒng)低30%-40%，極端場(chǎng)景下更高。

軟件層面同樣火力全開。MaxText框架全面支持最新訓(xùn)練與推理技術(shù)，GKE拓?fù)涓兄{(diào)度可根據(jù)Pod內(nèi)實(shí)時(shí)狀態(tài)智能分配任務(wù)，推理網(wǎng)關(guān)支持前綴緩存感知路由。綜合優(yōu)化后，首Token延遲最高下降96%，整體推理成本再降30%。

Ironwood不僅推動(dòng)Gemini系列繼續(xù)領(lǐng)跑，也直接撬動(dòng)外部生態(tài)。

Anthropic宣布未來Claude系列的訓(xùn)練與部署將使用多達(dá)一百萬顆TPU。即使擁有AWS Trainium等備選方案的玩家，也無法忽視Ironwood在超大規(guī)模推理上的代際優(yōu)勢(shì)。

03

谷歌、英偉達(dá)、亞馬遜，站在“三岔路口”

CNBC在對(duì)AI芯片領(lǐng)域三大玩家——谷歌、英偉達(dá)和亞馬遜——進(jìn)行分析后指出，三者都在大規(guī)模投入研發(fā)，但它們追求的目標(biāo)、商業(yè)模式、生態(tài)構(gòu)建方式、硬件哲學(xué)均有顯著不同。

這些差異深刻影響了芯片的形態(tài)、性能側(cè)重點(diǎn)、客戶采用路徑以及市場(chǎng)地位。

英偉達(dá)的路線始終圍繞GPU推進(jìn)，而GPU的核心價(jià)值在于通用性。

GPU具備海量并行計(jì)算單元，能夠支持從深度學(xué)習(xí)到圖形渲染再到科學(xué)計(jì)算等多種工作負(fù)載。更重要的是CUDA生態(tài)幾乎鎖死了全行業(yè)的開發(fā)路徑，一旦模型或框架為CUDA優(yōu)化，就很難切換到其他芯片架構(gòu)。

英偉達(dá)通過軟硬件深度捆綁實(shí)現(xiàn)了類似蘋果生態(tài)在消費(fèi)品市場(chǎng)的壟斷能力，但GPU的缺陷也十分明顯。

首先，GPU并非為推理優(yōu)化，它的設(shè)計(jì)初衷是高速并行計(jì)算，而不是以最低成本執(zhí)行重復(fù)推理指令。其次，GPU的靈活性意味著其硬件資源在實(shí)際推理場(chǎng)景中可能并非最優(yōu)配置，導(dǎo)致單位能耗的效率不如ASIC。最后，英偉達(dá)的定價(jià)權(quán)極高，云廠商往往需要以遠(yuǎn)高于制造成本的價(jià)格購(gòu)入GPU，形成今天廣為人知的“英偉達(dá)稅”。

谷歌的路線與英偉達(dá)不同。谷歌并不追求硬件通用性，而是追求深度學(xué)習(xí)特別是Transformer負(fù)載的極致效率。TPU的核心是脈動(dòng)陣列，這是一種專門為矩陣乘法設(shè)計(jì)的架構(gòu)，使其在深度學(xué)習(xí)計(jì)算中特別高效。

谷歌不是希望TPU成為行業(yè)通用芯片，而是成為全球AI推理和訓(xùn)練最具效能的專用芯片，進(jìn)而讓谷歌整個(gè)AI系統(tǒng)做到性能領(lǐng)先、成本最低、部署最廣。

谷歌的核心優(yōu)勢(shì)在于全棧整合能力。他們不僅控制芯片，還控制模型、框架、編譯器、分布式訓(xùn)練系統(tǒng)與數(shù)據(jù)中心基礎(chǔ)設(shè)施。這讓谷歌可以做出許多GPU無法實(shí)現(xiàn)的系統(tǒng)級(jí)優(yōu)化。

例如數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)渫耆珵門PU超節(jié)點(diǎn)服務(wù)，軟件層面的調(diào)度系統(tǒng)能根據(jù)模型特性自動(dòng)調(diào)整硬件資源的使用方式。這種“系統(tǒng)級(jí)一體化”是英偉達(dá)無法做到的，因?yàn)橛ミ_(dá)只能控制GPU，而不能控制客戶的數(shù)據(jù)中心。

亞馬遜則走了第三條路線，其芯片戰(zhàn)略出發(fā)點(diǎn)是降低AWS的基礎(chǔ)設(shè)施成本，同時(shí)減少對(duì)外部供應(yīng)商尤其是英偉達(dá)的依賴，因此他們開發(fā)了Trainium和Inferentia。

作為云廠商，AWS關(guān)注的是規(guī)模效應(yīng)與經(jīng)濟(jì)性，而非像谷歌那樣構(gòu)建一個(gè)統(tǒng)一的AI算力體系。

Trainium的設(shè)計(jì)更靈活，在不少情況下接近GPU的適配能力，但性能針對(duì)訓(xùn)練和推理分別做了優(yōu)化。Inferentia則聚焦推理，適合高吞吐部署場(chǎng)景。亞馬遜通過芯片降低內(nèi)部成本并將節(jié)省部分反饋給客戶，從而提升AWS的競(jìng)爭(zhēng)力。

總體而言，英偉達(dá)的路線是通用、生態(tài)驅(qū)動(dòng)、軟件鎖定；谷歌的路線是專用、垂直整合、系統(tǒng)統(tǒng)一；亞馬遜的路線是成本優(yōu)化、云驅(qū)動(dòng)、兼容商業(yè)需求。三者的路線差異導(dǎo)致了AI芯片市場(chǎng)中出現(xiàn)了截然不同的產(chǎn)品形式、商業(yè)策略與競(jìng)爭(zhēng)格局。

04

利用TPU，告別昂貴的“CUDA稅”

谷歌之所以能夠在推理時(shí)代獲得顯著優(yōu)勢(shì)，關(guān)鍵并不僅僅在于TPU的硬件性能，更在于其全棧垂直整合策略。

這種策略讓谷歌避免了昂貴的“CUDA稅”，并在成本結(jié)構(gòu)上相對(duì)于OpenAI和其他依賴GPU的企業(yè)形成了巨大優(yōu)勢(shì)。

所謂CUDA稅，是指GPU芯片從生產(chǎn)到銷售過程中所疊加的高額利潤(rùn)。

英偉達(dá)的GPU成本大約僅幾千美元，但賣給云廠商時(shí)價(jià)格往往動(dòng)輒數(shù)萬美元不等，毛利率高達(dá)八成以上。全球所有訓(xùn)練大模型的科技公司幾乎都要支付這項(xiàng)成本，并且無法擺脫。

OpenAI依賴英偉達(dá)GPU進(jìn)行訓(xùn)練和推理，且由于GPT系列模型參數(shù)規(guī)模巨大、推理量龐大，其總體算力開支遠(yuǎn)超大多數(shù)企業(yè)的總營(yíng)收。

英偉達(dá)的定價(jià)模式使這些公司無論怎么優(yōu)化模型，都難以實(shí)現(xiàn)規(guī)?；虡I(yè)利潤(rùn)。

谷歌的策略完全不同。谷歌采用自研TPU進(jìn)行訓(xùn)練和推理，整個(gè)供應(yīng)鏈由谷歌控制，從芯片設(shè)計(jì)到制造、從網(wǎng)絡(luò)方案到軟件棧再到數(shù)據(jù)中心布局，全部由谷歌內(nèi)部?jī)?yōu)化。

由于不需要支付英偉達(dá)稅，谷歌的算力成本結(jié)構(gòu)天生比OpenAI更具優(yōu)勢(shì)。

谷歌不僅在內(nèi)部獲得低成本，還將這種成本優(yōu)勢(shì)傳遞給谷歌云的客戶。通過TPU服務(wù)，谷歌可以為客戶提供更低價(jià)格的推理能力，從而吸引大量模型公司和企業(yè)遷移到谷歌平臺(tái)。

根據(jù)科技網(wǎng)站venturebeat.com的報(bào)道，谷歌在算力成本上的結(jié)構(gòu)性優(yōu)勢(shì)遠(yuǎn)遠(yuǎn)優(yōu)于OpenAI。這意味著，谷歌提供同等推理服務(wù)時(shí)，其底層成本可能僅為對(duì)手的兩成。如此大的成本差異在推理時(shí)代具有決定性意義。

當(dāng)企業(yè)的推理成本占到其支出的大部分時(shí)，遷移到成本最低的平臺(tái)就成為必然選擇。例如，一個(gè)企業(yè)每年可能在推理上消耗數(shù)千萬美元甚至上億美元，如果遷移到TPU可以節(jié)省三到五成成本，那么遷移幾乎是一種不可回避的商業(yè)決策。

谷歌還推出了TPU@Premises計(jì)劃，將TPU直接部署在企業(yè)數(shù)據(jù)中心，使客戶可以在本地以最低延遲使用推理能力。這再次強(qiáng)化了谷歌的成本優(yōu)勢(shì)，進(jìn)一步擴(kuò)大TPU的商業(yè)輻射范圍。

在OpenAI的商業(yè)模式中，其最重要的成本來自算力，而在谷歌的商業(yè)模式中，其算力成本是自研產(chǎn)品體系的一部分，可以通過谷歌云收回投資。谷歌在硬件、軟件、網(wǎng)絡(luò)和云基礎(chǔ)設(shè)施上的深度融合，使其具備真正意義上的垂直整合能力。

這種整合不是簡(jiǎn)單節(jié)省成本，而是在推動(dòng)整個(gè)生態(tài)的重新配置。

隨著越來越多企業(yè)意識(shí)到推理成本的重要性，谷歌的成本優(yōu)勢(shì)將不斷被放大，TPU的市場(chǎng)份額也將在推理時(shí)代獲得更快增長(zhǎng)。TPU的垂直整合策略最終不僅是谷歌的競(jìng)爭(zhēng)策略，更是對(duì)整個(gè)行業(yè)競(jìng)爭(zhēng)秩序的重塑力量。

05

谷歌的“經(jīng)濟(jì)支柱”

回顧TPU的發(fā)展史，可以看到一個(gè)典型的“追趕到領(lǐng)先”的演變軌跡。

早期TPU在生態(tài)成熟度、兼容性和訓(xùn)練性能方面落后于GPU，外界普遍認(rèn)為谷歌在AI大模型時(shí)代被OpenA 超越。然而這種外部印象忽略了谷歌在基礎(chǔ)設(shè)施層面的深度積累，也忽略了谷歌在全棧系統(tǒng)上的獨(dú)特優(yōu)勢(shì)。

隨著Gemini系列模型逐代升級(jí)，谷歌逐步證明自己仍然是全球少數(shù)可以實(shí)現(xiàn)訓(xùn)練穩(wěn)定性、推理成本控制和全棧性能優(yōu)化的公司，TPU在其中扮演了關(guān)鍵角色。

Gemini 2.0多模態(tài)模型的訓(xùn)練和推理都在TPU上完成，而TPU的高效能使谷歌能夠以相對(duì)低成本訓(xùn)練大規(guī)模模型，使模型迭代周期更短、成本更低。

隨著公司進(jìn)入推理時(shí)代，TPU的作用從支持谷歌內(nèi)部模型轉(zhuǎn)向支持全球企業(yè)客戶。谷歌云的AI收入隨之大幅增加，云部門的財(cái)報(bào)顯示全年化收入達(dá)到440億美元，并成為谷歌整體業(yè)績(jī)?cè)鲩L(zhǎng)的重要驅(qū)動(dòng)力。

谷歌在云市場(chǎng)的競(jìng)爭(zhēng)地位長(zhǎng)期落后于AWS和Azure，但在AI時(shí)代出現(xiàn)了新的賽道，在AI基礎(chǔ)設(shè)施方面實(shí)現(xiàn)領(lǐng)先。這一領(lǐng)先并非偶然，而是TPU多年積累后的自然結(jié)果。

在企業(yè)AI采用加速的大背景下，越來越多公司需要推理成本低、穩(wěn)定性高、性能強(qiáng)的模型部署方案。GPU雖然性能強(qiáng)，但成本和供貨都存在限制，而TPU提供了更具經(jīng)濟(jì)性和穩(wěn)定性的替代方案。尤其在大規(guī)模在線推理場(chǎng)景中，TPU的優(yōu)勢(shì)尤為明顯。

更重要的是，谷歌并非只以芯片作為賣點(diǎn)，而是以整體解決方案吸引企業(yè)。

例如谷歌提供從模型訓(xùn)練、模型監(jiān)控、向量數(shù)據(jù)庫(kù)、推理服務(wù)到數(shù)據(jù)安全的一體化體系，TPU在其中作為最底層基礎(chǔ)設(shè)施發(fā)揮作用。谷歌將自己塑造為企業(yè)采用AI的完整平臺(tái)，使其與AWS和Azure在差異化競(jìng)爭(zhēng)中獲得新的優(yōu)勢(shì)。

未來幾年，AI行業(yè)的競(jìng)爭(zhēng)將從模型維度轉(zhuǎn)向成本維度，從訓(xùn)練能力轉(zhuǎn)向推理規(guī)模，從生態(tài)構(gòu)建轉(zhuǎn)向基礎(chǔ)設(shè)施整合。谷歌憑借 TPU、全球數(shù)據(jù)中心布局、代際升級(jí)節(jié)奏和全棧能力，有望在這一新周期中構(gòu)建比過去十年更牢固的競(jìng)爭(zhēng)壁壘。

谷歌從追趕者轉(zhuǎn)向領(lǐng)先者的過程并非一蹴而就，而是在十年時(shí)間里持續(xù)投入基礎(chǔ)設(shè)施、堅(jiān)持自研、不斷調(diào)整模型路線的結(jié)果。TPU是谷歌在AI時(shí)代構(gòu)建的最長(zhǎng)久、最深層、最具戰(zhàn)略意義的資產(chǎn)，而這一資產(chǎn)正在成為推動(dòng)谷歌市值增長(zhǎng)、云業(yè)務(wù)崛起和AI商業(yè)模式重塑的主力引擎。

本文作者無忌，首發(fā)于公眾號(hào)“騰訊科技”（ID:qqtech），歡迎關(guān)注。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.