作者 | 褚杏娟
根據最新報道,隨着谷歌 TPU 芯片需求大漲,谷歌擴大了對聯發科合作定製新一代 TPU v7e 的訂單,訂單量比原規劃激增數倍。消息稱,聯發科為谷歌操刀定製的首款 TPU v7e 將於下季度末進入風險性試產,並再拿下谷歌下一代 TPU v8e 的訂單。聯發科大單獲得了台積電的先進封裝產能支持,2027 年台積電提供給聯發科谷歌項目的 CoWoS 產能更將暴增 7 倍以上。
儘管承認谷歌在過去 10 年中取得了進步,但英偉達認為其大約領先谷歌 TPU 兩年。由於人工智能模型變化迅速,英偉達認為谷歌很難讓雲服務提供商採用 TPU,因為 TPU 是為更特定的模型類型而設計的。相比之下,英偉達相信其更靈活、可編程的平台仍然是構建大規模雲端人工智能基礎設施的最佳選擇。
但無論如何,谷歌確實讓英偉達產生了些許危機。近日,在 NeurIPS 大會期間,谷歌 DeepMind、谷歌研究院的首席科學家兼 Gemini 項目聯合技術負責人 Jeff Dean 做客 Laude Lounge 節目,聊到了 TPU 和 Pathways 等基礎系統是如何出現的,下面是其在節目中的相關對話。
主持人:谷歌最近發佈了一款新型 TPU 芯片。第七代 TPU 芯片有什麼特別之處?
Jeff Dean:就像每一代後續的 TPU 芯片一樣,它都比上一代更出色。它有很多新功能,這些芯片會連接成我們稱之為集羣(pods)的大型配置。我記得每個集羣大概有 9216 塊芯片。而且它的性能提升非常顯著,尤其是在處理 FP4 這類低精度浮點格式時。這對大模型訓練、推理以及很多類似場景都非常有用。所以我們對此非常興奮。
主持人:很棒。往大了說,谷歌最初開發 TPU 是為了滿足內部需求。谷歌是全球頂尖的人工智能應用公司和人工智能研究機構,據我了解,最初的動機是希望掌控完整的垂直整合技術棧。之後你們最終開放了這些技術的使用權,在加速器態系統中參與全球競爭,與其他設計和銷售加速器的企業同台競技。現在很多人都對 TPU 的巨大市場潛力感到興奮。
在你看來,你在谷歌的角色如何平衡兩方面目標:一方面是谷歌內部對 TPU 的使用需求,另一方面是在競爭激烈的市場中參與競爭,讓谷歌之外的數百萬人、數十億人都能通過購買 TPU 獲得這些技術優勢?
Jeff Dean:TPU 項目最初確實是為了滿足我們內部需求,一開始主要聚焦於推理。
早在 2013 年,我們就意識到深度學習方法將會非常成功。而且每次我們用更多數據訓練更大規模的模型時,在語音和視覺等領域的效果都會更好。當時我做了一些粗略估算,如果我們想把這個性能更優但計算密集型的語音模型推廣給 1 億用戶,讓他們每天使用幾分鐘,所需的計算量會非常驚人。如果用 CPU 來處理,我們實際上需要把谷歌的電腦數量增加一倍,才能推出這個改進後的語音模型。
所以,這就是我們的初衷:如果我們設計專門用於這類機器學習計算的硬件,也就是密集低精度線性代數相關的硬件,就能大幅提升效率。事實也證明了這一點。第一代 TPU 的能效比當時的 CPU 或 GPU 高出 30 到 70 倍,速度也快 15 到 30 倍。
主持人:你是說那是 2015 年的事?
Jeff Dean:是的。我們 2013 年開始進行這個思想實驗,2015 年這些芯片才部署到我們的數據中心。我們還就此發表了一篇論文,當時還是前 Transformer 架構時代。
主持人:前 Transformer 架構時代啊。
Jeff Dean:對。當時我們主要關注語音識別和視覺卷積模型。我們在第一代 TPUv1 的設計末期,特意加了一點設計改動,讓它也支持長短期記憶網絡。當時長短期記憶網絡在語言建模領域很流行,這一改動也讓我們能夠支持語言翻譯任務。
之後的 TPU 版本則更側重於更大規模的系統,不再只是單一的 PCIe 卡,而是完整的機器學習超級計算機,包括最新的 Ironwood 芯片。每一代 TPU 都在能效、性價比等我們關注的方面都有很大提升,這讓我們能夠支持更大規模的訓練任務,也能處理更多用戶的請求。
主持人:Transformer 架構本身也是在谷歌誕生的,時間線差不多。但 TPU 是在這之前發明的,之後 Transformer 架構纔出現。你認為,隨着 Transformer 架構的發展改變了我們如今的世界,谷歌擁有這種垂直整合的硬件棧,兩者之間是否存在協同設計的偶然性?
Jeff Dean:每一代 TPU 的開發,我們都非常努力地利用協同設計的機會。我們有很多研究人員會思考未來 2 年半到 6 年內我們可能會運行哪些機器學習計算。
作為硬件設計者,你需要預測這個發展迅速的領域,這並不容易。但有很多人在關注這個領域的發展方向,他們會提出一些可能有趣的想法。雖然我們還不確定這些想法是否可行,但我們可以在硬件中加入相關的硬件特性或功能。如果這些想法最終被證明很重要,我們的硬件就能及時提供支持。就算這些投入沒有得到回報,也只是在芯片面積上佔用了一小部分空間,不算太大的損失,但我們確實需要為這些重要的潛在需求做好準備。
這是一項很有趣的預測工作,需要預測整個機器學習領域的發展方向,然後判斷我們需要什麼樣的硬件支持。
主持人:縱觀您在谷歌的過往,從 MapReduce 到 Google File System,這些最初都是為谷歌內部需求而發明的系統,最終都對外發布了。您見證了谷歌創造並向世界展示價值,然後通過 TPU 架構等公開發布。您是否認為,隨着 Ironwood 的發佈,世界其他地方也即將迎來拐點,獲得谷歌曾經享有的優勢?對於一位研究人員來說,影響力的實現就是我們追求的時刻,您是否感覺 TPU 正處於這個關鍵的拐點?
Jeff Dean:是的,我們使用 TPU 已經超過十年了,一直對它們非常滿意。協同設計的特性使它們非常適合我們想運行的各種機器學習計算。多年來,我們也通過我們的雲 TPU(Cloud TPU)項目對外出租。現在,許多客戶正將它們用於各種不同的任務。
我們在 TPU 之上構建了一系列軟件層,讓它們使用起來非常方便。目前,使用 TPU 最成熟的途徑是 JAX 框架,它運行在我們內部構建的 Pathways 系統之上,而 Pathways 又運行在 XLA 編譯器(一個帶有 TPU 後端的機器學習編譯器)之上。
Pathways 的意義在於,我們所有的 Gemini 模型開發、研究和大規模訓練任務都運行在這個技術棧上。Pathways 是一個我們從大約七年前開始構建的優秀系統,它能夠給你一種單一系統映像的錯覺,跨越數千或數萬個芯片。你可以運行一個單獨的 Python 進程來驅動你的 JAX 代碼,它不會顯示為單個 TPU 節點上的四個設備,而是顯示為你的 JAX 進程可以訪問 2 萬個設備。
它運行起來非常自然,系統會在底層自動找出應該使用哪種傳輸機制和哪個網絡:在 TPU Pod 內部使用高速互連,跨越 Pod 邊界時使用數據中心網絡,跨越城市區域時使用長距離鏈接(Long-distance Links)等等。我們實際上運行着非常大規模的訓練任務,其中一個 Python 進程驅動着位於多個城市的多個 TPU Pod。
參考鏈接:
https://www.youtube.com/watch?v=9u21oWjI7Xk&t=31s
聲明:本文為 InfoQ 翻譯整理,不代表平台觀點,未經許可禁止轉載。
技術人的年度儀式感!#InfoQ 年度盤點與趨勢洞察 啓動!
《2025 年度盤點與趨勢洞察》由 InfoQ 技術編輯組策劃。覆蓋大模型、Agent、具身智能、AI Native 開發範式、AI 工具鏈與開發、AI+ 傳統行業等方向,通過長期跟蹤、與業內專家深度訪談等方式,對重點領域進行關鍵技術進展、核心事件和產業趨勢的洞察盤點。
力求以體系化視角幫助讀者理解年度技術演化的底層邏輯、創新方向與落地價值,並為新一年決策提供參考。內容將在 InfoQ 媒體矩陣陸續放出,歡迎大家持續關注。
今日薦文
AI編碼工具變 「格式化神器」?Claude CLI半年頻當「系統殺手」,多位開發者痛斥:心血都沒了!
知情人士回應豆包手機被約談;傳MiniMax、智譜計劃很快香港IPO;OpenAI被曝使用Agent Skills | AI週報
張濤首次回應爭議,Manus 為什麼沒有被替代?
GPT-5.2全力出擊!碾壓44類專業工作,實測編程同價位無對手、深度推理封神,但速度太拉胯了
28歲外來人「手撕」近 20 年元老?Meta全面內戰:算力爭奪、「開源」祭旗,每週工作70小時,亞歷山大王真「壓力山大」
你也「在看」嗎?