英偉達正在封裝世界

虎嗅APP
昨天

出品|虎嗅科技組

作者|陳伊凡

編輯|苗正卿

頭圖|視覺中國

剛結束的GTC上,英偉達傳遞出的一個關鍵信號是,其在不斷深化芯片提供商向AI基礎設施系統提供商的角色轉變。

英偉達正在封裝AI算力層面的基礎設施。」韋豪創芯創始合夥人王智表示,程序編寫的方式從與硬件高度耦合的機器語言到彙編語言、到接近自然語言的高級程序語言、再到Windows的GUI、進一步出現面向對象的編程......直到用Python這樣主要引用「庫」的「膠水語言」,軟件世界經歷了一個不斷將邏輯和功能高度抽象化和封裝的過程,而英偉達正在AI算力基礎設施世界展示同樣的故事

王智解釋,這種高度封裝的好處是,客戶規避了對複雜系統中基礎組件的「手搓」式採購和測試,而是可以搭積木,以樂高的方式搭建。英偉達在將這種封裝不斷擴散。

二十年前,英偉達的殺手鐧是CUDA。它不只是一套編程框架,而是一個讓開發者只管寫算法、不用操心底層硬件的抽象層。CUDA的護城河不是代碼,是二十年來積累的數億裝機量、數十萬開源項目、以及所有在這套生態里長大的工程師。

但CUDA只是封裝的第一層,這篇文章要回答的三個問題:

英偉達的token分層定價,意味着什麼?

收購Groq、發布專用CPU。英偉達在建立一個比CUDA更大的帝國,這個帝國長什麼樣?

當這個帝國的邊界不斷擴張,創業公司還有沒有活路?窗口在哪裏?

Token分層定價:封裝的結果

token正在變成大宗商品。

這是黃仁勳在演講中拋出的核心觀點。

封裝的終點,是讓複雜的東西消失在視野之外。當芯片、系統、調度軟件被一層層封裝起來,用戶感知不到GPU,感知不到算力,感知到的只剩一個單位:token。token是封裝完成之後,唯一暴露在外的接口。它變成大宗商品,是封裝的必然結果,不是偶然。

黃仁勳在演講中明確說了這句話:「Tokens are the new commodity」(Token是新的大宗商品)。大宗商品成熟之後會自然分層。他不是在描述現狀,他是在預判一個市場結構,然後把英偉達的硬件產品線,精確地鋪在這個結構的每一層上。

GTC 2026上,英偉達推出了五層Token定價體系:免費層、中級層、高級層、高速層和超高速層,對應不同的token量。

這正如當年電信行業基本沒幹成的理想,也就是對數據流量進行差異化定價。背後是一個更深層的趨勢:算力需求的精細化。越是嚴肅的場景,對幻覺的容忍度越低;量化交易這種場景,需要的是微秒級的反應;自動駕駛和某些具身智能場景需要毫秒級以內的反饋速度,還得更快。不同場景的指標要求完全不同。

早期的AI應用是無差異的,一台GPU、一套推理框架,所有請求排隊處理。但當AI真正進入工商業場景,這種大水漫灌式的供給就開始失效。一家醫院的影像輔助診斷要的是準確率,一筆高頻交易要的是微秒級延遲,一個工廠流水線上的實時質檢要的是穩定吞吐。

算力精細化的本質,是讓不同質量的算力服務找到真正需要它的場景。

但這只是表面的邏輯。更深層的,是需求側的一場根本性變化。從原來的人機交互,變為Agent-to-Agent交互,Agent把token需求從線性變成了指數,人用token是對話,使用量很有限;機器用token是工作流,單位時間消耗量是人的倍數。

這種變化已經可以在數據裏看到。今年春節前後,國內大模型的流量出現了異常暴漲。那是國外很多公司在在降本——它們的Agent大量調用AI接口,而國內模型更便宜(因為中國的電便宜),於是悄悄切換了,變相助力了中國模型和token的出海。

英偉達在建立一個比CUDA更大的帝國

封裝意味着綁定。從GPU到系統,從系統到token經濟規則,英偉達每封裝一層,外部的替代成本就高一個量級,這也是英偉達為何要把封裝不斷加深的原因——你會越來越討厭他,但你會越來越離不開他。

過去幾年,這套封裝在訓練側的護城河是CUDA。但在推理側,CUDA的優勢從來沒有那麼明顯。

原因在於訓練和推理的計算邏輯根本不同。GPU是並行計算的機器,擅長同時處理成千上萬個相同的操作,這正是訓練神經網絡所需要的。CUDA是駕馭GPU的語言,二十年的生態積累讓它無可替代。但推理不是這樣工作的:推理要的不是並行的暴力計算,而是低延時、快響應、靈活的任務調度。GPU做推理,就像用一輛大卡車去跑快遞,力氣有餘,靈活不足。

過去兩年,很多人盯着這個裂縫,覺得推理側是繞開CUDA、挑戰英偉達的窗口。

CPU同理,GPU負責算,CPU負責管。GPU是工廠的流水線,負責大規模並行運算;CPU是工廠的調度室,負責決定任務的順序、工具的調用、數據的流向。在AI推理場景裏,一個Agent接到任務後,要決定先調用哪個工具、再調用哪個模型、結果怎麼傳遞——這些控制流的工作,恰恰是CPU的主場。

英偉達之前也並非沒有CPU,只是沒有那麼強。

但這一次,黃仁勳明確提出,今年是英偉達的推理年。過去幾年,隨着模型深入現實世界,推理的需求開始爆發。推理硬件已被提升到核心地位。

英偉達的首席科學家Bill Dally在一次對話中提到,訓練更喫內存容量,而推理則考驗計算、內存帶寬、容量和通信之間的資源配比。他表示,推理內部也存在差異。比如預填充(Prefill)階段更像訓練:一次性處理大量數據,屬於密集計算型,受通信能耗主導。而到了解碼(Decode)階段,為了優化延遲,你通常在做極瘦矩陣運算,這會變成極端的帶寬受限和延遲受限。

Bill Dally提出了一個預判,未來至少會分化出三類硬件:一類針對訓練和預填充,一類針對解碼,而解碼類硬件內部甚至還會進一步細分

英偉達宣佈了和芯片廠商Groq的整合。訓練是計算密集型,HBM(高帶寬內存)是最優解;推理是存儲密集型,需要的是低延時、大容量的快速存儲。Groq的LPU正是為此而生:基於SRAM,片上集成,速度遠快於DRAM,極低延時。

同時英偉達發布了新的CPU,這款CPU專門為算力中心優化設計,放到其他場景反而不合適,跟英特爾打的不是同一場仗。但顯然,英偉達,正在構築一個比CUDA更大的帝國。

王智說,英偉達正在成為算力時代的蘋果,芯片自己做,操作系統自己做,硬件自己做,應用自己控制。只不過耦合比蘋果更復雜。

創業公司的機會還有嗎

所有人都在問同一個問題:英偉達的帝國在擴大,推理市場也被它納入版圖,創業公司還有活路嗎?

關鍵在於,英偉達不會做所有的事,它的強項是系統級、規模化的交付,是面向數據中心的整體解決方案。而邊緣場景和中等定製化場景的特點恰恰相反:和特定場景高度綁定,需要定製化能力。一個工廠的質檢攝像頭、一輛自動駕駛汽車的車載芯片、一個手術機器人的感知模塊——這些邊緣側場景對計算的需求是高度定製化和異構的。

這裏就是可重構計算的機會所在。可重構計算解決的是一個根本矛盾:通用芯片效率低,專用芯片太死板。如果我們拿流水線的工人做類比,普通芯片就像流水線工人,招進來只會擰螺絲,讓他去焊接?不會,得重新招人。CPU像萬能工人,什麼都能幹,但什麼都幹得不夠快。可重構芯片呢,它像一個可以反覆「回爐培訓」的工人,今天把他訓練成焊接工,明天把他重新訓練成噴漆工,後天再訓練成質檢員。人沒換,但技能跟着任務走,每次都能以"專業工人"的效率幹活。AI時代的問題是,任務今天是這個模型、明天是那個模型,總不能每換一個任務就重新招一批專業工人。

可重構計算也是中國半導體領域少數幾個與國際差距相對較小的方向之一。

王智最近在看一些可重構計算的公司,成本更低,部署更快,適合中等程度的定製場景。

那麼推理是否還有機會?王智認為,推理領域屬於目前國內剛上市(岸)的頭部算力芯片公司的機會。推理側的需求啱啱開始爆發,場景綁定的特性也給了差異化的可能。但他同時說,這也是很大的挑戰,抓不住,就很難走到下一個階段。

判斷一個公司是否抓住了機會,他給了一個具體標準:是不是足夠快地認清推理纔是重點,而不是繼續把資源押在為了上市而做的、跟隨英偉達的訓練芯片路線上。

這個標準比看起來更苛刻。許多已經上市或臨近上市的國內芯片公司,此前的商業邏輯是:做一款"夠用"的訓練芯片,講一個替代英偉達的故事,完成上市。而新的邏輯需要他們放棄路徑依賴,基於中國豐富的應用場景重新建立產品定義和客戶關係

總之,領先者的優勢越來越明顯,錢、技術團隊、客戶綁定……剩下的機會不多了。

本內容未經允許不得轉載。授權事宜請聯繫 hezuo@huxiu.com。

End

想漲知識 關注虎嗅視頻號!

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10