文|硅基星芒
過去的兩年,AI的形態發生了快速的轉變。從能寫詩、寫代碼的文本模型,到會生圖、P圖的圖像模型,再到能生成以假亂真視頻的視覺模型,AI認識世界的能力已經開始無限逼近人類。
智能體時代的到來,讓人們意識到AI不能只是網頁中的對話框,而是要操控電腦完成任務。如今,各家AI企業又形成了一個隱祕而龐大的共識:AI的終極形態不能只困在螢幕裏,必須走向物理世界。
具身智能(Embodied AI)這個詞,去年人們還少有聽聞,而如今,2026年已經被炒作成了「具身智能」的元年。
為了儘早搶佔生態位置,也為了不被其他競爭對手甩開身位,阿里的通義千問團隊也正式交出了在具身智能領域的第一份答卷:Qwen-VLA。
事實上,這是阿里延續其「重視生態+全面覆蓋」策略又一次明確的體現。VLA,意為Vision-Language-Action,這不僅標誌着千問起步跨入了具身智能賽道,還向行業釋放了一個強烈的信號:阿里要做的不是針對單一機器人的「bug修復」,而是要做出一個統領全場景的基座模型。
01機器人行業正在呼喚「秦始皇」
在拆解Qwen-VLA的硬核技術之前,必須先看清它試圖解決的商業痛點。
目前的機器人行業,普遍面臨着極其嚴重的碎片化問題。在發布會上,企業總是不可避免地要回答「具身智能會在哪個領域優先落地」這個問題,答案可能是家用,也可能是製造業。但是,這些答案都太過於廣泛,在實際的演示中,我們能看到的往往只有家用機器人表演疊衣服、工業機器人表演物品分類。
換句話說,疊衣服的機器人不會掃地和切菜,物品分類的機器人不會擰螺絲,針對不同品牌的機器人必須要單獨定製一套或多套算法才能多覆蓋幾個細分的應用場景。
從技術角度來看,這明顯與通用人工智能(AGI)的理念背道而馳。
從商業邏輯來看,這種「專機專用」的模式,導致的直接結果就是極高的研發和交付成本,完全享受不到大模型時代的規模化成本優勢。只要系統的邊際成本降不下來,那麼機器人走進千家萬戶就永遠是紙上談兵。
而Qwen-VLA的野心就在於此,它要做具身智能領域的「秦始皇」,實現「車同軌,書同文」。
仔細想想,這與阿里千問做大語言模型的思路幾乎完全一致:雖然旗艦模型追不上國外頂尖模型的性能,但它不同規模的開源模型卻成為了全球最主流的基座模型,甚至Anthropic啱啱推出的Opus 4.8都被發現可能蒸餾了Qwen系列模型。
回到具身智能領域,在它的架構裏,桌面機械臂抓取、雙臂協同、視覺語言導航這些不同的環節,被統一抽象成了同一個底層數學問題:在特定的視覺觀察、語言指令和機器人形態條件下,預測下一步應該執行的連續動作軌跡。
這就意味着,用一個通用的策略模型,就能橫跨多種不同形態的硬件平台。一旦這種「通用大一統」思路跑通,機器人軟件的複用率就會呈現指數級上升,這就是阿里千問在具身智能領域實現商業化落地的破局點。
02"大腦+小腦"的技術路線
搞清楚了商業邏輯,就可以深入到技術層面。
具身智能是比現有的大語言模型和智能體更高級的AI形態,與物理世界的交互成為了它必須具備的基本技能。因此,讓模型在一個仿真世界中進行學習就成了無法跳過的一個重要環節。
目前,模型的世界生成形式主要有兩種技術路線:一種是依靠視頻生成重建世界,例如OpenAI的Sora和Google的Genie,另一種則是依靠3D空間生成對世界顯式建模,例如李飛飛的World Labs。
不過,阿里千問的Qwen-VLA沒有沿着過往的道路繼續向前探索,而是選擇了「VLA大一統策略模型+擴散動作生成+仿真強化學習」的融合路線。
三個專業名詞都不是新提出來的概念,但這條路線還沒有人嘗試過。現有的VLA模型,核心就在於「預測下一幀畫面長什麼樣」,而Qwen-VLA則明確提出,相比於視覺預測,它更強調生成智能體可以直接執行的動作信號。也就是說,它不預測未來的畫面,而是直接輸出關節角度、底盤方向這些直觀的物理參數。
在架構上,Qwen-VLA按照仿生學設計了類似於人類大腦與小腦協同的框架:
大腦負責認知和理解。採用Qwen3.5多模態模型作為中樞,它需要看懂環境並理解人類複雜的語言指令,甚至要能準確判斷空間位置關係,比如demo中把某個顏色的物體放到另一個顏色的物體旁邊這種指令。
小腦負責精細動作的控制。Qwen團隊拋棄了傳統的輸出頭,轉而接入了一個擁有11.5億參數、基於擴散模型的動作解碼器。這確實是目前AI行業最前沿的做法,因為機械臂的動作必須是平滑、連續和高頻的,而擴散模型在生成這種細粒度連續軌跡上本來就有天然的優勢。
確定了上述架構之後,問題就來到了訓練環節。衆所周知,VLA這種多模態模型的訓練難度與大語言模型根本不在同一個量級,因此Qwen設計了教科書般的四階段訓練法:
1.T2A
顧名思義,從文本到動作預訓練,他們把動作視為語言的「解壓縮」。在這個階段,模型甚至不需要接觸圖像,只是純粹通過閱讀「拿起杯子」這種語言指令,在小腦中建立起對動作軌跡一連串的「肌肉記憶」,也就是動作先驗。
2.CPT
即持續多模態預訓練。在模型擁有「肌肉記憶」之後才允許它「睜眼」,因為模型不僅要嚴格遵循指令,還必須能看懂眼前真實的畫面。在這一步,認知大模型與動作解碼器連通,啱啱閉眼學會的「拿起杯子」動作會和眼前杯子具體的位置、形狀、顏色相對應,也就是視覺對齊。
3.SFT
即監督微調。模型能夠「拿起杯子」,證明它已經具備了幹活的基本能力。接下來要做的,是讓它學會如何像人類一樣幹活。研究人員會挑選出最標準、最高質量的真實人類操作錄像,讓模型一點點地跟着學,比如摺疊衣服、收拾碗筷等等。所謂的模仿學習,就是要讓模型學會最標準的動作。
4.RL
強化學習是所有模型訓練的範式。光看錄像模仿永遠解決不了一個真實存在而且頻繁出現的問題:容易「死記硬背」。杯子放歪了一點,手滑了一下,結果就可能是一地碎玻璃。而模型此時也不知道該如何糾錯,於是直接宕機。因此,模型必須進入虛擬仿真環境中進行訓練,規則也很簡單,動作是否標準不重要,完成目標就會得到獎勵,只有這樣,模型才能在無數次失敗中學會自我糾錯。
03貧瘠的數據養料
莫拉維克悖論告訴了人們一件事:對人類來說,走路、抓取都是再簡單不過的物理動作,對AI來說卻難如登天。其核心原因已經得到了廣泛的共識:數據極度匱乏。
互聯網上有數以萬億計的文本,但真實世界中的物理動作參數卻無限接近於零。
規模化法則在具身智能領域同樣適用。為了餵飽Qwen-VLA,阿里千問體現出了強大的財力和工程能力,構建起了極度複雜且龐大的數據源:
其中,74.2%的真機遙操作數據佔了絕對的大頭。除了全球開源的機器人數據集,阿里還內部收集了超過1000小時的真實機器人遙操作數據,也就是人類佩戴設備控制機器人幹活留存下來的軌跡數據。這些數據,能夠轉變為最寶貴且最真實的物理參數。
與此同時,阿里千問也沒有放棄視頻生成這條路,人類第一視角視頻數據也佔了6%。這部分數據相比之下更容易獲得,人類佩戴攝像頭幹活,然後保留下穩定的視頻數據即可。雖然沒有直接可用於機器人的參數,但模型仍然能夠從中學習到人類雙手的動作邏輯。
上述兩種數據最大的優點就在於高質量和高有效性,但離不開人類操作,這就會導致成本居高不下。
為了解決這個問題,大規模合成仿真(3.7%)成為了具身智能企業的首選。這種方式不僅能降低成本,還能大大提升數據積累的速度,Qwen團隊使用仿真引擎,目前已經自動生成了超過800萬條物理碰撞的軌跡,能夠覆蓋多種罕見的長尾場景。
最後則是通用的圖文數據(8.5%)。為了讓模型在實際應用場景中不至於忘掉最基本的常識和認知,數據集中還摻入了常規的多模態問答數據。
04分佈外泛化能力
想要評估一個用於具身智能的模型強不強,標準與大語言模型和智能體截然不同。在實驗室等預設、可控環境中表現得再好,也可能在遇到從沒見過的事物時突然宕機。
這也是Qwen-VLA的亮眼之處。它不僅打平甚至碾壓了ABot-M0和StarVLA等多個仿真專屬模型,還在真實的雙臂機器人上展現出了極強的分佈外泛化能力以及動態場景零樣本能力。
簡單來說,對於完全沒見過的物體,照樣能夠抓取。訓練時模型可能只見過抓取木塊和杯子,但測試時變成了玩具鴨和墨鏡,只要用戶給出準確的指令,視覺大腦就能夠準確定位,小腦迅速規劃動作併成功抓取物體。
同時,真實世界中光線背景隨時都會改變,但模型並不會因此受到影響。把背景換成訓練中從未見過的顏色或者高亮/低亮環境,模型仍然能夠完成極其精細的動作,完全不會受到背景噪音的干擾。
更難的場景在於那些動態移動的物體,Qwen-VLA展現出了最大的優勢:零樣本出擊。在DOMINO動態操控評測中,針對一直處於移動狀態的物體,Qwen-VLA可以在沒有任何特殊微調的情況下,實時調整軌跡、精準攔截並完成操作,效果甚至超越了一大批專門針對動態場景優化的傳統模型。
05距離真正的AGI還有多遠?
拋開這些激動人心的成績單,用客觀的眼光重新審視Qwen-VLA,所有人都應該認清一個事實:這最多隻能算是一次早期的探索,具身智能距離真正的落地還差得很遠。
所謂的「具身智能元年」,完全是一次商業上的營銷。Qwen團隊在論文中坦誠指出模型存在幾點侷限性,其實是全球具身智能企業都要面對的問題:
一是動作數據量級依然太小。相比於動輒以TB計的文本預訓練數據,目前的物理動作數據在規模和多樣性上都還遠遠不夠。一旦面對極其複雜的接觸式交互,模型仍然缺乏健壯性。
二是「既要又要」的優化妥協。在現有的技術路徑距離AGI遙遙無期的背景下,VLA是一個值得肯定的探索思路。但強行把視覺、語言、導航和動作生成這些環節放到一起訓練,就必須直面左右互搏的優化難題。有些純視覺能力在引入動作訓練後,反而可能發生性能倒退。
三是缺少觸覺反饋的無實物表演。具身智能的落地需要各種物理接觸,然而目前的輸入仍然重度依賴視覺,缺乏力反饋、觸覺和本體感覺的深度融合。如果不解決多模態傳感器的融合問題,機器人永遠不能像人一樣「用雙手」幹活。
四是長程任務依然是痛點。現有的評測大多是十幾秒的短任務,如何讓機器人在長達數小時的任務中自主規劃並分解步驟,甚至是從失敗中自動恢復,目前仍然是一個開放難題,智能體的經驗恐怕不能直接挪用。
總之,從察言觀色到下場幹活是本質上的跨越,絕非一朝一夕所能實現。
而阿里Qwen-VLA的發布,證明了「用統一的大模型基座去收斂碎片化的物理控制」這條路徑是完全可行的。
當算法開始真實地感受到重力、摩擦力和空間阻隔,人工智能的浪潮纔算真正抵達了物理世界的海岸。