文|硅基星芒
就在昨天,國產模型悄無聲息地贏得了一場多模態戰役。
正當字節跳動的Seedance 2.0視頻生成模型揚名海外,OpenAI卻突然宣佈即將關停旗下視頻生成模型Sora的相關服務。
在這個智能體時代,人們已經逐漸意識到多模態能力的重要性。
Seedance 2.0憑藉它的強大能力,已經被人們視為未來製作電影的「神器」,而它現在唯一存在的尷尬之處,就在於缺少配音。
音頻生成看起來比視頻生成要簡單,但給視頻精準配音(Video-to-Audio, V2A)卻十分困難:完美的配音不僅要「貼臉(語義與聲音同步)」,還要做到「好聽(美學質量)」和「身臨其境(空間立體聲)」。
為了補齊視頻生成模型「走向電影」的短板,阿里通義實驗室和香港科技大學、香港中文大學的研究團隊共同進行了一項有里程碑意義的研究:PrismAudio。
這是業內首個將強化學習(RL)與專門的多維思維鏈(CoT)規劃深度集成到V2A生成中的框架。
研究團隊不僅提出了能夠大幅降低擴散模型強化學習訓練成本的Fast-GRPO算法,還開源了高難度基準測試數據集AudioCanvas。
更驚人的事實是,PrismAudio憑藉僅僅518M的參數量,擊敗了衆多數十億參數級別的模型,在所有感知維度上全面刷新了SOTA。
V2A生成的「不可能四角」
全球範圍內,AI的多模態目前仍然侷限於文本、圖像、音頻和視頻四類核心模態。
在過去的一年中,文生圖、文生視頻和圖生視頻的模型已經變得常見,唯有音頻這個模態與其他核心模態的通路尚未完全打通。
儘管市面上已經有不少AI音樂生成的產品,但視頻生成音頻的本質不同於「看圖說話」,在人類的感知世界,一段合格的視頻配音至少要經過以下四個維度的考驗:
一是語義一致性:這是最簡單的要求,畫面裏說的是中文,聲音就不能是英文;
二是時間同步性:類似於影視作品中的「對口型」,保證發出聲音的時間與視頻一致;
三是美學質量:聲音需要具有主觀的豐富度、保真度和藝術感,而不能是單調的電子音;
四是空間準確性:左右聲道需要跟隨畫面中的運動物體形成完美的聲像移動。
早期的V2A-Mapper等模型直接將畫面映射為音頻,但缺乏對中間過程「黑盒」的控制能力。
近期的MMAudio、MovieGenAudio等模型雖然引入了文本提示詞控制,但控制能力仍然略顯薄弱。
直到2025年7月,阿里通義實驗室的劉華戴博士開源了ThinkSound模型,開創性地將思維鏈(CoT)引入多模態大模型,讓模型在生成聲音前先「思考」應該發出什麼聲音,大大提高了模型的邏輯性。
儘管如此,ThinkSound也存在三個致命缺陷:
一是思維鏈極其混亂:它把識別物體、對齊時間、判斷美感、計算空間位置這些過程全都放在同一個思考過程中。
這就像讓一個學生同時做語文、數學、英語、物理等不同科目的卷子,結果可想而知,模型容易出現「多模態幻覺」。
二是目標糾纏(Objective Entanglement):在訓練過程中,模型使用的是單一的重建損失函數,但感知目標之間往往存在競爭關係。
也就是說,模型為了把發聲時間對準,可能生成了一個難聽的噪音;生成了好聽的聲音,可能又無法與畫面吻合。
三是缺乏人類偏好對齊:現有的模型只會照本宣科地擬合訓練數據,但沒有引入人類反饋強化學習(RLHF)來學習什麼纔是人類覺得「好聽」的聲音。
這一點也是多模態模型面臨的最大難點之一:
對於大語言模型,回答的正確與錯誤一目瞭然;但對於圖像、音頻和視頻,人類能輕易判斷出何為「壞」,但無法準確定義何為「好」。
PrismAudio:像頂級音效師一樣思考
PrismAudio給出了優雅的解法,而核心思想並不複雜:分而治之的思維鏈規劃+對症下藥的強化學習優化。
它的架構建立在一個強大的基礎模型之上。
為了提升模型對視頻模態和複雜邏輯的理解能力,研究團隊不僅把傳統的視覺編碼器CLIP換成了專門用於理解視頻的VideoPrism(Google,2024),還把文本編碼器也一併升級為具備強大邏輯推理能力的T5-Gemma(Google,2025)。
接下來,就輪到它的核心技術大顯身手:
1.分解式多維思維鏈
既然把各種V2A需求都放到同一個思考過程中行不通,PrismAudio乾脆直接將思考過程拆解成了四個獨立且專業的CoT鏈路。
在音頻生成之前,模型需要按順序提交四份「分析報告」:
語義CoT:專注於內容識別,例如「畫面中的一匹馬開始奔跑,馬蹄聲逐漸增強,最後停下伴有喘息聲」。
時間CoT:專注於時序排序,例如「起初是緩慢的步伐,隨後加速進入穩定的節奏,最後步伐放緩直至停止。」
美學CoT:專注於音質感受,例如「音頻保持清晰、乾脆的馬蹄聲,帶有自然的混響。」
空間CoT:專注於聲場定位,例如「聲音從左側聲像出現,穿過中心,最後在右側淡出。」
四個維度的「分析報告」拼接起來,就可以作為一份極強的文本條件輸入給擴散基礎模型。
這種顯式的邏輯推理不僅解決了思維混亂的問題,還能讓生成過程的「黑盒」更加可控和可解釋。
2.多維度強化學習
思考過程已經理順,下一步就該解決目標糾纏的問題,並讓模型生成的音頻符合人類的偏好。
為此,針對已有的四個CoT,團隊設計了與之對應的四個獨立的獎勵模型:
對語義CoT,使用微軟的MS-CLAP模型評估音頻和文本內容是否一致;
對時間CoT,使用高度敏銳的Synchformer模型檢查音畫是否同步;
對美學CoT,使用Meta的音頻質量評估工具Audiobox Aesthetics預測人類主觀打分;
對空間CoT,使用StereoCRM方法驗證立體聲方向定位的精確度。
如此一來,模型生成的音頻就有了一個具體的評判標準,強化學習機制也就有了理想的訓練目標。
3.Fast-GRPO算法
研究團隊首先將目光鎖定在DeepSeek團隊在2024年提出的輕量級高效強化學習算法GRPO上。
不過,GRPO只能應用在離散自迴歸生成的大語言模型上,要想在多模態擴散模型上應用,就得使用Flow-GRPO,即應用於流匹配模型的GRPO。
但即便如此,這裏還有一個關鍵的根本性問題沒有解決:
無論是生成圖像還是音頻,模型都是從一團純噪聲開始,經過幾十步或幾百步的去噪過程,最終還原出清晰的信號。
為了讓模型在去噪過程中能夠發現「好」的聲音,Flow-GRPO把這幾百步過程全部變成了隨機微分方程,模型在每一步去噪過程中都要加入一點隨機噪聲並計算策略比率。
這個過程帶來的後果是災難性的,神經網絡的反向傳播梯度變得極深,顯存和訓練時間都會指數級爆炸,計算複雜度也達到O(T),其中T是去噪過程的總步數。
如今,算力就等同於成本,為了填補這個算力「黑洞」,研究團隊採用了一個看似投機取巧的方法:Fast-GRPO。
這是一種混合採樣路徑,在模型開始將噪聲轉化為音頻之前,隨機在總步數中圈定一個極其狹窄的時間段,這個只有幾步的小區間被稱為「優化窗口」。
在優化窗口內,模型使用隨機微分方程,引入隨機噪聲探索更「好」的聲音;在優化窗口外,模型使用常微分方程進行確定性採樣,極度高效、路徑唯一且不需要計算複雜的策略概率。
乍一看,Fast-GRPO只在去噪過程中間抽取了一小段進行隨機探索,可能會影響擴散模型最後生成的概率分佈。
實際上,這個方法有極其嚴密的數學論證。
而當這個方法被實際應用到模型中,得到的結果令人驚喜:
首先是算力消耗斷崖式下跌:時間複雜度從O(T)直接降到接近線性,顯存佔用和訓練時間也降低到普通實驗室可以接受的範圍之內,免得像Sora一樣入不敷出。
除此之外,收斂速度和最終效果同樣有所提升:Fast-GRPO使得模型只需要200步即可完成原先需要600步的去噪過程,分數也從0.47提升至0.51。
以小博大,全面碾壓
真金不怕火煉。在極其嚴苛的實驗環境下,PrismAudio仍然展現出了強大的統治力:
在牛津大學VGG團隊2020年發布的大規模音視頻數據集VGGSound上,僅有518M參數的PrismAudio與通義實驗室研發的前代模型ThinkSound(1.3B)、騰訊混元的Video-Foley(5.31B)以及開源模型MMAudio(1.03B)展開了正面交鋒。
無論是語義對齊(CLAP)、音畫同步誤差(DeSync)、空間精度誤差(CRW)等客觀指標,還是人類評估的音質(MOS-Q)、音畫一致性(MOS-C)等主觀指標,PrismAudio都超越了包含上一代SOTA模型在內的所有競爭對手。
不過,前面已經說過,相比文本、圖像和視頻,音頻模態的發展其實略顯落後。現有的評測數據集,大多標註粗糙、場景單一。
為此,研究團隊耗費巨大精力構建了一個包含3177個真實世界視頻的高難度基準測試:AudioCanvas。
這個測試集中的音視頻經過嚴格的人工過濾,徹底剔除了畫外音和BGM的干擾,並精心設計了501個多事件複雜場景,用以考驗模型區分和融合多種聲音的能力。
除此之外,研究團隊還使用Gemini 2.5 Pro為視頻生成了詳盡的思維鏈推理文本,經過人工驗證,準確率高達94%以上。
面對AudioCanvas中複雜的多時間場景,前代模型在時間同步和空間準確性上幾乎直接崩潰。
但PrismAudio仍然不動如山,展現出了驚人的健壯性,各項指標穩居第一。
值得注意的是,在語義對齊和時間同步等一些客觀指標上,PrismAudio的表現甚至超越真實視頻的原聲音。
也就是說,真實世界的雜音會干擾客觀指標,而PrismAudio經過強化學習反而生成了高度符合人類理想預期的聲音。
表格中的最後一行,則是對獎勵函數的消融實驗結果:
如果去掉了多維思維鏈和Fast-GRPO算法,PrismAudio瞬間變得表現平平,和競爭對手幾乎沒有區別,這些核心機制能發揮多大的作用,已經鐵證如山。
阿里在多模態領域的選擇
PrismAudio的誕生,不僅讓音頻生成技術正式告別了「黑盒」的不可控時代,更在商業落地上展現出了巨大的想象空間。
站在智能體時代的十字路口審視國產大模型的出路,其實留給各家AI大廠的出路已經極其有限,核心無非兩條路:代碼能力和多模態能力。
PrismAudio,恰恰是阿里在千問APP營銷無果、深思熟慮後打出的一張底牌。
在代碼和邏輯推理賽道,以Claude Code為首的國際頂尖模型目前依然佔據絕對的統治地位。
這條路研發壁壘極高、推理成本昂貴,國內短期內看不到推出平替產品的可能性。
而在多模態賽道,文生視頻已經進入激烈的內卷階段,字節跳動憑藉Seedance 2.0躋身全球第一梯隊,可靈和Sora也緊隨其後。
相比之下,通義萬相顯得不溫不火,在沒有抖音這種短視頻平台的數據加持下,此時在這條擁擠的視覺賽道上與競爭對手死磕算力絕非明智的戰略選擇。
因此,阿里給出的解法是繞道而行:既然其他人都在製造「無聲的軀殼」,那我就去製造「聲音的靈魂」。
在人類的感知中,視頻和音頻往往存在強綁定關係。
無論AI生成的視頻畫面有多震撼,只要它還缺少必要的聲音,就永遠只是一個半成品。
PrismAudio展現出的極強可控性、完美時間對齊和高保真音質,讓阿里直接切入了多模態賽道的最後一個賽段。
這種繞道而行的打法,不僅避開了正面的同質化競爭,還讓通義系列的模型產品成為了AI影視工作流中不可或缺的核心。
在「模型即服務」的生態環境競爭中,誰掌握了標準,誰就擁有了定義權。
通義實驗室的研究團隊已經承諾,在論文發表後將完全開源PrismAudio的所有代碼、模型權重和AudioCanvas基準測試數據集。
表面上是學術風險,實際上商業佔位:開源現有的難度最高、標準最嚴格的測試基準,正是阿里試圖定義V2A行業標準的體現。
Sora丟失王座,Seedance 2.0新王登基,高質量、細粒度控制的音頻生成註定將成為多模態領域下一個萬億賽道的核心。
阿里已經探索出了正確的道路,至於怎麼走、能否走得好,仍然值得期待。