智通財經APP獲悉,6月3日,京東(09618)宣佈開源JoyAI-Echo長音視頻生成框架。JoyAI-Echo解決了行業三大痛點:角色難穩定一致、音色變化難控制、視頻生成速度慢,實現了長視頻生成「又快又好」。此外,JoyAI-Echo的「邊聊邊改」模式,讓視頻創作從 "靜態生成" 變成 "動態協作"。

JoyAI-Echo在各類視頻創作、數字人直播、品牌營銷、教育和遊戲內容生產等領域有巨大的應用潛力,它的推出,標誌着京東在長視頻生成領域實現重大突破,進入全球第一梯隊。
四大技術創新 解決長視頻生成三大難題
在AI視頻領域,十幾秒短視頻的生成質量越來越成熟,但行業頭疼的瓶頸依然存在:難以向分鐘級長視頻突破。AI視頻一但拉到這一時長,就會出現以下問題:同一個角色,在不同鏡頭裏長得不一樣;說話人的音色忽高忽低甚至突然變聲;生成速度慢到離譜,等幾分鐘甚至半小時才能出結果。
以上問題,直接導致 AI 長視頻停留在 "玩具" 階段,很難真正投入生產、創造價值。JoyAI-Echo 的出現,徹底打破這個僵局。JoyAI-Echo 有四項技術創新:
一是跨模態音視頻記憶庫,讓角色再也不 "變臉"。這也是JoyAI-Echo 最關鍵的突破。模型框架內置了一個專門的記憶庫,能在多鏡頭生成過程中,持續保存並調用角色的外觀特徵和說話人音色信息。在長達 5 分鐘的視頻裏,角色身份、視覺形象和聲音音色都能保持高度一致,再也不會出現 "同一個人演着演着變成另一個人" 的尷尬情況。
二是記憶驅動後訓練,速度直接提升 7.5 倍。研發團隊創新提出了記憶驅動後訓練流程,結合 SFT、跨模態 RLHF 和 Distribution Matching Distillation(DMD)技術,大幅提升了生成質量,更實現了驚人的推理加速。
其中,僅 DMD 一項技術就帶來了約 7.5 倍的速度提升,讓長視頻生成從 "等半天" 變成 "秒出片"。
三是加入智能 "導演助理"——Director Agent,讓長視頻第一次實現 "對話式編輯"。JoyAI-Echo 不再是 "輸入提示詞,一次性出結果" 的傳統工具。你用自然語言說需求,它會自動幫你拆分成劇本、角色、場景和鏡頭。哪裏不滿意,直接用對話的方式告訴它修改,它只重新生成有問題的局部鏡頭,不用重跑整條視頻,讓長視頻創作從 "靜態生成" 變成了 "動態協作"。
四是輕量化實時超分,高清輸出不卡頓。為了滿足專業內容生產的需求,JoyAI-Echo 配套了專門的實時超分模塊,支持兩檔分辨率提升(736×1280 → 1152×1920,736×1280 → 1472×2560)。模塊通過單步超分就能生成高分辨率視頻和精細化音頻,即使在流式延遲的約束下,也能保持穩定的高清表現。
各項指標全面領先行業 「AI 長視頻時代"到來
為了客觀評估 JoyAI-Echo 的性能,研發團隊基於 100 個故事、3000 個鏡頭構建了長音視頻生成評測集,從多個維度進行了全面測試。結果顯示,JoyAI-Echo 在跨鏡頭一致性、視頻質量、文本一致性和語音內容準確率等所有核心指標上都取得了領先表現,其中語音內容準確率更是高達0.8646,大幅領先行業其它同類模型。
在與行業同類模型對比中,用戶認為JoyAI-Echo音頻質量偏好的比例為81.7%,提示詞遵循偏好為80.6%,視覺美學偏好為63.6%,IP 一致性偏好為59.4%。
JoyAI-Echo 的推出,意味着AI 視頻生成的 "長視頻時代"來了。它為虛擬故事創作和動漫製作、數字人內容生產和直播、品牌營銷視頻快速迭代、互動教育課件生成等領域帶來了全新可能,將大幅優化行業成本效率。JoyAI-Echo也預示着未來人類可以像聊天一樣,持續創作、修改和完善長視頻內容,讓高一致性、高畫質、可交互的視頻生成,真正走進每一個內容創作者的工作流程。