進入全球第一梯隊！京東(09618)開源JoyAI-Echo框架長視頻生成「所想即所得」時代到來

智通財經APP獲悉，6月3日，京東(09618)宣佈開源JoyAI-Echo長音視頻生成框架。JoyAI-Echo解決了行業三大痛點：角色難穩定一致、音色變化難控制、視頻生成速度慢，實現了長視頻生成「又快又好」。此外，JoyAI-Echo的「邊聊邊改」模式，讓視頻創作從 "靜態生成" 變成 "動態協作"。

JoyAI-Echo在各類視頻創作、數字人直播、品牌營銷、教育和遊戲內容生產等領域有巨大的應用潛力，它的推出，標誌着京東在長視頻生成領域實現重大突破，進入全球第一梯隊。

四大技術創新解決長視頻生成三大難題

在AI視頻領域，十幾秒短視頻的生成質量越來越成熟，但行業頭疼的瓶頸依然存在：難以向分鐘級長視頻突破。AI視頻一但拉到這一時長，就會出現以下問題：同一個角色，在不同鏡頭裏長得不一樣;說話人的音色忽高忽低甚至突然變聲;生成速度慢到離譜，等幾分鐘甚至半小時才能出結果。

以上問題，直接導致 AI 長視頻停留在 "玩具" 階段，很難真正投入生產、創造價值。JoyAI-Echo 的出現，徹底打破這個僵局。JoyAI-Echo 有四項技術創新：

一是跨模態音視頻記憶庫，讓角色再也不 "變臉"。這也是JoyAI-Echo 最關鍵的突破。模型框架內置了一個專門的記憶庫，能在多鏡頭生成過程中，持續保存並調用角色的外觀特徵和說話人音色信息。在長達 5 分鐘的視頻裏，角色身份、視覺形象和聲音音色都能保持高度一致，再也不會出現 "同一個人演着演着變成另一個人" 的尷尬情況。

二是記憶驅動後訓練，速度直接提升 7.5 倍。研發團隊創新提出了記憶驅動後訓練流程，結合 SFT、跨模態 RLHF 和 Distribution Matching Distillation(DMD)技術，大幅提升了生成質量，更實現了驚人的推理加速。

其中，僅 DMD 一項技術就帶來了約 7.5 倍的速度提升，讓長視頻生成從 "等半天" 變成 "秒出片"。

三是加入智能 "導演助理"——Director Agent，讓長視頻第一次實現 "對話式編輯"。JoyAI-Echo 不再是 "輸入提示詞，一次性出結果" 的傳統工具。你用自然語言說需求，它會自動幫你拆分成劇本、角色、場景和鏡頭。哪裏不滿意，直接用對話的方式告訴它修改，它只重新生成有問題的局部鏡頭，不用重跑整條視頻，讓長視頻創作從 "靜態生成" 變成了 "動態協作"。

四是輕量化實時超分，高清輸出不卡頓。為了滿足專業內容生產的需求，JoyAI-Echo 配套了專門的實時超分模塊，支持兩檔分辨率提升(736×1280 → 1152×1920，736×1280 → 1472×2560)。模塊通過單步超分就能生成高分辨率視頻和精細化音頻，即使在流式延遲的約束下，也能保持穩定的高清表現。

各項指標全面領先行業「AI 長視頻時代"到來

為了客觀評估 JoyAI-Echo 的性能，研發團隊基於 100 個故事、3000 個鏡頭構建了長音視頻生成評測集，從多個維度進行了全面測試。結果顯示，JoyAI-Echo 在跨鏡頭一致性、視頻質量、文本一致性和語音內容準確率等所有核心指標上都取得了領先表現，其中語音內容準確率更是高達0.8646，大幅領先行業其它同類模型。

在與行業同類模型對比中，用戶認為JoyAI-Echo音頻質量偏好的比例為81.7%，提示詞遵循偏好為80.6%，視覺美學偏好為63.6%，IP 一致性偏好為59.4%。

JoyAI-Echo 的推出，意味着AI 視頻生成的 "長視頻時代"來了。它為虛擬故事創作和動漫製作、數字人內容生產和直播、品牌營銷視頻快速迭代、互動教育課件生成等領域帶來了全新可能，將大幅優化行業成本效率。JoyAI-Echo也預示着未來人類可以像聊天一樣，持續創作、修改和完善長視頻內容，讓高一致性、高畫質、可交互的視頻生成，真正走進每一個內容創作者的工作流程。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

進入全球第一梯隊！京東(09618)開源JoyAI-Echo框架長視頻生成「所想即所得」時代到來

熱議股票

進入全球第一梯隊！京東(09618)開源JoyAI-Echo框架 長視頻生成「所想即所得」時代到來

熱議股票

進入全球第一梯隊！京東(09618)開源JoyAI-Echo框架長視頻生成「所想即所得」時代到來