凯时AG

宣布于2026-06-17 04:17:39来自安卓免费版 v3.975.86.926782 ·

关注

5分钟AI长视频不翻车！国产开源框架杀到全球第一梯队

梦瑶闻乐发自凹非寺量子位 | 公众号 QbitAI

AIGC生长到今天，，，，，，天生几秒钟的AI视频真的已经不算新鲜事儿了。。。。。。

但！难的地方在于，，，，，，让统一个角色在几分钟里始终坚持一致（扎心.jpg）——

多镜头切换，，，，，，脸可能变了，，，，，，换场景，，，，，，衣服发型最先漂；；；人物启齿，，，，，，音色前后接不上。。。。。。

问题不在模子「不会造梦」，，，，，，而在于它很难「记着」这个梦……

△AI天生

也正因云云，，，，，，长视频天生迟迟未能进入全行业的生产流程，，，，，，更别说大规模商业化。。。。。。

在长视频天生整体卡壳确当下，，，，，，刚刚，，，，，，有团队给出了一套新解法——

开源长音视频天生框架JoyAI-Echo，，，，，，并杀入全球长视频天生领域全球「第一梯队」。。。。。。

把长视频创作里角色一致性、音色稳固性、天生速率和画面质量等天生痛点，，，，，，一把梭哈～

哪怕是几分钟的视频，，，，，，多镜头、多场景、多段语音一连切换，，，，，，人物形象和声音也能狠狠稳住。。。。。。

不但云云，，，，，，支持对话式编辑的Agent能力也一起安排上了，，，，，，以后我们做视频就像和导演谈天一样了！

然后嘛，，，，，，我再仔细一看，，，，，，这套高性能开源框架，，，，，，竟然来自——

京东？？？？！属实藏得太深……（震惊.jpg)

评测显示，，，，，，JoyAI-Echo在跨镜头一致性、语音准确率（0.8646）等指标上周全领先行业，，，，，，甚至用户偏好达59.4%~81.7%。。。。。。

这下好了，，，，，，AI视频也能所见即所得了。。。。。。

一个可交互、高一致性、可一连迭代的长视频时代来了！

长视频不再“跑偏”：高一致性、低延迟、实时超分

已往一年，，，，，，AI视频模子的竞争重点多集中在几秒到几十秒片断：画质、运镜、气概、物理合理性。。。。。。

各家模子卷得飞起，，，，，，效果确实肉眼可看法next level，，，，，，种种Benchmark评测体现也都很是漂亮。。。。。。

然鹅吧，，，，，，在AI视频天生似乎已经进入成熟期的今天，，，，，，一个问题依然没有被真正解决——长视频天生。。。。。。

原因很简朴：长视频，，，，，，对整个行业来说都《太难了》…….（扎心jpg)

相比短视频天生，，，，，，长视频不但是在时间维度上的简朴拉长，，，，，，更意味着跨镜头、跨场景、跨行动的一连叙事。。。。。。

但现在行业里的长视频天生，，，，，，仍然普遍保存几个恒久逆境：

语言人的音色忽高忽低；；；天生速率也慢得离谱，，，，，，往往要等上好几分钟才华看到效果。。。。。。

这些问题背后，，，，，，袒露的则是目今模子在长时序天生上的自然挑战：

模子过失累积、长程时序一致性弱、推理延迟高。。。。。。

最终带来的效果就是，，，，，，视频里的人物会变脸，，，，，，声音会飘，，，，，，天生还得等良久。。。。。。

这些问题也直接限制了AI视频在虚拟叙事、数字人助手、实时内容创作等场景中的进一步落地和「规模；；τ谩。。。。。。

△AI天生

而JoyAI-Echo给出的解法是，，，，，，通过跨模态音视频影象库、影象驱动后训练、轻量化实时超分让长视频天生更稳。。。。。。

哪怕是几分钟的视频，，，，，，我们也能丝滑拿下。。。。。。【芫馗闯榭ǎ。。。。。。

跨模态音视频影象库：角色再也不“变脸”

长视频天生最让人头疼、行业最难啃的一块骨头，，，，，，就是角色和声音的「前后纷歧致」。。。。。。

在JoyAI-Echo团队看来，，，，，，问题的泉源在于现有模子缺乏真正意义上的恒久影象能力。。。。。。

行业里古板方案、通常依赖上下文窗口生涯历史信息，，，，，，但随着视频长度增添，，，，，，早期内容会逐渐被后续信息稀释。。。。。。

模子虽然能够记着最近几个镜头，，，，，，却很难稳固生涯数分钟之前的人物特征。。。。。。

而JoyAI-Echo的做法是——

直接在框架里塞进了一套「跨模态音视频影象库」。。。。。。

与其让模子记着所有历史内容，，，，，，不如把最要害的身份信息生涯下来，，，，，，并在后续天生历程中一连挪用。。。。。。

这样一来，，，，，，即便视频长度来到5分钟，，，，，，角色的身份、外观和声音依然能够坚持高度一致。。。。。。。。。。。。

这套影象库最大的特点在于，，，，，，它纪录的不但是人物长相，，，，，，还会同步纪录语言人的音色，，，，，，并将两者绑定在一起。。。。。。

当角色首次登场时，，，，，，系统会提取其视觉特征和声音特征写入影象库；；；后续每天生一个镜头，，，，，，都会从影象库中调取这些信息作为参考。。。。。。

为了兼顾效果和效率，，，，，，系统也不会无限扩展影象，，，，，，而是保存故事开头的要害镜头，，，，，，以及最近天生的镜头。。。。。。

这样既不会遗忘主角最初长什么样，，，，，，也始终知道剧情刚刚推进到了那里：

以是说JoyAI-Echo并不是让模子拥有更大的影象力，，，，，，而是让模子学会像人一样影象——

只保存最主要的信息，，，，，，并在需要的时间准确挪用。。。。。。

而这套跨模态音视频影象机制，，，，，，也成为JoyAI-Echo实现5分钟长视频高一致性天生的焦点基础～

影象驱动后训练：速率提升7.5倍

关于长视频天生来说，，，，，，一致性只是第一步，，，，，，天生速率同样决议了产品能不可真正落地。。。。。。

为此JoyAI-Echo团队在模子训练之外，，，，，，又专门设计了一套影象驱动的后训练流程，，，，，，在不牺牲天生质量的条件下，，，，，，把推理效率再往前推一步～

整个流程主要分为三步，，，，，，首先通过SFT监视微调，，，，，，让模子学习高质量音视频天生能力。。。。。。

随后使用人类反馈强化学习进一步优化人物一致性、画面质量以及音画同步效果。。。。。。

最后再通过DMD（Distribution Matching Distillation）手艺，，，，，，将重大的大模子能力压缩到更高效的推理模子中。。。。。。

△AI天生

在整个后训练系统中，，，，，，DMD是最要害的一环。。。。。。

并且最最最最需要夸的一点是，，，，，，仅DMD相关优化就带来了约7.5倍的推理速率提升。。。。。。

我们可以把DMD明确成一次「能力浓缩」——

先让一个能力更强、但推理速率较慢的西席模子完成完整天生流程，，，，，，再让一个越发轻量的学生模子去学习和复现西席模子的天生效果。。。。。。

这样一来，，，，，，原本需要大宗扩散方法才华完成的天生使命，，，，，，被压缩成更少的推理方法，，，，，，模子却依然能够坚持靠近的天生效果。。。。。。

若是说跨模态音视频影象库解决的是「不要忘」，，，，，，那么这套后训练系统解决的就是「别太慢」。。。。。。

一个认真守住长视频的一致性，，，，，，一个认真提升长视频的天生效率。。。。。。

两者连系，，，，，，才让JoyAI-Echo真正具备了迈向长视频生产工具的基础能力～

轻量化实时超分：高清输出不卡顿

一致性有了，，，，，，速率也上来了，，，，，，但长视频天生尚有最后一道坎儿——清晰度。。。。。。

事实真到了数字人、品牌营销、短剧创作这些场景里，，，，，，谁也不希望最后拿到的是一个糊糊的视频……

但问题是，，，，，，目今业内通常接纳「视频天生+离线超分」的两阶段架构。。。。。。

视频先天生，，，，，，再交给自力超分模子处理。。。。。。

这种方案虽然也能提高分辨率，，，，，，但特殊引入了一轮推理流程，，，，，，不但增添期待时间，，，，，，还容易造成天生效果和超分效果的误差。。。。。。

意思就是，，，，，，高清是高清了，，，，，，可期待时间也随着上去了。。。。。。

△AI天生

而JoyAI-Echo给出的解决要领是，，，，，，立异性地把超分能力直接塞进天生链路里。。。。。。

详细来说，，，，，，系统会先天生720P视频和对应音频，，，，，，再通过轻量化实时超分？？？？橐徊酵瓿筛咔迨悠岛鸵羝迪附谠銮。。。。。。

整个超分历程只需要一次向前推理，，，，，，就能直接输出1K甚至2K分辨率效果～

这样不但画面细节更富厚，，，，，，音频质量也会同步优化。。。。。。

整个历程还不会显着增添天生延迟，，，，，，用户也终于可以不必在「速率」和「清晰度」之间做选择了。。。。。。

关于数字人直播、实时创作、内容互动这些对延迟极其敏感的场景来说，，，，，，高清输出不卡顿，，，，，，真的太香了……

Director Agent，，，，，，专属于你的AI视频导演搭子！

各人都懂，，，，，，现实中的影视制作，，，，，，历来不是一次完成的。。。。。。

已往的AI视频天生，，，，，，大多停留在一次性出片的阶段。。。。。。

从剧本、分镜到拍摄、审片，，，，，，再到返工和重拍，，，，，，每一个环节都需要重复打磨。。。。。。

若是其中某个镜头泛起问题，，，，，，创作者往往只能重新天生整条视频，，，，，，不但耗时，，，，，，也很难包管前后内容的一致性。。。。。。

这也是AI长视频恒久难以真正进入生产环节的原因之一。。。。。。。。。。。。

以是，，，，，，创作者需要的并不但是一次性效果，，，，，，还需要像真实拍摄一样，，，，，，拥有能够妄想、天生、返工，，，，，，甚至局部重拍的工具。。。。。。

这个问题，，，，，，JoyAI-Echo手艺团队也想到了，，，，，，于是给视频模子配了一位「AI导演」——Director Agent。。。。。。

我们只需要用自然语言说需求，，，，，，它会自动资助拆分成剧本、角色、场景和镜头～

详细来说，，，，，，Director Agent整个手艺链路被拆成：策划、天生、点评修改三个阶段。。。。。。

在策划阶段，，，，，，Agent更像一位「编剧兼导演」。。。。。。

它会先明确用户意图，，，，，，将一句自然语言需求扩展成完整的故事框架，，，，，，增补角色设定、场景信息和叙事逻辑，，，，，，再进一步拆解为镜头级妄想，，，，，，最终天生切合模子训练名堂的结构化条件。。。。。。

进入天生阶段后，，，，，，Agent又酿成了一位「现场导演」。。。。。。

它会凭证目今镜头内容，，，，，，从已经天生的历史镜头中检索最相关的信息，，，，，，并将这些参考内容与目今剧本状态一起整理成模子需要的输入条件，，，，，，让天生模子能够准确挪用角色、场景和剧情上下文。。。。。。

△AI天生

最厥后到「点评修改」阶段，，，，，，这里反倒更像影视制作里的审片环节～

无论是用户反馈，，，，，，照旧自动评价模子发明问题，，，，，，只要角色形象、行动体现、对白内容或音画同步泛起误差，，，，，，Agent都能快速定位到详细镜头，，，，，，重新调解对应条件和影象信息。。。。。。。。。。。。

并且最主要的是，，，，，，Agent只对受影响的部分举行重天生，，，，，，而不需要推倒重来，，，，，，修改后的效果还会同步更新到后续剧情中，，，，，，确保整个故事始终坚持连贯一致～

也正由于云云，，，，，，JoyAI-Echo不再只是一个认真天生视频的模子，，，，，，而更像是一套完整的长视频创作系统。。。。。。

杀入全球第一梯队，，，，，，长视频天生最先靠近真实生产

光说不练假把式，，，，，，从官方评测数据来看，，，，，，JoyAI-Echo在长视频天生的多个要害指标上，，，，，，都展现出了领先体现。。。。。。

在用户盲测环节，，，，，，研究团队将JoyAI-Echo与现在代表性的长视频模子举行了比照，，，，，，效果显示——

在长视频使命中，，，，，，用户有63.6%的情形下更喜欢JoyAI-Echo天生的视频画面。。。。。。

在音频质量维度这一优势甚至抵达81.7%，，，，，，提醒词遵照偏好为80.6%，，，，，，IP一致性偏好为59.4%。。。。。。

纵然放在人像短视频这一竞争最强烈的赛道中，，，，，，与主流视频模子相比，，，，，，JoyAI-Echo依然获得了更高的视觉美学用户偏好（58.8%vs26.5%）。。。。。。

而JoyAI-Echo的宣布，，，，，，也同样标记着京东在长视频天生领域进入「全球第一梯队」：

已往几年，，，，，，AI视频天生虽然生长迅速，，，，，，但长视频始终停留在一个略显尴尬的位置：

演示效果惊艳，，，，，，真正投入生产却难题重重。。。。。。

角色容易变脸、声音容易漂移、天生速度过慢、修改本钱极高……这些问题决议了大大都长视频作品更像是手艺Demo，，，，，，而非真正意义上的生产工具。。。。。。

而JoyAI-Echo试图解决的，，，，，，恰恰是这些恒久困扰行业的焦点瓶颈。。。。。。

更主要的是，，，，，，与许多闭源模子差别，，，，，，JoyAI-Echo选择了「开源」。。。。。。

这意味着长视频天生不再只是少数头部公司的专属能力，，，，，，而最先成为一个能够被开发者、创作者和研究者配合验证、挪用和迭代的开下班具。。。。。。

△AI天生

手艺框架提供了起点，，，，，，开放则让更多可能性逐步长出来。。。。。。

当一致性、高分辨率、Agent等能力被开源一连验证和优化后，，，，，，行业内长视频天生的手艺迭代速率可能进一步加速。。。。。。

无论是虚拟IP故事、数字人内容、品牌营销视频，，，，，，照旧教育课件、知识解说、游戏动画和互动剧情，，，，，，高一致性、可控、可迭代的长视频生产都能够成为可能。。。。。。

若是说已往的大模子解决的是「能不可天生视频」的问题，，，，，，那么JoyAI-Echo正在实验回覆另一个更主要的问题：

AI能不可真正加入长视频的内容生产创作？？？？

从现在的效果来看，，，，，，谜底已经越来越靠近肯定。。。。。。

JoyAI-Echo带来的，，，，，，不但是一款新的长视频模子，，，，，，更是一次AI视频生产范式的推进。。。。。。

当稳固影象、实时交互、可控修改和高效天生最先同时泛起时，，，，，，AI长视频正在从手艺展示走向生产工具。。。。。。

一个更稳固、更可控的AI长视频时代，，，，，，正在被推到台前。。。。。。

GitHub地点：https://github.com/jd-opensource/JoyAI-Echo

项目主页：https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

@钟怡秀：龙8国际娱乐官网，，，，，，记者：以色列战术效果有限
@王建光：网暴救灾村支书戴“金耳环”者被处分
@杨豪柔：网警披露未推行个人信息保；；ひ逦癜

热门排行

1 九博体育773
2 银河官网娱乐场网
3 赢博电竞官网
4 红彩会手机
5 亿彩用户
6 2号站娱乐官网
7 gog游戏平台官网
8 最新bbin官方平台直营
9 as真人

【网站地图】