3小时前

字节旗下即梦内测新一代AI视频生成模型Seedance2.0

新闻图片

字节跳动旗下即梦平台近日低调上线新一代AI视频生成模型Seedance 2.0,该模型在分镜规划、运镜理解、音画同步与角色一致性等核心能力上实现重大突破,支持文本、图片、视频、音频多模态输入,最长可生成15秒高质量视频,被业内评价为"已明显拉开与现有模型的差距"。

4 来源
技术突破:多模态融合与智能分镜

Seedance 2.0最引人注目的突破在于其"自分镜和自运镜"能力。与以往AI视频模型需要用户精确描述"镜头从左向右平移"等细节不同,Seedance 2.0能够根据用户描述的情节自动规划分镜和运镜,用户只需告诉它故事内容,模型便自行决定如何拍摄,大幅降低了操作门槛[1]

该模型支持文本生成视频、图片生成视频,同时可接受视频和音频作为参考素材输入,最多能同时处理9张图片、3段视频和3段音频,共计12个参考文件[1]。这种"全能参考"功能让创作者能精准指定动作、特效、运镜风格、人物外貌、场景氛围甚至声音效果,相当于为用户提供了完整的"导演工具箱"[1]

在技术实现上,Seedance 2.0能够同时消化文字、图片、视频、音频四种模态的信息,并将它们融合成一个连贯的视频输出,这已超越简单的"模式匹配",开始接近对世界运行规律的某种"理解"[1]。实测显示,模型生成的视频符合物理规律,角色动作自然流畅,画面节奏把控精准[1][2]

用户体验:音画同步与角色一致性提升

Seedance 2.0在音画同步方面实现了显著进步,生成视频的同时可同步生成匹配的音效和配乐,并支持口型同步和情绪匹配。角色说话时嘴型准确,表情和语气也能与内容对上,大大提升了视频的真实感和专业度[1][2]

多镜头叙事能力是另一大亮点。该模型能在多个镜头之间维持角色和场景的一致性,解决了以往AI视频生成中常见的"变脸"问题。用户可生成包含多个镜头切换的完整叙事片段,角色不会从第一个镜头到第三个镜头就换了一张脸[1][3]

Seedance 2.0还提供了强大的编辑功能,生成的视频如果画面有Bug,可再上传进行局部调整。更令人惊喜的是,它还能将原视频向前生成(延长开头之前的部分),这一功能在实际创作中大大提升了灵活性和效率[2]。多位创作者反馈,Seedance 2.0的成片可用率大幅提高,生成结果不再高度依赖反复尝试,实际制作成本更接近理论成本[3]

应用场景与行业影响

Seedance 2.0已在即梦平台向会员开放,其强大的功能为内容创作者开辟了新的可能性。创作者可利用该模型制作高质量的动漫短剧、数字人视频、广告内容等[1][2]

实际应用案例显示,创作者可以先生成人物形象设定图,然后通过在提示词中@这些图片,确保不同镜头中角色的一致性。例如,有用户仅用四次输入不同的提示词(每次对应一个15秒片段),再用剪映简单拼接,就完成了一段60秒的连贯动漫短剧[1]

Seedance 2.0的多模态参考能力也展现出巨大潜力。一个典型案例中,创作者同时上传了一张角色设定图作为人物参考、一段视频(含音乐)作为节奏参考,Seedance 2.0生成的视频中,角色外貌与设定图高度一致,动作节奏也与音乐节拍完美匹配[1]

业内专家认为,Seedance 2.0的出现标志着AI视频生成技术迈入新阶段。相比现有模型,它在视频清晰度、分镜运镜处理、物理逻辑和审美等方面都有明显提升,被网友评价为"碾压Sora"[2][3]。随着该技术的普及,预计将大幅降低视频内容创作门槛,对影视制作、广告营销、社交媒体等领域产生深远影响[2][4]

本内容由AI生成