1天前

谷歌Veo 3.1视频模型曝光,8秒720P自带配乐,挑战Sora 2

新闻图片

谷歌最新AI视频生成模型Veo 3.1首批实测样本正式曝光,该模型支持通过简单文本提示生成8秒720P高清视频并自带音轨,标志着谷歌在与OpenAI Sora 2的视频生成AI竞赛中迈出关键一步。据最新消息,Veo 3.1将于2025年10月9日与Gemini 3同步发布,提供物理引擎级动态模拟和SVG到视频的直接转换等创新功能,全面挑战OpenAI的Sora 2视频生成模型。

5 来源
技术突破与核心功能升级

Veo 3.1作为Google DeepMind在Veo 3基础上的升级版本,引入了多项突破性功能,显著提升了AI视频生成的质量和实用性。该模型已正式在Vertex AI云平台及Google Vids创作工具中现身,支持用户通过文本提示生成时长8秒、分辨率为720p并自带完整音轨的视频片段。

相较于前代产品,Veo 3.1在以下关键领域实现了显著提升:

  • 首帧和尾帧控制技术,让用户能够精确指定视频的起始和结束画面,极大增强了创作控制力。[1]

  • 优化的图像参考系统,支持更精细的自定义调整,使生成内容与用户视觉需求高度匹配。[1]

  • 改进的提示语言解释能力,能够更准确理解用户输入的复杂描述,减少误解和重复生成。[1]

  • 物理引擎级动态模拟功能,这是Veo 3.1的核心升级,使生成的视频在物理运动和交互上更加真实可信。[2]

  • SVG到视频的直接转换能力,使设计师能够将矢量图形无缝转换为动态视频内容,拓展了专业应用场景。[2]

与Sora 2对比:优势与市场定位

Veo 3.1的发布标志着谷歌正式向OpenAI的Sora 2发起全面挑战。根据最新技术对比,两款顶级AI视频模型在关键参数上各有所长。Veo 3.1支持8秒720p视频生成,虽然在最大时长和分辨率上略逊于Sora 2的20秒4K输出,但其原生音频集成能力是显著优势。[1]

Veo 3.1的独特卖点在于:

  • 原生音频集成:无需额外工具即可同步生成匹配场景的音效、环境音甚至对话,实现真正的多模态输出。[1][2]

  • 开放API访问:任何开发者均可通过Gemini API和Vertex AI访问,而Sora 2仅限Pro用户使用。[1]

  • 免费层级支持:AI Studio提供实质性免费配额,极大降低了创作者的入门门槛。[1]

  • 中国用户友好:相较于Sora 2,Veo 3.1的API访问对中国开发者更为便利。[1]

尽管Sora 2在视频时长和分辨率上占据优势,适合专业影视制作,但谷歌策略明显聚焦于营销短视频等实用场景,这些场景通常要求10秒以内的精简内容,而Veo 3.1的音频集成和成本优势在此类应用中更具竞争力。[1]

开发者接入与实际应用场景

谷歌已为Veo 3.1构建了全面的开发者支持体系,通过多种渠道使创作者和企业能够轻松利用这一技术。Veo 3系列模型已通过Gemini API和Vertex AI向全球开发者开放,数据显示自发布以来已有数千万高质量视频通过Veo 3生成。[1]

对于寻求免费访问的开发者,谷歌提供了多层次的接入途径:

  • Google AI Studio免费层:提供实质性免费配额,适合个人创作者和小型团队进行试验。[1]

  • Vertex AI API:支持企业级集成,允许开发者将Veo 3.1功能嵌入自有应用和服务。[1]

  • Google Vids创作工具:面向非技术用户的图形界面,简化视频创作流程。

在实际应用方面,Veo 3.1展现出广泛潜力:

  • 营销领域:快速生成产品演示视频,将静态图片转换为动态广告内容,显著降低营销素材制作成本。[2]

  • 影视制作:用于创建概念验证片段、分镜预览和特效参考,加速前期制作流程。[2]

  • 社交媒体:为内容创作者提供便捷的短视频生成工具,支持不同平台所需的9:16、16:9等多种宽高比。[1]

  • 教育培训:通过文本提示快速生成教学演示视频,丰富在线学习体验。[2]

本内容由AI生成