在数字创意与人工智能技术交融的今天,我们自豪地推出了“启航星河”(Step-VidGen-Torch),这一革命性的开源项目,旨在将静态图像转化为生动的视频序列。这不仅是一次技术的跃进,更是创意表达的无限拓展。Step-VidGen-Torch,以其独特的图生视频能力,打破了传统界限,让艺术家、研究人员和开发者能够以前所未有的方式讲述故事。通过先进的深度学习算法,它能够捕捉图像中的精髓,编织成流畅的视觉叙事,开启从静默画面到动态影像的魔幻之旅。这一创新工具的开源,不仅促进了AI在媒体创作领域的应用,也鼓励全球社区共同参与,探索视觉艺术与技术融合的新边界,共同绘制未来数字内容创作的壮阔蓝图。
Step-
Video-TI2V是什么
step-video-ti2v是阶跃星辰(stepfun)推出的开源图生视频(image-to-video)生成模型,拥有300亿参数,能根据文本描述和图像输入生成最长102帧的视频。模型基于深度压缩的变分自编码器(video-vae),实现了16×16的空间压缩和8×的时间压缩,显著提高了训练和推理效率。用户可以通过设置运动分数(motionscore)来平衡视频的动态性和稳定性。支持推、拉、摇、移、旋转、跟随等多种镜头运动方式。

Step-Video-TI2V的主要功能
图生视频生成:用户可以提供一张图片和相关的文本描述,模型会根据这些输入生成一段连贯的视频。
高质量视频输出:支持生成最多102帧、5秒、540P分辨率的视频,能满足多种创作需求。
动态性调节:用户可以通过设置运动分数(motionscore)来控制视频的动态性。例如,运动分数为2时,视频更稳定但动态性较差;运动分数为10或20时,视频的动态性更强。
平衡动态与稳定:通过运动分数的调节,用户可以在动态效果和稳定性之间找到最佳平衡。
镜头运动控制:支持多种运镜方式,包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等。
电影级运镜效果:能生成类似电影级别的复杂运镜效果,满足专业创作需求。
动漫效果优化:在动漫风格视频生成方面表现出色,能生成具有
虚化背景、动态
动作等
特效的视频。适合用于动画创作、
短视频制作等应用场景。
灵活的视频尺寸:支持多种尺寸的视频生成,包括横屏、竖屏和方屏,用户可以根据不同的创作需求和平台特性选择合适的视频尺寸。
多语言支持:配备双语文本编码器,支持中英文提示输入,方便不同语言背景的用户使用。
特效生成能力:初步具备特效生成能力,未来将通过技术优化进一步提升特效生成效果。
Step-Video-TI2V的技术原理
深度压缩的变分自编码器(Video-VAE):Step-Video-TI2V使用了深度压缩的变分自编码器(Video-VAE),实现了16×16的空间压缩和8×的时间压缩。显著降低了视频生成任务的计算复杂度,同时保持了优异的视频重建质量。Video-VAE采用了双路径架构,能有效分离高低频信息,进一步优化视频生成的效果。
基于扩散的Transformer(DiT)架构:模型基于扩散的Transformer(DiT)架构,包含
3D全注意力机制。通过FlowMatching训练方法,将输入噪声逐步去噪为潜在帧,将文本嵌入和时间步作为条件因子。这种架构在生成具有强烈运动动态和高美学质量的视频方面表现出色。
双语文本编码器:Step-Video-TI2V配备了双语文本编码器,能处理中英文提示。使模型可以直接理解中文或英文输入,生成与文本描述相符的视频。
直接偏好优化(DPO):为了进一步提升生成视频的质量,Step-Video-TI2V引入了视频直接偏好优化(Video-DPO)方法。DPO通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果,使生成的视频更加平滑和真实。
级联训练
策略:模型采用了级联训练流程,包括文本到图像(T2I)预训练、文本到视频/图像(T2VI)预训练、文本到视频(T2V)微调和直接偏好优化(DPO)训练。加速了模型的收敛,充分利用了不同质量的视频数据。
系统优化:Step-Video-TI2V在系统层面进行了优化,包括张量并行、序列并行和Zero1优化,实现高效的分布式训练。引入了高性能
通信框架StepRPC和双层
监控系统StepTelemetry,优化数据传输效率和识别性能瓶颈。
Step-Video-TI2V的项目地址
GitHub仓库:
HuggingFace模型库:
arXiv技术
论文:
如何使用Step-Video-TI2V
访问跃问视频:访问跃问视频的官方网站或App端。
操作步骤:点击上传图片,输入文本描述。调整参数(如运动分数等)。点击生成按钮,下载或分享视频。
Step-Video-TI2V的应用场景
动画制作:Step-Video-TI2V特别擅长生成动漫风格的视频,能根据输入的图片和文本描述生成流畅的动画。
短视频制作:模型支持多种运镜方式,如推拉摇移、旋转、环绕等,能生成具有电影级效果的短视频。
动作
教学:Step-Video-TI2V可以生成复杂动态场景,如体育动作教学、舞蹈教学等。
特效制作:模型能生成具有美感和真实感的视频,适用于电影、
电视剧和游戏中的特效制作。
产品展示:Step-Video-TI2V可以生成吸引人的广告视频,展示产品特点或品牌故事。
以上就是Step-Video-TI2V—阶跃星辰开源的图生视频模型的详细内容,更多请关注其它相关文章!