AI摘要:SkyReels V1是一个以人为本的开源视频基础模型,提供文本转视频和图像转视频模型权重及推理代码。它通过微调HunyuanVideo,处理大量高质量影视片段,具有开源领导地位、高级面部动画和电影级灯光美学三大优势。模型建立在自主研发的数据清洗和标注流程之上,包含表情分类、角色空间感知、动作识别和场景理解。SkyReels V1在VBench评估中展现出最先进的性能,特别是在动态度和多对象等关键指标上。此外,SkyReelsInfer是一个高效的视频生成推理框架,支持多GPU推理、用户级GPU部署,并展现出卓越的推理性能和可用性。
Powered by 中文AI技术教程与社区分享.

SkyReels V1:以人为本的视频基础模型
SkyReels V1项目地址:
🤗拥抱脸· 👋游乐场· 💬 Discord
欢迎来到 SkyReels V1 代码库!在这里,您可以找到我们突破性视频基础模型的文本转视频和图像转视频模型权重和推理代码。
🔥🔥🔥 最新消息!!
- 2025 年 2 月 18 日:👋 我们发布了 SkyReels-V1 Text2Video 模型的推理代码和模型权重。
- 2025 年 2 月 18 日:👋 我们发布了 SkyReels-V1 Image2Video 模型的推理代码和模型权重。
- 2025 年 2 月 18 日:🔥 我们还发布了SkyReels-A1。这是一个开源且高效的人像图像动画模型框架。
🎥 演示
demo1.mp4
📑 待办事项清单
SkyReels-V1(文本转视频模型)
- 检查点
- 推理代码
- 网络演示(Gradio)
- RTX4090 用户级 GPU 推理
- 基于多 GPU 的并行推理
- 及时重写和及时指导
- CFG 蒸馏模型
- 轻量版
- 720P 版本
- 舒适用户界面
SkyReels-V1(图像转视频模型)
- 检查点
- 推理代码
- 网络演示(Gradio)
- RTX4090 用户级 GPU 推理
- 基于多 GPU 的并行推理
- 及时重写和及时指导
- CFG 蒸馏模型
- 轻量版
- 720P 版本
- 舒适用户界面
🌟 概述
SkyReels V1 是首个也是最先进的以人为本的开源视频基础模型。它通过对HunyuanVideo进行微调,使其能够处理 O(10M) 的高质量电影和电视片段,从而提供三大关键优势:
- 开源领导地位 :我们的文本转视频模型在开源模型中达到了最先进的性能,可与 Kling 和 Hailuo 等专有模型相媲美。
- 高级面部动画 :捕捉 33 种不同的面部表情,超过 400 种自然动作组合,准确反映人类情感。
- 电影级灯光和美学 :采用好莱坞级别的高质量电影和电视数据进行训练,生成的每个帧在构图、演员位置和摄像机角度方面都展现出电影级品质。
🔑 主要功能
1. 自主研发的数据清洗和标注流程
我们的模型建立在自主研发的数据清洗和标注流程之上,创建了一个包含大量高质量电影、电视和纪录片内容的数据集。
- 表情分类 :将人类面部表情分为 33 种不同的类型。
- 角色空间感知 :利用 3D 人体重建技术来理解视频中多个人物之间的空间关系,从而实现电影级的角色定位。
- 动作识别 :构建超过 400 个动作语义单元,以实现对人类动作的精确理解。
- 场景理解 :对服装、场景和情节进行跨模态相关性分析。
2. 多阶段图像到视频预训练
受混元视频设计的启发,我们设计了一个多阶段预训练流程,该流程包含以下几个阶段:
- 阶段 1:模型领域迁移预训练 :我们使用大型数据集(O(10M) 电影和电视内容)来调整文本到视频模型,使其适应以人为中心的视频领域。
- 第二阶段:图像到视频模型预训练 :我们通过调整卷积输入参数,将第一阶段的文本到视频模型转换为图像到视频模型。然后,我们使用与第一阶段相同的数据集对新模型进行预训练。
- 阶段 3:高质量微调 :我们在原始数据集的高质量子集上对图像到视频模型进行微调,以确保卓越的性能和质量。
📊 基准测试结果
我们使用 VBench评估我们的文本到视频模型的性能,并将其与其他优秀的开源模型进行比较。
根据基准测试结果,SkyReels V1 在开源文本转视频 (T2V) 模型中展现出最先进的性能。具体而言,我们的模型获得了 82.43 的总分,高于其他开源模型,例如 VideoCrafter-2.0 VEnhancer (82.24) 和 CogVideoX1.5-5B (82.17)。此外,我们的模型在动态度和多对象等多个关键指标上也取得了最高分,表明我们的模型在处理复杂的视频生成任务方面具有卓越的能力。
| 模型 | 全面的 | 质量评分 | 语义得分 | 图像质量 | 动态度 | 多个对象 | 空间关系 |
|---|---|---|---|---|---|---|---|
| OpenSora V1.3 | 77.23 | 80.14 | 65.62 | 56.21 | 30.28 | 43.58 | 51.61 |
| AnimateDiff-V2 | 80.27 | 82.90 | 69.75 | 70.1 | 40.83 | 36.88 | 34.60 |
| VideoCrafter-2.0 VEnhancer | 82.24 | 83.54 | 77.06 | 65.35 | 63.89 | 68.84 | 57.55 |
| CogVideoX1.5-5B | 82.17 | 82.78 | 79.76 | 65.02 | 50.93 | 69.65 | 80.25 |
| 混源视频 540P | 81.23 | 83.49 | 72.22 | 66.31 | 51.67 | 70.45 | 63.46 |
| SkyReels V1 540P(我们的) | 82.43 | 84.62 | 73.68 | 67.15 | 72.5 | 71.61 | 70.83 |
📦 模型介绍
| 型号名称 | 解决 | 视频时长 | 第一人称射击游戏 | 下载链接 |
|---|---|---|---|---|
| SkyReels-V1-混源-I2V | 544px960p | 97 | 24 | 🤗下载 |
| SkyReels-V1-混源-T2V | 544px960p | 97 | 24 | 🤗下载 |
🚀 SkyReels Infer 简介
SkyReelsInfer 是一个高效的视频生成推理框架,能够准确、快速地生成高质量视频,显著加快视频生成推理速度,且不会造成任何质量损失。
多 GPU 推理支持 :该框架支持上下文并行、CFG 并行和 VAE 并行方法,从而实现快速无损的视频制作,以满足在线环境严格的低延迟要求。
用户级 GPU 部署 :通过采用模型量化和参数级卸载策略,该系统显著降低了 GPU 内存需求,满足了 VRAM 有限的消费级显卡的需求。
卓越的推理性能 :该框架展现出卓越的效率,与混源视频 XDiT 相比,端到端延迟降低了 58.3%,为推理速度树立了新的标杆。
卓越的可用性 :该系统基于开源框架 Diffusers 构建,并采用非侵入式并行实现方法,确保流畅且用户友好的体验。
🛠️ 跑步指南
首先克隆代码仓库:
git clone https://github.com/SkyworkAI/SkyReels-V1
cd skyreelsinferLinux 安装指南
我们建议手动安装时使用 Python 3.10 和 CUDA 版本 12.2。
# Install pip dependencies
pip install -r requirements.txt当有足够的显存可用时(例如,在 A800 上),可以直接运行无损版本。
注意:生成视频时,提示应以“FPS-24”开头,因为我们在训练期间参考了Moviegen中的 fps 控制训练方法。
SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
--model_id ${SkyReelsModel} \
--task_type t2v \
--guidance_scale 6.0 \
--height 544 \
--width 960 \
--num_frames 97 \
--prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
--embedded_guidance_scale 1.0用户级 GPU 推理 (RTX4090)
我们在下表中列出了我们推荐的高度/宽度/边框设置。
| 解决 | h/w=9:16 | 宽高比=16:9 | 机工比=1:1 |
|---|---|---|---|
| 544p | 544px960px97f | 960px544px97f | 720px720px97f |
使用命令行
# SkyReelsModel: If using i2v, switch to Skywork/SkyReels-V1-Hunyuan-I2V.
# quant: Enable FP8 weight-only quantization
# offload: Enable offload model
# high_cpu_memory: Enable pinned memory to reduce the overhead of model offloading.
# parameters_level: Further reduce GPU VRAM usage.
# task_type:The task type is designated to support both t2v and i2v. For the execution of an i2v task, it is necessary to input --image.
SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
--model_id ${SkyReelsModel} \
--task_type t2v \
--guidance_scale 6.0 \
--height 544 \
--width 960 \
--num_frames 97 \
--prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
--embedded_guidance_scale 1.0 \
--quant \
--offload \
--high_cpu_memory \
--parameters_level上述示例展示了在单张 RTX 4090 显卡上,启用完全显存优化后生成 544px960px97f 4 秒视频的过程,显存使用量峰值达到 18.5G。在最大显存容量下,可以生成 544px960px289f 12 秒视频(使用 --sequence_batch RTX 4090 显卡,耗时约 1.5 小时;增加 GPU 数量可大幅缩短时间)。
🚀 多 GPU 并行推理
# SkyReelsModel: If using i2v, switch to Skywork/SkyReels-V1-Hunyuan-I2V.
# quant: Enable FP8 weight-only quantization
# offload: Enable offload model
# high_cpu_memory: Enable pinned memory to reduce the overhead of model offloading.
# gpu_num: Number of GPUs used.
SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
--model_id ${SkyReelsModel} \
--guidance_scale 6.0 \
--height 544 \
--width 960 \
--num_frames 97 \
--prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
--embedded_guidance_scale 1.0 \
--quant \
--offload \
--high_cpu_memory \
--gpu_num $GPU_NUM性能比较
本次测试旨在比较 SkyReelsInfer 和混源视频 XDiT 在 A800(高性能计算 GPU)和 RTX 4090(消费级 GPU)上处理 544p 视频时的端到端延迟。测试结果将显示 SkyReelsInfer 在速度和效率方面具有更优的推理性能。
测试参数
| 解决 | 视频尺寸 | 变压器步进 | 指导规模 |
|---|---|---|---|
| 540p | 544px960px97f | 30 | 6 |
用户级 GPU 推理 (RTX4090)
实际上,由于显存不足,混源视频 XDIT 无法在 RTX 4090 上进行推理。为了解决这个问题,我们基于官方的卸载策略、FP8 模型权重和 VAE 分块技术进行了修复。这些修复包括:
a) 优化模型加载和初始化逻辑,避免将 FP16 模型完全加载到内存中。b
) 减小 VAE 分块大小,以降低内存占用。为了确保 SkyReelsInfer 在 RTX 4090 上的部署,我们将采取以下措施来保证足够的显存可用性和高效的推理:
a) 模型量化 :应用仅 FP8 权重量化,以确保模型能够完全加载到内存中。b
) 卸载策略 :启用参数级卸载,进一步降低显存占用。c
) 多 GPU 并行 :启用上下文并行、CFG 并行和 VAE 并行,实现分布式处理。
d) 计算优化 :使用 SegaAttn 优化注意力层计算,并启用 Torch.Compile 进行 Transformer 编译优化(支持 4-GPU 和 8-GPU 配置)。
| GPU 数量 | hunyuanvideo + xdit | SkyReelsInfer |
|---|---|---|
| 1 | 显存耗尽 | 889.31 秒 |
| 2 | 显存耗尽 | 453.69 秒 |
| 4 | 464.3 秒 | 293.3 秒 |
| 8 | 无法将视频序列分割成 ulysses_degree x ring_degree 格式。 | 159.43 秒 |
上表总结了使用混源视频 XDIT 和 SkyReelsVideoInfer 在 RTX 4090 上生成 544p 4 秒视频的端到端延迟测试结果。可以得出以下结论:
- 在相同的 RTX 4090 资源条件下(4 个 GPU),SkyReelsInfer 版本与 HunyuanVideo XDIT 相比,端到端延迟降低了 58.3% (293.3 秒对 464.3 秒)。
- SkyReelsInfer 版本具有更强大的部署策略,支持在用户级别跨 1 到 8 个 GPU 进行推理部署。
A800
本次测试以 A800 (80G) 为基准,主要测试内容是在不影响输出质量的前提下,比较混源视频 XDIT 和 SkyReelsInfer 之间的性能差异。
| GPU 数量 | hunyuanvideo + xdit | SkyReelsInfer |
|---|---|---|
| 1 | 884.20 秒 | 771.03 秒 |
| 2 | 487.22 秒 | 387.01 秒 |
| 4 | 263.48 秒 | 205.49 秒 |
| 8 | 无法将视频序列分割成 ulysses_degree x ring_degree 格式。 | 107.41 秒 |
上表总结了使用混源视频 XDIT 和 SkyReelsVideoInfer 在 A800 上生成 544p 4 秒视频的端到端延迟测试结果。可以得出以下结论:
在相同的 A800 资源条件下,与官方混源视频版本相比,SkyReelsInfer 版本可将端到端延迟降低 14.7% 至 28.2%。
SkyReelsInfer 版本采用了更强大的多 GPU 部署策略。
致谢
我们要感谢HunyuanVideo、ParaAttention和Diffusers代码库的贡献者们,感谢他们开放的研究和贡献。
引用
@misc{SkyReelsV1,
author = {SkyReels-AI},
title = {Skyreels V1: Human-Centric Video Foundation Model},
year = {2025},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/SkyworkAI/SkyReels-V1}}
}
@(哈哈)