免费开源的超长AI视频模型:一句话轻松制作120秒精彩视频

发布时间: 2024-04-19热度: 4453

近日,由Picsart AI Research团队联合发布的StreamingT2V模型可生成长达2分钟(1200帧)的高质量视频,超越了之前的Sora模型。这一开源模型不仅可以生成更长时长的视频,还能与SVD、animatediff等其他模型无缝兼容,为开源视频生成领域带来新的突破。

亮点总结:

  1. 生成时长达2分钟(1200帧),超越以往模型
  2. 视频质量优秀
  3. 与业内其他主流模型实现无缝衔接
  4. 开源免费,便于开发者使用和二次开发

 

免费在线试玩:【点击进入】 目测在线人太多需要排队

自己本地搭建教程:

1.安装并安装 Python 3.10 and CUDA >= 11.6 环境 【Python 3.10 】、【Cuda 下载

2.克隆开源项目至本地:

git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
cd StreamingT2V/



3.安装必备的环境:

conda create -n st2v python=3.10
conda activate st2v
pip install -r requirements.txt



4.(可选)如果您的系统上缺少 FFmpeg,请安装 FFmpeg

conda install conda-forge::ffmpeg



5. 从HF 下载模型权重并将它放在 t2v_enhanced/checkpoints目录下

6.文本转视频

cd t2v_enhanced
python inference.py--prompt="A cat running on the street"



如要使用其他基本模型,请添加--base_model=AnimateDiff参数。用于python inference.py --help更多选项

7.图片转视频

cd t2v_enhanced
python inference.py--image=../__assets__/demo/fish.jpg--base_model=SVD



推理时间

ModelscopeT2V作为基础模型
帧数更快预览的推理时间 (256×256)最终结果的推理时间 (720×720)
24帧40秒165秒
56帧75秒360秒
80帧110秒525秒
240帧340秒1610 秒(约 27 分钟)
600帧860秒5128 秒(约 85 分钟)
1200帧1710 秒(约 28 分钟)10225 秒(约 170 分钟)
AnimateDiff作为基础模型
帧数更快预览的推理时间 (256×256)最终结果的推理时间 (720×720)
24帧50秒180秒
56帧85秒370秒
80帧120秒535秒
240帧350秒1620 秒(约 27 分钟)
600帧870秒5138 秒(~85 分钟)
1200帧1720 秒(约 28 分钟)10235 秒(约 170 分钟)
SVD作为基本模型
帧数更快预览的推理时间 (256×256)最终结果的推理时间 (720×720)
24帧80秒210秒
56帧115秒400秒
80帧150秒565秒
240帧380秒1650 秒(约 27 分钟)
600帧900秒5168 秒(~86 分钟)
1200帧1750 秒(约 29 分钟)10265 秒(~171 分钟)

所有测量均使用 NVIDIA A100 (80 GB) GPU 进行。当帧数超过 80 时,采用随机混合。对于随机混合,chunk_size和 的值overlap_size分别设置为 112 和 32。

 

 

在下方留下您的评论.加入TG群.打赏🍗