LaVie是一个创新的文本到视频生成框架,利用级联潜在扩散模型实现高质量的视频生成。本文详细介绍了LaVie的工作原理、使用方法及其在视频生成领域的最新进展。
TemporalKit是一个强大的Stable Diffusion扩展,为AI生成的视频添加时间稳定性。本文将详细介绍TemporalKit的功能、安装使用方法以及工作流程,帮助读者快速上手这个优秀的视频处理工具。
StyleAvatar3D是一种新颖的3D头像生成方法,它结合了预训练的图像-文本扩散模型和基于GAN的3D生成网络,可以生成多样化的高质量风格化3D头像。
本文深入探讨了CVPR 2023亮点论文提出的ReLA方法,该方法旨在解决广义指代表达分割(GRES)任务,通过创新的模型架构和训练策略,在多个数据集上取得了优异的性能。
Clean-FID是一个针对生成模型评估中常用的Frechet Inception Distance (FID)指标的改进实现,旨在解决不同FID实现中存在的不一致问题,提高FID计算的准确性和可比性。
gRefCOCO是一个大规模的通用指代表达分割数据集,包含多目标、无目标和单目标表达,为计算机视觉领域的指代表达理解任务提供了新的研究基准。
MeViS是一个新的大规模视频分割数据集,专注于使用运动表达来引导视频对象分割。该数据集包含2,006个视频和28,570个运动表达句子,为开发利用运动信息的视频分割算法提供了新的平台。