PyDIff是一个基于金字塔扩散模型的低光照图像增强方法,在IJCAI 2023会议上获得口头报告。该方法在LOL数据集上取得了最先进的性能,为低光照图像处理领域带来了新的突破。
本文介绍了一种新的方法来解决图像到视频扩散模型中的条件图像泄露问题,通过推理和训练策略的改进显著提升了生成视频的动态性和逼真度。
SurfD是一种创新的3D形状生成方法,通过扩散模型生成具有任意拓扑结构的高质量表面。本文详细介绍了SurfD的原理、实现以及在各种3D生成任务中的应用。
Cycle3D是一种创新的图像到3D生成技术,通过生成-重建循环实现高质量和一致性的3D模型生成。本文深入探讨了Cycle3D的工作原理、技术亮点以及在图像到3D生成领域的重要贡献。
探索VEnhancer如何通过生成式空间-时间增强技术,提升现有文本到视频(T2V)生成结果的质量,实现空间超分辨率、时间插帧和视频优化的统一框架。
VideoComposer是一种创新的视频生成模型,能够让用户灵活控制合成视频的空间和时间模式。本文深入介绍了VideoComposer的工作原理、应用场景和最新进展。
UniAnimate是一个创新的AI框架,通过整合统一的视频扩散模型,实现了高效、长时间的人像视频生成。它解决了现有方法的局限性,为人像动画领域带来了新的可能性。
3DTopia是一个创新的两阶段文本到三维内容生成系统,能在5分钟内生成高质量的通用3D资产,为3D内容创作提供了全新的可能性。
InFusion是一种创新的3D场景修复方法,通过学习深度图补全来实现3D高斯体的修复。本文详细介绍了InFusion的工作原理、主要步骤以及在各种复杂场景中的应用效果。
DreamTalk是一个基于扩散模型的音频驱动的富有表现力的说话人头生成框架,能够在不同说话风格下生成高质量的说话人头视频。本文详细介绍了DreamTalk的工作原理、主要组件和应用场景,展示了其在多样化输入下的强大性能。
Prompt-to-Prompt是由Google研究人员开发的一种新型文本引导图像编辑技术,它能够通过修改文本提示来直观地编辑由扩散模型生成的图像,为AI图像生成和编辑领域带来了新的可能性。
AnimateLCM是一项基于一致性模型的创新技术,能够在仅需4步的情况下生成高质量动画,大大提高了视频生成的效率和质量。本文将深入探讨AnimateLCM的工作原理、应用场景以及其对AI视频生成领域的重大影响。
探索CVPR 2024论文《Seeing and Hearing》提出的创新性视听生成方法,了解如何利用扩散潜在对齐器实现开放域的视频-音频联合生成。
VideoElevator是一种创新的视频生成方法,通过结合文本到视频和文本到图像的扩散模型,实现了高质量视频内容的生成。本文深入探讨了VideoElevator的工作原理、优势及其在视频生成领域的重要意义。
RAVE是一种创新的零样本视频编辑方法,利用预训练的文本到图像扩散模型,无需额外训练即可实现高质量、快速且一致的视频编辑。本文深入介绍RAVE的工作原理、主要特点及应用前景。
MultiBooth是一种新颖高效的多概念图像生成技术,通过单概念学习和多概念集成两个阶段,实现了高保真度和低推理成本的多概念定制图像生成。
本文介绍了一种名为DiffSHEG的新型方法,该方法可以根据语音实时生成自然协调的3D全身表情和手势动作。DiffSHEG采用扩散模型和创新的采样策略,实现了高质量的表情-手势联合生成,在BEAT和SHOW两个数据集上取得了最先进的性能。
DiT-MoE是扩散变换器的稀疏版本,可扩展到160亿参数,在保持与密集网络竞争力的同时实现高度优化的推理。本文介绍了DiT-MoE的架构、训练方法和实验结果,展示了其在大规模图像生成任务上的优越性能。
DiffSynth-Studio是一个强大的扩散模型引擎,重构了多种架构以提升性能,并支持众多开源模型,为图像和视频生成提供了丰富的功能。本文深入介绍了DiffSynth-Studio的特性、支持的模型、安装使用方法以及最新进展,展示了其在图像生成、视频合成等领域的卓越能力。
本文深入介绍了Awesome-AIGC-3D项目,该项目汇集了人工智能生成3D内容(AIGC-3D)领域的最新研究成果和开源资源。文章详细分析了AIGC-3D的发展现状、关键技术和未来趋势,为读者提供了全面的AIGC-3D技术发展概览。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号