MS-Diffusion是一个创新的深度学习框架,通过布局引导实现多主体零样本图像个性化生成。它解决了文本到图像生成中的细节保真度和多主体一致性问题,为个性化文本到图像生成开辟了新的方向。
InstanceDiffusion为文本到图像的扩散模型增加了精确的实例级控制能力,支持自由形式的语言条件和灵活的实例位置指定方式,如单点、涂鸦、边界框或复杂的实例分割掩码等,显著提升了图像生成的可控性和质量。
PyDIff是一个基于金字塔扩散模型的低光照图像增强方法,在IJCAI 2023会议上获得口头报告。该方法在LOL数据集上取得了最先进的性能,为低光照图像处理领域带来了新的突破。
探索如何通过使用4位优化 器状态来提高神经网络训练的内存效率,同时保持模型性能。这项创新技术在多个领域的基准测试中展现出与全精度对应物相当的准确性,为大规模模型训练开辟了新的可能性。
本文介绍了一种新的方法来解决图像到视频扩散模型中的条件图像泄露问题,通过推理和训练策略的改进显著提升了生成视频的动态性和逼真度。
ARES是一个专注于评估图像分类和目标检测模型对抗性鲁棒性的Python库,提供了多种攻击方法、防御机制和分布式训练/测试功能。
本文深入介绍了微软开源的Promptbase项目,这是一个专注于提示工程的资源库。文章详细阐述了项目的主要组成部分、核心技术Medprompt及其扩展版Medprompt+,以及项目在多项基准测试中的出色表现。同时探讨了Promptbase对人工智能领域,特别是在提升大型语言模型性能方面的重要意义。
本文深入探讨了无代码/低代码开发的概念、优势及其在各个领域的应用,为读者全面介绍了这一正在改变软件开发格局的新趋势。
PrivateGPT是一个创新的开源项目,旨在提供完全本地化和私密的ChatGPT式体验,让用户能够在保护隐私的同时利用大语言模型的强大功能。
TinyEngine是一款强大的低代码引擎,可用于构建和开发各种领域的低代码平台。它具有跨端跨框架、实时构建、支持二次开发等特点,为开发者提供了灵活高效的低代码开发解决方案。
DreamScene4D是一种创新的视频到4D场景生成方法,能够从复杂的多物体视频中生成动态3D场景,处理遮挡、大幅物体运动和新视角,实现时空一致 性。
Diffusion4D是一种新颖的4D内容生成框架,首次将视频扩散模型应用于显式合成具有时空一致性的4D资产新视图。该方法在生成效率和4D几何一致性方面超越了现有技术,可以从文本、单一图像和3D资产等多种输入模态生成高质量的4D内容。
GaussianImage是一种基于2D高斯分布的创新型图像表示和压缩方法,可实现1000FPS以上的超高速渲染,同时大幅降低GPU内存需求,为神经图像编解码领域带来重大突破。
SurfD是一种创新的3D形状生成方法,通过扩散模型生成具有任意拓扑结构的高质量表面。本文详细介绍了SurfD的原理、实现以及在各种3D生成任务中的应用。
GauHuman是一种新型的3D人体模型,能够从单目人体视频中快速学习并实现实时渲染,大幅提升了现有神经辐射场方法的训练和渲染速度。
Cycle3D是一种创新的图像到3D生成技术,通过生成-重建循环实现高质量和一致性的3D模型生成。本文深入探讨了Cycle3D的工作原理、技术亮点以及在图像到3D生成领域的重要贡献。
探索VEnhancer如何通过生成式空间-时间增强技术,提升现有文本到视频(T2V)生成结果的质量,实现空间超分辨率、时间插帧和视频优化的统一框架。
HumanVid项目为摄像机可控的人体图像动画领域带来了革命性的突破。本文深入探讨了该项目的核心理念、技术框架和应用前景,揭示了其如何通过创新的训练数据处理方法实现高质量的人体动画效果。
Physics3D是一个基于3D高斯函数的统一仿真-渲染管线,通过视频扩散模型学习物理动力学。该项目提供了一个创新的方法来模拟和渲染复杂的3D物理场景,对计算机图形学和物理模拟领域具有重要意义。
本文介绍了2D高斯散射(2DGS)技术,这是一种新型的辐射场重建方法,通过使用2D定向平面高斯盘来实现高精度的几何重建、快速训练和实时渲染。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号