Real3D是一种创新的大规模重建模型(LRM)系统,可以利用单视图真实世界图像进行训练,在多个评估设置中均优于现有方法,为真实场景三维重建开辟了新的可能性。
SIFU是一项创新的3D人体重建技术,能够从单张图像重建出高质量的3D人体模型,在复杂姿势和宽松服装的处理上表现出色,非常适合3D打印、场景创建等实际应用。本文详细介绍了SIFU的核心技术、应用场景以及最新研究进展。
DreamScene4D是一种创新的视频到4D场景生成方法,能够从复杂的多物体视频中生成动态3D场景,处理遮挡、大幅物体运动和新视角,实现时空一致性。
Splatter Image是一种基于高斯溅射的单视图3D重建方法,可以在38 FPS的速度下实现前向重建,为快速高质量的3D场景重建提供了新的解决方案。
GPS-Gaussian是一种创新的3D高斯分布技术,能够实时生成高质量的人物新视角图像,为虚拟现实、游戏和视频制作等领域带来巨大潜力。
本文深入介绍了亚洲宝石学院(AIGS)的发展历程、教育项目、研究成果以及在宝石学领域的重要地位,展现了AIGS作为亚洲领先的宝石学机构所做出的卓越贡献。
K-Planes是一种新型的神经辐射场表示方法,通过分解高维空间来实现静态、动态和可变外观场景的统一建模。本文介绍了K-Planes的核心思想、主要特点及其在各类三维重建任务中的应用。
本文全面介绍了Awesome-Image-Composition项目,该项目汇集了图像合成领域的最新研究成果、数据集和工具,旨在推动图像合成技术的发展与应用。
Seal是一种新型的自监督学习框架,能够利用现成的视觉基础模型知识来分割各种汽车点云序列。该框架具有可扩展性、一致性和泛化性,在多个点云数据集上取得了优异的性能。
Follow-Your-Click是一项革命性的AI技术,通过简单的点击和短提示,让用户能够轻松地为静态图像添加动画效果。这项技术不仅提高了图像动画的可控性和局部性,还极大地简化了用户操作流程,为图像编辑和视频生成领域带来了新的可能性。
本文详细介绍了由清华大学LeapLab团队提出的ARC (Adaptive Rotated Convolution) 方法,这是一种创新的旋转目标检测算法,能够有效处理各种方向的目标,在ICCV 2023会议上展示。
探讨CVPR 2024口头报告论文DSINE在表面法线估计领域的创新方法,分析其如何通过重新设计归纳偏置来提高估计精度,并展望其在3D视觉领域的潜在影响。
Descubre cómo T-Rex2 está transformando el campo de la detección de objetos al combinar prompts de texto y visuales, permitiendo una detección genérica y de código abierto con capacidades de cero disparo.
Shape of Motion是一项基于单个视频进行4D重建的创新技术,通过结合深度学习和计算机视觉方法,能够从单个视频中重建出动态3D场景,为动态场景建模和理解开辟了新的可能性。
ProPainter是一个创新的视频修复框架,通过改进特征传播和转换器架构,有效解决了视频修复中的时空一致性问题,为对象移除、视频补全等任务带来了显著提升。
SyncTalk是一种新型的说话头合成方法,通过精确同步唇部运动、面部表情和头部姿势,实现了高度逼真的说话视频生成。该方法采用三平面哈希表示来保持人物身份,并引入了多个创新组件来增强同步性和真实感。
VGGSfM是一种新型的深度学习SfM(结构from运动)pipeline,其中每个组件都是完全可微分的,因此可以进行端到端的训练。该方法在CO3D、IMC Phototourism和ETH3D三个流行数据集上达到了最先进的性能。
TalkingGaussian是一种新颖的3D说话头像合成方法,通过高斯散射实现结构持久性和高保真度的面部动画效果。该方法在ECCV 2024会议上提出,为人工智能驱动的虚拟人物创作带来了新的可能性。
MAR是一种创新的自回归图像生成模型,无需使用向量量化,能够生成高质量的图像。本文将深入介绍MAR的原理、特点和应用,以及它在图像生成领域带来的突破性进展。
ByteDance开源的TiTok项目提出了一种突破性的1D图像标记化方法,能用仅32个离散标记表示一张图像,大幅提升图像生成速度,同时保持高质量的生成效果。本文深入解析TiTok的原理、特点及其在图像处理领域的重要意义。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号