ECCV 2024论文开源项目全面汇总:前沿研究一览无遗

RayRay
ECCV 2024计算机视觉深度学习自动驾驶AIGCGithub开源项目

ECCV2024-Papers-with-Code

ECCV 2024论文开源项目全面汇总:前沿研究一览无遗

欧洲计算机视觉会议(ECCV)作为计算机视觉领域的顶级学术会议之一,每两年举办一次。ECCV 2024将于今年9月在苏黎世举行,目前录用结果已经公布。本文全面整理了ECCV 2024录用的开源论文及代码,涵盖了计算机视觉各大热门研究方向,为广大研究人员提供了最新最全的学术资源。

3D高斯散射(3D Gaussian Splatting)

3D高斯散射是近期兴起的一种新颖的3D场景表示和渲染方法,在ECCV 2024中有多篇相关论文被录用:

  1. MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images 这篇论文提出了一种从稀疏多视图图像高效重建3D高斯场景的方法。 项目主页 | 论文 | 代码

  2. CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians 该工作实现了大规模城市场景的实时高质量渲染。 论文 | 代码

  3. FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting 这篇论文探索了基于高斯散射的少样本视图合成方法。 项目主页 | 论文 | 代码

Mamba / 状态空间模型(SSM)

Mamba是一种新兴的序列建模架构,在计算机视觉领域也开始有所应用:

  1. VideoMamba: State Space Model for Efficient Video Understanding 这篇论文将Mamba应用于视频理解任务。 论文 | 代码

  2. ZIGMA: A DiT-style Zigzag Mamba Diffusion Model 该工作提出了一种基于Mamba的图像生成扩散模型。 论文 | 项目主页

多模态大语言模型(MLLM)

多模态大语言模型是近期人工智能领域的研究热点,ECCV 2024也有多篇相关工作:

  1. SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant 这篇论文提出了一种自问自答的视觉语言助手模型。 论文 | 代码

  2. ControlCap: Controllable Region-level Captioning 该工作实现了可控的区域级图像描述生成。 论文 | 代码

扩散模型(Diffusion Models)

扩散模型在图像生成领域持续发力,ECCV 2024中也有多项相关研究:

  1. ZIGMA: A DiT-style Zigzag Mamba Diffusion Model 这篇论文将Mamba架构引入扩散模型。 论文 | 项目主页

  2. Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation 该工作探讨了文本到图像生成中的泛化问题。 论文 | 代码

  3. The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization 这篇论文研究了扩散模型去噪过程中的彩票假说。 项目主页 | 论文 | 代码

Vision Transformer

Transformer在计算机视觉领域的应用持续深入:

GiT: Towards Generalist Vision Transformer through Universal Language Interface 这篇论文提出了一种通用语言接口的通用视觉Transformer模型。 论文 | 代码

目标检测(Object Detection)

目标检测作为计算机视觉的基础任务,在ECCV 2024中也有新的突破:

  1. Relation DETR: Exploring Explicit Position Relation Prior for Object Detection 这篇论文探索了显式位置关系先验在目标检测中的应用。 论文 | 代码 | 数据集

  2. Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector 该工作研究了跨域少样本目标检测问题。 项目主页 | 论文 | 代码

语义分割(Semantic Segmentation)

语义分割是计算机视觉的另一个重要任务,ECCV 2024也有相关创新:

Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation 这篇论文提出了一种基于上下文引导的空间特征重建方法,用于高效语义分割。 论文 | 代码

医学图像(Medical Image)

医学图像分析是计算机视觉在医疗领域的重要应用,ECCV 2024中有多项相关研究:

  1. Brain-ID: Learning Contrast-agnostic Anatomical Representations for Brain Imaging 这篇论文研究了脑成像的对比度无关解剖表征学习。 论文 | 代码

  2. FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification 该工作探讨了跨域医学图像分割和分类中的公平性问题。 项目主页 | 论文 | 数据集 | 代码

  3. ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image 这篇论文提出了一种快速灵活的生物医学图像交互式分割方法。 项目主页 | 论文 | 代码

视频目标分割(Video Object Segmentation)

视频目标分割是视频理解的重要任务之一:

DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries 这篇论文提出了一种基于动态锚点查询的视频分割改进方法。 项目主页 | 论文 | 代码

自动驾驶(Autonomous Driving)

自动驾驶是计算机视觉的重要应用领域,ECCV 2024中有多项相关研究:

  1. Fully Sparse 3D Occupancy Prediction 这篇论文提出了一种全稀疏3D占据预测方法。 论文 | 代码

  2. milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing 该工作研究了毫米波雷达点云上的场景流估计,用于人体运动感知。 论文 | 代码

  3. 4D Contrastive Superflows are Dense 3D Representation Learners 这篇论文提出了一种基于4D对比超流的密集3D表征学习方法。 论文 | 代码

3D目标检测(3D Object Detection)

3D目标检测在自动驾驶等领域有重要应用:

  1. 3D Small Object Detection with Dynamic Spatial Pruning 这篇论文提出了一种动态空间剪枝的3D小目标检测方法。 项目主页 | 论文 | 代码

  2. Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D Object Detection 该工作提出了一种深度感知的硬负样本采样方法,用于多视图3D目标检测。 论文 | 代码

图像编辑(Image Editing)

图像编辑是计算机视觉的重要应用之一:

BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion 这篇论文提出了一种即插即用的图像修复模型,基于分解的双分支扩散。 项目主页 | 论文 | 代码

Low-level Vision

低层视觉任务在计算机视觉中具有基础性作用:

  1. Restoring Images in Adverse Weather Conditions via Histogram Transformer 这篇论文提出了一种基于直方图Transformer的恶劣天气图像恢复方法。 论文 | 代码

  2. OneRestore: A Universal Restoration Framework for Composite Degradation 该工作提出了一种通用的复合退化图像恢复框架。 项目主页 | 论文 | 代码

图像生成(Image Generation)

图像生成是近年来计算机视觉和人工智能的热门研究方向:

  1. Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models 这篇论文研究了文本到图像扩散模型中的对象条件能量基注意力图对齐。 论文 | 代码

  2. Every Pixel Has its Moments: Ultra-High-Resolution Unpaired Image-to-Image Translation via Dense Normalization 该工作提出了一种基于密集归一化的超高分辨率无配对图像到图像翻译方法。 项目主页 | 论文 | 代码

视频生成(Video Generation)

视频生成是图像生成的自然延伸,也是当前的研究热点:

VideoStudio: Generating Consistent-Content and Multi-Scene Videos 这篇论文提出了一种生成内容一致和多场景视频的方法。

编辑推荐精选

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

Keevx

Keevx

AI数字人视频创作平台

Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。

即梦AI

即梦AI

一站式AI创作平台

提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作

下拉加载更多