革新3D理解的多模态大语言模型
ShapeLLM是首个面向智能体交互的3D多模态大语言模型,支持单视图彩色点云输入。该项目引入了3D问答基准3D MM-Vet,并改进了点云编码器ReCon++。ShapeLLM在多项3D理解任务中表现出色,为智能体与3D环境交互提供了新思路。
我们提出ShapeLLM,这是第一个为具身交互设计的3D多模态大语言模型,探索了基于3D点云和语言的通用3D物体理解。
Zekun Qi, Runpei Dong, Shaochen Zhang, Haoran Geng, Chunrui Han, Zheng Ge, Li Yi 和 Kaisheng Ma
<div style="text-align: center;"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/4e7149c4-9483-47ca-94ed-c3b5cb643f6f.jpg" width=100% > </div>1. ShapeLLM是第一个为具身交互
设计的3D多模态大语言模型。
2. ShapeLLM支持单视角彩色点云输入
,可以轻松从RGBD相机获得。
3. 我们引入了一个强大的3D问答基准测试3D MM-Vet
,包含各种变体,如单视角、噪声抖动等。
4. 我们扩展了强大的点编码器架构ReCon++
,在一系列表示学习任务中实现了最先进的性能。