GPTEval3D：基于GPT-4V的文本到3D生成评估新方法

GPTEval3D：革新文本到3D生成评估的新方法

在人工智能和计算机视觉领域，3D生成技术一直是研究的热点。随着技术的不断进步，如何准确评估文本到3D生成模型的性能成为了一个亟待解决的问题。近日，一个名为GPTEval3D的开源项目应运而生，为这一难题提供了创新的解决方案。

项目概述

GPTEval3D是"GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation"论文的实现。该项目旨在为文本到3D生成模型提供一个客观、全面的评估指标。通过利用GPT-4V的强大能力，GPTEval3D能够自动评测3D生成模型的性能，计算ELO分数，并与现有模型进行对比排名。

GPTEval3D示意图

主要特点

基于GPT-4V的评估：利用GPT-4V的视觉理解能力，实现对3D生成结果的智能评估。
ELO评分系统：采用ELO评分系统，为不同的3D生成模型提供客观的性能排名。
开源透明：项目完全开源，研究者可以自由使用和改进评估方法。
灵活可扩展：支持评估各种文本到3D生成模型，具有良好的扩展性。
高效自动化：通过自动化评估流程，大大提高了评估效率。

安装与使用

GPTEval3D的安装相对简单，主要依赖OpenAI库和PyTorch。以下是基本的安装步骤：

# 安装OpenAI API
pip install --upgrade openai

# 安装其他依赖包
pip install --upgrade tqdm numpy Pillow gdown

使用GPTEval3D评估自己的文本到3D生成模型，大致可以分为以下几个步骤：

数据准备：下载测试数据集，并按照指定格式组织自己的3D生成结果。
数据组织：将生成的3D模型渲染成120个均匀分布的视图，包括RGB图像和对应的法线图。
运行评估：使用提供的Python脚本运行评估，获取模型的ELO分数。

评估流程详解

GPTEval3D的评估流程设计得非常周到，确保了评估结果的可靠性和可比性：

数据下载：首先，用户需要下载包含13种方法、110个提示词的测试数据集。每种方法对应120个均匀分布的RGB和法线图渲染结果。
数据准备：用户使用自己的文本到3D生成模型，为每个提示词创建一个或多个3D形状。然后，按照Threestudio代码库选择的相机角度，为每个形状渲染120个均匀分布的视图。
数据组织：将渲染的图像按照指定的文件夹结构组织，确保GPT-4V能够正确读取和分析。
运行评估：使用提供的Python脚本运行评估，脚本将自动计算模型的ELO分数，并将其与现有的模型进行排名比较。