:information_source: 交互式文档
一个用于在点云中标注3D边界框的轻量级工具。
:information_source: 目前labelCloud支持Python 3.7到3.9版本。
pip install labelCloud labelCloud --example # 使用示例点云启动labelCloud
git clone https://github.com/ch-sa/labelCloud.git # 1. 克隆仓库 pip install -r requirements.txt # 2. 安装依赖 # 3. 将点云文件复制到`pointclouds`文件夹中。 python3 labelCloud.py # 4. 启动labelCloud
通过编辑config.ini
文件或设置 来根据您的需求配置软件(参见配置)。
labelCloud支持两种不同的标注方式(选点和框选),以及多种鼠标和键盘选项用于后续修正。
(也可以观看https://www.youtube.com/watch?v=8GF9n1WeR8A 获取工具的简短介绍和预览。)
默认情况下,边界框的x轴和y轴旋转将被禁用。
要标注9自由度边界框,请在菜单、设置或config.ini
文件中停用仅z轴旋转模式
。
之后边界框可以围绕所有三个轴自由旋转。
labelCloud还支持基于边界框创建分割标签。 要激活语义分割模式,请在启动对话框中切换分割按钮。 然后像往常一样进行标注,并在当前边界框内的所有点都应该被标注为当前类别时按下分配按钮。
生成的标签将以*.bin
文件的形式存储在labels/segmentation/
目录中。
每个*.bin
文件包含一个形状为(点数, )的数组,数据类型为np.int8
。
每个条目代表原始点云中对应点的标签索引。
labelCloud旨在支持所有常见的点云文件和用于存储3D边界框的标签格式,以适应多样化的使用需求。 该工具设计为易于适应多种用例。欢迎对话框将询问最常见的参数(模式、类别、导出格式)。
如需更多配置,请编辑labels/_classes.json
中的相应字段以进行标签配置,或编辑config.ini
以进行一般设置(参见配置以了解所有参数的描述)。
支持的导入格式
类型 | 文件格式 |
---|---|
彩色 | *.pcd , *.ply , *.pts , *.xyzrgb |
无颜色 | *.xyz , *.xyzn , *.bin (KITTI) |
支持的导出格式
标签格式 | 描述 |
---|---|
centroid_rel | 质心 [x, y, z] ;尺寸 [长, 宽, 高] ;<br> 相对旋转,以弧度表示的欧拉角 (-pi..+pi) [偏航角, 俯仰角, 翻滚角] |
centroid_abs | 质心 [x, y, z] ;尺寸 [长, 宽, 高] ;<br> 绝对旋转,以度数表示的欧拉角 (0..360°) [偏航角, 俯仰角, 翻滚角] |
vertices | 边界框的8个顶点,每个顶点 [x, y, z] (顺序见约定) |
kitti | 质心;尺寸;z轴旋转(见规范);需要校准文件 |
kitti_untransformed | 同上,但不进行转换(如果你只想使用相同的标签结构) |
你可以通过继承抽象类 BaseLabelFormat 轻松创建自己的导出器。 所有旋转都是逆时针的(即z轴旋转90°/π是从正x轴到负y轴!)。
快捷键 | 描述 |
---|---|
导航 | |
鼠标左键 | 围绕点云质心旋转相机 |
鼠标右键 | 平移相机 |
鼠标滚轮 | 缩放点云 |
修正 | |
W , A , S , D | 向后、左、前、右平移边界框 |
Ctrl + 鼠标右键 | 在所有维度平移边界框 |
Q , E | 向上、下移动边界框 |
Z , X | 绕z轴旋转边界框 |
C , V | 绕y轴旋转边界框 |
B , N | 绕x轴旋转边界框 |
I / O | 增加/减少边界框长度 |
K / L | 增加/减少边界框宽度 |
, / . | 增加/减少边界框高度 |
在边界框侧面上滚动鼠标("侧面拉伸") | 改变边界框尺寸 |
R /左 , F /右 | 上一个/下一个样本 |
T /上 , G /下 | 上一个/下一个边界框 |
Y , H | 将当前边界框类别更改为列表中的上一个/下一个 |
1 -9 | 用数字键选择前9个边界框中的任意一个 |
通用 | |
Del | 删除当前边界框 |
P /Home | 重置视角 |
Esc | 取消选中的点 |
有关软件构建原则,请参阅约定。
使用本工具时,欢迎发送邮件给我提供反馈或描述你的使用场景(christoph.sager[at]gmail.com)。 如果你在科研项目中使用本工具,请考虑引用我们的论文:
# CAD 期刊
@article{Sager_2022,
doi = {10.14733/cadaps.2022.1191-1206},
url = {http://cad-journal.net/files/vol_19/CAD_19(6)_2022_1191-1206.pdf},
year = 2022,
month = {mar},
publisher = {{CAD} Solutions, {LLC}},
volume = {19},
number = {6},
pages = {1191--1206},
author = {Christoph Sager and Patrick Zschech and Niklas Kuhl},
title = {{labelCloud}: A Lightweight Labeling Tool for Domain-Agnostic 3D Object Detection in Point Clouds},
journal = {Computer-Aided Design and Applications}
}
# CAD 会议
@misc{sager2021labelcloud,
title={labelCloud: A Lightweight Domain-Independent Labeling Tool for 3D Object Detection in Point Clouds},
author={Christoph Sager and Patrick Zschech and Niklas Kühl},
year={2021},
eprint={2103.04970},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
我要感谢Robotron RCV团队在软件准备和用户评估方面给予的支持。
这个软件是作为我在德累斯顿工业大学商业信息学(特别是智能系统)教席的毕业论文"labelCloud:点云中3D物体检测的标注工具开发"的一部分而开发的。相关的持续研究可以在我们的ResearchGate项目中关注。
一款强大的视觉语言模型,支持图像和视频输入
Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。
HunyuanVideo 是一个可基于文本生成高质量图像和视频的项目。
HunyuanVideo 是一个专注于文本到图像及视频生成的项目。它具备强大的视频生成能力,支持多种分辨率和视频长度选择,能根据用户输入的文本生成逼真的图像和视频。使用先进的技术架构和算法,可灵活调整生成参数,满足不同场景的需求,是文本生成图像视频领域的优质工具。
一个基于 Gradio 构建的 WebUI,支持与浏览器智能体进行便捷交互。
WebUI for Browser Use 是一个强大的项目,它集成了多种大型语言模型,支持自定义浏览器使用,具备持久化浏览器会话等功能。用户可以通过简洁友好的界面轻松控制浏览器智能体完成各类任务,无论是数据提取、网页导航还是表单填写等操作都能高效实现,有利于提高工作效率和获取信息的便捷性。该项目适合开发者、研究人员以及需要自动化浏览器操作的人群使用,在 SEO 优化方面,其关键词涵盖浏览器使用、WebUI、大型语言模型集成等,有助于提高网页在搜索引擎中的曝光度。
基于 ESP32 的小智 AI 开发项目,支持多种网络连接与协议,实现语音交互等功能。
xiaozhi-esp32 是一个极具创新性的基于 ESP32 的开发项目,专注于人工智能语音交互领域。项目涵盖了丰富的功能,如网络连接、OTA 升级、设备激活等,同时支持多种语言。无论是开发爱好者还是专业开发者,都能借助该项目快速搭建起高效的 AI 语音交互系统,为智能设备开发提供强大助力。
一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。
olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。
飞书多维表格 ×DeepSeek R1 满血版
飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。
高质量语音生成模型
CSM 是一个开源的语音生成项目,它提供了一个基于 Llama-3.2-1B 和 CSM-1B 的语音生成模型。该项目支持多语言,可生成多种声音,适用于研究和教育场景。通过使用 CSM,用户可以方便地进行语音合成,同时项目还提供了水印功能,确保生成音频的可追溯性和透明度。
Hugging Face 的 AI 智能体课程,涵盖多种智能体框架及相关知识
本项目是 Hugging Face 推出的 AI 智能体课程,深入介绍了 AI 智能体的相关概念,如大语言模型、工具使用等。课程包含多个单元,详细讲解了不同的智能体框架,如 smolagents 和 LlamaIndex,提供了丰富的学习资源和实践案例。适合对 AI 智能体感兴趣的开发者和学习者,有助于提升他们在该领域的知识和技能。
用于 AI 项目管理和 API 交互的工具集,助力 AI 项目高效开发与管理。
RagaAI-Catalyst 是一款专注于 AI 领域的强大工具集,为开发者提供了便捷的项目管理、API 交互、令牌管理等功能。支持多 API 密钥上传,能快速创建、列出和管理 AI 项目,还可获取项目用例和指标信息。适用于各类 AI 开发场景,提升开发效率,推动 AI 项目顺利开展。
一个包含多种工具和文档处理功能,适用于 LLM 使用的项目。
smolagents 是一个功能丰富的项目,提供了如文件格式转换、网页内容读取、语义搜索等多种工具,支持将常见文件类型或网页转换为 Markdown,方便进行文档处理和信息提取,能满足不同场景下的需求,提升工作效率和数据处理能力。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号