DB-GPT-Hub

DB-GPT-Hub 项目介绍

DB-GPT-Hub 是一个实验性项目，旨在利用大型语言模型（LLMs）实现从文本到 SQL 的解析。该项目包括多个阶段，如数据收集、数据预处理、模型选择和构建，以及模型权重的微调。通过这些流程，我们的目标是提升 Text-to-SQL 的能力，同时降低模型训练成本，使更多开发者能够参与提高 Text-to-SQL 的准确率。最终目标是实现基于数据库的自动问答功能，让用户能够通过自然语言描述来执行复杂的数据库查询。

细化 Text-to-SQL

我们通过对大型语言模型应用监督式微调 (SFT) 来增强 Text-to-SQL 的性能。

数据集

项目使用的主要数据集是 Spider 数据集，这是一个复杂的跨领域 text2sql 数据集，包括 10,181 条自然语言查询和分布在 200 个独立数据库中的 5,693 条 SQL，涵盖 138 个不同的领域。

除此之外，还有其他可用的 text2sql 数据集，例如：

WikiSQL：一个由 80,654 条自然语句表达和 24,241 个表的 SQL 注释组成的大型语义解析数据集。
CHASE：包含中文跨领域多轮互动的 text2sql 数据集。
BIRD-SQL 和 CoSQL：以及其他丰富的数据集。

模型

DB-GPT-Hub 当前支持以下基础模型：

CodeLlama
Baichuan2
LLaMa/LLaMa2
Falcon
Qwen
XVERSE
ChatGLM2
ChatGLM3
internlm
sqlcoder-7b（mistral）
sqlcoder2-15b（starcoder）

这些模型基于量化学习（QLoRA）进行微调，最低硬件要求如下：

7B 参数：6GB GPU RAM、3.6GB CPU RAM、36.4GB 磁盘空间。
13B 参数：13.4GB GPU RAM、5.9GB CPU RAM、60.2GB 磁盘空间。

使用说明

环境准备

通过以下命令克隆和设置项目环境：

git clone https://github.com/eosphoros-ai/DB-GPT-Hub.git
cd DB-GPT-Hub
conda create -n dbgpt_hub python=3.10 
conda activate dbgpt_hub
cd src/dbgpt_hub_sql
pip install -e .

快速开始

首先，通过以下命令安装 dbgpt-hub：

pip install dbgpt-hub

然后，配置参数并运行完整流程，包括数据预处理、模型训练、预测和评估。

数据预处理

通过以下命令处理 Spider 数据集：

sh dbgpt_hub_sql/scripts/gen_train_eval_data.sh

模型微调

可以通过 LoRA 和 QLoRA 方法进行模型微调：

sh dbgpt_hub_sql/scripts/train_sft.sh

模型预测

在 ./dbgpt_hub_sql/output/pred/ 目录下，运行预测脚本：

sh ./dbgpt_hub_sql/scripts/predict_sft.sh

模型权重

合并已经训练的基础模型和微调后的 Peft 模块权重：

sh ./dbgpt_hub_sql/scripts/export_merge.sh

模型评估

通过以下命令评估模型在数据库上的性能：

python dbgpt_hub_sql/eval/evaluation.py --plug_value --input Your_model_pred_file

未来计划

阶段一：建立框架，完成端到端的流程。
阶段二：优化模型性能和提示，开放更多优化过的模型。
阶段三：提高推理速度，优化特定业务场景，结合论文进一步优化。

如何参与

我们热情欢迎更多人参与到我们的项目中，包括数据集、模型微调、性能评估、论文推荐和代码复现。请随时提交 issue 或 PR，我们将积极响应。

鸣谢

感谢以下开源项目的基础支持，如 Spider、CoSQL、Chase、BIRD-SQL 等。

联系方式

若对我们的社区工作有任何想法，或有兴趣深入实验和优化 DB-GPT-Hub 子项目，可以通过项目中的联系方式与我们交流。我们热切期待您的加入！

DB-GPT-Hub 项目介绍

最新动态

细化 Text-to-SQL

数据集

模型

使用说明

环境准备

快速开始

数据预处理

模型微调

模型预测

模型权重

模型评估

未来计划

如何参与

鸣谢

联系方式

编辑推荐精选

TRAE编程

商汤小浣熊

imini AI

Keevx

即梦AI

扣子-AI办公

蛙蛙写作

问小白

Transly

讯飞智文

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

讯飞文书

商汤小浣熊

讯飞绘文

讯飞绘镜

咔片PPT

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号