prem-1B-SQL

prem-1B-SQL

本地Text-to-SQL模型保护数据不受第三方干扰

Prem-1B-SQL是由Prem AI研发的本地化Text-to-SQL模型。拥有10亿参数,适合低GPU和量化后的CPU设备,强调数据本地储存以防数据外泄。模型在BirdBench和Spider基准数据集上的准确率分别为51.54%和85%。通过PremSQL开源库,用户可定制数据集、强化执行和评估,支持错误处理和自动修正,实现数据分析流程一体化。Prem-1B-SQL具备出色的集成和微调能力,适用于多种数据分析场景,保障查询转换的安全、准确和高效。

数据库开源项目模型GithubHuggingface文本生成本地化Prem-1B-SQL数据安全

Prem-1B-SQL项目介绍

Prem-1B-SQL是由Prem AI开发的一款先进的本地化文本到SQL模型。它在数据安全方面秉持“本地优先”的理念,避免了将数据库暴露给第三方封闭源模型的潜在风险。这款模型拥有10亿个参数,适合在低GPU甚至CPU设备上运行,并支持量化处理。未来,官方计划持续优化其表现,这一切使得Prem-1B-SQL在数据分析领域展现出强大的应用潜力。

项目背景

Prem AI坚信,AI辅助的数据分析应当以本地化为核心,因为将数据库暴露给第三方封闭源模型可能导致数据安全问题。基于此理念,他们推出了Prem-1B-SQL,一款适合在本地设备上高效运行的文本到SQL模型。

项目成果

Prem-1B-SQL在两个常用的数据集上进行了评估:BirdBench和Spider。具体结果如下:

数据集执行准确率
BirdBench(验证集)46%
BirdBench(测试集)51.54%
Spider85%

其中,BirdBench数据集根据难度分为三个等级,私密测试结果如下:

难度等级测试数执行准确率软F1分数
简单94960.70%61.48%
适中55547.39%49.06%
挑战28529.12%31.83%
总计178951.54%52.90%

此外,通过与其他流行的模型进行对比,可以看出Prem-1B-SQL在保持紧凑的参数量的同时,能达到相当不错的测试分数:

模型参数量(亿)BirdBench 测试分数
AskData + GPT-4o(当前冠军)NA72.39
DeepSeek coder 236B23656.68
GPT-4(2023)NA54.89
PremSQL 1B(我们的)151.4
Qwen 2.5 7B Instruct751.1
Claude 2 Base(2023)NA49.02

如何使用Prem-1B-SQL

Prem-1B-SQL构建在transformers库上,因此可以直接与transformers库结合使用。也正因为如此,它与数据库中输入提示的形成紧密关联。为了简化使用,Prem AI开发了PremSQL库,这是一款完全开源的软件库,它具有以下特性:

  • 本地优先:避免使用第三方封闭来源提供商,确保数据安全。
  • 可定制数据集:能够创建、微调和评估内置或自定义的数据集。
  • 坚固的执行器和评估器:轻松连接数据库并评估模型性能。
  • 高级生成器:将自然语言提示转换为可执行的SQL查询。
  • 错误处理和自我纠正:在推理过程中自动纠正SQL查询。
  • 微调支持:支持通过LoRA、QLoRA或全微调策略进行模型微调。
  • 端到端管道:无缝集成所有组件,实现自主数据分析。

Prem-1B-SQL可以通过PremSQL管道或生成器进行部署。以下是一些使用示例:

通过PremSQL管道运行Prem-1B-SQL

最简单的方式就是通过PremSQL管道,只需提供数据库路径或连接URI即可。以下是示例代码:

from premsql.pipelines import SimpleText2SQLAgent from premsql.generators import Text2SQLGeneratorHF from premsql.executors import SQLiteExecutor dsn_or_db_path = "./data/db/california_schools.sqlite" agent = SimpleText2SQLAgent( dsn_or_db_path=dsn_or_db_path, generator=Text2SQLGeneratorHF( model_or_name_or_path="premai-io/prem-1B-SQL", experiment_name="simple_pipeline", device="cuda:0", type="test" ), ) question = "please list the phone numbers of the direct charter-funded schools that are opened after 2000/1/1" response = agent.query(question) response["table"]

通过PremSQL生成器运行Prem-1B-SQL

当需要在某个数据集上进行批量生成时,可以使用PremSQL生成器:

from premsql.generators import Text2SQLGeneratorHF from premsql.datasets import Text2SQLDataset dataset = bird_dataset = Text2SQLDataset( dataset_name='bird', split="validation", force_download=False, dataset_folder="/path/to/dataset" ).setup_dataset(num_rows=10, num_fewshot=3) generator = Text2SQLGeneratorHF( model_or_name_or_path="premai-io/prem-1B-SQL", experiment_name="test_generators", device="cuda:0", type="test" ) responses = generator.generate_and_save_results( dataset=bird_dataset, temperature=0.1, max_new_tokens=256 ) print(responses)

使用执行引导解码

该策略在生成的SQL失败时使用错误信息进行修正,直到获得有效结果或重试次数用完为止。

from premsql.executors import SQLiteExecutor executor = SQLiteExecutor() response = generator.generate_and_save_results( dataset=bird_dataset, temperature=0.1, max_new_tokens=256, force=True, executor=executor, max_retries=5 )

模型训练使用的数据集

Prem-1B-SQL的训练使用了以下数据集:

  1. BirdBench训练数据集:可在此处找到。
  2. Spider数据集:可在此处找到。
  3. 域专属数据集:由PremAI收集并上传。
  4. Gretel AI合成数据集:可在此处找到。

此外,开发团队通过结合上述数据集创建了错误处理数据集,将模型的学习扩展到自我纠正能力上。

未来,Prem AI计划在公共基准上发布更多的评估结果,以展示Prem-1B-SQL的能力。有关更多的详细信息,请参阅文档

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多