insuranceqa-corpus-zh

insuranceqa-corpus-zh

开源中文保险问答语料库 支持机器学习和NLP研究

insuranceqa-corpus-zh是一个开源的中文保险行业问答语料库,包含真实用户问题和专业回答。作为保险领域首个开放QA语料库,它提供问答语料和问答对语料两种格式,支持答案选择、阅读理解等多种机器学习任务。数据集划分为训练集、测试集和验证集,并附有详细使用说明和格式介绍,方便研究人员快速应用。该项目适合进行保险领域自然语言处理和问答系统相关研究。

保险语料库问答数据集机器学习数据格式分词处理Github开源项目

PyPI PyPI每月下载量 PyPI版本shields.io 许可证

保险行业语料库

该语料库包含从网站保险图书馆收集的问题和答案。

据我们所知,本数据集发布于2017年时,是保险领域首个开放的问答语料库:

  • 该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。因此这是一个具有真正价值的语料,而非玩具数据。

  • 在上述论文中,语料库用于答案选择任务。另一方面,这种语料库还有其他可能的用途。例如,通过阅读理解答案,观察学习等自主学习方式,使系统能够最终对未见过的问题给出自己的答案。

  • 数据集分为"问答语料"和"问答对语料"两部分。问答语料是从原始英文数据翻译而来,未经其他处理。问答对语料是基于问答语料,又进行了分词、去标点符号、去停用词和添加标签的处理。因此,"问答对语料"可以直接用于机器学习任务。如果对数据格式或分词效果不满意,可以直接对"问答语料"使用其他方法进行处理,获得适合训练模型的数据。

安装使用

1/3 依赖

  • Python: 2.x, 3.x
  • Pip

2/3 安装脚本包

pip install -U insuranceqa_data

3/3 安装语料包

进入证书商店,购买证书,购买后进入【证书-详情】,点击【复制证书标识】。

然后,设置环境变量 INSQA_DL_LICENSE,比如使用命令行终端:

# Linux / macOS export INSQA_DL_LICENSE=YOUR_LICENSE ## 例如,如果你的许可证ID是`FOOBAR`,运行`export INSQA_DL_LICENSE=FOOBAR` # Windows ## 1/2 命令提示符 set INSQA_DL_LICENSE=YOUR_LICENSE ## 2/2 PowerShell $env:INSQA_DL_LICENSE='YOUR_LICENSE'

最后,执行以下命令,完成数据的下载。

python -c "import insuranceqa_data; insuranceqa_data.download_corpus()"

数据格式说明

数据分为两种:POOL 格式和 PAIR 格式。其中,PAIR 格式更适合用于机器学习训练模型。

加载 POOL 数据

import insuranceqa_data as insuranceqa train_data = insuranceqa.load_pool_train() # 训练集 test_data = insuranceqa.load_pool_test() # 测试集 valid_data = insuranceqa.load_pool_valid() # 验证集 # valid_data, test_data 和 train_data 具有相同的属性 for x in train_data: # 打印数据 print('索引 %s 值: %s ++$++ %s ++$++ %s' % \ (x, train_data[x]['zh'], train_data[x]['en'], train_data[x]['answers'], train_data[x]['negatives'])) answers_data = insuranceqa.load_pool_answers() for x in answers_data: # 答案数据 print('索引 %s: %s ++$++ %s' % (x, answers_data[x]['zh'], answers_data[x]['en']))

数据设计

-问题答案词汇(英语)
训练12,88921,325107,889
验证2,000335416,931
测试2,000330816,815

每条数据包括问题的中文、英文、答案的正例和答案的负例。答案的正例至少1项,通常在1-5条之间,都是正确答案。答案的负例有200条,负例是根据问题使用检索方式建立的,因此与问题相关但不是正确答案。

{
    "索引": {
        "zh": "中文",
        "en": "英文",
        "domain": "保险种类",
        "answers": [""] # 答案正例列表
        "negatives": [""] # 答案负例列表
    },
    更多 ...
}
  • 训练:corpus/pool/train.json.gz

  • 验证:corpus/pool/valid.json.gz

  • 测试:corpus/pool/test.json.gz

  • 答案:corpus/pool/answers.json 共有27,413个回答,数据格式为json:

{
    "索引": {
        "zh": "中文",
        "en": "英文"
    },
    更多 ...
}

中英文对照文件

问答对
格式 索引 ++$++ 保险种类 ++$++ 中文 ++$++ 英文

corpus/pool/train.txt.gz, corpus/pool/valid.txt.gz, corpus/pool/test.txt.gz.

答案
格式 索引 ++$++ 中文 ++$++ 英文

corpus/pool/answers.txt.gz

语料库使用gzip进行压缩以减小体积,可以使用zmore、zless、zcat、zgrep等命令访问数据。

zmore pool/test.txt.gz

加载 PAIR 数据

使用"问答数据"还需要做很多工作才能进入机器学习模型,比如分词、去停用词、去标点符号、添加标签标记。因此,在"问答数据"的基础上,还可以进行进一步处理,但在分词等任务中,可以借助不同的分词工具,这对模型训练有影响。为了使数据能快速可用,insuranceqa-corpus-zh提供了一个使用HanLP进行分词、去标点、去停用词和添加标签的数据集,这个数据集完全基于"问答数据"。

加载数据

import insuranceqa_data as insuranceqa train_data = insuranceqa.load_pairs_train() test_data = insuranceqa.load_pairs_test() valid_data = insuranceqa.load_pairs_valid() # valid_data、test_data 和 train_data 具有相同的属性 for x in test_data: print('索引 %s 值: %s ++$++ %s ++$++ %s' % \ (x['qid'], x['question'], x['utterance'], x['label']))

vocab_data = insuranceqa.load_pairs_vocab() vocab_data['word2id']['UNKNOWN'] vocab_data['id2word'][0] vocab_data['tf'] vocab_data['total']


#### 数据设计

```vocab_data```包含```word2id```(字典,从单词到ID)、```id2word```(字典,从ID到单词)、```tf```(字典,词频统计)和```total```(单词总数)。其中,未登录词的标识为```UNKNOWN```,未登录词的ID为0。

```train_data```、```test_data```和```valid_data```的数据格式相同。```qid```是问题ID,```question```是问题,```utterance```是回答,```label```如果是```[1,0]```表示回答是正确答案,```[0,1]```表示回答不是正确答案,因此```utterance```包含了正例和负例的数据。每个问题包含10个负例和1个正例。

```train_data```包含12,889个问题,141,779条数据,正例:负例 = 1:10
```test_data```包含2,000个问题,22,000条数据,正例:负例 = 1:10
```valid_data```包含2,000个问题,22,000条数据,正例:负例 = 1:10

句子长度:

验证集问题最大长度:31,平均长度:5(最大) 验证集回答最大长度:878(最大),平均长度:165(最大) 测试集问题最大长度:33,平均长度:5 测试集回答最大长度:878,平均长度:161 训练集问题最大长度:42(最大),平均长度:5 训练集回答最大长度:878,平均长度:162 词汇表大小:24997


## 机器学习项目

可将本语料库与以下开源代码配合使用

[deep-qa-1](https://github.com/chatopera/insuranceqa-corpus-zh/tree/release/deep_qa_1):基准模型

[InsuranceQA TensorFlow](https://github.com/l11x0m7/InsuranceQA_zh):使用TensorFlow的CNN模型

[n-grams-get-started](https://github.com/Samurais/n-grams-get-started):N元模型

[word2vec-get-started](https://github.com/Samurais/word2vec-get-started):词向量模型

## 声明

声明1:[insuranceqa-corpus-zh](https://github.com/chatopera/insuranceqa-corpus-zh)

本数据集通过翻译[insuranceQA](https://github.com/shuzi/insuranceQA)生成,代码发布遵循[Chunsong Public License, version 1.0](https://www.cskefu.com/licenses/v1.html)协议。数据仅限研究用途,如在任何媒体、期刊、杂志或博客等发布内容时,必须注明引用和地址。

InsuranceQA Corpus, Chatopera Inc., https://github.com/chatopera/insuranceqa-corpus-zh, 07 27, 2017


任何基于[insuranceqa-corpus](https://github.com/chatopera/insuranceqa-corpus-zh)衍生的数据也需要开放并声明与"声明1"和"声明2"一致的内容。

声明2:[insuranceQA](https://github.com/shuzi/insuranceQA)

此数据集仅供研究目的使用。如果您使用这些数据发表任何内容,请引用我们的论文:[Applying Deep Learning to Answer Selection: A Study and An Open Task](https://arxiv.org/abs/1508.01585)。Minwei Feng, Bing Xiang, Michael R. Glass, Lidan Wang, Bowen Zhou @ 2015

编辑推荐精选

Keevx

Keevx

AI数字人视频创作平台

Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。

即梦AI

即梦AI

一站式AI创作平台

提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作

扣子-AI办公

扣子-AI办公

AI办公助手,复杂任务高效处理

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
蛙蛙写作

蛙蛙写作

AI小说写作助手,一站式润色、改写、扩写

蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。

AI辅助写作AI工具蛙蛙写作AI写作工具学术助手办公助手营销助手AI助手
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

下拉加载更多