efaqa-corpus-zh

efaqa-corpus-zh

开源中文心理咨询对话数据集

efaqa-corpus-zh是一个包含20,000条标注数据的中文心理咨询对话语料库,为人工智能在心理咨询领域的应用提供支持。该数据集包含多轮对话内容和分类信息,涵盖学业、职场、家庭等多种心理问题。项目提供详细的数据格式说明和标签定义,研究人员可通过购买证书获取使用权限。作为目前最大的公开中文心理咨询对话数据集,efaqa-corpus-zh为相关研究提供了宝贵的语料资源。

心理咨询语料库对话数据标注人工智能研究用途Github开源项目
<div align=right>

首页 | 媒体报道 | 未来之路

</div>

心理咨询相关语料库

语料库地址描述
心理咨询问答语料库(情感急救数据集)GitHub, Gitee人工标注的多轮对话
心理咨询问答原始语料库(情感急救原始数据集)GitHub, Gitee爬取后未标注的原始语料

情感急救数据集

PyPI 版本 PyPI 月下载量 PyPI 版本shield.io 许可证

心理咨询问答语料库,仅限研究用途。

心理咨询问答语料库(以下也称为"数据集","语料库")是为应用人工智能技术于心理咨询领域制作的语料。据我们所知,这是心理咨询领域首个开放的问答语料库,包括20,000条心理咨询数据,也是迄今公开的最大的中文心理咨询对话语料(发稿日期2022-04-07)。数据集内容丰富,不但具备多轮对话内容,也有分类等信息,制作过程耗费大量时间和精力,比如标注过程是面向多轮对话,平均每条标记耗时超过1分钟。

心理咨询问答语料库的源代码是基于开源许可证分发,但是安装使用过程中,下载的语料文件,需要从证书商店购买证书,才能下载和使用,具体使用过程描述如下。

安装使用

依赖:

  • Python: 2.x, 3.x
  • Pip

安装和下载语料文件

  • Linux 或 macOS
export EFAQA_DL_LICENSE=YOUR_LICENSE
pip install -U efaqa-corpus-zh     # 安装脚本包
python -c "import efaqa_corpus_zh" # 下载语料文件
  • Windows
# 设置环境变量
## 1/2 命令提示符
set EFAQA_DL_LICENSE=YOUR_LICENSE
## 2/2 PowerShell
$env:EFAQA_DL_LICENSE='YOUR_LICENSE'

# 下载
pip install -U efaqa-corpus-zh     # 安装脚本包
python -c "import efaqa_corpus_zh" # 下载语料文件

YOUR_LICENSE 为从证书商店购买的证书的【证书标识】。

假设证书标识为FOOBAR,那么,设置如下:

# Linux / macOS
export EFAQA_DL_LICENSE=FOOBAR
# Windows
## 1/2 命令提示符
set EFAQA_DL_LICENSE=FOOBAR
## 2/2 PowerShell
$env:EFAQA_DL_LICENSE='FOOBAR'

演示代码

import efaqa_corpus_zh
records = list(efaqa_corpus_zh.load())
print("大小: %s" % len(records))
print(records[0]["title"])

初次执行 load 接口,会下载数据,下载速度取决于网络质量。

数据格式

加载数据 records = list(efaqa_corpus_zh.load()) 中,每一条 records 数据都遵循如下格式:

<table> <tr> <th>字段</th> <th colspan="3">说明</th> <th>类型</th> </tr> <tr> <td>md5</td> <td colspan="3">唯一标识</td> <td>string</td> </tr> <tr> <td>title</td> <td colspan="3">标题</td> <td>string</td> </tr> <tr> <td>description</td> <td colspan="3">描述</td> <td>string</td> </tr> <tr> <td>owner</td> <td colspan="3">咨询者(脱敏后)</td> <td>string</td> </tr> <tr> <td>label</td> <td colspan="3">话题标签</td> <td>Object</td> </tr> <tr> <td rowspan="3"></td> <td>s3</td> <td colspan="2">烦恼类型</td> <td>string</td> </tr> <tr> <td>s2</td> <td colspan="2">心理疾病</td> <td>string</td> </tr> <tr> <td>s1</td> <td colspan="2">SOS</td> <td>string</td> </tr> <tr> <td>chats</td> <td colspan="3">聊天数据</td> <td>Array</td> </tr> <tr> <td rowspan="8"></td> <td>sender</td> <td colspan="2">发布者</td> <td>string</td> </tr> <tr> <td>type</td> <td colspan="2">消息类型</td> <td>string</td> </tr> <tr> <td>time</td> <td colspan="2">发布时间</td> <td>string</td> </tr> <tr> <td>value</td> <td colspan="2">消息文本内容</td> <td>string</td> </tr> <tr> <td>label</td> <td colspan="2">聊天标签</td> <td>Object</td> </tr> <tr> <td rowspan="3"></td> <td>knowledge</td> <td>知识性</td> <td>boolean</td> </tr> <tr> <td>question</td> <td>追问</td> <td>boolean</td> </tr> <tr> <td>negative</td> <td>负面回复</td> <td>boolean</td> </tr> </table>

【注意】sender 的值是owner代表消息是咨询者发送的;值是audience代表消息是网友发布的,网友可能是心理咨询师,也可能不是。

数据示例

{
  "md5": "2f63d374c071043d9e1968aefa62ffb7",
  "owner": "匿名",
  "title": "女 听过别人最多的议论就是干啥啥不行不长心眼没有脑子",
  "label": {
    "s1": "1.13",
    "s2": "2.7",
    "s3": "3.4"
  },
  "chats": [
    {
      "time": "11:02:45",
      "value": "这样的议论是针对谁呢?",
      "sender": "audience",
      "type": "textMessage",
      "label": { "question": true, "knowledge": false, "negative": false }
    },
    {
      "time": "11:08:38",
      "sender": "audience",
      "type": "textMessage",
      "value": "欢迎你来找我玩❤",
      "label": { "question": false, "knowledge": false, "negative": false }
    },
    {
      "time": "11:15:17",
      "sender": "owner",
      "type": "textMessage",
      "value": "好惨"
    }
  ]
}

标签定义

一条数据中,titledescription是咨询者咨询的初始信息,话题标签是基于二者将咨询问题进行分类,分类包含三个维度:S1 烦恼类型;S2 心理疾病;S3 SOS。其中,S代表severity,三个维度体现心理问题的严重程度依次加重。需要强调的是,其中一些项目需要临床医学鉴定,数据集所使用概念,均代表疑似,比如我们标记了一个话题分类为抑郁症,实际上是指疑似抑郁症,该声明不代表我们的工作不认真,而是严格的判断的难度以及出于严谨性的考虑。

label中记录的是每个维度子类的 ID,ID 设计如下。

S1 烦恼类型

ID中文英文备注
1.1学业烦恼、对未来规划的迷茫Academic Concerns学业烦恼包括学习障碍、学习吃力、学习成绩差、注意力不集中和对学习科目无兴趣等。
1.2事业和工作烦恼Career and Workplace Issues在工作中的,人际冲突问题、沟通问题、谣言、职场骚扰、歧视、动力不足和工作满意度低和职场表现差等问题。
1.3家庭问题和矛盾Family Issues and Conflict家庭问题和矛盾包括家庭暴力、金钱遗产争执、家庭不和睦、婆媳问题、子女们对年长父母看护问题、继父母继子女冲突问题和离异父母对于儿女的养护问题。
1.4物质滥用Substance Abuse and Addiction成人如酗酒、吸烟、药物滥用、吸毒、赌博和任何影响生活品质的上瘾行为。
1.5悲恸Grief由于痛失亲人或朋友而引起的极大悲伤。
1.6失眠Insomnia无法入睡或难以保持入睡状态而影响第二天表现的睡眠障碍。
1.7压力Stress压力是一种情绪上或身体上的紧张感。它可能来自任何使您感到沮丧,愤怒或紧张的事件或想法。
1.8人际关系Interpersonal Relationship不属于职场、学校以及家庭的人际关系紧张与矛盾。
1.9情感关系问题Relationship Issues早恋、暗恋、异地恋、出轨、吵架、复合、LGBT 群体
1.10离婚Divorce离婚后情感以及孩子的问题
1.11分手Break Up分手后的痛苦
1.12自我探索Self-Awareness如星座、性格、兴趣等
1.13低自尊Low self-esteem低自尊心的表现 自尊是一个人对自己的价值的主观评价。自尊包括对自己以及情绪状态的信念,例如胜利,绝望,骄傲和羞耻。
1.14青春期问题Adolescent Problem青春期少年在身心成长上所面临的问题,如叛逆、伤害他人、怀孕、药物滥用和青少年犯罪。
1.15强迫症OCD强迫症的人会陷入一种无意义、且令人沮丧的重复的想法与行为当中,但是一直想却无法摆脱它。
1.16其它Others其他烦恼,虽然对生活学习没有造成毁灭性的阻碍,但是却依然会引起心里不适。
1.17男同性恋、女同性恋、双性恋与跨性别LGBT男同性恋、女同性恋、双性恋与跨性别
1.18性问题Sex对于青少年,是性教育不足引起各种社会问题;对于成年人,性焦虑与性上瘾可以演变成生理疾病。
1.19亲子关系Parent-child relationship亲子关系,从婴幼儿时期就开始影响着孩子各方面的发展,比如性格、毅力、人际交往等等。

S2 心理疾病

心理问题已经影响工作,咨询者需要休息调整或就医。

ID中文英文备注
2.1抑郁症Depression长期持续的低落情绪,且明显超出正常范围,缺乏自信,避免社交,甚至产生罪恶感,明显感到体力下降,时间感知变慢,无法从任何有趣活动中获得乐趣。
2.2焦虑症Anxiety长期持续的焦虑情绪,没有明确的客观原因却仍然紧张担忧,坐立不安,表现为心悸、手抖、出汗、频繁排尿、注意力难以集中等症状。
2.3躁郁症Bipolar Disorder又称"双相情感障碍"。躁狂期:感到充满活力、精力充沛,情绪高涨或易怒。可能过度自信,行为或穿着铺张浪费,睡眠极少且话变多。
2.4创伤后应激障碍PTSD首先经历创伤事件:如童年遭受身心虐待;接触相关事物时会出现精神或身体不适和紧张,创伤场景会在脑海中反复重现。
2.5惊恐障碍Panic Disorder又称急性焦虑症,表现为反复发生的惊恐发作。惊恐发作是突发的短暂而强烈的恐惧(濒死感),伴有心悸、出汗、手颤抖、呼吸困难、麻木感等症状。
2.6进食障碍Eating Disorder厌食症:进食过少导致体重过轻;暴食症:大量进食后设法呕吐。两种疾病都极度追求"瘦",对自身身材不满意,在生活学习上表现出极端完美主义倾向。
2.7未达到 S2 程度Unrelated尚未严重到心理疾病水平
2.8其它疾病Others已严重影响日常生活和工作,甚至无法正常生活工作,但无法确定属于哪种具体疾病。

【注意:】一些临床上更为严重的心理疾病,如多重人格等,由于其复杂性,更难以判断,本数据集暂不涉及此类标注。

S3 SOS

紧急情况,需要立即人工干预。

ID中文英文备注
3.1正在进行的自杀行为Suicide Action不适用
3.2自杀意念Suicide Ideation不适用
3.3自残Self-harm不适用
3.4正在进行的人身伤害不适用正在对他人实施伤害
3.5计划中的人身伤害不适用计划对他人实施伤害
3.6无伤害倾向不适用不适用

对话标签

标记含义
question是否为追问,追问可促使咨询者更多倾诉
knowledge是否包含知识,包含知识内容有助于开导咨询者
negative负面回复,对咨询者产生负面影响

使用帮助

使用过程中如遇安装下载等问题,请通过工单与我们联系,我们将在两个工作日内回复:

https://github.com/chatopera/docs/issues

为什么以及如何发布这个语料库

该数据集由斯坦福大学、加州大学洛杉矶分校、台湾辅仁大学临床心理学等心理学专业人士与Chatopera合作完成,并有约十位志愿者参与建设。

<p align="center"> <b>AI心理陪伴语料标注培训,人工智能助力心理咨询 | Chatopera</b><br> <a href="https://www.bilibili.com/video/BV1nr4y1p7XF/" target="_blank"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/2046bff0-ae74-42e2-a2e3-161caeab5ffc.png" width="900"> </a> </p>

其他播放地址:YouTube

标注贡献者

出于对数据质量的严格要求,我们认真对待招募过程。本语料相当一部分是由网络招募的志愿者完成的,其中不乏心理学专业人士或对心理学有浓厚兴趣的爱心人士。加入的志愿者也非常积极,不辞辛苦,愿意为人工智能技术应用于心理咨询行业日夜工作,最终形成了这个数据集!

志愿者成员分布在中国大陆、法国、美国和加拿大,标注工作占用了大家很多闲暇时间和休息时间,对此我们表示特别的敬意!

以下为标注语料的志愿者:

名字邮箱
陈怡, Christy ChanN/A

【注】这不是全部志愿者,以上为经过同意后公开的信息。

声明

无论出于何种目的,使用本数据集必须遵守以下声明和许可证,否则本公司将追究法律责任。

声明 1

本数据集使用在线心理咨询数据清洗、脱敏和标注制作,数据及代码发布使用春松许可证,v1.0。数据仅限于研究用途,如果在发布的任何媒体、期刊、杂志或博客等内容时,必须注明引用和地址。未经授权不得用于商业用途,否则将追究版权。

@online{efaqa-corpus-zh:petpsychology,
  author = {Hai Liang Wang, Zhi Zhi Wu, Jia Yuan Lang},
  title = {派特心理:心理咨询问答语料库},
  year = 2020,
  url = {https://github.com/chatopera/efaqa-corpus-zh},
  urldate = {2020-04-22}
}

声明 2

语料库为主观标注,鉴于心理咨询的严肃性和重要性,语料制作时尽可能保证数据的准确性,但无法保证100%准确。对于因数据内容不当产生的后果,本团队不承担任何法律责任。

Emotional First Aid Dataset, Chatopera Inc., https://github.com/chatopera/efaqa-corpus-zh, 2020年4月22日

商务合作

寻求心理咨询语料、聊天机器人方面的商务合作,敬请垂询 [info@chatopera.com](https://github.com/chatopera/efaqa-corpus-zh/blob/master/mailto:info@chatopera.com?subject=%E3%80%90%E5%BF%83%E7%90%86%E5%92%A8%E8%AF%A2%E3%80%91%E5%95%86%E5%8A%A1%E6%B4%BD%E8%B0%88&body=%E6%82%A8%E5%A5%BD%EF%BC%8C%E6%88%91%E6%98%AF%20XXX%0D%0A%0D%0A%E6%88%91%E9%9C%80%E8%A6%81%3A%0D%0A*%20%E5%BF%83%E7%90%86%E5%92%A8%E8%AF%A2%E8%AF%AD%E6%96%99%0D%0A*%20%E5%BF%83%E7%90%86%E5%92%A8%E8%AF%A2%E8%81%8A%E5%A4%A9%E6%9C%BA%E5%99%A8%E4%BA%BA。

许可协议

用户使用许可协议:[Emotional First Aid Dataset License, 春松许可证,v1.0](https://github.com/chatopera/efaqa-corpus-zh/blob/master/./LICENSE

chatoper banner

编辑推荐精选

问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

下拉加载更多