心理咨询问答语料库（Emotional First Aid Dataset）

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/chatopera/efaqa-corpus-zh

下载链接

链接失效反馈

官方服务：

资源简介：

心理咨询问答语料库是为应用人工智能技术于心理咨询领域制作的语料。这是心理咨询领域首个开放的QA语料库，包括20,000条心理咨询数据，是迄今公开的最大的中文心理咨询对话语料。数据集内容丰富，具备多轮对话内容，也有分类等信息，标注过程耗时较长。

The Psychological Counseling Q&A Corpus is a dataset created for applying artificial intelligence technologies in the field of psychological counseling. It is the first open QA corpus in the psychological counseling domain, comprising 20,000 entries of psychological counseling data, making it the largest publicly available Chinese psychological counseling dialogue corpus to date. The dataset is rich in content, featuring multi-turn dialogues and classifications, among other information, and the annotation process was time-consuming.

创建时间：

2020-04-22

原始信息汇总

心理咨询相关语料库概述

数据集名称与描述

心理咨询问答语料库（Emotional First Aid Dataset）
- 地址：GitHub, Gitee
- 描述：人工标注的多轮对话，用于心理咨询领域的人工智能技术应用。
心理咨询问答原始语料库（Emotional First Aid Raw Dataset）
- 地址：GitHub, Gitee
- 描述：爬取后未标注的原始语料，用于进一步的数据处理和分析。

数据集特点

规模：包含20,000条心理咨询数据，是迄今公开的最大的中文心理咨询对话语料。
内容：数据集内容丰富，包括多轮对话内容和分类等信息。
标注：标注过程面向多轮对话，平均每条标记耗时超过1分钟。

数据集使用

安装与下载：
- 依赖：Python 2.x, 3.x, Pip
- 安装命令：
  - Linux/macOS: export EFAQA_DL_LICENSE=YOUR_LICENSE; pip install -U efaqa-corpus-zh; python -c "import efaqa_corpus_zh"
  - Windows: set EFAQA_DL_LICENSE=YOUR_LICENSE; pip install -U efaqa-corpus-zh; python -c "import efaqa_corpus_zh"
- YOUR_LICENSE需从证书商店购买。

数据格式

数据结构：每条数据包括md5（唯一标识）、title（标题）、description（描述）、owner（咨询者，脱敏后）、label（话题标签）、chats（聊天数据）等字段。
聊天数据：包括sender（发布者）、type（消息类型）、time（发布时间）、value（消息文本内容）、label（聊天标签）等。

标签定义

话题标签：基于咨询问题的分类，包括S1（烦恼类型）、S2（心理疾病）、S3（SOS）。
聊天标签：包括question（是否是追问）、knowledge（是否带有知识）、negative（负面回复）。

在线数据平台

数据集已上线至Kaggle、Baidu AI Studio、天池实验室。

使用帮助

使用过程中如遇问题，可通过GitHub工单联系，两个工作日内反馈。

声明与许可

声明：数据集使用在线心理咨询数据清洗、脱敏和标注制作，仅限研究用途，需遵守春松许可证，v1.0。
引用格式：

@online{efaqa-corpus-zh:petpsychology, author = {Hai Liang Wang, Zhi Zhi Wu, Jia Yuan Lang}, title = {派特心理：心理咨询问答语料库}, year = 2020, url = {https://github.com/chatopera/efaqa-corpus-zh}, urldate = {2020-04-22} }

搜集汇总

数据集介绍

构建方式

心理咨询问答语料库（Emotional First Aid Dataset）的构建过程严谨而细致，涉及多轮对话的人工标注。该数据集由斯坦福大学、UCLA、台湾辅仁大学临床心理学等心理学专业人士与Chatopera合作完成，并招募了十位左右的志愿者参与。标注过程面向多轮对话，平均每条标记耗时超过1分钟，确保了数据的高质量。

特点

该数据集具有显著的特点，包括其规模大、内容丰富和标注精细。作为迄今公开的最大的中文心理咨询对话语料，它包含了20,000条心理咨询数据，不仅涵盖多轮对话内容，还包含分类等信息。此外，数据集的标签系统设计科学，包括烦恼类型、心理疾病和紧急情况三个维度，确保了数据的全面性和实用性。

使用方法

使用该数据集需遵循特定的安装和下载流程。首先，用户需从证书商店购买证书，并设置相应的环境变量。随后，通过Python脚本包进行安装和数据下载。数据集的加载和使用可通过Python接口实现，初次执行加载接口时会自动下载数据。数据格式清晰，每条记录包含唯一标识、标题、描述、咨询者信息、话题标签和聊天数据等字段，便于进一步分析和应用。

背景与挑战

背景概述

心理咨询问答语料库（Emotional First Aid Dataset）是由斯坦福大学、UCLA、台湾辅仁大学临床心理学等心理学专业人士与Chatopera合作完成的一项开创性研究。该数据集创建于2020年，旨在通过应用人工智能技术于心理咨询领域，提供一个开放的QA语料库。该数据集包含20,000条心理咨询数据，是迄今为止公开的最大中文心理咨询对话语料。其核心研究问题在于如何通过多轮对话和分类信息，有效支持心理咨询领域的研究和应用，对心理健康领域的技术进步具有重要推动作用。

当前挑战

心理咨询问答语料库在构建过程中面临多项挑战。首先，数据标注过程复杂，每条数据的平均标注时间超过1分钟，确保了数据的高质量但同时也增加了工作量。其次，心理咨询领域的特殊性要求数据必须经过严格的脱敏处理，以保护咨询者的隐私。此外，数据集的分类标签设计需考虑到心理问题的多维度特性，如烦恼类型、心理疾病和紧急情况，这增加了标签系统的复杂性和准确性要求。最后，数据集的使用需遵守严格的许可证和声明，以确保其仅用于研究目的，避免任何可能的法律风险。

常用场景

经典使用场景

心理咨询问答语料库（Emotional First Aid Dataset）在人工智能与心理咨询的交叉领域中，被广泛用于开发和训练心理咨询机器人。该数据集通过模拟真实的心理咨询对话，帮助研究人员和开发者构建能够理解和回应用户心理需求的智能系统。其多轮对话的特性使得模型能够更好地捕捉对话的上下文，从而提供更为连贯和有效的咨询服务。

实际应用

在实际应用中，心理咨询问答语料库被用于开发在线心理咨询平台和智能客服系统。这些系统能够通过自然语言处理技术，自动识别用户的心理状态和需求，提供即时的心理支持和建议。特别是在疫情期间，这类系统为大量需要心理援助的人群提供了便捷和隐私保护的服务，显著提升了心理咨询的可及性和效率。

衍生相关工作

基于心理咨询问答语料库，许多相关研究和工作得以展开。例如，有研究者利用该数据集训练深度学习模型，以提高心理咨询机器人的对话质量和用户满意度。此外，还有学者通过分析数据集中的对话模式，提出了新的心理咨询理论和方法。这些衍生工作不仅推动了人工智能技术在心理咨询领域的应用，也为心理学的理论研究提供了新的视角和工具。

以上内容由遇见数据集搜集并总结生成