心理咨询问答原始语料库（Emotional First Aid Raw Dataset）

github2024-01-13 更新2024-05-31 收录

下载链接：

https://github.com/chatopera/efaqa-corpus-raw

下载链接

链接失效反馈

官方服务：

资源简介：

心理咨询问答原始语料库是为应用人工智能技术于心理咨询领域制作的高品质语料，语料是爬取心理咨询、心理健康领域公开的网站的数据，经过整理和脱敏制作而成，消息总文本达四千四百多万字符。

The original corpus of psychological counseling Q&A is a high-quality dataset created for applying artificial intelligence (AI) technologies in the field of psychological counseling. The corpus was compiled by scraping data from publicly available websites in the domains of psychological counseling and mental health, followed by meticulous organization and anonymization. The total text volume of the messages amounts to over 44 million characters.

创建时间：

2024-01-13

原始信息汇总

心理咨询问答原始语料库概述

数据集描述

名称：心理咨询问答原始语料库（Emotional First Aid Raw Dataset）
目的：为应用人工智能技术于心理咨询领域制作的高品质语料。
内容：爬取心理咨询、心理健康领域公开网站的数据，经过整理和脱敏制作而成。
规模：消息总文本达四千四百多万字符。

数据格式

数据结构：每条数据包含title, date, owner, id, chats等字段。
详细字段：
- title：发布者发起的话题。
- date：发布者发布的时间。
- owner：发布者昵称。
- id：唯一标识 ID。
- chats：针对话题的交流，元素为 JSONArray，包含sender, name, time, value等子字段。

数据示例

json { "title": "女最近感觉好困好累，感觉好压抑...", "date": "2017-12-31 21:20:25", "owner": "匿名", "id": "5e6b9b94d037ed455ee9c9d7", "chats": [ { "sender": "audience", "value": "您好！", "time": "21:20:44", "name": "Audience5" }, ... ] }

语料库规模

话题数：172,316。
消息总数：2,381,273。
消息文本规模：44,514,786字符。
平均每个话题的评论数：12.8个。

使用声明

限制：本数据集不得再次销售或分享给除购买者以外的人、组织。
引用要求：使用时必须注明引用和地址。

引用格式

@online{EfaqaCorpusRaw:chatopera2024, author = {Hai Liang Wang}, title = {心理咨询问答原始语料库efaqa-corpus-raw}, year = 2024, url = {https://github.com/chatopera/efaqa-corpus-raw}, urldate = {2024-01-13} }

搜集汇总

数据集介绍

构建方式

心理咨询问答原始语料库（Emotional First Aid Raw Dataset）的构建基于对心理咨询、心理健康领域公开网站的数据爬取。通过从多个知名心理健康平台获取原始数据，经过整理和脱敏处理，确保了数据的隐私性和安全性。数据来源包括但不限于给心理、简心理、豆瓣讨论组等平台，部分网站已关闭数据访问，使得该语料库具有独特的价值。数据格式以JSON为主，每条记录包含话题标题、发布时间、发布者信息及多轮对话内容，对话按时间顺序排列，确保了数据的时序性和完整性。

特点

该数据集涵盖了172,316个话题，消息总数达2,381,273条，文本规模超过四千四百万字符，平均每个话题包含12.8条评论。数据经过脱敏处理，去除了原始URL和图片信息，重新生成了评论者名称，确保了数据的隐私性。每条记录以JSON格式存储，结构清晰，便于后续处理和分析。此外，该数据集作为心理咨询问答语料库（Emotional First Aid Dataset）的原始来源，为后续的人工标注和模型训练提供了坚实的基础。

使用方法

使用该数据集需通过Python包管理器pip安装efaqa-corpus-raw库，并配置从证书商店获取的许可证标识。安装完成后，可通过Python脚本加载数据集，遍历每条对话记录进行进一步分析。数据加载后，用户可根据需求提取话题标题、发布时间、发布者信息及多轮对话内容。该数据集适用于心理咨询领域的研究，如情感分析、对话生成等任务。使用过程中需遵守相关许可协议，不得将数据用于商业目的或未经授权的分享，引用时需注明数据来源。

背景与挑战

背景概述

心理咨询问答原始语料库（Emotional First Aid Raw Dataset）由Chatopera团队于2024年发布，旨在为心理咨询领域的人工智能应用提供高质量的数据支持。该数据集由Hai Liang Wang主导开发，主要基于公开的心理咨询和心理健康网站数据，经过爬取、整理和脱敏处理，最终形成了包含172,316个话题和2,381,273条消息的庞大语料库。该数据集的核心研究问题在于如何通过自然语言处理技术，提升心理咨询服务的智能化水平，帮助用户更好地应对心理困扰。其发布不仅为心理咨询领域的研究提供了宝贵的数据资源，也为人工智能技术在心理健康领域的应用开辟了新的方向。

当前挑战

心理咨询问答原始语料库在构建和应用过程中面临多重挑战。首先，心理咨询领域的数据具有高度的敏感性和隐私性，如何在数据爬取和脱敏过程中保护用户隐私，同时确保数据的可用性，是一个亟待解决的问题。其次，心理咨询对话通常涉及复杂的语义和情感表达，如何从原始语料中提取有效信息，并构建高质量的标注数据集，对自然语言处理技术提出了更高的要求。此外，部分原始数据来源网站已关闭开放访问，导致数据获取难度增加，进一步凸显了该数据集的稀缺性和研究价值。这些挑战不仅考验了数据集的构建技术，也为后续的研究和应用提出了更高的标准。

常用场景

经典使用场景

心理咨询问答原始语料库（Emotional First Aid Raw Dataset）广泛应用于自然语言处理领域，特别是在情感分析和对话系统开发中。研究者利用该数据集训练和测试模型，以提升机器对用户情感状态的理解和响应能力。通过分析大量的心理咨询对话，模型能够学习到如何更有效地进行情感支持和心理疏导。

衍生相关工作

基于心理咨询问答原始语料库，研究者开发了多种情感分析和对话系统模型。例如，一些研究利用该数据集训练深度学习模型，以提高情感识别的准确性和对话系统的响应质量。此外，该数据集还催生了一系列关于心理健康领域的人工智能应用研究，推动了该领域的快速发展。

数据集最近研究