PsyQA|心理健康数据集|问答数据集数据集

arXiv2021-06-03 更新2024-08-06 收录

心理健康

问答数据集

下载链接：

http://arxiv.org/abs/2106.01702v1

下载链接

链接失效反馈

资源简介：

PsyQA是一个高质量的中文心理健康支持数据集，以问答对的形式存在。该数据集由清华大学收集，包含丰富的精神健康主题，涵盖情绪、关系等多个类别。数据集中的答案通常较长，由经验丰富的志愿者或专业咨询师提供，部分答案还额外标注了基于心理咨询理论的典型支持策略。PsyQA旨在解决心理健康领域中由于缺乏相关语料库而受到限制的问题，特别是在中文语言环境下。

提供机构：

清华大学

创建时间：

2021-06-03

AI搜集汇总

数据集介绍

构建方式

PsyQA数据集的构建方式是通过从中国心理健康服务平台Yixinli上抓取问答对。该平台拥有约2200万用户和600多名专业咨询师。在Yixinli的问答栏目中，匿名用户发布关于日常生活中的担忧的问题，经过培训的志愿者或专业咨询师以组织良好的长文本形式提供详细的分析和指导。数据集包含22K个问题和56K个长且结构良好的答案。为了便于未来的研究，一部分答案文本还根据心理咨询服务理论标注了典型支持策略。

特点

PsyQA数据集的特点包括：1. 语料库涵盖了丰富的心理健康话题，包括情绪、关系等9个类别。2. PsyQA中的答案大多由经验丰富的志愿者或专业咨询师提供。3. 我们为部分答案提供了支持策略标注，这可以大大促进未来对我们语料库的研究。

使用方法

PsyQA数据集的使用方法包括：1. 数据集可用于研究和开发能够提供心理健康支持的AI服务。2. 数据集可用于文本挖掘技术，以检测同理心、语言发展、自我伤害的念头和行为。3. 数据集可用于评估现有模型生成心理健康问题咨询答案的性能。

背景与挑战

背景概述

PsyQA数据集是由清华大学的研究人员创建的，旨在为心理健康支持服务提供中文数据。该数据集于2021年6月发布，包含来自中国心理健康服务平台Yixinli的22K个问题和56K个详细回答。PsyQA数据集的创建是为了解决中文心理健康支持领域中数据集的缺乏问题，这对于开发能够提供心理健康支持的人工智能服务至关重要。该数据集的主要研究人员包括Hao Sun、Zhenru Lin、Chujie Zheng、Siyang Liu和Minlie Huang，他们来自清华大学的多个研究机构和实验室。PsyQA数据集对相关领域的影响力体现在其为中国心理健康支持领域提供了宝贵的数据资源，有助于推动该领域的研究和发展。

当前挑战

PsyQA数据集面临的主要挑战包括：1)如何有效地利用支持策略来生成流畅、有帮助的咨询回答；2)如何识别和利用文本中的策略模式来提高回答的质量和相关性；3)如何在回答生成过程中避免伦理风险，确保回答的安全性和专业性。此外，构建过程中也遇到了一些挑战，如如何从大量数据中筛选出高质量的数据，如何对数据进行清洗和标注等。

常用场景

经典使用场景

PsyQA数据集的经典使用场景在于生成针对心理健康支持的长期咨询文本。该数据集由来自中国心理健康服务平台的问答对组成，包含22K个问题和56K个长而结构良好的答案。PsyQA数据集基于心理咨询服务理论，对一部分答案文本进行了典型支持策略的标注，并对咨询答案中的词汇特征和策略模式进行了深入分析。此外，还评估了生成咨询答案的生成预训练模型的表现。结果表明，利用策略可以增强生成答案的流畅性和有用性，但仍有许多研究空间。

解决学术问题

PsyQA数据集解决了心理健康领域缺乏相关语料库的问题，特别是中文语言。通过收集和分析大量的心理健康问答对，PsyQA数据集为研究人员提供了一个宝贵的数据资源，以研究和开发能够提供心理健康支持的人工智能服务。此外，PsyQA数据集还标注了部分答案文本，以支持策略为基础，为未来的研究提供了便利。PsyQA数据集的发布和研究成果对于推动心理健康领域的研究具有重要意义，有助于开发更有效、更具人性化的心理健康支持系统。

衍生相关工作

PsyQA数据集的发布和研究成果衍生了多项相关经典工作。其中包括基于PsyQA数据集的策略识别模型和答案生成模型的研究。策略识别模型旨在识别和分类答案中的支持策略，而答案生成模型则旨在生成针对心理健康问题的长期咨询文本。这些研究成果为心理健康领域的研究提供了新的思路和方法，有助于推动心理健康支持技术的发展。此外，PsyQA数据集还可以作为其他相关研究的基准数据集，为后续研究提供参考和比较。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录