PsyQA
收藏arXiv2021-06-03 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2106.01702v1
下载链接
链接失效反馈官方服务:
资源简介:
PsyQA是一个高质量的中文心理健康支持数据集,以问答对的形式存在。该数据集由清华大学收集,包含丰富的精神健康主题,涵盖情绪、关系等多个类别。数据集中的答案通常较长,由经验丰富的志愿者或专业咨询师提供,部分答案还额外标注了基于心理咨询理论的典型支持策略。PsyQA旨在解决心理健康领域中由于缺乏相关语料库而受到限制的问题,特别是在中文语言环境下。
PsyQA is a high-quality Chinese mental health support dataset structured as question-answer pairs. Collected by Tsinghua University, this dataset covers a rich range of mental health-related topics, spanning multiple categories such as emotions and interpersonal relationships. The answers in the dataset are typically lengthy, provided by either experienced volunteers or professional counselors, and some answers are further annotated with typical support strategies rooted in psychological counseling theories. PsyQA aims to address the constraints plaguing the mental health field due to the scarcity of relevant corpora, particularly in the Chinese language environment.
提供机构:
清华大学
创建时间:
2021-06-03
搜集汇总
数据集介绍

构建方式
PsyQA数据集的构建方式是通过从中国心理健康服务平台Yixinli上抓取问答对。该平台拥有约2200万用户和600多名专业咨询师。在Yixinli的问答栏目中,匿名用户发布关于日常生活中的担忧的问题,经过培训的志愿者或专业咨询师以组织良好的长文本形式提供详细的分析和指导。数据集包含22K个问题和56K个长且结构良好的答案。为了便于未来的研究,一部分答案文本还根据心理咨询服务理论标注了典型支持策略。
特点
PsyQA数据集的特点包括:1. 语料库涵盖了丰富的心理健康话题,包括情绪、关系等9个类别。2. PsyQA中的答案大多由经验丰富的志愿者或专业咨询师提供。3. 我们为部分答案提供了支持策略标注,这可以大大促进未来对我们语料库的研究。
使用方法
PsyQA数据集的使用方法包括:1. 数据集可用于研究和开发能够提供心理健康支持的AI服务。2. 数据集可用于文本挖掘技术,以检测同理心、语言发展、自我伤害的念头和行为。3. 数据集可用于评估现有模型生成心理健康问题咨询答案的性能。
背景与挑战
背景概述
PsyQA数据集是由清华大学的研究人员创建的,旨在为心理健康支持服务提供中文数据。该数据集于2021年6月发布,包含来自中国心理健康服务平台Yixinli的22K个问题和56K个详细回答。PsyQA数据集的创建是为了解决中文心理健康支持领域中数据集的缺乏问题,这对于开发能够提供心理健康支持的人工智能服务至关重要。该数据集的主要研究人员包括Hao Sun、Zhenru Lin、Chujie Zheng、Siyang Liu和Minlie Huang,他们来自清华大学的多个研究机构和实验室。PsyQA数据集对相关领域的影响力体现在其为中国心理健康支持领域提供了宝贵的数据资源,有助于推动该领域的研究和发展。
当前挑战
PsyQA数据集面临的主要挑战包括:1)如何有效地利用支持策略来生成流畅、有帮助的咨询回答;2)如何识别和利用文本中的策略模式来提高回答的质量和相关性;3)如何在回答生成过程中避免伦理风险,确保回答的安全性和专业性。此外,构建过程中也遇到了一些挑战,如如何从大量数据中筛选出高质量的数据,如何对数据进行清洗和标注等。
常用场景
经典使用场景
PsyQA数据集的经典使用场景在于生成针对心理健康支持的长期咨询文本。该数据集由来自中国心理健康服务平台的问答对组成,包含22K个问题和56K个长而结构良好的答案。PsyQA数据集基于心理咨询服务理论,对一部分答案文本进行了典型支持策略的标注,并对咨询答案中的词汇特征和策略模式进行了深入分析。此外,还评估了生成咨询答案的生成预训练模型的表现。结果表明,利用策略可以增强生成答案的流畅性和有用性,但仍有许多研究空间。
解决学术问题
PsyQA数据集解决了心理健康领域缺乏相关语料库的问题,特别是中文语言。通过收集和分析大量的心理健康问答对,PsyQA数据集为研究人员提供了一个宝贵的数据资源,以研究和开发能够提供心理健康支持的人工智能服务。此外,PsyQA数据集还标注了部分答案文本,以支持策略为基础,为未来的研究提供了便利。PsyQA数据集的发布和研究成果对于推动心理健康领域的研究具有重要意义,有助于开发更有效、更具人性化的心理健康支持系统。
衍生相关工作
PsyQA数据集的发布和研究成果衍生了多项相关经典工作。其中包括基于PsyQA数据集的策略识别模型和答案生成模型的研究。策略识别模型旨在识别和分类答案中的支持策略,而答案生成模型则旨在生成针对心理健康问题的长期咨询文本。这些研究成果为心理健康领域的研究提供了新的思路和方法,有助于推动心理健康支持技术的发展。此外,PsyQA数据集还可以作为其他相关研究的基准数据集,为后续研究提供参考和比较。
以上内容由遇见数据集搜集并总结生成



