PsyQA

github2021-06-01 更新2025-02-08 收录

下载链接：

https://github.com/thu-coai/PsyQA

下载链接

链接失效反馈

资源简介：

PsyQA数据集是一个以问答形式呈现的中文心理健康数据集。它源自一个提供心理健康服务的中文平台，包含2.2万个问题和5.6万个答案。该数据集基于心理咨询理论构建问答内容，旨在评估模型生成与心理咨询相关的文本的能力。这一评估的目标是提高生成答案的流畅性和实用性。

The PsyQA dataset is a Chinese mental health dataset presented in the form of questions and answers. Originating from a Chinese platform that offers mental health services, it contains 22,000 questions and 56,000 answers. The dataset is constructed based on psychotherapy theories to evaluate the model's ability to generate text related to psychological counseling. The objective of this evaluation is to enhance the fluency and practicality of generated responses.

提供机构：

The CoAI group et al.

创建时间：

2021-06-01

原始信息汇总

PsyQA数据集概述

数据集简介

中文心理健康支持问答数据集
提供丰富的援助策略标注
可用于生成富有援助策略的长咨询文本

数据集获取

提供少量样例数据（PsyQA_example.json）
完整数据集获取流程：
1. 下载【PsyQA数据集使用用户协议】
2. 阅读并同意相关规定
3. 填写用户信息、授权时间
4. 电子签名
5. 将签署的协议（pdf格式）发送至邮箱：thu-sunhao@foxmail.com
6. 审核通过后邮件发送完整数据集下载链接

引用格式

bibtex @inproceedings{sun-etal-2021-psyqa, title = "PsyQA: A Chinese Dataset for Generating Long Counseling Text for Mental Health Support", author = "Sun, Hao and Lin, Zhenru and Zheng, Chujie and Liu, Siyang and Huang, Minlie", booktitle = "Findings of the Association for Computational Linguistics: ACL 2021", year = "2021", }

联系方式

联系人：孙豪
邮箱：thu-sunhao@foxmail.com

搜集汇总

数据集介绍

构建方式

PsyQA数据集的构建基于中文心理健康支持问答的实际需求，通过收集和标注大量心理咨询对话，形成了一套系统化的援助策略标注体系。该数据集不仅包含了丰富的问答对，还特别注重援助策略的多样性和实用性，旨在为生成高质量的长咨询文本提供坚实的基础。构建过程中，研究人员严格遵循数据隐私和伦理规范，确保所有数据来源合法且符合道德标准。

特点

PsyQA数据集的特点在于其专注于中文心理健康支持领域，提供了多样化的援助策略标注，涵盖了从情感支持到具体行动建议的广泛内容。数据集中的问答对不仅内容丰富，而且结构清晰，能够有效支持生成连贯且富有策略性的长咨询文本。此外，数据集的标注质量高，确保了其在心理健康支持研究中的实用性和可靠性。

使用方法

PsyQA数据集的使用方法相对灵活，用户可以通过下载并签署用户协议获取完整数据集。数据集适用于多种自然语言处理任务，如文本生成、问答系统构建等。用户可以参考提供的训练和评测代码，快速上手并进行相关研究。在使用过程中，建议用户遵循数据集的引用规范，确保研究成果的透明性和可追溯性。

背景与挑战

背景概述

PsyQA数据集由清华大学的研究团队于2021年创建，旨在解决中文心理健康支持领域中的问答生成问题。该数据集由孙豪、林振儒、郑楚杰、刘思阳和黄民烈等研究人员共同开发，并在ACL 2021的Findings中发表。PsyQA提供了丰富的援助策略标注，能够用于生成具有援助策略的长咨询文本，为心理健康支持系统的开发提供了重要的数据基础。该数据集的发布不仅推动了中文自然语言处理领域的发展，还为心理健康领域的智能化支持系统提供了新的研究方向。

当前挑战

PsyQA数据集在解决心理健康支持问答生成问题时面临多重挑战。首先，心理健康领域的问答生成需要高度的情感理解和策略性回应，这对模型的语义理解和生成能力提出了极高的要求。其次，数据集的构建过程中，研究人员需要确保援助策略的多样性和准确性，这涉及到大量的专业知识和人工标注工作。此外，心理健康数据的敏感性也带来了隐私保护和数据安全的挑战，如何在保证数据质量的同时遵守相关法律法规，是数据集构建过程中不可忽视的问题。

常用场景

经典使用场景

PsyQA数据集在心理健康支持领域的研究中，主要用于生成具有援助策略的长咨询文本。研究者可以利用该数据集训练和评估自然语言生成模型，以模拟心理咨询师与求助者之间的对话，从而提供有效的心理支持和建议。

解决学术问题

PsyQA数据集解决了心理健康支持领域中的关键问题，即如何生成具有实际援助价值的咨询文本。通过提供丰富的援助策略标注，该数据集为研究者提供了高质量的训练数据，推动了基于生成模型的心理健康支持系统的开发，提升了模型的实用性和效果。

衍生相关工作

基于PsyQA数据集，研究者们开发了多种自然语言生成模型，如基于GPT-2的生成模型，用于模拟心理咨询对话。这些模型在心理健康支持领域取得了显著进展，衍生出多项经典工作，进一步推动了心理健康支持系统的智能化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集