PsyQA

arXiv2025-09-30 收录

下载链接：

https://github.com/thu-coai/psyqa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为PsyQA，专门用于微调盘古模型，它侧重于“问题：”和“答案：”这一模式，以便在心理咨询的背景下生成回应。此外，该数据集还用于训练模型，使其能够针对心理健康相关的问题生成连贯且相关的答案。该任务的目的是在心理咨询中进行问答。

The dataset is named PsyQA, which is specifically developed for fine-tuning the Pangu Model. It centers on the "Question:" and "Answer:" template to generate responses in the domain of psychological counseling. Additionally, this dataset is employed to train models to produce coherent and relevant answers to mental health-related questions. The core objective of this task is to conduct question answering within the context of psychological counseling.

搜集汇总

数据集介绍

构建方式

在心理健康支持领域，高质量的中文语料库长期匮乏，这制约了相关人工智能服务的发展。PsyQA数据集应运而生，其构建源于对中国心理健康服务平台“壹心理”问答板块的深度爬取。数据采集后，研究团队实施了严格的清洗流程，包括移除个人身份信息、冗余符号、广告链接等，并仅保留长度超过100字的回答以确保文本质量。尤为关键的是，基于心理援助理论（Hill's Helping Skills System），团队对部分回答进行了细粒度的策略标注，由专业心理学工作者识别并标记出信息提供、直接指导、情感认可等六类支持策略，从而构建出一个结构化的、具备专业深度的问答语料库。

使用方法

PsyQA数据集为心理健康的自然语言处理研究提供了多维度应用路径。其最直接的应用是作为心理支持文本生成的训练与评估基准，研究者可利用问题、描述及关键词三元组作为输入，训练模型生成结构化的长文本回答。此外，数据集中精细的策略标注层，可用于训练句子级别的支持策略识别模型，或作为条件信号引导生成过程，以提升输出文本的专业性与条理性。研究者亦可深入分析策略序列的转移模式，探索心理援助对话的内在叙事逻辑，从而开发出更符合心理咨询范式的智能对话系统。

背景与挑战

背景概述

在数字化浪潮席卷全球的当下，心理健康问题日益成为人类社会面临的重大挑战，在线心理支持服务因其匿名性与便捷性而蓬勃发展。然而，构建能够提供专业心理援助的人工智能系统面临语料匮乏的困境，尤其在中文领域。为此，清华大学CoAI课题组联合多个研究机构于2021年构建了PsyQA数据集，该数据集源自国内知名心理服务平台壹心理，包含逾2.2万个提问与5.6万条由资深志愿者或专业咨询师撰写的长篇幅回复。PsyQA的核心研究问题在于探索如何利用心理援助策略生成结构化、具有专业性的咨询文本，其提出的策略标注体系为理解心理咨询语言行为提供了重要基准。该数据集在心理健康自然语言处理领域产生了深远影响，填补了中文高质量心理咨询语料的空白，推动了情感支持对话系统的研究进程。

当前挑战

PsyQA所应对的首要挑战在于领域问题的复杂性：生成符合心理咨询规范的长文本回复不仅需要语言流畅性与逻辑连贯性，更要求回复具备专业帮助性，能够精准识别求助者的情绪状态、认知偏差并给予恰当引导，这远超出一般文本生成任务的能力范畴。在数据集构建过程中，研究者面临多重困难：首先，原始平台数据包含大量非心理咨询类内容及隐私信息，需经过严密过滤与脱敏处理；其次，基于希尔的助人技能体系进行策略标注时，标注者需具备心理学专业知识，且不同策略在文本中的分布极不均衡，如信息提供与自我表露策略出现频率较低，增加了模型学习的难度；此外，生成模型在伦理风险控制方面表现脆弱，不当建议可能对用户造成二次伤害，这要求系统具备高度的鲁棒性与安全性。

常用场景

经典使用场景

PsyQA作为首个大规模中文心理健康支持问答数据集，在自然语言处理与临床心理学的交叉领域开辟了崭新的研究范式。该数据集收录了逾两万条求助者提出的心理困扰及其对应的专业回应，每条回答平均长度超过五百字，呈现出结构完整、策略丰富的咨询文本特征。研究者可借助此数据集训练模型生成富有同理心的长文本回复，模拟心理咨询师在倾听、共情、分析与引导等多阶段中的语言行为。数据集内嵌基于希尔助人技能体系标注的六类支持策略（如重述、解释、直接指导等），为生成式对话系统提供了可解释的行为框架。其典型应用场景涵盖策略识别与文本生成两大任务，前者可精准定位咨询文本中的策略边界，后者则能依据策略序列生成逻辑连贯、层次分明的心理支持回复。

解决学术问题

PsyQA的构建有效填补了中文心理健康领域缺乏高质量标注语料的学术空白。此前，多数相关研究依赖英文社交媒体数据或简短、非专业的对话记录，难以支撑对长文本咨询行为及策略模式的系统探究。该数据集通过引入策略级标注，首次在中文语境下揭示了心理咨询文本中策略使用的词汇特征与序列模式——例如重述策略多出现在回答开端，直接指导则集中于结尾，而解释与信息策略分布于中间阶段。这一发现为理解专业咨询的语言结构提供了量化依据。基于PsyQA的研究还证实，显式引入策略信息可显著提升生成文本的流畅度、连贯性与帮助性，同时降低伦理风险。该工作推动了从简单的情绪检测向可解释、可控制的智能心理支持系统演进，为构建安全、有效的AI心理咨询助手奠定了方法论基础。

实际应用

在实际应用中，PsyQA驱动的技术正逐步渗透至在线心理健康服务平台，助力提升咨询效率与服务质量。基于该数据集训练的模型可辅助志愿者或初级咨询师生成结构化的回复草稿，通过自动推荐合适的支持策略（如先以重述确认问题，再以解释分析根源，最后以直接指导提供行动建议），降低新手咨询者的表达负担。部分平台已尝试将策略识别模块嵌入实时对话系统，在咨询过程中自动标注当前使用的策略类型，帮助督导者快速评估咨询质量。此外，该数据集还可用于开发面向公众的心理自助工具，用户输入个人困扰后，系统能生成兼具专业性与共情力的分析文本，提供情绪调节、认知重构等实用建议。在高校心理健康教育中，基于PsyQA的对话代理已初步用于模拟咨询训练，为学生提供安全的实践环境。

数据集最近研究