OpenR1-Psy

Hugging Face2025-11-04 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/GMLHUHE/OpenR1-Psy

下载链接

链接失效反馈

官方服务：

资源简介：

PsyLLM数据集是一个大规模的心理咨询数据集，包含19,302个多轮心理咨询对话，融合了诊断推理和治疗方法推理。它依据DSM/ICD诊断标准，涵盖了CBT、ACT、精神分析和人本主义等多种心理治疗框架，并经过严格的质量控制。

The PsyLLM Dataset is a large-scale psychological counseling dataset containing 19,302 multi-turn psychological counseling dialogues that integrate diagnostic reasoning and therapeutic reasoning. Developed in accordance with DSM/ICD diagnostic criteria, it covers multiple psychological therapeutic frameworks including CBT, ACT, psychoanalysis, and humanistic psychology, and has undergone strict quality control.

创建时间：

2025-10-21

原始信息汇总

OpenR1-Psy 数据集概述

基本信息

数据集名称: PsyLLM 数据集
许可证: mit
语言: 中文
数据格式: json
规模类别: 1K<n<10K
任务类别: 文本生成

数据集描述

OpenR1-Psy是一个大规模心理咨询数据集，整合了诊断推理和治疗推理，用于训练和评估心理健康对话生成的大语言模型。该数据集超越了以共情为中心的语料库，整合了基于DSM/ICD诊断标准和多种心理治疗框架的显式推理轨迹。

核心特征

数据规模: 19,302个多轮心理咨询对话
推理-回复对: 包含诊断和治疗推理轨迹的联合推理-回复对
临床基础: 与DSM/ICD标准对齐
治疗多样性: CBT、ACT、心理动力学、人本主义和整合方法
质量控制: 多维验证确保连贯性、推理完整性和框架一致性

主要用途

微调LLMs用于心理健康咨询或心理对话推理
评估模型的临床推理、共情和安全性
构建可解释和基于证据的AI咨询师

引用信息

论文: arXiv:2505.15715

bibtex @article{hu2025beyond, title={Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling}, author={Hu, He and Zhou, Yucheng and Si, Juzheng and Wang, Qianning and Zhang, Hengheng and Ren, Fuji and Ma, Fei and Cui, Laizhong}, journal={arXiv preprint arXiv:2505.15715}, year={2025} }

使用许可

仅限于研究和教育用途，需确保符合心理健康AI研究的伦理和法律标准。

搜集汇总

数据集介绍

构建方式

在心理健康人工智能研究领域，OpenR1-Psy数据集通过系统整合专业临床知识构建而成。该数据集收录了19,302组多轮心理咨询对话，每段对话均配备诊断与治疗双重推理轨迹。构建过程中严格遵循DSM/ICD临床诊断标准，并融合认知行为疗法、接纳承诺疗法、心理动力学及人本主义疗法等多元治疗框架，所有内容经过多维度的质量验证以确保推理完整性和框架一致性。

特点

作为心理健康对话生成领域的重要资源，该数据集展现出独特的专业特性。其核心价值在于同时包含诊断推理与治疗推理的联合标注，建立了与临床标准的深度关联。数据集覆盖多种主流心理治疗流派的方法论，通过严格的质量控制机制保障了对话内容的连贯性与专业性，为构建可解释的AI心理咨询系统提供了坚实基础。

使用方法

在人工智能辅助心理健康研究实践中，该数据集主要服务于专业模型的训练与评估。研究人员可基于其丰富的对话样本和推理轨迹微调大语言模型，重点提升模型在临床推理、共情回应及安全边界等方面的能力。通过系统利用数据集中的诊断治疗框架，能够推动证据导向的可解释AI咨询系统开发，但需始终遵循研究伦理规范。

背景与挑战

背景概述

随着人工智能在心理健康领域的深入应用，传统对话数据集往往局限于情感共情层面，缺乏临床诊断与治疗推理的深度整合。OpenR1-Psy数据集于2025年由跨学科研究团队发布，其核心目标在于构建融合诊断推理与治疗推理的大规模心理对话语料。该数据集以DSM/ICD临床标准为理论基础，整合认知行为疗法、接纳承诺疗法等多流派治疗框架，旨在推动具备临床可解释性的心理健康对话模型发展，为AI辅助心理咨询提供标准化评估基准。

当前挑战

心理健康对话生成需克服临床标准对齐与多模态推理融合的双重挑战：一方面需确保模型输出严格遵循DSM/ICD诊断规范，避免非专业建议带来的伦理风险；另一方面要协调不同治疗流派的理论冲突，保持推理路径的逻辑一致性。在数据构建过程中，专业标注团队需同步完成症状归纳、诊断推导与治疗规划的三级标注，这种多维度标注体系对标注者的心理学专业知识提出极高要求，同时需要设计复杂质量控制机制来验证推理链条的临床合理性。

常用场景

经典使用场景

在心理健康人工智能研究领域，OpenR1-Psy数据集被广泛用于训练和评估大型语言模型在心理对话生成中的表现。该数据集通过融合诊断推理与治疗推理的双重机制，为模型提供了从临床评估到干预策略的完整认知框架。研究者常利用其多轮对话结构和专业标注体系，开发能够模拟专业心理咨询师决策过程的智能系统，显著提升了人工智能在心理援助场景中的专业性与可信度。

衍生相关工作

该数据集催生了多个具有影响力的衍生研究，其中最具代表性的是PsyLLM系列模型。这些工作通过引入分层推理机制和多元治疗框架适配技术，显著提升了模型在复杂心理场景下的应对能力。后续研究进一步拓展了跨文化心理适配、多模态情绪识别等方向，形成了以临床推理为核心的心理健康人工智能研究范式。

数据集最近研究