Psy-Insight

Name: Psy-Insight
Creator: 北京邮电大学
Published: 2025-03-05 23:44:21
License: 暂无描述

arXiv2025-03-05 更新2025-03-07 收录

下载链接：

https://ckqqqq.github.io/Demo/Psy-Insight/

下载链接

链接失效反馈

官方服务：

资源简介：

Psy-Insight是一个面向心理健康的可解释多轮双语对话数据集。该数据集由北京邮电大学的研究团队构建，包含520个英文多轮咨询对话和431个中文对话。数据集标注了多任务标签和对话过程解释，适用于情感/心理治疗/策略分类、检索论证生成等NLP任务。数据集的构建目的是为了训练大型语言模型，使其能够模仿面对面的咨询风格，理解咨询背后的策略和推理过程。

Psy-Insight is an interpretable multi-turn bilingual dialogue dataset dedicated to mental health. Developed by the research team at Beijing University of Posts and Telecommunications, it comprises 520 English multi-turn counseling dialogues and 431 Chinese multi-turn counseling dialogues. The dataset is annotated with multi-task labels and explanations of the dialogue process, and is applicable to NLP tasks including emotion classification, psychotherapy-related analysis, strategy classification, as well as retrieval-based argument generation. The core purpose of constructing this dataset is to train large language models to emulate face-to-face counseling styles and comprehend the underlying strategies and reasoning processes behind counseling conversations.

提供机构：

北京邮电大学

创建时间：

2025-03-05

搜集汇总

数据集介绍

构建方式

Psy-Insight数据集的构建始于从博客、书籍和网络爬取的面对面多轮咨询对话的收集。这些对话被标注为多任务标签和对话过程解释，包括心理治疗、情绪、策略和主题标签，以及回合级的推理和会话级的指导。为了确保对话的质量和真实性，数据集中的敏感信息被匿名化处理。此外，通过与心理治疗专家的协作，数据集的标注过程得到了严格的审核和验证，确保了标注的准确性和可靠性。

特点

Psy-Insight数据集的特点在于其多任务和多语言的支持。它包含了520个英文多轮咨询会话和431个中文会话，这些会话可以帮助大型语言模型（LLMs）模仿人类面对面的咨询风格。数据集的标注不仅包括简洁的多任务标签，如情绪、心理治疗方法、策略和主题，还包括描述性标注，如背景、指导、摘要和主题等，这些标注有助于LLMs理解咨询背后的分析和逻辑。Psy-Insight数据集的会话和标注是层次结构的，从案例到会话再到回合，这种结构有助于LLMs进行多任务学习和推理。

使用方法

使用Psy-Insight数据集的方法包括对大型语言模型进行微调和评估。微调过程可以通过将数据集中的标注信息（如对话、推理和观察）插入到LLMs的训练过程中来实现，从而引导模型首先生成客观观察，然后进行主观推理，最后产生响应。评估过程可以通过自动评估指标（如BertScore-P、BLEU、Meteor、RougeL和Distinct-2）和人工评估来完成。人工评估可以邀请心理健康专家和学生志愿者对LLMs生成的咨询对话进行评分，评估指标包括互动性、帮助性、舒适性和可解释性。通过这些方法，Psy-Insight数据集可以帮助研究人员和开发者训练出更加智能和人性化的心理健康支持LLMs。

背景与挑战

背景概述

Psy-Insight数据集是由北京邮电大学的研究团队创建的，旨在为大型语言模型（LLMs）在心理健康支持领域的应用提供数据支持。该数据集于2023年创建，由陈可奇、孙泽凯等主要研究人员共同完成。Psy-Insight数据集的核心研究问题是构建一个解释性的多任务双语数据集，以解决当前心理健康支持领域中数据集缺乏的问题，特别是中文数据集的缺失。Psy-Insight数据集的创建填补了这一空白，为LLMs在心理健康支持领域的应用提供了重要的数据资源，对相关领域产生了深远的影响。

当前挑战

Psy-Insight数据集面临的挑战主要包括：1) 所解决的领域问题：构建一个解释性的多任务双语数据集，以满足心理健康支持领域中LLMs的训练需求。2) 构建过程中所遇到的挑战：数据集的构建需要收集面对面的多轮咨询对话，并对其进行多任务标签和对话过程解释的标注。此外，数据集的构建还需要考虑隐私保护和伦理风险的问题。

常用场景

经典使用场景

Psy-Insight数据集主要用于训练大型语言模型（LLMs）以模拟人类心理健康咨询对话。该数据集包含面对面多轮咨询对话，并带有多任务标签和对话过程解释。这些对话被标注了心理治疗、情绪、策略和主题标签，以及轮次级别的推理和会话级别的指导。Psy-Insight数据集不仅适用于标签识别任务，还可以通过逻辑推理训练LLMs成为富有同情心的顾问。实验表明，在Psy-Insight上训练LLMs可以使模型不仅模仿对话风格，还能理解咨询背后的策略和推理。

解决学术问题

Psy-Insight数据集解决了在心理健康支持领域缺乏咨询数据集的问题，尤其是缺乏中文语料库。传统的心理健康支持数据集通常只包含简短的标签，用于单个任务的标注，例如情绪或实体标签，这些标签适用于传统流水线聊天机器人中的子任务，如情绪分类、命名实体识别和知识图谱补全。Psy-Insight数据集通过包含详细的推理注释，为LLMs提供了理解人类心理健康咨询复杂过程的机会，从而提高了LLMs在心理健康支持任务中的性能。

衍生相关工作

Psy-Insight数据集的衍生相关工作包括对心理健康支持LLMs的进一步研究和开发。这些研究可以基于Psy-Insight数据集，探索LLMs在心理健康支持任务中的更多潜力，例如情感聊天、心理治疗、策略编码等。此外，Psy-Insight数据集还可以用于跨文化心理学研究，因为该数据集是双语的，包含英语和中文的咨询对话，可以揭示不同文化背景下心理健康咨询的异同。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集