ShenLab/MentalChat16K

Name: ShenLab/MentalChat16K
Creator: ShenLab
Published: 2025-07-14 23:27:21
License: 暂无描述

Hugging Face2025-07-14 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ShenLab/MentalChat16K

下载链接

链接失效反馈

官方服务：

资源简介：

合成咨询对话数据集包含9745个咨询者和客户之间的合成对话，涵盖33个心理健康话题，如关系、焦虑、抑郁、亲密和家庭冲突等。这些对话是使用OpenAI GPT-3.5 Turbo模型和一个定制的Airoboros自我生成框架生成的。此外，数据集还包括来自正在进行临床试验的378份访谈记录的6338个问题-答案对，这些访谈记录是基于行为干预会议的音频记录由人类专家转录的。

The Synthetic Counseling Conversations Dataset consists of 9,775 synthetic conversations between a counselor and a client, covering 33 mental health topics such as Relationships, Anxiety, Depression, Intimacy, and Family Conflict. These conversations were generated using the OpenAI GPT-3.5 Turbo model and a customized Airoboros self-generation framework. Additionally, the dataset includes 6,338 question-answer pairs from 378 interview transcripts collected from an ongoing clinical trial, transcribed by human experts based on audio recordings of behavioral intervention sessions.

提供机构：

ShenLab

原始信息汇总

🗣️ Synthetic Counseling Conversations Dataset

📝 描述

该数据集包含9,775个合成的心理咨询师与客户之间的对话，涵盖33个心理健康主题，如💑关系、😟焦虑、😔抑郁、🤗亲密关系和👨‍👩‍👧‍👦家庭冲突。对话使用OpenAI GPT-3.5 Turbo模型和定制的Airoboros自我生成框架生成。

Airoboros框架用于创建新的提示，提供生成患者查询的明确指令。这些查询随后被反馈到GPT-3.5 Turbo模型中，生成相应的响应。提示中指定了每个主题的比例，以确保合成对话真实地模拟人类心理咨询师与客户交互的复杂性和多样性。

该数据集旨在使语言模型接触广泛的心理状况和治疗策略，从而能够进行更真实和有效的心理咨询对话。🧠

📊 数据集特征

对话数量: 9,775 🗣️
涵盖主题: 💑关系、😟焦虑、😔抑郁、🤗亲密关系、👨‍👩‍👧‍👦家庭冲突及其他28个心理健康主题
语言: 英语 🇺🇸
生成方法: OpenAI GPT-3.5 Turbo模型与定制的Airoboros自我生成框架

🤖 数据集用途

该数据集可用于训练和评估用于心理咨询和心理健康应用的语言模型，如聊天机器人、虚拟助手和对话系统。它提供了一系列多样化和真实的对话场景，有助于提高模型对心理状况和治疗策略的理解。

🌍 数据集限制

该数据集完全是合成的，可能无法完全捕捉现实世界心理咨询对话的细微差别和复杂性。此外，数据集仅限于英语对话，可能不代表多样化的文化和语言背景。

📚 引用

如果您在研究中使用MentalChat16K，请按以下方式引用该数据集：

@dataset{MentalChat16K, author = {Jia Xu, Tianyi Wei, Bojian Hou, Patryk Orzechowski, Shu Yang, Ruochen Jin, Rachael Paulbeck, Joost Wagenaar, George Demiris, Li Shen}, title = {MentalChat16K: A Benchmark Dataset for Conversational Mental Health Assistance}, year = {2024}, url = {https://huggingface.co/datasets/ShenLab/MentalChat16K}, }

搜集汇总

数据集介绍

构建方式

ShenLab/MentalChat16K数据集的构建，采用了先进的人工智能技术。合成数据部分，利用OpenAI GPT-3.5 Turbo模型与定制化的Airoboros自生成框架，创造出9,775场咨询师与客户之间的模拟对话，覆盖了33个心理健康话题。访谈数据部分，则是基于行为干预会议的音频记录，由专业人士转录并经过Mistral-7B-Instruct-v0.2模型进行摘要，生成了6,338个问题与答案的对。

特点

该数据集特色鲜明，不仅数量丰富，包含了9,775场对话，覆盖了广泛的心理健康议题，如人际关系、焦虑、抑郁等，而且语言为英语，便于国际研究者使用。数据生成方法上，结合了大型语言模型与定制化框架，确保了对话内容的多样性与真实性，为研究提供了高质量的数据基础。

使用方法

使用ShenLab/MentalChat16K数据集，研究者可以训练和评估面向咨询与心理健康应用的语言模型，例如聊天机器人、虚拟助手和对话系统。该数据集提供的对话场景多样且贴近实际，有助于模型更好地理解心理状态和治疗方法，进而提升其对话的质量和效果。

背景与挑战

背景概述

在心理健康领域，模拟咨询对话数据集对于训练和评估语言模型至关重要。ShenLab/MentalChat16K数据集，创建于2025年，是由Jia Xu等研究人员精心构建的合成数据集。该数据集涵盖了33个心理健康话题，包括人际关系、焦虑、抑郁、亲密关系和家庭冲突等，旨在为语言模型提供多样化的心理状况和治疗方案对话实例。该数据集利用OpenAI GPT-3.5 Turbo模型及定制化的Airoboros自生成框架生成9,775个合成对话，并包含来自临床试验的6,338个问题-答案对，由人类专家基于行为干预会话的音频记录转录而成。MentalChat16K数据集在推动心理健康对话系统研究方面具有重要影响力。

当前挑战

尽管MentalChat16K数据集在模拟心理健康咨询对话方面具有创新性，但也面临诸多挑战。首先，数据集完全由合成数据构成，可能无法完全捕捉真实咨询对话的细微差别和复杂性。其次，该数据集局限于英语对话，缺乏对多元文化和语言环境的代表性。此外，数据集构建过程中确保对话质量和相关性的技术挑战亦不容忽视，这些因素均可能影响数据集在训练高效、文化敏感的语言模型方面的应用。

常用场景

经典使用场景

在人工智能领域，尤其是自然语言处理任务中，模拟心理咨询对话的数据集尤为珍贵。ShenLab/MentalChat16K数据集便是这样一个宝库，它由近万次合成对话组成，覆盖了多种心理健康话题。其经典的使用场景在于训练与评估面向心理咨询与辅导的语言模型，例如开发聊天机器人，以实现更加真实与有效的咨询对话体验。

解决学术问题

该数据集解决了自然语言处理模型在理解和模拟人类心理状态及咨询策略方面的难题。通过提供覆盖广泛心理状况和治疗策略的对话实例，它极大地促进了学术研究中对话系统的准确性和实用性的提升，对于构建能够辅助心理健康服务的智能系统具有重要意义。

衍生相关工作

基于MentalChat16K数据集，研究者们已经开展了一系列相关工作，如开发更精细化的心理咨询模型、进行跨文化心理状况的对话分析等。这些衍生工作进一步拓展了数据集的应用边界，推动了心理健康支持技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集