vibhorag101/phr_mental_therapy_dataset

Name: vibhorag101/phr_mental_therapy_dataset
Creator: vibhorag101
Published: 2023-12-03 13:37:12
License: 暂无描述

Hugging Face2023-12-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/vibhorag101/phr_mental_therapy_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个基于GPT-3.5-turbo生成的合成心理健康对话数据集，原始数据来源于nart-100k-synthetic。数据集经过了清洗，移除了对话中常见的名字“Alex”和“Charlie”，并转换为适合llama-2-chat模型的格式。数据集采用JSONL格式，每个条目包含一个“text”键，其中包含了用于模型训练的合并文本，并添加了llama-2的系统提示和特定的对话格式标记。

提供机构：

vibhorag101

原始信息汇总

数据集概述

基本信息

数据集名称: Synthetic Mental Therapy Dataset
数据集大小: 458762343字节
下载大小: 211247054字节
训练集大小: 99086个样本，458762343字节
语言: 英语 (en)
许可证: MIT

数据特征

特征名称: text
数据类型: 字符串 (string)

任务类别

任务: 文本生成 (text-generation)

数据集描述

数据来源: 该数据集是nart-100k-synthetic的清理版本。
数据生成: 使用gpt3.5-turbo和此脚本合成生成。
数据格式: 原始为"sharegpt"风格的JSONL格式，包含"human"和"gpt"键。
数据清洗: 移除了"Alex"和"Charlie"等名称。
数据转换: 转换为适合llama-2-chat模型的格式，包含单个键"text"，并添加了llama-2系统提示。

数据集配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

数据集大小分类

大小分类: 10K<n<100K

5,000+

优质数据集

54 个

任务类型

进入经典数据集