vibhorag101/phr_mental_therapy_dataset
收藏Hugging Face2023-12-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vibhorag101/phr_mental_therapy_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个基于GPT-3.5-turbo生成的合成心理健康对话数据集,原始数据来源于nart-100k-synthetic。数据集经过了清洗,移除了对话中常见的名字“Alex”和“Charlie”,并转换为适合llama-2-chat模型的格式。数据集采用JSONL格式,每个条目包含一个“text”键,其中包含了用于模型训练的合并文本,并添加了llama-2的系统提示和特定的对话格式标记。
该数据集是一个基于GPT-3.5-turbo生成的合成心理健康对话数据集,原始数据来源于nart-100k-synthetic。数据集经过了清洗,移除了对话中常见的名字“Alex”和“Charlie”,并转换为适合llama-2-chat模型的格式。数据集采用JSONL格式,每个条目包含一个“text”键,其中包含了用于模型训练的合并文本,并添加了llama-2的系统提示和特定的对话格式标记。
提供机构:
vibhorag101
原始信息汇总
数据集概述
基本信息
- 数据集名称: Synthetic Mental Therapy Dataset
- 数据集大小: 458762343字节
- 下载大小: 211247054字节
- 训练集大小: 99086个样本,458762343字节
- 语言: 英语 (
en) - 许可证: MIT
数据特征
- 特征名称: text
- 数据类型: 字符串 (
string)
任务类别
- 任务: 文本生成 (
text-generation)
标签
- 标签: 医疗 (
medical)
数据集描述
- 数据来源: 该数据集是nart-100k-synthetic的清理版本。
- 数据生成: 使用gpt3.5-turbo和此脚本合成生成。
- 数据格式: 原始为"sharegpt"风格的JSONL格式,包含"human"和"gpt"键。
- 数据清洗: 移除了"Alex"和"Charlie"等名称。
- 数据转换: 转换为适合llama-2-chat模型的格式,包含单个键"text",并添加了llama-2系统提示。
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集大小分类
- 大小分类: 10K<n<100K



