five

vibhorag101/phr_mental_therapy_dataset

收藏
Hugging Face2023-12-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vibhorag101/phr_mental_therapy_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个基于GPT-3.5-turbo生成的合成心理健康对话数据集,原始数据来源于nart-100k-synthetic。数据集经过了清洗,移除了对话中常见的名字“Alex”和“Charlie”,并转换为适合llama-2-chat模型的格式。数据集采用JSONL格式,每个条目包含一个“text”键,其中包含了用于模型训练的合并文本,并添加了llama-2的系统提示和特定的对话格式标记。

该数据集是一个基于GPT-3.5-turbo生成的合成心理健康对话数据集,原始数据来源于nart-100k-synthetic。数据集经过了清洗,移除了对话中常见的名字“Alex”和“Charlie”,并转换为适合llama-2-chat模型的格式。数据集采用JSONL格式,每个条目包含一个“text”键,其中包含了用于模型训练的合并文本,并添加了llama-2的系统提示和特定的对话格式标记。
提供机构:
vibhorag101
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Synthetic Mental Therapy Dataset
  • 数据集大小: 458762343字节
  • 下载大小: 211247054字节
  • 训练集大小: 99086个样本,458762343字节
  • 语言: 英语 (en)
  • 许可证: MIT

数据特征

  • 特征名称: text
  • 数据类型: 字符串 (string)

任务类别

  • 任务: 文本生成 (text-generation)

标签

  • 标签: 医疗 (medical)

数据集描述

  • 数据来源: 该数据集是nart-100k-synthetic的清理版本。
  • 数据生成: 使用gpt3.5-turbo和此脚本合成生成。
  • 数据格式: 原始为"sharegpt"风格的JSONL格式,包含"human"和"gpt"键。
  • 数据清洗: 移除了"Alex"和"Charlie"等名称。
  • 数据转换: 转换为适合llama-2-chat模型的格式,包含单个键"text",并添加了llama-2系统提示。

数据集配置

  • 配置名称: default
  • 数据文件:
    • 分割: train
    • 路径: data/train-*

数据集大小分类

  • 大小分类: 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作