chansung/synth_ds_diverse
收藏Hugging Face2024-04-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/chansung/synth_ds_diverse
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: generator
dtype: string
- name: prompt_id
dtype: string
- name: seed_prompt
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: category
dtype: string
splits:
- name: train_sft
num_bytes: 94473471
num_examples: 30327
download_size: 16823640
dataset_size: 94473471
configs:
- config_name: default
data_files:
- split: train_sft
path: data/train_sft-*
---
数据集信息:
特征项:
- 名称:generator(生成器)
数据类型:字符串
- 名称:prompt_id(提示词ID)
数据类型:字符串
- 名称:seed_prompt(种子提示词)
数据类型:字符串
- 名称:messages(消息列表)
数据类型:列表
列表元素结构:
- 子字段:content(内容)
数据类型:字符串
- 子字段:role(角色)
数据类型:字符串
- 名称:category(分类标签)
数据类型:字符串
分割集:
- 名称:train_sft(监督微调训练集)
字节占用量:94473471字节
样本总数:30327
下载大小:16823640字节
数据集总大小:94473471字节
配置项:
- 配置名称:default(默认配置)
数据文件:
- 对应分割集:train_sft
文件路径:data/train_sft-*
提供机构:
chansung
原始信息汇总
数据集概述
数据集特征
- generator:字符串类型
- prompt_id:字符串类型
- seed_prompt:字符串类型
- messages:列表类型,包含以下子特征:
- content:字符串类型
- role:字符串类型
- category:字符串类型
数据集分割
- train_sft:
- 数据量:94473471 字节
- 示例数量:30327
数据集大小
- 下载大小:16823640 字节
- 数据集总大小:94473471 字节
配置
- config_name: default
- data_files:
- split: train_sft
- path: data/train_sft-*



