thavens/ultrachat_7500_chars
收藏Hugging Face2024-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thavens/ultrachat_7500_chars
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
configs:
- config_name: default
data_files:
- split: train_sft
path: data/train_sft-*
- split: test_sft
path: data/test_sft-*
- split: train_gen
path: data/train_gen-*
- split: test_gen
path: data/test_gen-*
dataset_info:
features:
- name: prompt
dtype: string
- name: prompt_id
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
splits:
- name: train_sft
num_bytes: 1397024949.0507782
num_examples: 207860
- name: test_sft
num_bytes: 154695659.0
num_examples: 23110
- name: train_gen
num_bytes: 1347375761.556118
num_examples: 256028
- name: test_gen
num_bytes: 148276089.0
num_examples: 28304
download_size: 1625328258
dataset_size: 3047372458.6068964
---
许可证:Apache-2.0开源许可证
配置项:
- 配置名称:default(默认配置)
数据文件:
- 数据划分:训练监督微调(train_sft),路径:data/train_sft-*
- 数据划分:测试监督微调(test_sft),路径:data/test_sft-*
- 数据划分:训练生成(train_gen),路径:data/train_gen-*
- 数据划分:测试生成(test_gen),路径:data/test_gen-*
数据集信息:
特征字段:
- 字段名:提示词(prompt),数据类型:字符串
- 字段名:提示词ID(prompt_id),数据类型:字符串
- 字段名:对话消息(messages),数据类型为列表,列表内元素包含:
- 字段名:消息内容(content),数据类型:字符串
- 字段名:消息角色(role),数据类型:字符串
数据拆分详情:
- 划分名称:训练监督微调(train_sft),数据字节数:1397024949.0507782,样本总量:207860
- 划分名称:测试监督微调(test_sft),数据字节数:154695659.0,样本总量:23110
- 划分名称:训练生成(train_gen),数据字节数:1347375761.556118,样本总量:256028
- 划分名称:测试生成(test_gen),数据字节数:148276089.0,样本总量:28304
下载总大小:1625328258 字节
数据集总大小:3047372458.6068964 字节
提供机构:
thavens
原始信息汇总
数据集概述
许可证
- Apache 2.0
配置
- 默认配置
- 数据文件路径:
train_sft:data/train_sft-*test_sft:data/test_sft-*train_gen:data/train_gen-*test_gen:data/test_gen-*
- 数据文件路径:
数据集信息
-
特征:
prompt: 字符串类型prompt_id: 字符串类型messages: 列表类型content: 字符串类型role: 字符串类型
-
数据分割:
train_sft:- 字节数: 1397024949.0507782
- 样本数: 207860
test_sft:- 字节数: 154695659.0
- 样本数: 23110
train_gen:- 字节数: 1347375761.556118
- 样本数: 256028
test_gen:- 字节数: 148276089.0
- 样本数: 28304
-
下载大小: 1625328258 字节
-
数据集大小: 3047372458.6068964 字节



