clyu/sg_55k_cleaned_en_split8k
收藏Hugging Face2024-03-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/clyu/sg_55k_cleaned_en_split8k
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train_sft
path: data/train_sft-*
- split: test_sft
path: data/test_sft-*
dataset_info:
features:
- name: prompt_id
dtype: string
- name: prompt
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: __index_level_0__
dtype: int64
splits:
- name: train_sft
num_bytes: 683175419.6903844
num_examples: 59881
- name: test_sft
num_bytes: 35960804.3096156
num_examples: 3152
download_size: 310298835
dataset_size: 719136224.0
---
# Dataset Card for "sg_55k_cleaned_en_split8k"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
clyu
原始信息汇总
数据集概述
数据集配置
- 配置名称: default
- 数据文件:
- 训练集:
data/train_sft-* - 测试集:
data/test_sft-*
- 训练集:
数据集信息
-
特征:
- prompt_id: 数据类型为字符串
- prompt: 数据类型为字符串
- messages: 列表类型,包含以下子特征:
- content: 数据类型为字符串
- role: 数据类型为字符串
- index_level_0: 数据类型为int64
-
分割信息:
- 训练集 (train_sft):
- 字节数: 683175419.6903844
- 示例数: 59881
- 测试集 (test_sft):
- 字节数: 35960804.3096156
- 示例数: 3152
- 训练集 (train_sft):
-
下载大小: 310298835字节
-
数据集大小: 719136224.0字节



