maveriq/tinystoriesv2_gpt4
收藏Hugging Face2023-12-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/maveriq/tinystoriesv2_gpt4
下载链接
链接失效反馈官方服务:
资源简介:
TinyStoriesV2-GPT4数据集是一个用于文本生成任务的英语数据集。它包含训练和验证两个分割,训练集有2,717,699个例子,验证集有27,630个例子。数据集的总大小为2,256,702,971字节,下载大小为1,153,194,030字节。数据准备流程包括从指定URL下载训练数据,处理数据并生成数据集。
提供机构:
maveriq
原始信息汇总
数据集概述
数据特征
- 名称: text
- 数据类型: string
数据分割
- 训练集:
- 字节数: 2234135574
- 样本数: 2717699
- 验证集:
- 字节数: 22567397
- 样本数: 27630
数据大小
- 下载大小: 1153194030
- 数据集大小: 2256702971
配置
- 配置名称: default
- 数据文件:
- 训练集路径: data/train-*
- 验证集路径: data/valid-*
任务类别
- 文本生成
语言
- 英语
数据集名称
- TinyStoriesV2-GPT4
数据集大小类别
- 1M<n<10M



