KPrashanth/my_gpt2_finetune_dataset_5M
收藏Hugging Face2024-06-08 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/KPrashanth/my_gpt2_finetune_dataset_5M
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含四个主要特征:文本、输入ID序列、注意力掩码序列和标签序列。数据集分为训练集、验证集和测试集,分别包含400万、50万和50万个样本。数据集的下载大小为495703244字节,总大小为972147316.0字节。
该数据集包含四个主要特征:文本、输入ID序列、注意力掩码序列和标签序列。数据集分为训练集、验证集和测试集,分别包含400万、50万和50万个样本。数据集的下载大小为495703244字节,总大小为972147316.0字节。
提供机构:
KPrashanth
原始信息汇总
数据集概述
数据集特征
- text: 数据类型为字符串。
- input_ids: 数据类型为整数序列,数据类型为int32。
- attention_mask: 数据类型为整数序列,数据类型为int8。
- labels: 数据类型为整数序列,数据类型为int64。
数据集划分
- train: 包含4,000,000个样本,大小为777,717,852.8字节。
- validation: 包含500,000个样本,大小为97,214,731.6字节。
- test: 包含500,000个样本,大小为97,214,731.6字节。
数据集大小
- 下载大小: 495,703,244字节。
- 总数据集大小: 972,147,316.0字节。
配置信息
- config_name: default
- train: 数据文件路径为
data/train-*。 - validation: 数据文件路径为
data/validation-*。 - test: 数据文件路径为
data/test-*。
- train: 数据文件路径为



