pietrolesci/pile-validation
收藏Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/pile-validation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于研究的验证数据,特征包括文本和元数据,其中元数据包含一个名为pile_set_name的字段。数据集只有一个验证集,提供了该验证集的大小和示例数量。Pythia套件没有官方的验证集,但确认了这个Pile验证分割在训练期间未被使用。关于Pile数据是否可以自由发布存在困惑,如果需要会移除这个数据集。
The dataset includes two main features: text and meta. The text feature is of string type, while the meta feature is a struct containing a field named pile_set_name of string type. The dataset has a split named validation with 214670 examples and a total size of 1348824258 bytes. The download size of the dataset is 732531286 bytes. Additionally, the README file mentions that this is validation data used in the study, and it was confirmed that this validation data was not used during training. However, there is some confusion regarding whether the Pile data can be released freely, so this dataset will be removed if required.
提供机构:
pietrolesci
原始信息汇总
数据集概述
数据集信息
-
特征:
- text: 数据类型为字符串。
- meta: 包含一个子结构,子结构中包含一个名为
pile_set_name的字段,数据类型为字符串。
-
分割:
- validation: 包含 214670 个样本,总字节数为 1348824258。
-
下载大小: 732531286 字节
-
数据集大小: 1348824258 字节
配置
- default:
- 数据文件:
- validation: 路径为
data/validation-*。
- validation: 路径为
- 数据文件:



