five

pietrolesci/pile-validation

收藏
Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/pile-validation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于研究的验证数据,特征包括文本和元数据,其中元数据包含一个名为pile_set_name的字段。数据集只有一个验证集,提供了该验证集的大小和示例数量。Pythia套件没有官方的验证集,但确认了这个Pile验证分割在训练期间未被使用。关于Pile数据是否可以自由发布存在困惑,如果需要会移除这个数据集。

The dataset includes two main features: text and meta. The text feature is of string type, while the meta feature is a struct containing a field named pile_set_name of string type. The dataset has a split named validation with 214670 examples and a total size of 1348824258 bytes. The download size of the dataset is 732531286 bytes. Additionally, the README file mentions that this is validation data used in the study, and it was confirmed that this validation data was not used during training. However, there is some confusion regarding whether the Pile data can be released freely, so this dataset will be removed if required.
提供机构:
pietrolesci
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • text: 数据类型为字符串。
    • meta: 包含一个子结构,子结构中包含一个名为 pile_set_name 的字段,数据类型为字符串。
  • 分割:

    • validation: 包含 214670 个样本,总字节数为 1348824258。
  • 下载大小: 732531286 字节

  • 数据集大小: 1348824258 字节

配置

  • default:
    • 数据文件:
      • validation: 路径为 data/validation-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作