five

Self-GRIT/PILE_Wikipedia_Pretraining_subset_100k-distill-insert-ret-tokens-outputs

收藏
Hugging Face2024-08-11 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Self-GRIT/PILE_Wikipedia_Pretraining_subset_100k-distill-insert-ret-tokens-outputs
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: input dtype: string - name: outputs_retrievals dtype: string - name: flags dtype: int64 splits: - name: valid num_bytes: 8287129 num_examples: 500 - name: 50k_part0 num_bytes: 817989742 num_examples: 50000 - name: 50k_part1 num_bytes: 819096441 num_examples: 50000 download_size: 435398916 dataset_size: 1645373312 configs: - config_name: default data_files: - split: valid path: data/valid-* - split: 50k_part0 path: data/50k_part0-* - split: 50k_part1 path: data/50k_part1-* ---

数据集信息: 特征: - 名称:输入(input),数据类型:字符串 - 名称:检索输出(outputs_retrievals),数据类型:字符串 - 名称:标记(flags),数据类型:64位整型(int64) 数据集划分: - 划分名称:验证集(valid),字节大小:8287129,样本总量:500 - 划分名称:50k_part0,字节大小:817989742,样本总量:50000 - 划分名称:50k_part1,字节大小:819096441,样本总量:50000 下载总大小:435398916 字节,数据集总存储大小:1645373312 字节 配置项: - 配置名称:默认(default),数据文件: - 划分:验证集(valid),路径:data/valid-* - 划分:50k_part0,路径:data/50k_part0-* - 划分:50k_part1,路径:data/50k_part1-*
提供机构:
Self-GRIT
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作