five

amrachraf/arXiv-full-text-chunked-qa

收藏
Hugging Face2024-05-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/amrachraf/arXiv-full-text-chunked-qa
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: chunk_0 features: - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 84846680 num_examples: 46064 download_size: 44439561 dataset_size: 84846680 - config_name: chunk_1 features: - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 30273925 num_examples: 17138 download_size: 15849531 dataset_size: 30273925 - config_name: chunk_2 features: - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 27147947 num_examples: 14860 download_size: 13565048 dataset_size: 27147947 - config_name: chunk_3 features: - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 136583480 num_examples: 74966 download_size: 70641272 dataset_size: 136583480 - config_name: chunk_4 features: - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 27047270 num_examples: 15190 download_size: 14188926 dataset_size: 27047270 configs: - config_name: chunk_0 data_files: - split: train path: chunk_0/train-* - config_name: chunk_1 data_files: - split: train path: chunk_1/train-* - config_name: chunk_2 data_files: - split: train path: chunk_2/train-* - config_name: chunk_3 data_files: - split: train path: chunk_3/train-* - config_name: chunk_4 data_files: - split: train path: chunk_4/train-* ---

The dataset consists of five configurations (chunk_0 to chunk_4), each containing a training set (train split). Each configuration features input and output, both of which are of string data type. Each configurations training set provides the number of bytes and examples, as well as the download size and dataset size. The data file paths are named according to the configuration name and split name.
提供机构:
amrachraf
原始信息汇总

数据集概述

数据集配置

chunk_0

  • 特征:
    • input: 数据类型为 string
    • output: 数据类型为 string
  • 分割:
    • train: 字节数为 84846680,样本数为 46064
  • 下载大小: 44439561 字节
  • 数据集大小: 84846680 字节
  • 数据文件路径: chunk_0/train-*

chunk_1

  • 特征:
    • input: 数据类型为 string
    • output: 数据类型为 string
  • 分割:
    • train: 字节数为 30273925,样本数为 17138
  • 下载大小: 15849531 字节
  • 数据集大小: 30273925 字节
  • 数据文件路径: chunk_1/train-*

chunk_2

  • 特征:
    • input: 数据类型为 string
    • output: 数据类型为 string
  • 分割:
    • train: 字节数为 27147947,样本数为 14860
  • 下载大小: 13565048 字节
  • 数据集大小: 27147947 字节
  • 数据文件路径: chunk_2/train-*

chunk_3

  • 特征:
    • input: 数据类型为 string
    • output: 数据类型为 string
  • 分割:
    • train: 字节数为 136583480,样本数为 74966
  • 下载大小: 70641272 字节
  • 数据集大小: 136583480 字节
  • 数据文件路径: chunk_3/train-*

chunk_4

  • 特征:
    • input: 数据类型为 string
    • output: 数据类型为 string
  • 分割:
    • train: 字节数为 27047270,样本数为 15190
  • 下载大小: 14188926 字节
  • 数据集大小: 27047270 字节
  • 数据文件路径: chunk_4/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作