five

asas-ai/tydiqa-goldp-ar

收藏
Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/asas-ai/tydiqa-goldp-ar
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: id dtype: string - name: language dtype: string - name: document_title dtype: string - name: passage_text dtype: string - name: question_text dtype: string - name: answers sequence: - name: text dtype: string - name: start_byte dtype: int32 - name: limit_byte dtype: int32 splits: - name: train num_bytes: 16692327 num_examples: 14805 - name: validation num_bytes: 1063786 num_examples: 921 download_size: 9214756 dataset_size: 17756113 --- # Dataset Card for "tydiqa-goldp-ar" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项: - 配置名称:default 数据文件: - 拆分集(split):训练集,路径:data/train-* - 拆分集(split):验证集,路径:data/validation-* 数据集信息(dataset_info): 特征字段: - 字段名:编号(id),数据类型(dtype):字符串(string) - 字段名:语言(language),数据类型(dtype):字符串(string) - 字段名:文档标题(document_title),数据类型(dtype):字符串(string) - 字段名:段落文本(passage_text),数据类型(dtype):字符串(string) - 字段名:问题文本(question_text),数据类型(dtype):字符串(string) - 字段名:答案集(answers),类型为序列(sequence),包含子字段: - 子字段名:文本(text),数据类型(dtype):字符串(string) - 子字段名:起始字节(start_byte),数据类型(dtype):32位整型(int32) - 子字段名:字节长度(limit_byte),数据类型(dtype):32位整型(int32) 拆分集详情: - 拆分集名称:训练集(train),总字节数:16692327,样本数量:14805 - 拆分集名称:验证集(validation),总字节数:1063786,样本数量:921 下载总大小:9214756 数据集总大小:17756113 --- # 「tydiqa-goldp-ar」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
asas-ai
原始信息汇总

数据集概述

配置信息

  • 默认配置 (config_name: default)
    • 训练数据 (split: train):路径为 data/train-*
    • 验证数据 (split: validation):路径为 data/validation-*

数据集特征

  • 字段
    • id:数据类型为字符串
    • language:数据类型为字符串
    • document_title:数据类型为字符串
    • passage_text:数据类型为字符串
    • question_text:数据类型为字符串
    • answers:序列类型,包含以下子字段
      • text:数据类型为字符串
      • start_byte:数据类型为整数(int32)
      • limit_byte:数据类型为整数(int32)

数据集分割

  • 训练集 (name: train)
    • 数据量:16692327字节
    • 示例数量:14805个
  • 验证集 (name: validation)
    • 数据量:1063786字节
    • 示例数量:921个

数据集大小

  • 下载大小:9214756字节
  • 数据集总大小:17756113字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作