Anwaarma/ArabicQA
收藏Hugging Face2024-05-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Anwaarma/ArabicQA
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: data
struct:
- name: paragraphs
list:
- name: context
dtype: string
- name: document_id
dtype: int64
- name: qas
list:
- name: answers
list:
- name: answer_category
dtype: 'null'
- name: answer_end
dtype: int64
- name: answer_id
dtype: int64
- name: answer_start
dtype: int64
- name: document_id
dtype: int64
- name: question_id
dtype: int64
- name: text
dtype: string
- name: id
dtype: int64
- name: is_impossible
dtype: bool
- name: question
dtype: string
splits:
- name: train
num_bytes: 41377188
num_examples: 9835
- name: test
num_bytes: 9205752
num_examples: 2108
download_size: 25244681
dataset_size: 50582940
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
数据集信息:
特征:
- 名称:data
结构:
- 名称:paragraphs
列表元素:
- 名称:context,数据类型:字符串(string)
- 名称:document_id,数据类型:64位整型(int64)
- 名称:qas
列表元素:
- 名称:answers
列表元素:
- 名称:answer_category,数据类型:空值(null)
- 名称:answer_end,数据类型:64位整型(int64)
- 名称:answer_id,数据类型:64位整型(int64)
- 名称:answer_start,数据类型:64位整型(int64)
- 名称:document_id,数据类型:64位整型(int64)
- 名称:question_id,数据类型:64位整型(int64)
- 名称:text,数据类型:字符串(string)
- 名称:id,数据类型:64位整型(int64)
- 名称:is_impossible,数据类型:布尔型(bool)
- 名称:question,数据类型:字符串(string)
数据集划分:
- 划分名称:train(训练集),数据字节数:41377188,样本数量:9835
- 划分名称:test(测试集),数据字节数:9205752,样本数量:2108
下载大小:25244681,数据集总存储大小:50582940
配置项:
- 配置名称:default(默认配置)
数据文件:
- 对应划分:train,文件路径:data/train-*
- 对应划分:test,文件路径:data/test-*
提供机构:
Anwaarma
原始信息汇总
数据集概述
数据集结构
- 数据字段:
- data:
- paragraphs:
- context: 数据类型为字符串
- document_id: 数据类型为int64
- qas:
- answers:
- answer_category: 数据类型为null
- answer_end: 数据类型为int64
- answer_id: 数据类型为int64
- answer_start: 数据类型为int64
- document_id: 数据类型为int64
- question_id: 数据类型为int64
- text: 数据类型为字符串
- id: 数据类型为int64
- is_impossible: 数据类型为bool
- question: 数据类型为字符串
- answers:
- paragraphs:
- data:
数据集分割
- 训练集:
- 大小: 41377188字节
- 样本数: 9835
- 测试集:
- 大小: 9205752字节
- 样本数: 2108
数据集大小
- 下载大小: 25244681字节
- 数据集总大小: 50582940字节
数据文件配置
- 默认配置:
- 训练集路径: data/train-*
- 测试集路径: data/test-*



