manestay/paxqa_train
收藏Hugging Face2024-06-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/manestay/paxqa_train
下载链接
链接失效反馈官方服务:
资源简介:
这是PAXQA数据集的训练集部分页面。数据集包含多种语言的上下文和问题,以及对应的答案和评分。具体特性包括id、source_id、title、英文上下文、源语言上下文、英文问题、源语言问题、英文答案、源语言答案、mt5评分和bert评分。数据集分割包括不同语言对的数据集大小和示例数量。
提供机构:
manestay
原始信息汇总
数据集概述
数据集信息
特征
- id: 字符串类型
- source_id: 字符串类型
- title: 字符串类型
- context_en: 字符串类型
- context_src: 字符串类型
- question_en: 字符串类型
- question_src: 字符串类型
- answers_en: 结构类型,包含以下字段:
- answer_start: 整数序列
- text: 字符串序列
- answers_src: 结构类型,包含以下字段:
- answer_start: 整数序列
- text: 字符串序列
- mt5_score: 浮点数类型
- bert_score: 浮点数类型
数据分割
- train__gale_zh_en:
- 字节数: 40720465
- 样本数: 30963
- train__gale_ar_en:
- 字节数: 90930636
- 样本数: 51084
- train__gv_ar_en:
- 字节数: 104525118
- 样本数: 54049
- train__gv_ru_en:
- 字节数: 417621592
- 样本数: 162653
- train__nc_ar_en:
- 字节数: 98318025
- 样本数: 80863
- train__nc_ru_en:
- 字节数: 156490677
- 样本数: 207881
- train__nc_zh_en:
- 字节数: 64961731
- 样本数: 72981
数据集大小
- 下载大小: 265371700 字节
- 数据集大小: 973568244 字节



