manestay/paxqa_val_test
收藏Hugging Face2024-06-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/manestay/paxqa_val_test
下载链接
链接失效反馈官方服务:
资源简介:
这是PAXQA数据集中人工标注的验证和测试部分。数据集包含多种语言的文本,支持中文、英文、阿拉伯文和俄文。数据集的特性包括ID、源ID、标题、英文上下文、源语言上下文、英文问题、源语言问题、英文答案、源语言答案、MT5评分和BERT评分。数据集分为多个测试和验证分割,每个分割都有相应的字节大小和示例数量。
提供机构:
manestay
原始信息汇总
数据集概述
数据集信息
特征
- id: 字符串类型
- source_id: 字符串类型
- title: 字符串类型
- context_en: 字符串类型
- context_src: 字符串类型
- question_en: 字符串类型
- question_src: 字符串类型
- answers_en: 结构体类型,包含以下字段:
- answer_start: 整数序列类型
- text: 字符串序列类型
- answers_src: 结构体类型,包含以下字段:
- answer_start: 整数序列类型
- text: 字符串序列类型
- mt5_score: 浮点数类型
- bert_score: 浮点数类型
数据分割
- test__gale_zh_en:
- 字节数: 311297
- 样本数: 190
- validation__gale_zh_en:
- 字节数: 136405
- 样本数: 104
- test__gale_ar_en:
- 字节数: 309546
- 样本数: 181
- validation__gale_ar_en:
- 字节数: 239967
- 样本数: 132
- test__gv_ar_en:
- 字节数: 149988
- 样本数: 87
- validation__gv_ar_en:
- 字节数: 284910
- 样本数: 193
- test__gv_ru_en:
- 字节数: 337718
- 样本数: 154
- validation__gv_ru_en:
- 字节数: 311864
- 样本数: 157
- test__nc_ru_en:
- 字节数: 138375
- 样本数: 166
- validation__nc_ru_en:
- 字节数: 111749
- 样本数: 143
- test__nc_zh_en:
- 字节数: 140032
- 样本数: 156
- validation__nc_zh_en:
- 字节数: 113851
- 样本数: 125
数据集大小
- 下载大小: 1015007 字节
- 数据集大小: 2585702 字节
语言
- 中文 (zh)
- 英文 (en)
- 阿拉伯语 (ar)
- 俄语 (ru)



