matteogabburo/mWikiQA
收藏Hugging Face2024-07-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/matteogabburo/mWikiQA
下载链接
链接失效反馈官方服务:
资源简介:
mWikiQA是WikiQA的翻译版本,包含从Bing查询日志中采样的3,047个问题。候选答案句子从维基百科中提取,并手动标记以评估它们是否为正确答案。数据集已被翻译成五种欧洲语言:法语、德语、意大利语、葡萄牙语和西班牙语。数据集提供了每种语言的训练、验证和测试分割,并且验证和测试分割还提供了预处理版本(++和clean)。数据集的格式包括唯一ID、问题ID、候选答案ID、标签、问题和候选答案。
mWikiQA is a multilingual question-answering dataset derived from WikiQA, containing 3,047 questions sampled from Bing query logs. The candidate answers are extracted from Wikipedia and manually labeled for correctness. The dataset is available in six languages: English, French, German, Italian, Portuguese, and Spanish. Each language has train, validation, and test splits, with additional preprocessed versions (++ and clean) available for validation and test sets. The dataset is structured with fields including eid, qid, cid, label, question, and candidate.
提供机构:
matteogabburo
原始信息汇总
mWikiQA 数据集概述
基本信息
- 名称: mWikiQA
- 任务类别: 问答系统 (question-answering)
- 语言:
- 英语 (en)
- 法语 (fr)
- 德语 (de)
- 意大利语 (it)
- 西班牙语 (es)
- 葡萄牙语 (pt)
- 数据规模: 100K < n < 1M
数据集描述
mWikiQA 是 WikiQA 的翻译版本,包含从 Bing 查询日志中采样的 3,047 个问题。候选答案句子从维基百科中提取,并经过手动标注以评估它们是否是正确答案。
该数据集已被翻译成五种欧洲语言:法语、德语、意大利语、葡萄牙语和西班牙语。
数据配置
数据集提供多种配置,包括不同语言和预处理版本:
默认配置 (default)
- 训练集:
- 英语:
eng-train.jsonl - 德语:
deu-train.jsonl - 法语:
fra-train.jsonl - 意大利语:
ita-train.jsonl - 葡萄牙语:
por-train.jsonl - 西班牙语:
spa-train.jsonl
- 英语:
- 验证集:
- 英语:
eng-dev.jsonl - 德语:
deu-dev.jsonl - 法语:
fra-dev.jsonl - 意大利语:
ita-dev.jsonl - 葡萄牙语:
por-dev.jsonl - 西班牙语:
spa-dev.jsonl
- 英语:
- 测试集:
- 英语:
eng-test.jsonl - 德语:
deu-test.jsonl - 法语:
fra-test.jsonl - 意大利语:
ita-test.jsonl - 葡萄牙语:
por-test.jsonl - 西班牙语:
spa-test.jsonl
- 英语:
预处理版本
- clean: 去除只有负面和只有正面答案候选的问题
- ++: 去除只有负面答案候选的问题
语言特定配置
- 英语:
- 训练集:
eng-train.jsonl - 验证集:
eng-dev.jsonl - 测试集:
eng-test.jsonl
- 训练集:
- 德语:
- 训练集:
deu-train.jsonl - 验证集:
deu-dev.jsonl - 测试集:
deu-test.jsonl
- 训练集:
- 法语:
- 训练集:
fra-train.jsonl - 验证集:
fra-dev.jsonl - 测试集:
fra-test.jsonl
- 训练集:
- 意大利语:
- 训练集:
ita-train.jsonl - 验证集:
ita-dev.jsonl - 测试集:
ita-test.jsonl
- 训练集:
- 葡萄牙语:
- 训练集:
por-train.jsonl - 验证集:
por-dev.jsonl - 测试集:
por-test.jsonl
- 训练集:
- 西班牙语:
- 训练集:
spa-train.jsonl - 验证集:
spa-dev.jsonl - 测试集:
spa-test.jsonl
- 训练集:
数据格式
每个样本包含以下字段:
- eid: 样本的唯一ID
- qid: 问题的唯一ID
- cid: 答案候选的唯一ID
- label: 答案候选是否正确 (1 表示正确,0 表示不正确)
- question: 问题
- candidate: 答案候选
引用
如果使用此数据集,请引用以下论文:
@misc{gabburo2024datasetsmultilingualanswersentence, title={Datasets for Multilingual Answer Sentence Selection}, author={Matteo Gabburo and Stefano Campese and Federico Agostini and Alessandro Moschitti}, year={2024}, eprint={2406.10172}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.10172}, }



