AmazonScience/xtr-wiki_qa
收藏Hugging Face2023-07-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AmazonScience/xtr-wiki_qa
下载链接
链接失效反馈官方服务:
资源简介:
Xtr-WikiQA是一个多语言的答案句子选择(AS2)数据集,包含9种非英语语言:阿拉伯语、西班牙语、法语、德语、印地语、意大利语、日语、荷兰语和葡萄牙语。该数据集基于英文的WikiQA数据集,并通过Amazon Translate进行翻译。每个数据实例包含问题ID、问题、文档ID、文档标题、句子ID、句子和标签,标签用于指示句子是否正确回答了问题。数据集分为训练集、开发集和测试集,每个语言的数据集都有相应的问题和句子数量统计。
---
标注创建者:
- 机器生成
语言:
- 阿拉伯语 (ar)
- 西班牙语 (es)
- 法语 (fr)
- 德语 (de)
- 印地语 (hi)
- 意大利语 (it)
- 日语 (ja)
- 荷兰语 (nl)
- 葡萄牙语 (pt)
语言数据来源:
- 公开采集
许可详情: https://huggingface.co/datasets/AmazonScience/xtr-wiki_qa/blob/main/LICENSE.md
多语言特性:
- 多语言
- 翻译
展示名称: xtr-wiki_qa
样本规模: 10万 < 样本数 < 100万
源数据集:
- 扩展版|wiki_qa
标签:
- as2
- 答案句子选择
- 文本检索
- 问答
任务类别:
- 问答
- 文本检索
任务子类:
- 开放域问答
许可: cdla-permissive-2.0
---
# Xtr-WikiQA
## 目录
- [数据集卡片创建指南](#dataset-card-creation-guide)
- [目录](#table-of-contents)
- [数据集描述](#dataset-description)
- [数据集概述](#dataset-summary)
- [支持语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [源数据](#source-data)
- [附加信息](#additional-information)
- [许可信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献者](#contributions)
## 数据集描述
- **主页:** [Amazon Science](https://www.amazon.science/publications/cross-lingual-knowledge-distillation-for-answer-sentence-selection-in-low-resource-languages)
- **论文:** [Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages](https://aclanthology.org/2023.findings-acl.885/)
- **联系人:** [Yoshitomo Matsubara](yomtsub@amazon.com)
### 数据集概述
***Xtr-WikiQA*** 是面向9种非英语语言的**答案句子选择(Answer Sentence Selection, AS2)**数据集,出自我们被ACL 2023(发现版块)收录的论文:[**面向低资源语言答案句子选择的跨语言知识蒸馏**](https://aclanthology.org/2023.findings-acl.885/)。本数据集基于英语AS2数据集WikiQA([原始数据集](https://msropendata.com/datasets/21032bb1-88bd-4656-9570-3172ae1757f0),[Hugging Face版本](https://huggingface.co/datasets/wiki_qa))。翻译工作通过[Amazon Translate](https://aws.amazon.com/translate/)完成。
### 支持语言
- 阿拉伯语 (ar)
- 西班牙语 (es)
- 法语 (fr)
- 德语 (de)
- 印地语 (hi)
- 意大利语 (it)
- 日语 (ja)
- 荷兰语 (nl)
- 葡萄牙语 (pt)
文件位置: [`tsv/`](https://huggingface.co/datasets/AmazonScience/xtr-wiki_qa/tree/main/tsv)
## 数据集结构
### 数据实例
以下为Xtr-WikiQA数据集阿拉伯语训练集的一个示例实例:
{
"QuestionID": "Q1",
"Question": "كيف تتشكل الكهوف الجليدية؟",
"DocumentID": "D1",
"DocumentTitle": "كهف جليدي",
"SentenceID": "D1-0",
"Sentence": "كهف جليدي مغمور جزئيًا على نهر بيريتو مورينو الجليدي.",
"Label": 0
}
所有TSV文件中的翻译实例均与原始WikiQA数据集的原生实例顺序保持一致。
例如,[`tsv/ar-train.tsv`](https://huggingface.co/datasets/AmazonScience/xtr-wiki_qa/blob/main/tsv/ar-train.tsv)(由英语翻译而来的阿拉伯语数据集)的第2个实例,对应[`WikiQA-train.tsv`](https://msropendata.com/datasets/21032bb1-88bd-4656-9570-3172ae1757f0)(英语原始数据集)的第2个实例。
### 数据字段
每个实例(即一个问答对)包含以下字段:
- `QuestionID`: 问题ID(字符串类型)
- `Question`: 待解答的问题(字符串类型)
- `DocumentID`: 文档ID(字符串类型)
- `DocumentTitle`: 文档标题(字符串类型)
- `SentenceID`: 文档中答案句子的ID(字符串类型)
- `Sentence`: 文档中的答案句子文本(字符串类型)
- `Label`: 用于标识该答案句子是否正确回答问题的标签(整数类型,1表示正确,0表示错误)
### 数据划分
| | | **问题总数** | | | | **句子总数** | |
|-------------------|------------:|---------------:|---------:|---|----------:|---------------:|---------:|
| | **训练集** | **验证集** | **测试集** | | **训练集** | **验证集** | **测试集** |
| **各单语种** | 873 | 126 | 243 | | 8,671 | 1,130 | 2,351 |
更多数据集统计详情请参阅[我们的论文](#citation-information)。
## 数据集构建
### 源数据
Xtr-WikiQA数据集的源数据为[WikiQA](https://msropendata.com/datasets/21032bb1-88bd-4656-9570-3172ae1757f0)。
## 附加信息
### 许可信息
[CDLA-Permissive-2.0](LICENSE.md)
### 引用信息
bibtex
@inproceedings{gupta2023cross-lingual,
title={{Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages}},
author={Gupta, Shivanshu and Matsubara, Yoshitomo and Chadha, Ankit and Moschitti, Alessandro},
booktitle={Findings of the Association for Computational Linguistics: ACL 2023},
pages={14078--14092},
year={2023}
}
### 贡献者
- [Shivanshu Gupta](https://huggingface.co/shivanshu)
- [Yoshitomo Matsubara](https://huggingface.co/yoshitomo-matsubara)
- Ankit Chadha
- Alessandro Moschitti
提供机构:
AmazonScience
原始信息汇总
数据集概述
名称: Xtr-WikiQA
类型: 多语言问答数据集
语言:
- 阿拉伯语 (ar)
- 西班牙语 (es)
- 法语 (fr)
- 德语 (de)
- 印地语 (hi)
- 意大利语 (it)
- 日语 (ja)
- 荷兰语 (nl)
- 葡萄牙语 (pt)
数据集大小: 100K<n<1M
来源: 扩展自WikiQA数据集
任务类型:
- 问答
- 文本检索
许可证: CDLA-Permissive-2.0
数据集结构
数据实例: 每个实例包含以下字段:
QuestionID: 问题ID (字符串)Question: 问题文本 (字符串)DocumentID: 文档ID (字符串)DocumentTitle: 文档标题 (字符串)SentenceID: 答案句子在文档中的ID (字符串)Sentence: 答案句子文本 (字符串)Label: 答案是否正确 (整数, 1: 正确, 0: 不正确)
数据分割:
- 训练集: 873个问题
- 开发集: 126个问题
- 测试集: 243个问题
数据集创建
源数据: WikiQA数据集
翻译工具: Amazon Translate
注释创建者: 机器生成
附加信息
许可证详情: CDLA-Permissive-2.0
引用信息: bibtex @inproceedings{gupta2023cross-lingual, title={{Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages}}, author={Gupta, Shivanshu and Matsubara, Yoshitomo and Chadha, Ankit and Moschitti, Alessandro}, booktitle={Findings of the Association for Computational Linguistics: ACL 2023}, pages={14078--14092}, year={2023} }



