AmazonScience/xtr-wiki_qa

Name: AmazonScience/xtr-wiki_qa
Creator: AmazonScience
Published: 2023-07-24 17:32:38
License: 暂无描述

Hugging Face2023-07-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AmazonScience/xtr-wiki_qa

下载链接

链接失效反馈

官方服务：

资源简介：

Xtr-WikiQA是一个多语言的答案句子选择（AS2）数据集，包含9种非英语语言：阿拉伯语、西班牙语、法语、德语、印地语、意大利语、日语、荷兰语和葡萄牙语。该数据集基于英文的WikiQA数据集，并通过Amazon Translate进行翻译。每个数据实例包含问题ID、问题、文档ID、文档标题、句子ID、句子和标签，标签用于指示句子是否正确回答了问题。数据集分为训练集、开发集和测试集，每个语言的数据集都有相应的问题和句子数量统计。

--- 标注创建者: - 机器生成语言: - 阿拉伯语 (ar) - 西班牙语 (es) - 法语 (fr) - 德语 (de) - 印地语 (hi) - 意大利语 (it) - 日语 (ja) - 荷兰语 (nl) - 葡萄牙语 (pt) 语言数据来源: - 公开采集许可详情: https://huggingface.co/datasets/AmazonScience/xtr-wiki_qa/blob/main/LICENSE.md 多语言特性: - 多语言 - 翻译展示名称: xtr-wiki_qa 样本规模: 10万 < 样本数 < 100万源数据集: - 扩展版|wiki_qa 标签: - as2 - 答案句子选择 - 文本检索 - 问答任务类别: - 问答 - 文本检索任务子类: - 开放域问答许可: cdla-permissive-2.0 --- # Xtr-WikiQA ## 目录 - [数据集卡片创建指南](#dataset-card-creation-guide) - [目录](#table-of-contents) - [数据集描述](#dataset-description) - [数据集概述](#dataset-summary) - [支持语言](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [源数据](#source-data) - [附加信息](#additional-information) - [许可信息](#licensing-information) - [引用信息](#citation-information) - [贡献者](#contributions) ## 数据集描述 - **主页:** [Amazon Science](https://www.amazon.science/publications/cross-lingual-knowledge-distillation-for-answer-sentence-selection-in-low-resource-languages) - **论文:** [Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages](https://aclanthology.org/2023.findings-acl.885/) - **联系人:** [Yoshitomo Matsubara](yomtsub@amazon.com) ### 数据集概述 ***Xtr-WikiQA*** 是面向9种非英语语言的**答案句子选择（Answer Sentence Selection, AS2）**数据集，出自我们被ACL 2023（发现版块）收录的论文：[**面向低资源语言答案句子选择的跨语言知识蒸馏**](https://aclanthology.org/2023.findings-acl.885/)。本数据集基于英语AS2数据集WikiQA（[原始数据集](https://msropendata.com/datasets/21032bb1-88bd-4656-9570-3172ae1757f0)，[Hugging Face版本](https://huggingface.co/datasets/wiki_qa)）。翻译工作通过[Amazon Translate](https://aws.amazon.com/translate/)完成。 ### 支持语言 - 阿拉伯语 (ar) - 西班牙语 (es) - 法语 (fr) - 德语 (de) - 印地语 (hi) - 意大利语 (it) - 日语 (ja) - 荷兰语 (nl) - 葡萄牙语 (pt) 文件位置: [`tsv/`](https://huggingface.co/datasets/AmazonScience/xtr-wiki_qa/tree/main/tsv) ## 数据集结构 ### 数据实例以下为Xtr-WikiQA数据集阿拉伯语训练集的一个示例实例： { "QuestionID": "Q1", "Question": "كيف تتشكل الكهوف الجليدية؟", "DocumentID": "D1", "DocumentTitle": "كهف جليدي", "SentenceID": "D1-0", "Sentence": "كهف جليدي مغمور جزئيًا على نهر بيريتو مورينو الجليدي.", "Label": 0 } 所有TSV文件中的翻译实例均与原始WikiQA数据集的原生实例顺序保持一致。例如，[`tsv/ar-train.tsv`](https://huggingface.co/datasets/AmazonScience/xtr-wiki_qa/blob/main/tsv/ar-train.tsv)（由英语翻译而来的阿拉伯语数据集）的第2个实例，对应[`WikiQA-train.tsv`](https://msropendata.com/datasets/21032bb1-88bd-4656-9570-3172ae1757f0)（英语原始数据集）的第2个实例。 ### 数据字段每个实例（即一个问答对）包含以下字段： - `QuestionID`: 问题ID（字符串类型） - `Question`: 待解答的问题（字符串类型） - `DocumentID`: 文档ID（字符串类型） - `DocumentTitle`: 文档标题（字符串类型） - `SentenceID`: 文档中答案句子的ID（字符串类型） - `Sentence`: 文档中的答案句子文本（字符串类型） - `Label`: 用于标识该答案句子是否正确回答问题的标签（整数类型，1表示正确，0表示错误） ### 数据划分 | | | **问题总数** | | | | **句子总数** | | |-------------------|------------:|---------------:|---------:|---|----------:|---------------:|---------:| | | **训练集** | **验证集** | **测试集** | | **训练集** | **验证集** | **测试集** | | **各单语种** | 873 | 126 | 243 | | 8,671 | 1,130 | 2,351 | 更多数据集统计详情请参阅[我们的论文](#citation-information)。 ## 数据集构建 ### 源数据 Xtr-WikiQA数据集的源数据为[WikiQA](https://msropendata.com/datasets/21032bb1-88bd-4656-9570-3172ae1757f0)。 ## 附加信息 ### 许可信息 [CDLA-Permissive-2.0](LICENSE.md) ### 引用信息 bibtex @inproceedings{gupta2023cross-lingual, title={{Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages}}, author={Gupta, Shivanshu and Matsubara, Yoshitomo and Chadha, Ankit and Moschitti, Alessandro}, booktitle={Findings of the Association for Computational Linguistics: ACL 2023}, pages={14078--14092}, year={2023} } ### 贡献者 - [Shivanshu Gupta](https://huggingface.co/shivanshu) - [Yoshitomo Matsubara](https://huggingface.co/yoshitomo-matsubara) - Ankit Chadha - Alessandro Moschitti

提供机构：

AmazonScience

原始信息汇总

数据集概述

名称: Xtr-WikiQA

类型: 多语言问答数据集

语言:

阿拉伯语 (ar)
西班牙语 (es)
法语 (fr)
德语 (de)
印地语 (hi)
意大利语 (it)
日语 (ja)
荷兰语 (nl)
葡萄牙语 (pt)

数据集大小: 100K<n<1M

来源: 扩展自WikiQA数据集

任务类型:

问答
文本检索

许可证: CDLA-Permissive-2.0

数据集结构

数据实例: 每个实例包含以下字段:

QuestionID: 问题ID (字符串)
Question: 问题文本 (字符串)
DocumentID: 文档ID (字符串)
DocumentTitle: 文档标题 (字符串)
SentenceID: 答案句子在文档中的ID (字符串)
Sentence: 答案句子文本 (字符串)
Label: 答案是否正确 (整数, 1: 正确, 0: 不正确)

数据分割:

训练集: 873个问题
开发集: 126个问题
测试集: 243个问题

数据集创建

源数据: WikiQA数据集

翻译工具: Amazon Translate

注释创建者: 机器生成

附加信息

许可证详情: CDLA-Permissive-2.0

引用信息: bibtex @inproceedings{gupta2023cross-lingual, title={{Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages}}, author={Gupta, Shivanshu and Matsubara, Yoshitomo and Chadha, Ankit and Moschitti, Alessandro}, booktitle={Findings of the Association for Computational Linguistics: ACL 2023}, pages={14078--14092}, year={2023} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集