five

AmazonScience/xtr-wiki_qa

收藏
Hugging Face2023-07-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AmazonScience/xtr-wiki_qa
下载链接
链接失效反馈
官方服务:
资源简介:
Xtr-WikiQA是一个多语言的答案句子选择(AS2)数据集,包含9种非英语语言:阿拉伯语、西班牙语、法语、德语、印地语、意大利语、日语、荷兰语和葡萄牙语。该数据集基于英文的WikiQA数据集,并通过Amazon Translate进行翻译。每个数据实例包含问题ID、问题、文档ID、文档标题、句子ID、句子和标签,标签用于指示句子是否正确回答了问题。数据集分为训练集、开发集和测试集,每个语言的数据集都有相应的问题和句子数量统计。

--- 标注创建者: - 机器生成 语言: - 阿拉伯语 (ar) - 西班牙语 (es) - 法语 (fr) - 德语 (de) - 印地语 (hi) - 意大利语 (it) - 日语 (ja) - 荷兰语 (nl) - 葡萄牙语 (pt) 语言数据来源: - 公开采集 许可详情: https://huggingface.co/datasets/AmazonScience/xtr-wiki_qa/blob/main/LICENSE.md 多语言特性: - 多语言 - 翻译 展示名称: xtr-wiki_qa 样本规模: 10万 < 样本数 < 100万 源数据集: - 扩展版|wiki_qa 标签: - as2 - 答案句子选择 - 文本检索 - 问答 任务类别: - 问答 - 文本检索 任务子类: - 开放域问答 许可: cdla-permissive-2.0 --- # Xtr-WikiQA ## 目录 - [数据集卡片创建指南](#dataset-card-creation-guide) - [目录](#table-of-contents) - [数据集描述](#dataset-description) - [数据集概述](#dataset-summary) - [支持语言](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [源数据](#source-data) - [附加信息](#additional-information) - [许可信息](#licensing-information) - [引用信息](#citation-information) - [贡献者](#contributions) ## 数据集描述 - **主页:** [Amazon Science](https://www.amazon.science/publications/cross-lingual-knowledge-distillation-for-answer-sentence-selection-in-low-resource-languages) - **论文:** [Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages](https://aclanthology.org/2023.findings-acl.885/) - **联系人:** [Yoshitomo Matsubara](yomtsub@amazon.com) ### 数据集概述 ***Xtr-WikiQA*** 是面向9种非英语语言的**答案句子选择(Answer Sentence Selection, AS2)**数据集,出自我们被ACL 2023(发现版块)收录的论文:[**面向低资源语言答案句子选择的跨语言知识蒸馏**](https://aclanthology.org/2023.findings-acl.885/)。本数据集基于英语AS2数据集WikiQA([原始数据集](https://msropendata.com/datasets/21032bb1-88bd-4656-9570-3172ae1757f0),[Hugging Face版本](https://huggingface.co/datasets/wiki_qa))。翻译工作通过[Amazon Translate](https://aws.amazon.com/translate/)完成。 ### 支持语言 - 阿拉伯语 (ar) - 西班牙语 (es) - 法语 (fr) - 德语 (de) - 印地语 (hi) - 意大利语 (it) - 日语 (ja) - 荷兰语 (nl) - 葡萄牙语 (pt) 文件位置: [`tsv/`](https://huggingface.co/datasets/AmazonScience/xtr-wiki_qa/tree/main/tsv) ## 数据集结构 ### 数据实例 以下为Xtr-WikiQA数据集阿拉伯语训练集的一个示例实例: { "QuestionID": "Q1", "Question": "كيف تتشكل الكهوف الجليدية؟", "DocumentID": "D1", "DocumentTitle": "كهف جليدي", "SentenceID": "D1-0", "Sentence": "كهف جليدي مغمور جزئيًا على نهر بيريتو مورينو الجليدي.", "Label": 0 } 所有TSV文件中的翻译实例均与原始WikiQA数据集的原生实例顺序保持一致。 例如,[`tsv/ar-train.tsv`](https://huggingface.co/datasets/AmazonScience/xtr-wiki_qa/blob/main/tsv/ar-train.tsv)(由英语翻译而来的阿拉伯语数据集)的第2个实例,对应[`WikiQA-train.tsv`](https://msropendata.com/datasets/21032bb1-88bd-4656-9570-3172ae1757f0)(英语原始数据集)的第2个实例。 ### 数据字段 每个实例(即一个问答对)包含以下字段: - `QuestionID`: 问题ID(字符串类型) - `Question`: 待解答的问题(字符串类型) - `DocumentID`: 文档ID(字符串类型) - `DocumentTitle`: 文档标题(字符串类型) - `SentenceID`: 文档中答案句子的ID(字符串类型) - `Sentence`: 文档中的答案句子文本(字符串类型) - `Label`: 用于标识该答案句子是否正确回答问题的标签(整数类型,1表示正确,0表示错误) ### 数据划分 | | | **问题总数** | | | | **句子总数** | | |-------------------|------------:|---------------:|---------:|---|----------:|---------------:|---------:| | | **训练集** | **验证集** | **测试集** | | **训练集** | **验证集** | **测试集** | | **各单语种** | 873 | 126 | 243 | | 8,671 | 1,130 | 2,351 | 更多数据集统计详情请参阅[我们的论文](#citation-information)。 ## 数据集构建 ### 源数据 Xtr-WikiQA数据集的源数据为[WikiQA](https://msropendata.com/datasets/21032bb1-88bd-4656-9570-3172ae1757f0)。 ## 附加信息 ### 许可信息 [CDLA-Permissive-2.0](LICENSE.md) ### 引用信息 bibtex @inproceedings{gupta2023cross-lingual, title={{Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages}}, author={Gupta, Shivanshu and Matsubara, Yoshitomo and Chadha, Ankit and Moschitti, Alessandro}, booktitle={Findings of the Association for Computational Linguistics: ACL 2023}, pages={14078--14092}, year={2023} } ### 贡献者 - [Shivanshu Gupta](https://huggingface.co/shivanshu) - [Yoshitomo Matsubara](https://huggingface.co/yoshitomo-matsubara) - Ankit Chadha - Alessandro Moschitti
提供机构:
AmazonScience
原始信息汇总

数据集概述

名称: Xtr-WikiQA

类型: 多语言问答数据集

语言:

  • 阿拉伯语 (ar)
  • 西班牙语 (es)
  • 法语 (fr)
  • 德语 (de)
  • 印地语 (hi)
  • 意大利语 (it)
  • 日语 (ja)
  • 荷兰语 (nl)
  • 葡萄牙语 (pt)

数据集大小: 100K<n<1M

来源: 扩展自WikiQA数据集

任务类型:

  • 问答
  • 文本检索

许可证: CDLA-Permissive-2.0

数据集结构

数据实例: 每个实例包含以下字段:

  • QuestionID: 问题ID (字符串)
  • Question: 问题文本 (字符串)
  • DocumentID: 文档ID (字符串)
  • DocumentTitle: 文档标题 (字符串)
  • SentenceID: 答案句子在文档中的ID (字符串)
  • Sentence: 答案句子文本 (字符串)
  • Label: 答案是否正确 (整数, 1: 正确, 0: 不正确)

数据分割:

  • 训练集: 873个问题
  • 开发集: 126个问题
  • 测试集: 243个问题

数据集创建

源数据: WikiQA数据集

翻译工具: Amazon Translate

注释创建者: 机器生成

附加信息

许可证详情: CDLA-Permissive-2.0

引用信息: bibtex @inproceedings{gupta2023cross-lingual, title={{Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages}}, author={Gupta, Shivanshu and Matsubara, Yoshitomo and Chadha, Ankit and Moschitti, Alessandro}, booktitle={Findings of the Association for Computational Linguistics: ACL 2023}, pages={14078--14092}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作