tydi_xor_rc

Name: tydi_xor_rc
Creator: CoAStaL NLP Group
Published: 2024-07-25 20:33:33
License: 暂无描述

Hugging Face2024-07-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/coastalcph/tydi_xor_rc

下载链接

链接失效反馈

官方服务：

资源简介：

数据集 'tydi_xor_rc' 是 XORQA 阅读理解数据和 XOR-AttriQA 英语数据的合并和简化版本。它是原始 TyDi QA 数据集的扩展，涵盖了 11 种类型多样的语言。XORQA 特别包括了无法回答的问题，其中上下文文档仅用英语，但问题可以用 7 种语言提出。该数据集包含训练集和验证集，分别有 15445 和 3646 个样本。数据集的列包括 'lang'（问题的语言）、'question'、'context'（英语的维基百科段落）、'answertable'（布尔值，表示问题是否可以回答）、'answer_start'（答案开始的索引，如果无法回答则为 -1）、'answer'（英语答案）和 'answer_inlang'（如果可用，则与问题相同语言的答案）。

提供机构：

CoAStaL NLP Group

创建时间：

2024-07-12

原始信息汇总

数据集概述

数据集描述

数据集摘要

名称: XORQA Reading Comprehension
类型: 多语言阅读理解数据集
来源: 结合了XORQA的阅读理解数据和XOR-AttriQA的英语数据。
语言: 包含英语和其他7种语言（阿拉伯语、孟加拉语、芬兰语、日语、韩语、俄语、泰卢固语）。
任务: 问答（Question Answering），具体为抽取式问答（Extractive QA）。

数据集结构

数据集大小: 训练集包含15445个样本，验证集包含3646个样本。
数据格式: 可通过datasets库加载。

数据实例

列描述:
- lang: 问题语言
- question: 问题内容
- context: 英文维基百科段落，可能包含答案
- answertable: 问题是否可由上下文回答
- answer_start: 答案在上下文中的起始位置（如果不可回答则为-1）
- answer: 英文答案，上下文中的文本片段（如果不可回答则为yes或no）
- answer_inlang: 问题语言的答案（仅部分实例可用）

引用

TyDi QA:

@article{clark-etal-2020-tydi, title = "{T}y{D}i {QA}: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages", author = "Clark, Jonathan H. and Choi, Eunsol and Collins, Michael and Garrette, Dan and Kwiatkowski, Tom and Nikolaev, Vitaly and Palomaki, Jennimaria", journal = "Transactions of the Association for Computational Linguistics", volume = "8", year = "2020", pages = "454--470", }
XOR QA:

@inproceedings{asai-etal-2021-xor, title = "{XOR} {QA}: Cross-lingual Open-Retrieval Question Answering", author = "Asai, Akari and Kasai, Jungo and Clark, Jonathan and Lee, Kenton and Choi, Eunsol and Hajishirzi, Hannaneh", booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jun, year = "2021", pages = "547--564", }
XOR-AttriQA:

@inproceedings{muller-etal-2023-evaluating, title = "Evaluating and Modeling Attribution for Cross-Lingual Question Answering", author = "Muller, Benjamin and Wieting, John and Clark, Jonathan and Kwiatkowski, Tom and Ruder, Sebastian and Soares, Livio and Aharoni, Roee and Herzig, Jonathan and Wang, Xinyi", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", pages = "144--157", }

搜集汇总

数据集介绍

构建方式

tydi_xor_rc数据集是通过整合和简化XORQA的阅读理解数据和XOR-AttriQA的英文数据构建而成。XORQA扩展了原始的TyDi QA数据集，增加了无法回答的问题，其中上下文文档仅以英文提供，而问题则涵盖7种语言。XOR-AttriQA则为XORQA的一部分样本提供了注释的归因数据。该数据集的构建代码可通过Colab笔记本获取，确保了数据集的透明性和可复现性。

使用方法

使用tydi_xor_rc数据集时，可以通过Hugging Face的`datasets`库加载数据集。加载后，用户可以通过`train_set`和`validation_set`访问训练集和验证集。数据集支持多种操作，如使用`dataset.filter`筛选特定语言的数据，使用`dataset.map`进行数据转换，以及使用`dataset.to_pandas`将数据集转换为Pandas DataFrame格式。这些功能使得数据集在跨语言问答系统开发中具有高度的灵活性和实用性。

背景与挑战

背景概述

TyDi_XOR_RC数据集是一个多语言阅读理解数据集，旨在解决跨语言问答系统中的信息不对称问题。该数据集由Google Research和华盛顿大学的研究团队于2021年创建，基于TyDi QA数据集扩展而来，涵盖了7种非英语语言。其核心研究问题在于如何通过跨语言检索和阅读理解技术，使非英语用户能够从英语资源中获取准确答案。TyDi_XOR_RC的构建不仅推动了多语言自然语言处理领域的发展，还为跨文化信息获取提供了重要的技术支持。

当前挑战

TyDi_XOR_RC数据集面临的主要挑战包括两个方面。首先，跨语言问答任务本身具有较高的复杂性，尤其是在处理低资源语言时，模型需要克服语言间的语法、语义和文化差异。其次，数据集的构建过程中，如何确保问题与英语上下文之间的语义对齐以及如何处理不可回答的问题，都是技术上的难点。此外，数据集中部分答案的不可归因性（即无法追溯到具体来源）也增加了模型训练的难度，这对生成式模型的准确性和可信度提出了更高的要求。

常用场景

经典使用场景

在跨语言问答系统中，tydi_xor_rc数据集被广泛用于评估模型在多语言环境下的阅读理解能力。该数据集通过提供多种语言的问答对，帮助研究人员测试模型在不同语言背景下的表现，尤其是在处理未回答问题时，模型是否能够准确判断并提供合理的反馈。

解决学术问题

tydi_xor_rc数据集解决了跨语言问答系统中的信息不对称问题。通过引入未回答问题和跨语言检索任务，该数据集为研究人员提供了一个更具挑战性的测试平台，推动了多语言模型在信息检索和问答系统中的应用与发展。

实际应用

在实际应用中，tydi_xor_rc数据集被用于开发多语言搜索引擎和智能助手。通过训练模型在该数据集上的表现，可以提升系统在跨语言环境下的信息检索能力，帮助用户从不同语言的资源中获取准确答案，尤其适用于多语言信息需求强烈的场景。

数据集最近研究