Y-NQ

Name: Y-NQ
Creator: Meta的FAIR
Published: 2024-12-11 18:52:29
License: 暂无描述

arXiv2024-12-11 更新2024-12-13 收录

下载链接：

http://arxiv.org/abs/2412.08279v1

下载链接

链接失效反馈

官方服务：

资源简介：

Y-NQ是一个用于开放书籍阅读理解和文本生成的英-约鲁巴语评估数据集，旨在评估模型在高资源语言（英语）和低资源语言（约鲁巴语）中的表现。数据集包含358个问题和答案，涉及338篇英语文档和208篇约鲁巴语文档，平均文档长度分别为10,000字和430字。数据集的创建过程包括从NQ数据集中筛选问题，并通过人工注释确保答案的准确性。该数据集主要用于评估大型语言模型在不同语言环境下的阅读理解能力，特别是探索英语模型的能力是否能扩展到约鲁巴语。

Y-NQ is an English-Yoruba evaluation dataset for open-book reading comprehension and text generation, designed to assess model performance in both high-resource language (English) and low-resource language (Yoruba). The dataset contains 358 question-answer pairs, involving 338 English documents and 208 Yoruba documents, with average document lengths of 10,000 words and 430 words respectively. The dataset construction process includes screening questions from the NQ dataset and ensuring answer accuracy via manual annotation. This dataset is primarily used to evaluate the reading comprehension capabilities of large language models across different linguistic contexts, particularly to explore whether the capabilities of English models can be extended to Yoruba.

提供机构：

Meta的FAIR

创建时间：

2024-12-11

搜集汇总

数据集介绍

构建方式

Y-NQ数据集的构建基于NQ数据集，通过筛选和扩展，形成了包含358个问题和答案的评估数据集，涵盖338篇英语文档和208篇约鲁巴语文档。数据集的构建过程中，首先从NQ训练和验证数据集中筛选出符合条件的315,203个示例，并从中提取了2,855篇约鲁巴语维基百科页面。随后，通过去除短文档、清理HTML格式和引用标记等步骤，最终保留了664篇约鲁巴语文档和1,566个问题进行人工标注。为了减少标注工作量，研究人员尝试使用SONAR嵌入相似度分析进行预标注，但由于相似度匹配率较低，最终放弃了自动预标注方法。

特点

Y-NQ数据集的特点在于其跨语言的开放式阅读理解与文本生成任务，旨在评估高资源语言（英语）和低资源语言（约鲁巴语）在模型性能上的差异。数据集中的英语文档平均长度约为10,000字，而约鲁巴语文档平均长度仅为430字，这使得约鲁巴语的阅读理解任务相对简单。此外，数据集还包含了英语和约鲁巴语文档在同一主题下的平行文档，以及跨语言答案的可比性标注，这为研究模型在不同语言环境下的表现提供了丰富的资源。

使用方法

Y-NQ数据集主要用于评估大型语言模型在开放式阅读理解和文本生成任务中的表现，特别是在高资源语言和低资源语言之间的对比。使用该数据集时，研究人员可以通过提供文档和问题，要求模型生成详细的答案，并使用ROUGE等自动评估指标来比较生成答案与参考答案的相似度。此外，数据集还支持对文档长度与模型性能之间关系的研究，特别是在约鲁巴语等低资源语言中，长文档对模型性能的影响尤为显著。

背景与挑战

背景概述

Y-NQ数据集由Meta旗下的FAIR团队于2024年发布，旨在探索高资源语言（英语）和低资源语言（约鲁巴语）在开放书籍阅读理解和文本生成任务中的表现差异。该数据集基于Natural Questions (NQ)数据集，包含358个问题和答案，涉及338篇英语文档和208篇约鲁巴语文档。Y-NQ的核心研究问题是评估大型语言模型（LLMs）在不同语言环境下的阅读理解能力，尤其是低资源语言的表现。通过对比英语和约鲁巴语的表现，研究揭示了当前模型在处理低资源语言时的局限性，并为未来的多语言NLP研究提供了宝贵的资源。

当前挑战

Y-NQ数据集面临的主要挑战包括：1) 低资源语言（约鲁巴语）在阅读理解任务中的表现显著低于高资源语言（英语），尤其是在文档长度增加时，约鲁巴语的性能下降更为明显；2) 数据集构建过程中，约鲁巴语文档的质量和长度问题导致自动预标注的可靠性较低，需依赖人工标注，增加了数据集创建的复杂性和成本；3) 当前的自动评估指标（如Rouge）在约鲁巴语上的表现不佳，表明现有模型在处理低资源语言时仍存在显著的性能差距。

常用场景

经典使用场景

Y-NQ数据集的经典使用场景主要集中在开放式阅读理解与文本生成任务上。该数据集通过提供英语和约鲁巴语的双语文档及相应的问题与答案对，评估模型在高低资源语言环境下的表现。具体任务包括阅读长篇文章并从中提取信息以回答问题，同时生成详细的自由文本答案。这种任务设计不仅考察了模型的阅读理解能力，还测试了其在不同语言环境下的文本生成能力。

衍生相关工作

Y-NQ数据集的发布催生了一系列相关研究工作，特别是在低资源语言的自然语言处理领域。例如，研究者可以基于该数据集开发新的模型和算法，以提高约鲁巴语等低资源语言的阅读理解和文本生成能力。此外，该数据集还为跨语言知识迁移和多语言模型的研究提供了新的实验平台，推动了多语言环境下自然语言处理技术的进步。

数据集最近研究