NorOpenBookQA, NorCommonSenseQA, NorTruthfulQA, NRK-Quiz-QA

Name: NorOpenBookQA, NorCommonSenseQA, NorTruthfulQA, NRK-Quiz-QA
Creator: 奥斯陆大学
Published: 2025-01-20 01:42:48
License: 暂无描述

arXiv2025-01-20 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.11128v1

下载链接

链接失效反馈

官方服务：

资源简介：

该论文介绍了一套新的挪威语问答数据集，包括NorOpenBookQA、NorCommonSenseQA、NorTruthfulQA和NRK-Quiz-QA。这些数据集由奥斯陆大学的研究团队创建，涵盖了挪威语的两种书面标准——Bokmål和Nynorsk。数据集包含超过10,500个问题-答案对，涉及世界知识、常识推理、真实性和挪威相关知识。数据集的创建过程包括手动翻译和本地化英语数据集，并生成新的挪威语示例。这些数据集旨在评估语言模型在挪威语理解和生成方面的能力，特别是在多领域知识和常识推理方面的表现。数据集的应用领域包括自然语言处理、问答系统和语言模型评估，旨在解决挪威语资源匮乏的问题。

This paper introduces a new suite of Norwegian question-answering datasets, namely NorOpenBookQA, NorCommonSenseQA, NorTruthfulQA, and NRK-Quiz-QA. These datasets were developed by the research team at the University of Oslo, covering two standard written varieties of Norwegian: Bokmål and Nynorsk. The suite contains over 10,500 question-answer pairs, spanning world knowledge, commonsense reasoning, truthfulness, and Norway-related knowledge. The creation process of these datasets involves manual translation and localization of existing English datasets, as well as the generation of novel Norwegian examples. These datasets are intended to evaluate the capabilities of language models in Norwegian language understanding and generation, especially their performance across multi-domain knowledge and commonsense reasoning tasks. Their application areas include natural language processing, question answering systems, and language model evaluation, with the goal of addressing the scarcity of Norwegian language resources.

提供机构：

奥斯陆大学

创建时间：

2025-01-20

搜集汇总

数据集介绍

构建方式

NorOpenBookQA, NorCommonSenseQA, NorTruthfulQA, 和 NRK-Quiz-QA 这四个数据集的构建采用了手动翻译和本地化策略。首先，数据集的创建团队由21名母语为挪威语的语言学和计算机科学专业的学生组成，他们被分为两个小组，分别专注于 Bokmål 和 Nynorsk 两种挪威语书写标准。团队成员首先研究了 OpenBookQA、CommonSenseQA 和 TruthfulQA 等英语数据集的设计，然后使用两种策略对这些英语示例进行适应：手动翻译和本地化，以及从零开始创作新的挪威语示例。在数据整理阶段，团队对收集到的低质量示例进行了筛选，并进行了拼写、语法和自然流畅度的质量控制。

特点

这些数据集的特点在于它们涵盖了广泛的技能和知识领域，包括世界知识、常识推理、真实性以及对挪威的知识。它们不仅包含超过10k个问题-答案对，而且由母语者创建。这些数据集的设计旨在评估语言模型在挪威语理解和生成方面的能力，包括挪威语特有的世界知识和常识推理能力。此外，它们还包含针对真实性的评估，即评估语言模型是否会在生成答案时重复人类错误。NRK-Quiz-QA 数据集特别包含了来自挪威国家广播公司 NRK 发布的500多个问答测验，这为评估语言模型在挪威语言和文化知识方面的能力提供了丰富的资源。

使用方法

使用这些数据集时，研究人员可以将其作为评估语言模型在挪威语问答任务中表现的标准测试集。每个数据集都包含不同的问题-答案对，可以根据研究需求选择使用 Bokmål 或 Nynorsk 语言版本。对于 NorOpenBookQA，它提供了训练集和测试集，可以用于零样本和少样本学习评估。其他数据集则作为零样本评估测试集。在评估过程中，研究人员可以使用 NorEval 框架进行评估，该框架支持多种提示和答案格式，并可以与11种公开可用的语言模型一起使用。通过这些数据集，研究人员可以更好地理解语言模型在不同挪威语问答任务中的表现，并促进挪威语自然语言处理领域的发展。

背景与挑战

背景概述

在自然语言处理领域，问答（QA）系统的发展一直是研究的热点。现有的QA数据集多集中于英语等资源丰富的语言，而对于挪威语等资源较少的语言，相关的研究数据集却相对匮乏。为了填补这一空白，奥斯陆大学的Vladislav Mikhailov等人于2025年1月提出了包含四个挪威语问答数据集的套件：NorOpenBookQA、NorCommonSenseQA、NorTruthfulQA和NRK-Quiz-QA。这些数据集涵盖了世界知识、常识推理、真实性等多个知识领域，并覆盖了挪威语的两个官方书写标准：Bokmål和Nynorsk。这些数据集由挪威语母语者创建，包含超过10,000个问答对，为评估语言模型在挪威语理解和生成方面的能力提供了重要的资源。

当前挑战

尽管NorOpenBookQA等数据集为挪威语问答研究提供了宝贵的资源，但仍面临一些挑战。首先，现有的挪威语问答数据集主要关注机器阅读理解任务，限制了语言模型在挪威语理解和生成方面的评估范围。其次，现有的数据集创建方法主要依赖于英语到挪威语的机器翻译，无法捕捉到与挪威历史、地理和文化相关的语言细微差别。此外，目前尚无单一的数据集涵盖挪威语的两种官方书写标准：Bokmål和Nynorsk。为了应对这些挑战，研究人员需要创建更多针对挪威语特定知识和文化背景的问答数据集，并确保这些数据集能够涵盖挪威语的两种官方书写标准。

常用场景

经典使用场景

在自然语言处理领域，特别是在挪威语的语言模型评估和基准测试方面，NorOpenBookQA, NorCommonSenseQA, NorTruthfulQA, 和 NRK-Quiz-QA 这四个数据集提供了宝贵的资源。这些数据集涵盖了世界知识、常识推理、真实性和挪威相关知识，旨在评估语言模型在挪威语理解、生成和推理方面的能力。研究者可以利用这些数据集来训练和评估他们的模型，以改进挪威语的问答系统，并为挪威语的语言模型提供基准。此外，这些数据集还可以用于比较不同语言模型在挪威语问答任务上的性能，以及研究挪威语的语言特点和文化差异对问答系统的影响。

解决学术问题

这些数据集解决了挪威语问答资源稀缺的问题，填补了挪威语问答数据集的空白。现有的挪威语问答数据集主要关注机器阅读理解任务，而忽略了挪威语语言理解生成的评估。此外，现有数据集大多依赖于英语到挪威语的机器翻译，无法捕捉到挪威语的细微差别以及与用户相关的历史、地理和文化方面。NorOpenBookQA, NorCommonSenseQA, NorTruthfulQA, 和 NRK-Quiz-QA 数据集旨在评估语言模型在挪威语特定知识和世界知识、常识推理能力和生成真实答案方面的能力。这些数据集的创建有助于推动挪威语问答领域的研究，并为挪威语语言模型的开发和评估提供参考。

衍生相关工作

NorOpenBookQA, NorCommonSenseQA, NorTruthfulQA, 和 NRK-Quiz-QA 数据集的创建为挪威语问答领域的研究提供了重要的基础。基于这些数据集，研究者可以开发新的挪威语问答模型和算法，以提高模型的性能和可靠性。此外，这些数据集还可以用于研究挪威语的语言特点和文化差异对问答系统的影响，为挪威语语言模型的改进和优化提供参考。例如，研究者可以利用这些数据集来分析挪威语问答任务的难点和挑战，以及不同语言模型在挪威语问答任务上的性能差异。这些研究结果可以为挪威语问答领域的研究和应用提供重要的参考和指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集