AmazonScience/mintaka

Name: AmazonScience/mintaka
Creator: AmazonScience
Published: 2022-10-28 10:55:50
License: 暂无描述

Hugging Face2022-10-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AmazonScience/mintaka

下载链接

链接失效反馈

官方服务：

资源简介：

Mintaka是一个复杂、自然且多语言的问答数据集，包含20,000个问答对，这些问题由MTurk工作者提出，并使用Wikidata的问答实体进行注释。数据集涵盖了8种复杂类型的问题和8个类别的内容，包括电影、音乐、体育、书籍、地理、政治、视频游戏和历史。问题最初以英语编写，并被翻译成阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语。Mintaka是首批可用于端到端问答模型的大规模复杂、自然且多语言的数据集之一。

Mintaka is a complex, natural and multilingual question answering (QA) dataset containing 20,000 QA pairs, which are proposed by MTurk workers and annotated with question entities from Wikidata. The dataset covers 8 types of complex questions and 8 content categories, including film, music, sports, books, geography, politics, video games and history. The questions were originally written in English and translated into Arabic, French, German, Hindi, Italian, Japanese, Portuguese and Spanish. Mintaka is one of the first large-scale complex, natural and multilingual datasets available for end-to-end QA models.

提供机构：

AmazonScience

原始信息汇总

数据集概述

名称： Mintaka

描述： Mintaka是一个复杂、自然、多语言的问答（QA）数据集，包含20,000个问题-答案对，由MTurk工人从Wikidata中提取的问题和答案实体进行标注。

语言： 英语，以及其他8种语言（阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语、西班牙语）。

数据集大小： 100K<n<1M

许可： CC-BY-4.0

任务类别： 问答（QA）

任务ID： open-domain-qa

数据集结构：

数据实例： 每个实例包括ID、语言、问题、答案文本、类别、复杂性类型、问题实体和答案实体。
数据字段： 包括ID、语言、问题、答案文本、类别、复杂性类型、问题实体和答案实体。
数据分割： 每种语言分为训练集（14,000样本）、开发集（2,000样本）和测试集（4,000样本）。

数据集创建：

来源数据： 原始数据，由MTurk工人收集。
标注： 由专家生成。
个人和敏感信息： 数据集不含个人或敏感信息。

使用考虑：

社会影响： 待补充。
偏见讨论： 待补充。
其他已知限制： 待补充。

附加信息：

数据集管理员： Amazon Alexa AI。
贡献者： 感谢@afaji添加此数据集。

搜集汇总

数据集介绍

构建方式

在开放域问答研究领域，构建高质量且具有挑战性的数据集是推动模型能力边界的关键。Mintaka数据集的构建采用了系统化的众包采集策略，通过亚马逊土耳其机器人平台收集了涵盖电影、音乐、体育、书籍、地理、政治、电子游戏和历史八大类别的自然语言问题。其核心创新在于明确设计了九种问题复杂度类型，包括计数、比较、最高级、序数、多跳推理、交集、差异、是非判断及通用类型，确保了问题结构的多样性与复杂性。每个问题均以英语为源语言进行创作，并经由专业流程翻译为阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语，最终形成了包含两万对问答实例的多语言语料库。所有问题与答案均关联至Wikidata知识库中的实体，并由众包工作者进行细致的实体标注，为模型提供了丰富的结构化语义信息。

特点

Mintaka数据集在复杂问答任务中展现出鲜明的特征。其首要特点是问题的复杂性与自然性并存，不仅覆盖了从简单事实查询到需要多步推理和逻辑运算的复杂问句，而且所有问题均源自真实用户的自然表达，避免了模板化生成可能带来的偏差。其次，该数据集具备显著的多语言广度，在英语源数据基础上扩展至九种语言，为跨语言与多语言问答模型的研究提供了宝贵的资源。再者，数据集中每个样本均附有详细的元数据标注，包括问题类别、复杂度类型以及关联的Wikidata实体信息，这些结构化标注极大地便利了模型对问题意图和答案依据的深层理解。此外，数据规模适中，总计约两万个样本，并已预先划分为训练集、开发集和测试集，为模型训练与评估提供了标准化的基准。

使用方法

对于意图在复杂开放域问答领域进行探索的研究者而言，Mintaka数据集提供了清晰的使用路径。数据集可直接从Hugging Face平台加载，其标准化的JSON格式确保了数据读取的便捷性。研究实践通常始于利用训练集对模型进行端到端的训练，目标是根据输入的自然语言问题预测出准确的文本答案。开发集则用于在训练过程中进行超参数调优与早期性能验证。模型性能的最终评估应在官方提供的测试集上严格进行，并建议使用数据集作者发布的专用评估脚本以确保结果的可比性与公正性。得益于其多语言特性，该数据集不仅适用于单一语言模型的性能评测，更是构建和验证跨语言迁移学习与多语言统一模型的理想测试平台。数据集中丰富的实体与类型标注信息，也可被进一步用于设计基于知识增强或可解释性分析的进阶模型架构。

背景与挑战

背景概述

在自然语言处理领域，复杂问答任务长期面临数据稀缺的困境，尤其缺乏涵盖多语言与多样化问题类型的综合性资源。亚马逊Alexa AI团队于2022年推出了Mintaka数据集，旨在填补这一空白。该数据集包含两万条专家标注的问答对，覆盖计数、比较、最高级、序数、多跳推理、交集、差异及是非判断等八种复杂问题类型，并涉及电影、音乐、体育、书籍、地理、政治、电子游戏与历史八大主题领域。所有问题均以英语为源语言，并翻译为阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语等八种语言，构建了首个大规模、多语言、复杂自然问答数据集，为端到端问答模型的研究提供了关键支撑，显著推动了跨语言复杂推理能力的发展。

当前挑战

Mintaka数据集所应对的核心挑战在于提升问答系统处理复杂、多跳及多类型自然语言问题的能力，尤其在多语言环境下实现精准的语义理解与知识推理。构建过程中的主要困难体现在两方面：一是问题设计的复杂性，需系统涵盖八种迥异的推理类型，并确保问题自然且基于真实知识库（Wikidata），这对标注者的专业性与一致性提出了极高要求；二是多语言扩展的挑战，在保持原文语义精确性的同时，将英语问题高质量翻译至八种语言，需克服语言间的文化差异与表达习惯障碍，以保障跨语言评估的可靠性与公平性。

常用场景

经典使用场景

在自然语言处理领域，复杂问答任务对模型的多维推理能力提出了严峻挑战。Mintaka数据集以其精心设计的八种复杂问题类型，为端到端问答模型的训练与评估提供了理想平台。该数据集涵盖了计数、比较、最高级、序数、多跳推理、交集、差异及是非判断等多样化场景，能够全面检验模型在理解自然语言复杂结构、执行逻辑推理及整合多源知识方面的性能。其多语言特性进一步拓展了模型的跨语言泛化能力，使得研究者能够在统一框架下探索语言间的共性与差异。

衍生相关工作

自发布以来，Mintaka数据集已催生了一系列聚焦复杂问答与多语言处理的创新研究。学者们以其为基础，开发了新型的多跳推理架构、跨语言知识对齐方法以及针对序数、比较等特定问题类型的专用模型。这些工作不仅深化了对模型推理机制的理解，也推动了如知识图谱增强、提示学习等技术在复杂语义场景下的应用。该数据集建立的评估基准，持续激励着研究者在提升模型鲁棒性、可解释性及跨语言一致性方面进行深入探索。

数据集最近研究