morehopqa

Hugging Face2024-06-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/alabnii/morehopqa

下载链接

链接失效反馈

官方服务：

资源简介：

MoreHopQA是一个新的多跳推理数据集，旨在从提取答案转向生成答案。该数据集通过整合和增强来自HotpotQA、2Wiki-MultihopQA和MuSiQue三个现有数据集的问题创建而成。数据集包含1118个经过人工验证的样本，每个样本包含多个字段，详细记录了多跳问题、上下文、答案和推理类型。推荐主要使用经过人工验证的版本。

创建时间：

2024-06-17

原始信息汇总

数据集概述

基本信息

名称: MoreHopQA
语言: 英语
许可证: CC BY 4.0
大小类别: 1K<n<10K
任务类别: 问答
标签: 多跳

数据集详情

数据集描述

MoreHopQA 是一个多跳问答数据集，从提取式答案转向生成式答案。该数据集通过利用三个现有的多跳数据集（HotpotQA、2Wiki-MultihopQA 和 MuSiQue）创建，增加了额外的推理层。

数据集结构

数据集包含两个版本：

verified: 经过人工验证的版本，推荐使用。
unverified: 仅自动生成的版本。

每个样本包含以下字段：

question: 新的多跳问题，带有额外的推理。
context: 回答前一个问题的相关上下文信息。
answer: 最后一跳的答案。
previous_question: 原始数据集中的前一个2跳问题。
previous_answer: 前一个2跳问题的答案。
question_decomposition: 推理链中的每个问题，包含 "sub_id"（链中的位置）、"question"、"answer"、"paragraph_support_title"（相关上下文段落）。
question_on_last_hop: 第三种情况的问题。
answer_type: 预期答案的类型。
previous_answer_type: 前一个2跳问题答案的类型。
no_of_hops: 回答额外推理问题所需的额外跳数。
reasoning_type: 可能包含 "Symbolic"、"Arithmetic"、"Commonsense"，取决于额外推理所需的推理类型。

数据集分割

test: 包含 1118 个样本，总字节数为 839113。

数据集大小

下载大小: 201825 字节
数据集大小: 839113 字节

搜集汇总

数据集介绍

构建方式

MoreHopQA数据集的构建基于三个现有的多跳问答数据集：HotpotQA、2Wiki-MultihopQA和MuSiQue。通过半自动化的方式，研究人员在这些数据集的基础上增加了额外的推理层，生成了1118个经过人工验证的样本。每个样本包含了新的多跳问题、原始问题、所有必要的子问题以及从第二个实体到最终答案的复合问题。数据集还提供了自动生成的未验证版本，但推荐使用经过人工验证的版本。

特点

MoreHopQA数据集的特点在于其复杂性和多样性。它不仅包含传统的多跳推理问题，还引入了生成性答案的需求，要求模型从多个来源中综合信息。每个样本都详细记录了问题的分解过程、上下文信息、答案类型以及所需的推理类型（如符号推理、算术推理或常识推理）。这些特点使得该数据集能够有效挑战模型的推理能力，推动多跳问答领域的发展。

使用方法

MoreHopQA数据集主要用于评估和改进模型的多跳推理能力。研究人员可以通过加载数据集，使用其中的问题、上下文和答案来训练和测试模型。数据集提供了详细的字段信息，包括问题的分解链、上下文段落、答案类型等，帮助模型更好地理解复杂的推理过程。建议优先使用经过人工验证的版本，以确保数据的准确性和可靠性。

背景与挑战

背景概述

MoreHopQA数据集由日本国立信息学研究所（NII）的Aizawa实验室于2024年推出，旨在推动多跳推理领域的研究。该数据集基于HotpotQA、2Wiki-MultihopQA和MuSiQue三个现有数据集，通过半自动化流程生成，并经过人工验证，最终包含1118个样本。MoreHopQA不仅扩展了传统多跳问题的范围，还引入了生成式答案，要求模型从多个来源中综合信息以回答复杂问题。这一创新为自然语言处理领域提供了新的研究工具，特别是在多跳推理和生成式问答系统的开发中具有重要意义。

当前挑战

MoreHopQA数据集面临的挑战主要体现在两个方面。首先，多跳推理问题本身要求模型具备跨文档的信息整合能力，这增加了模型在处理复杂查询时的难度。其次，数据集的构建过程中，如何确保生成的问题既具有挑战性又保持逻辑一致性是一个关键问题。尽管采用了半自动化流程和人工验证，但如何在大规模数据生成中保持高质量仍然是一个技术难题。此外，生成式答案的引入进一步增加了模型的复杂性，要求模型不仅能够提取信息，还需具备生成连贯、准确答案的能力。这些挑战为未来的研究提供了丰富的探索空间。

常用场景

经典使用场景

MoreHopQA数据集在自然语言处理领域中被广泛应用于多跳推理任务的研究。通过提供复杂的多跳问题，该数据集能够有效评估和提升模型在处理需要从多个来源综合信息的复杂查询时的能力。其经典使用场景包括模型的多跳推理能力测试、生成式问答系统的性能评估以及推理模型的创新研究。

衍生相关工作

MoreHopQA数据集的发布催生了一系列相关研究工作，尤其是在多跳推理和生成式问答领域。基于该数据集的研究成果包括改进的多跳推理模型、增强的生成式问答系统以及更复杂的推理任务评估方法。这些工作不仅推动了自然语言处理技术的发展，还为未来的多模态推理和跨领域知识融合提供了新的研究方向。

数据集最近研究