2WikiMultiHopQA

arXiv2025-09-30 收录

下载链接：

https://github.com/alab-nii/2wikimultihop

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了两跳复杂问题，这些问题需要组合或比较信息。此外，据提出的方法显示，相比于链式思维提示，在该数据集上有了11.4%的提升。这项任务属于多跳问答领域。

This dataset contains two-hop complex questions that require information combination or comparison. Furthermore, the proposed method has demonstrated an 11.4% performance improvement over Chain-of-Thought prompting on this dataset. This task falls under the domain of multi-hop question answering.

搜集汇总

数据集介绍

构建方式

在机器阅读理解领域，多跳推理数据集旨在评估模型对多段文本进行复杂推理的能力。2WikiMultiHopQA的构建巧妙地融合了维基百科的文本描述与维基数据的结构化知识，通过精心设计的流水线确保数据质量与推理需求。首先，研究团队基于HotpotQA中的比较问题模板，利用命名实体识别技术提取并手动优化模板，专注于维基数据中高一致性属性，如出生日期、职业等，同时剔除可能导致单跳或上下文依赖多跳的模板。对于推理与组合问题，则依赖维基数据中的逻辑规则（如父子关系推导祖孙关系）和预定义关系组合生成自然问题。生成过程中，算法随机选取实体，验证其维基百科摘要与维基数据三元组的匹配性，并确保答案跨度可从文本中提取，最终通过后处理平衡正负样本并消除歧义案例，辅以干扰段落增强上下文复杂性。

特点

2WikiMultiHopQA的显著特点在于其提供的全面解释机制与严格的推理验证。数据集引入证据信息，即以结构化三元组形式呈现的推理路径，这不仅为预测答案提供直观解释，还成为评估模型推理技能的有效工具。相较于现有数据集，它涵盖四种问题类型：比较、推理、组合及桥接比较，每种类型均经过设计以保证多跳步骤的必要性，例如利用逻辑规则生成简洁自然的推理问题。数据统计显示，其规模达192,606个样本，远超同类数据集，且通过单跳模型测试验证了多数问题需多跳推理解决。此外，答案类型多样，涵盖是否判断、日期、电影等实体，增强了数据集的多样性与挑战性。

使用方法

该数据集适用于训练和评估多跳问答系统，尤其侧重于推理能力与解释生成。使用方法包括三个核心任务：答案预测、句子级支持事实预测及证据生成。输入为问题与一组文档（含黄金段落与干扰段落），模型需输出文本跨度答案、支持答案的句子集合以及描述推理路径的三元组证据集合。评估采用精确匹配与F1分数，并引入联合指标综合衡量三项任务表现。研究人员可利用其提供的基线模型进行实验，通过比较不同类型问题的性能差异，深入分析模型在复杂推理上的局限。数据集还支持对解释生成能力的探索，为开发可解释人工智能系统提供宝贵资源。

背景与挑战

背景概述

在机器阅读理解领域，多跳推理数据集旨在评估模型通过整合多个文本段落进行复杂推理的能力。2WikiMultiHopQA数据集由日本国立情报学研究所等机构的研究团队于2020年提出，其核心研究问题在于解决现有多跳数据集中普遍存在的推理路径不透明与单跳可解样本过多的问题。该数据集巧妙融合维基百科的文本描述与维基数据的结构化知识，通过引入证据三元组来清晰呈现从问题到答案的推理链条，显著提升了模型解释性与推理能力评估的严谨性，对推动可解释人工智能与深度推理模型的发展产生了重要影响。

当前挑战

2WikiMultiHopQA所针对的多跳问答任务面临双重挑战：在领域层面，模型需克服对隐含桥接实体的精准识别、多步逻辑关系的组合推理，以及跨文档信息的协同整合，这些能力远超传统单跳问答的范畴。在构建过程中，研究团队需确保生成的问题严格依赖多跳推理，通过设计精细的模板与逻辑规则来避免单跳可解的情况；同时，还需处理维基百科文本与维基数据知识之间的语义不一致性，并利用启发式方法剔除答案模糊或信息失配的样本，以保障数据的高质量与可靠性。

常用场景

经典使用场景

在机器阅读理解领域，2WikiMultiHopQA数据集被广泛用于评估模型的多跳推理能力。该数据集通过结合维基百科的结构化与非结构化数据，构建了包含比较、推断、组合及桥接比较四种问题类型的问答对，要求模型跨越多个文档段落进行逻辑推理以获取答案。其经典使用场景包括训练和测试端到端的神经网络模型，特别是在需要模型展示从问题到答案的完整推理路径时，该数据集提供了证据信息作为解释，从而深化对模型内部推理机制的理解。

衍生相关工作

2WikiMultiHopQA数据集衍生了一系列经典研究工作，主要集中在多跳推理模型的改进与可解释性增强方面。例如，基于该数据集的基线模型扩展了HotpotQA的架构，加入了证据生成组件，推动了如BERT等预训练模型在多跳任务上的适配与优化。后续研究进一步探索了逻辑规则集成、知识图谱融合及跨模态推理方法，如HybridQA结合表格与文本数据的工作便受其启发。这些衍生工作不仅丰富了多跳问答的技术栈，还为构建更稳健、可解释的人工智能系统奠定了理论基础。

数据集最近研究