MARCH
收藏github2026-04-11 更新2026-04-06 收录
下载链接:
https://github.com/jeonghyunpark2002/MARCH
下载链接
链接失效反馈官方服务:
资源简介:
MARCH是一个用于评估歧义解释和多跳推理交叉的基准数据集。它包含2,209个歧义多跳问题,涵盖语义、句法和约束三种歧义类型。每个示例提供歧义类型、每个解释的澄清问题、支持证据段落、每个解释的简短答案以及整合所有有效解释的合成长期答案。
MARCH is a benchmark dataset for evaluating the intersection of ambiguous interpretation and multi-hop reasoning. It contains 2,209 ambiguous multi-hop questions covering three types of ambiguity: semantic, syntactic, and constraint ambiguity. Each example includes the ambiguity type, clarification questions for each interpretation, supporting evidence paragraphs, short answers for each interpretation, and a synthetic long answer that integrates all valid interpretations.
创建时间:
2026-04-04
原始信息汇总
MARCH 数据集概述
数据集基本信息
- 数据集名称:MARCH (Multi-hop Ambiguity Reasoning CHain)
- 核心目标:评估歧义解释与多跳推理的交集。
- 数据来源:基于 MuSiQue 数据集衍生。
- 数据规模:包含 2,209 个模糊的多跳问题。
- 构建机构:忠南大学与 Adobe Research 合作构建。
数据集内容与结构
歧义类型
数据集涵盖三种歧义类型:
- 语义歧义:由同形异义词/别名或实体名称冲突引起。模型需进行解释。
- 句法歧义:由同一查询存在多个有效的句法解析引起。模型需进行消解。
- 约束歧义:查询过于具体,更宽泛的表述更能匹配意图。模型需进行泛化。
数据示例结构
每个数据示例包含以下信息:
- 歧义类型。
- 针对每种解释的澄清后问题。
- 支持证据段落。
- 针对每种解释的简短答案。
- 一个综合了所有有效解释的长篇答案。
文件位置
数据集主文件位于仓库的 dataset/MARCH.jsonl。
数据集构建与质量
构建流程
- 歧义检测与问题澄清:使用 4 个 LLM 进行全票同意检测,并生成澄清问题。
- 子问题分解与文档检索:对澄清后的问题进行分解,并从英文维基百科检索支持段落。
- 答案生成:生成简短答案和综合长篇答案。
- 过滤:经过多 LLM 和人工过滤,确保高质量。
质量验证
- 人工验证:由 5 位标注者对 60 个抽样实例进行验证。
- 一致性指标:Fleiss‘ κ 值最高达 0.95,表明标注者间一致性高。
- 验证内容:包括问题歧义性、澄清问题是否解决歧义、长篇答案是否匹配简短答案。
数据集统计信息
| 阶段/类型 | 语义歧义 | 句法歧义 | 约束歧义 | 总计 |
|---|---|---|---|---|
| 原始 MuSiQue 数据 | 24,834 | 24,834 | 24,834 | — |
| 检测与澄清后 | 9,544 | 8,642 | 11,703 | 29,889 |
| 答案生成后 | 7,034 | 6,675 | 8,433 | 22,142 |
| 过滤前 | 1,651 | 1,239 | 1,440 | 4,330 |
| 最终过滤后 | 734 | 739 | 736 | 2,209 |
- 平均跳数:语义 2.44, 句法 2.95, 约束 2.11。
- 平均问题长度:语义 14.92, 句法 18.17, 约束 16.18。
评估方法
评估基准
- CLARION:一个明确将歧义规划与证据驱动推理解耦的两阶段智能体框架。
- 基线方法:包括 NaiveRAG 和 ReAct。
评估指标
- STR-EM:严格精确匹配,黄金简短答案出现在生成长篇答案中的百分比。
- Disambig-F1:提取的片段与黄金简短答案之间的词元级 F1 分数。
- LLM-as-a-Judge:GPT-4.1 法官在相关性、忠实度、信息量、正确性上给出 0-5 分。
主要结果
| 模型 | 方法 | STR-EM | Disambig-F1 | 平均分 | LLM-Judge 分数 |
|---|---|---|---|---|---|
| Qwen3-235b | CLARION | 38.73 | 28.38 | 33.56 | 3.474 |
| Qwen3-235b | NaiveRAG | 25.10 | 26.20 | 25.65 | 2.752 |
| Qwen3-235b | ReAct | 20.98 | 21.00 | 20.99 | 2.832 |
使用与复现
数据获取
最终数据集已提供,可直接使用 dataset/MARCH.jsonl 文件。
完整流程复现
复现完整构建流程需要访问 OpenRouter API 和相应的预算。主要步骤包括:
- 下载原始 MuSiQue 数据。
- 运行三种歧义类型的检测与澄清脚本。
- 运行文档检索与答案生成脚本。
- 执行过滤步骤。
依赖环境
主要 Python 依赖包:torch, transformers, sentence-transformers, faiss-gpu, requests, tqdm, aiohttp, scikit-learn。如需本地模型推理,还需安装 vllm。
相关资源
- 论文地址:https://arxiv.org/abs/2509.22750
- 原始数据源:https://github.com/StonyBrookNLP/musique
- API 服务:https://openrouter.ai
搜集汇总
数据集介绍

构建方式
MARCH数据集的构建过程遵循严谨的四阶段流水线设计,旨在系统化地捕捉多跳推理中的歧义性。首先,研究团队从MuSiQue原始数据集中筛选出潜在的歧义问题,并借助四种大型语言模型进行全票同意的歧义检测与澄清问题生成,确保筛选的严格性。随后,针对每个澄清后的问题,利用GPT-4.1进行子问题分解,并从英文维基百科中检索相关证据段落,通过Qwen3-Embedding-8B模型进行重排序以提升相关性。在答案生成阶段,模型基于检索到的证据为每种解释生成简短答案,并综合所有有效解释合成最终的长篇答案。最后,通过多模型联合过滤与人工验证的双重机制,剔除不一致或低质量的样本,最终形成了包含2,209个高质量样本的基准数据集。
特点
MARCH数据集的核心特点在于其专注于多跳推理与歧义解释的交叉领域,系统覆盖了语义、句法和约束三种歧义类型。数据集中的每个样本均提供了清晰的歧义类型标注、针对不同解释的澄清问题、支持性证据段落、各解释对应的简短答案以及一个综合所有有效解释的长篇答案。这种结构化的设计使得该数据集能够细致评估模型在面临层次化不确定性时的推理能力。数据集的构建过程经过严格的多模型验证与人工标注,Fleiss' κ系数高达0.95,确保了标注的一致性与可靠性。此外,数据集的平均跳数在2至3之间,问题长度适中,体现了真实场景中多跳问题的复杂性。
使用方法
使用MARCH数据集时,研究人员可直接加载提供的JSONL格式文件,其中每个记录包含原始查询、歧义类型、澄清问题、支持文档及答案等结构化信息。该数据集主要用于评估大型语言模型在歧义性多跳推理任务上的性能,支持基于检索增强生成(RAG)的基线方法以及作者提出的CLARION代理框架。评估指标包括严格精确匹配(STR-EM)、去歧义F1分数(Disambig-F1)以及基于LLM的法官评分。用户可通过提供的脚本快速构建FAISS索引以加速检索,或直接使用实时维基百科搜索进行证据获取。数据集的配置参数可在工具文件中灵活调整,以适应不同的实验需求与计算环境。
背景与挑战
背景概述
在自然语言处理领域,多跳推理与歧义消解是提升模型认知深度的核心议题。MARCH数据集由忠南大学与Adobe研究院于2025年联合构建,旨在系统评估大型语言模型在复杂推理链中处理歧义的能力。该数据集源于MuSiQue多跳问答基准,通过多模型协同检测与人工标注,最终筛选出2,209个涵盖语义、句法和约束三类歧义的问题实例。其创新性在于首次将多跳推理中的层级化歧义显式建模,推动推理模型从单一路径决策转向多分支协同解析,为可解释人工智能的发展提供了关键评估框架。
当前挑战
MARCH数据集致力于解决多跳问答中歧义消解的核心挑战,即模型在复杂推理链中因过早固化单一解释而忽略替代路径的问题。构建过程中的挑战主要体现在歧义标注的可靠性保障,需通过四模型全票同意机制与人工验证(Fleiss' κ达0.95)确保标注一致性;同时,在文档检索阶段需平衡Wikipedia片段的相关性阈值与覆盖广度,并设计抗过拟合的过滤流程,避免生成式模型的自证偏差。这些挑战共同塑造了该数据集在推动稳健推理模型发展中的独特价值。
常用场景
经典使用场景
在自然语言处理领域,多跳推理与歧义解析的交叉研究正成为评估大语言模型认知深度的关键方向。MARCH数据集通过构建包含语义、句法和约束三类歧义的多跳问题,为模型提供了一个模拟现实世界复杂查询的测试平台。其经典使用场景在于系统评估模型在推理链中识别并处理层叠歧义的能力,要求模型避免过早承诺单一解释,而是并行探索多个有效推理路径,最终生成整合所有可能性的综合答案。
解决学术问题
该数据集主要解决了当前大语言模型在复杂推理任务中普遍存在的‘过早收敛’问题,即模型倾向于在歧义出现时过早修剪替代推理分支,导致答案不完整。通过提供精细标注的歧义类型与澄清问题,MARCH使得研究者能够定量分析模型在动态不确定性环境下的推理鲁棒性。其意义在于推动了多跳推理评估从单纯的事实检索向包含意图解析与不确定性管理的认知层面深化,为构建更可靠、更透明的推理系统奠定了基准。
衍生相关工作
围绕MARCH数据集,研究社区已衍生出若干经典工作。其作者团队提出的CLARION框架便是一个代表性成果,该两阶段智能体框架将歧义规划与证据驱动推理显式解耦,为处理此类问题提供了可复现的范式。此外,数据集本身源自MuSiQue的精心重构,也激励了后续研究进一步探索如何将歧义检测模块嵌入现有的检索增强生成管道,以及如何设计更精细的评估指标来衡量模型在多重解释间的平衡能力。
以上内容由遇见数据集搜集并总结生成



