Omanic

Name: Omanic
Creator: 东京大学; 耶鲁大学; 斯坦福大学; 小米EV; 崇实大学
Published: 2026-03-17 23:23:37
License: 暂无描述

arXiv2026-03-17 更新2026-03-19 收录

下载链接：

https://huggingface.co/datasets/li-lab/Omanic

下载链接

链接失效反馈

官方服务：

资源简介：

Omanic是由东京大学等机构联合构建的开放领域多跳问答基准数据集，包含10,296条机器生成的训练样本和967条专家评审的测试样本。该数据集通过结构化标注（分解的子问题及中间答案）支持逐步推理分析，覆盖8个知识领域并嵌入数学推理环节。数据来源于MuSiQue的2跳问题扩展和Wikidata知识图谱，经过严格的自动过滤和人工审核流程。其核心价值在于诊断大语言模型在多跳推理中的知识依赖和错误传播现象，适用于复杂推理能力评估与提升研究。

Omanic is an open-domain multi-hop question answering benchmark dataset jointly constructed by The University of Tokyo and other institutions. It includes 10,296 machine-generated training samples and 967 expert-reviewed test samples. This dataset supports step-by-step reasoning analysis via structured annotations, which cover decomposed sub-questions and intermediate answers. It spans 8 knowledge domains and incorporates mathematical reasoning components. The data is derived from the 2-hop question expansion of MuSiQue and the Wikidata knowledge graph, and has undergone strict automatic filtering and manual review procedures. Its core value lies in diagnosing the knowledge dependence and error propagation phenomena of large language models (LLMs) in multi-hop reasoning, and it is applicable to research on complex reasoning capability evaluation and improvement.

提供机构：

东京大学; 耶鲁大学; 斯坦福大学; 小米EV; 崇实大学

创建时间：

2026-03-17

原始信息汇总

数据集概述

数据集标识

数据集名称: Omanic
托管平台: Hugging Face Datasets
唯一地址: https://huggingface.co/datasets/li-lab/Omanic
许可证: MIT License

数据集配置与结构

数据集采用单一默认配置（config_name: default），数据通过两个独立的JSON Lines文件提供，每个文件对应一个特定的数据划分。

数据文件划分

OmanicSynth
- 文件路径: OmanicSynth.jsonl
- 说明: 该文件包含名为“OmanicSynth”的数据划分。
OmanicBench
- 文件路径: OmanicBench.jsonl
- 说明: 该文件包含名为“OmanicBench”的数据划分。

数据格式

主要格式: JSON Lines (.jsonl)
说明: 每个数据文件均为JSON Lines格式，即每行是一个独立的JSON对象。

搜集汇总

数据集介绍

构建方式

在大型语言模型推理能力评估领域，现有基准常缺乏对中间推理步骤的细粒度标注。为填补这一空白，Omanic数据集通过结构化流程构建。其基础源自MuSiQue数据集的答案，并以此在Wikidata5M知识图谱中检索三元组作为构建模块。随后，利用大模型在领域约束与推理图拓扑的指导下，合成新的单跳问题，并与原始组件融合以构建四跳查询。为确保数据质量与难度，合成后的数据经过基于多模型集成的自动化过滤，移除了过于简单的实例。最终，专家团队对候选评估集进行了超过300小时的人工审核与修正，确保了事实准确性、逻辑连贯性与推理完整性。

特点

Omanic数据集的核心特点在于其专为诊断多跳推理过程而设计的结构化标注。每个四跳问题均被分解为四个跨领域的单跳子问题，并提供了中间答案，形成了清晰的推理链监督信号。数据集包含10,296个机器生成的训练实例与967个专家审核的评估实例，确保了规模与质量的平衡。其问题设计融合了事实推理与数学运算，并遵循桥接、链式和汇聚三种不同的推理图拓扑，有效防止了模型通过捷径获取答案。系统性评估表明，即使是顶尖大模型在该基准上的多项选择准确率也仅为73.11%，证实了其挑战性。

使用方法

Omanic数据集主要用于评估和提升大型语言模型的多步推理能力。研究者可利用其提供的分解式子问题与中间答案，对模型的推理链进行逐步诊断，分析错误在何时何处发生。具体而言，OmanicBench评估集可用于衡量模型在开放域多跳问答任务上的端到端性能，并通过其细粒度标注深入探究知识门槛效应与错误传播现象。同时，OmanicSynth训练集可用于对有监督微调进行监督，实验表明其能有效将推理能力迁移至其他数学与逻辑推理基准。数据集的发布为理解模型组合推理的脆弱性与知识依赖提供了关键工具。

背景与挑战

背景概述

随着大型语言模型在复杂推理任务上的能力日益成熟，如何精确评估其多步推理过程成为自然语言处理领域的关键挑战。现有基准测试通常仅关注最终答案的准确性，缺乏对中间推理步骤的细粒度诊断能力。为填补这一空白，由东京大学、耶鲁大学、斯坦福大学等机构的研究人员于2026年共同构建了Omanic数据集。该数据集旨在通过提供结构化的子问题与中间答案标注，为开放域多跳问答任务建立可诊断的评估基准，从而深入探究模型在知识检索与逻辑推理分离性上的表现，推动可解释推理模型的发展。

当前挑战

Omanic数据集致力于解决多跳推理评估中的核心挑战，即如何区分模型是凭借真正的组合式推理还是利用启发式捷径获得正确答案。其构建过程面临双重困难：在领域问题层面，需要设计跨越多个知识领域且包含数学推理的复杂四跳问题，确保每个推理步骤不可或缺，防止模型通过模式匹配或常识猜测绕过中间逻辑。在构建技术层面，挑战在于从现有知识图谱中自动合成高质量、逻辑连贯的推理链，并辅以严格的人工专家审核来保证事实准确性、干扰项迷惑性以及整体逻辑完整性，这一过程耗费超过300人时，最终从大量候选实例中筛选出967个高质量评估样本。

常用场景

经典使用场景

在大型语言模型推理能力评估领域，Omanic数据集被广泛用于多跳推理过程的精细化诊断。该数据集通过提供分解的子问题与中间答案，为研究者揭示了模型在复杂推理链中的具体表现。例如，在评估链式思维提示策略时，研究者能够依据数据集的步进标注，精确识别模型在知识检索、逻辑组合或数学计算等环节的薄弱点，从而深入探究推理能力的本质。

解决学术问题

Omanic数据集主要解决了多跳推理评估中缺乏步进监督的学术难题。传统基准如HotpotQA仅关注最终答案的准确性，难以区分模型是依靠真实推理还是启发式捷径。Omanic通过结构化标注，使得研究者能够量化知识地板效应与错误传播现象，即探究思维链增益对事实完整性的依赖程度以及推理错误在后续跳数中的放大机制。这为理解语言模型中推理与知识检索的可分离性提供了实证基础。

衍生相关工作

Omanic的推出促进了多跳推理诊断与增强的一系列经典研究。基于其步进标注框架，后续工作可深入探索推理链的拓扑结构对模型表现的影响，或设计针对错误传播的纠正机制。同时，该数据集启发了类似CofCA等基准在反事实推理评估方面的发展，并为SynthWorlds等可控合成环境提供了构建思路，共同推动了对语言模型推理行为更细致、更可解释的分析范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集