INABHYD
收藏arXiv2025-09-03 更新2025-11-24 收录
下载链接:
https://github.com/byrantwithyou/inabhyd/
下载链接
链接失效反馈官方服务:
资源简介:
INABHYD 数据集是一个可编程的合成数据集,旨在测试大型语言模型 (LLMs) 的归纳和演绎推理能力。每个推理示例都包含一个不完整的世界模型和一组观察结果,智能体需要根据不完整的世界模型生成假设来解释观察结果。该数据集使用第一阶逻辑表示,并包含虚构的世界模型和观察结果,以避免训练数据污染。
The INABHYD Dataset is a programmable synthetic dataset developed to evaluate the inductive and deductive reasoning abilities of large language models (LLMs). Each reasoning example comprises an incomplete world model and a set of observations, where the AI Agent must generate hypotheses based on the incomplete world model to account for these observations. This dataset is formulated using first-order logic, and incorporates fictional world models and observations to prevent training data contamination.
提供机构:
普渡大学计算机科学系
创建时间:
2025-09-03
搜集汇总
数据集介绍

构建方式
在人工智能推理研究领域,INABHYD数据集的构建采用编程化合成方法,通过一阶逻辑的本体树构建虚构世界模型。研究团队首先设计具有可控高度的本体树拓扑结构,每个节点分配虚构概念名称、属性和成员,形成完整的世界模型。随后通过两轮遍历标记隐藏公理作为真实假设,并生成足够复杂的观察数据以确保推理可行性。最后运用PRONTOQA的语法规则将逻辑形式转化为自然语言描述,确保数据集的表达规范性与评估实用性。
特点
该数据集在非演绎推理评估领域具有显著特征,其核心在于融合归纳与溯因推理的统一评估框架。通过虚构世界模型的设计有效规避训练数据污染问题,而高度可控的本体树结构使得推理难度可量化调节。数据集提供自然语言描述增强实际应用价值,并创新性地引入基于奥卡姆剃刀原理的假设质量评估指标。多假设场景的构建模拟真实推理环境,支持对语言模型推理能力的系统性诊断,为复杂推理任务提供精细化评估基准。
使用方法
在具体应用过程中,研究者可将数据集的自然语言描述作为用户提示输入语言模型,要求模型基于不完整世界模型和观察数据生成解释性假设。评估时采用三重指标:强准确度检验假设与真实答案的精确匹配,弱准确度验证假设对观察数据的解释能力,质量指标通过计算假设在证明树中的出现频次评估简洁性。该数据集支持零样本提示、上下文学习及强化学习验证奖励等多种实验设置,为探究语言模型推理机制提供标准化测试环境。
背景与挑战
背景概述
INABHYD数据集由普渡大学计算机科学系的Yunxin Sun与Abulhair Saparov于2025年提出,专注于评估大语言模型在归纳与溯因推理方面的能力。该数据集通过构建虚构世界模型和观察序列,要求模型生成假设以解释观察结果,填补了现有研究对非演绎推理能力评估的空白。其设计基于一阶逻辑表达,采用可编程合成方法生成数据,有效避免了训练数据污染问题,为人工智能推理研究提供了重要工具。
当前挑战
INABHYD数据集面临的挑战主要涉及两个方面:在领域问题层面,模型需在复杂本体树结构和多重假设场景下生成符合奥卡姆剃刀原则的高质量假设,而当前模型在复杂推理中准确率显著下降;在构建过程中,需平衡虚构世界模型的表达力与自然语言转换的准确性,同时确保观察数据既能支持推理又避免信息冗余,这对生成算法的可控性与泛化能力提出了较高要求。
常用场景
经典使用场景
在人工智能推理研究领域,INABHYD数据集作为评估大语言模型归纳与溯因推理能力的基准工具,其经典应用体现在系统测试模型在虚构世界模型下的假设生成能力。通过构建包含不完整本体树和观察集合的推理实例,研究者能够精确衡量模型从有限信息中推导出合理解释的效能,特别是在处理复杂本体结构和多重假设场景时,该数据集展现出独特的评估价值。
解决学术问题
该数据集有效解决了当前大语言模型研究中非演绎推理能力评估缺失的核心问题。传统研究过度聚焦于演绎推理,而INABHYD通过可编程合成数据生成机制,填补了归纳与溯因推理系统性评估的空白。其引入的基于奥卡姆剃刀原理的假设质量度量标准,为量化推理结果的简洁性与解释力提供了创新方法论,推动了人工智能推理研究向更全面维度发展。
衍生相关工作
基于INABHYD数据集的研究催生了多个重要衍生工作。在推理增强技术方面,研究者探索了情境学习与可验证奖励强化学习在非演绎推理任务中的迁移效果;在模型架构层面,推动了具备自我验证机制的推理模型发展;同时激发了针对高阶逻辑表达能力的扩展研究,为构建更复杂的世界模型与推理链条开辟了新方向。
以上内容由遇见数据集搜集并总结生成



