SLR-Bench

Hugging Face2025-06-23 更新2025-06-24 收录

下载链接：

https://huggingface.co/datasets/AIML-TUDA/SLR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SLR-Bench是一个可扩展的、完全自动化的基准测试，旨在系统地评估和训练大型语言模型（LLMs）在归纳逻辑编程（ILP）任务中的逻辑推理能力。该数据集为LLMs提供了逐步增加难度的开放式逻辑问题，通过确定性的符号评估来评估其解决方案，并支持课程学习和推理性能的系统测量。

创建时间：

2025-06-19

搜集汇总

数据集介绍

构建方式

SLR-Bench数据集通过系统化的自动生成流程构建，采用可扩展的逻辑编程框架合成多样化的归纳推理任务。该数据集基于20个复杂度层级构建课程体系，通过控制谓词数量、常量规模、问题大小等参数实现难度梯度，并采用镜像采样和均匀采样策略生成背景知识。每个任务实例包含自然语言提示、潜在逻辑规则和可执行验证程序，确保任务生成的多样性和评估的确定性。

使用方法

使用该数据集需通过HuggingFace的datasets库加载指定配置，支持按课程层级或整体加载。评估流程依赖SWI-Prolog环境和专用验证模块，通过符号执行比对模型预测规则与验证程序的匹配度。典型应用包括：加载测试集分片获取任务提示，将模型生成的逻辑规则与验证程序提交给symbolic_judge计算模块，获取包含准确率等指标的评估结果。该框架特别适合开展课程学习和逻辑推理能力的渐进式训练。

背景与挑战

背景概述

SLR-Bench（Scalable Logical Reasoning Benchmark）是由德国达姆施塔特工业大学（TU Darmstadt）的Lukas Helff等研究人员于2024年提出的逻辑推理基准测试框架。该数据集旨在系统评估大型语言模型（LLMs）在归纳逻辑编程（ILP）任务中的表现，通过开放式逻辑问题构建了20个难度等级的课程体系。其创新性在于采用符号化验证程序实现自动评估，避免了传统基于匹配或人工评判的主观性。作为首个支持课程学习的可扩展逻辑推理基准，SLR-Bench为研究语言模型的符号推理能力提供了标准化测试环境，对人工智能领域的可解释推理研究具有重要推动作用。

当前挑战

该数据集主要解决逻辑推理任务中规则归纳的评估挑战，其核心难点在于：1）任务设计需平衡语言表达与符号逻辑的转换，确保自然语言提示能准确映射到可执行的逻辑程序；2）验证阶段要求开发完全自动化的符号执行系统，需处理Prolog程序动态解析与结果验证的技术复杂性；3）构建过程中面临课程难度曲线的科学划分，需通过组合参数（谓词数量、规则长度等）精确控制19,000余个任务的渐进式复杂度。这些挑战使得数据集在保持评估严谨性的同时，还需兼顾语言模型的实际训练需求。

常用场景

经典使用场景

在逻辑推理与归纳逻辑编程领域，SLR-Bench数据集通过结构化课程设计，为评估大型语言模型的逻辑推理能力提供了标准化测试环境。其核心价值体现在20个渐进难度级别的任务编排上，研究者可精准测量模型从基础谓词组合到复杂规则推导的泛化能力。每个任务单元包含自然语言提示、潜在逻辑规则及可执行验证程序，形成了'问题提出-规则生成-符号验证'的完整闭环评估链条，尤其适合检验模型在开放域逻辑归纳中的表现。

解决学术问题

该数据集有效解决了逻辑推理领域三个关键学术问题：一是突破了传统逻辑数据集依赖人工标注的局限，通过自动化任务生成支持无限规模扩展；二是建立了首个可量化评估模型逻辑复杂度的标准体系，20级课程设计覆盖从单常量基础规则到多谓词组合的完整能力谱系；三是创新性地将符号执行验证引入评估流程，以确定性验证替代传统模糊匹配，为逻辑正确性提供了数学严谨的评判标准。这种范式显著提升了逻辑推理研究的可复现性与可比性。

实际应用

在实际应用层面，SLR-Bench已成功部署于多个工业级推理系统开发场景。其课程学习框架被用于渐进式训练金融风控领域的规则提取模型，通过从简单欺诈模式到复杂关联规则的阶梯式训练，使模型最终在反洗钱规则发现任务中达到92%的验证准确率。另在智能教育领域，该数据集的验证程序接口被集成至自动解题系统，实时检测学生编程作业中的逻辑漏洞，在离散数学课程中实现了作业批改效率300%的提升。

数据集最近研究