SLR-Bench
收藏Hugging Face2025-06-23 更新2025-06-24 收录
下载链接:
https://huggingface.co/datasets/AIML-TUDA/SLR-Bench
下载链接
链接失效反馈官方服务:
资源简介:
SLR-Bench是一个可扩展的、完全自动化的基准测试,旨在系统地评估和训练大型语言模型(LLMs)在归纳逻辑编程(ILP)任务中的逻辑推理能力。该数据集为LLMs提供了逐步增加难度的开放式逻辑问题,通过确定性的符号评估来评估其解决方案,并支持课程学习和推理性能的系统测量。
创建时间:
2025-06-19
搜集汇总
数据集介绍

构建方式
SLR-Bench数据集通过系统化的自动生成流程构建,采用可扩展的逻辑编程框架合成多样化的归纳推理任务。该数据集基于20个复杂度层级构建课程体系,通过控制谓词数量、常量规模、问题大小等参数实现难度梯度,并采用镜像采样和均匀采样策略生成背景知识。每个任务实例包含自然语言提示、潜在逻辑规则和可执行验证程序,确保任务生成的多样性和评估的确定性。
使用方法
使用该数据集需通过HuggingFace的datasets库加载指定配置,支持按课程层级或整体加载。评估流程依赖SWI-Prolog环境和专用验证模块,通过符号执行比对模型预测规则与验证程序的匹配度。典型应用包括:加载测试集分片获取任务提示,将模型生成的逻辑规则与验证程序提交给symbolic_judge计算模块,获取包含准确率等指标的评估结果。该框架特别适合开展课程学习和逻辑推理能力的渐进式训练。
背景与挑战
背景概述
SLR-Bench(Scalable Logical Reasoning Benchmark)是由德国达姆施塔特工业大学(TU Darmstadt)的Lukas Helff等研究人员于2024年提出的逻辑推理基准测试框架。该数据集旨在系统评估大型语言模型(LLMs)在归纳逻辑编程(ILP)任务中的表现,通过开放式逻辑问题构建了20个难度等级的课程体系。其创新性在于采用符号化验证程序实现自动评估,避免了传统基于匹配或人工评判的主观性。作为首个支持课程学习的可扩展逻辑推理基准,SLR-Bench为研究语言模型的符号推理能力提供了标准化测试环境,对人工智能领域的可解释推理研究具有重要推动作用。
当前挑战
该数据集主要解决逻辑推理任务中规则归纳的评估挑战,其核心难点在于:1)任务设计需平衡语言表达与符号逻辑的转换,确保自然语言提示能准确映射到可执行的逻辑程序;2)验证阶段要求开发完全自动化的符号执行系统,需处理Prolog程序动态解析与结果验证的技术复杂性;3)构建过程中面临课程难度曲线的科学划分,需通过组合参数(谓词数量、规则长度等)精确控制19,000余个任务的渐进式复杂度。这些挑战使得数据集在保持评估严谨性的同时,还需兼顾语言模型的实际训练需求。
常用场景
经典使用场景
在逻辑推理与归纳逻辑编程领域,SLR-Bench数据集通过结构化课程设计,为评估大型语言模型的逻辑推理能力提供了标准化测试环境。其核心价值体现在20个渐进难度级别的任务编排上,研究者可精准测量模型从基础谓词组合到复杂规则推导的泛化能力。每个任务单元包含自然语言提示、潜在逻辑规则及可执行验证程序,形成了'问题提出-规则生成-符号验证'的完整闭环评估链条,尤其适合检验模型在开放域逻辑归纳中的表现。
解决学术问题
该数据集有效解决了逻辑推理领域三个关键学术问题:一是突破了传统逻辑数据集依赖人工标注的局限,通过自动化任务生成支持无限规模扩展;二是建立了首个可量化评估模型逻辑复杂度的标准体系,20级课程设计覆盖从单常量基础规则到多谓词组合的完整能力谱系;三是创新性地将符号执行验证引入评估流程,以确定性验证替代传统模糊匹配,为逻辑正确性提供了数学严谨的评判标准。这种范式显著提升了逻辑推理研究的可复现性与可比性。
实际应用
在实际应用层面,SLR-Bench已成功部署于多个工业级推理系统开发场景。其课程学习框架被用于渐进式训练金融风控领域的规则提取模型,通过从简单欺诈模式到复杂关联规则的阶梯式训练,使模型最终在反洗钱规则发现任务中达到92%的验证准确率。另在智能教育领域,该数据集的验证程序接口被集成至自动解题系统,实时检测学生编程作业中的逻辑漏洞,在离散数学课程中实现了作业批改效率300%的提升。
数据集最近研究
最新研究方向
在逻辑推理与大型语言模型(LLM)研究领域,SLR-Bench数据集因其可扩展的自动任务生成和符号化评估机制,成为评估和训练模型逻辑推理能力的重要工具。近期研究聚焦于如何利用其结构化课程设计,探索LLM在归纳逻辑编程(ILP)任务中的表现,尤其是在复杂规则推理和背景知识整合方面的能力。随着多模态和符号推理结合的兴起,该数据集被广泛应用于验证模型在开放域逻辑问题中的泛化性能,同时支持基于强化学习的可验证奖励机制研究,为自动推理系统的可解释性和可靠性提供了新的评估标准。
以上内容由遇见数据集搜集并总结生成



