five

ASPBench

收藏
arXiv2025-07-26 更新2025-07-30 收录
下载链接:
https://github.com/HomuraT/ASPBench
下载链接
链接失效反馈
官方服务:
资源简介:
ASPBench是一个全面的ASP基准数据集,由东南大学计算机科学与工程学院的学者提出,旨在评估大型语言模型在ASP推理任务上的能力。数据集包括三个特定于ASP的任务:ASP蕴涵、答案集验证和答案集计算。ASPBench支持多个答案集,更广泛的ASP运算符,并引入了三个不同的ASP评估任务。数据集由合成数据和来自公共来源的真实世界ASP程序组成,旨在填补当前LLM在ASP推理任务评估方面的空白。

ASPBench is a comprehensive ASP benchmark dataset proposed by scholars from the School of Computer Science and Engineering, Southeast University, aiming to evaluate the capabilities of large language models (LLMs) on ASP reasoning tasks. This dataset includes three ASP-specific tasks: ASP entailment, answer set validation, and answer set computation. ASPBench supports multiple answer sets, a wider range of ASP operators, and introduces three distinct ASP evaluation tasks. The dataset consists of synthetic data and real-world ASP programs sourced from public resources, with the purpose of filling the current gap in LLM evaluation for ASP reasoning tasks.
提供机构:
东南大学计算机科学与工程学院
创建时间:
2025-07-26
原始信息汇总

ASPBench数据集概述

数据集基本信息

  • 研究背景:源自KR2025会议论文《Can LLMs Solve ASP Problems? Insights from a Benchmarking Study》
  • 核心用途:评估大型语言模型(LLMs)解决Answer Set Programming(ASP)问题的能力

数据集生成流程

  1. 预处理阶段

    • 可选构建ConceptNet图(用于后续谓词修改)
    • 生成原始数据条目(支持并行/串行生成)
  2. 数据处理阶段

    • 合并原始数据文件
    • 清理结构相似重复项
    • 基于质量阈值筛选样本
  3. 格式转换阶段

    • 转换为DLV2求解器输入格式
    • 可能使用ConceptNet进行谓词和常量修改
  4. 子数据集构建

    • ASP蕴含子数据集
    • 答案集验证子数据集
    • 答案集计算子数据集
  5. 最终输出

    • 合并生成完整SymTex基准数据集
    • 可选文本化转换(符号→自然语言描述)
    • 统计计算功能

关键目录结构

  • 最终数据集目录:datasets/symtex_final
  • 文本化数据集目录:datasets/symtex_final_textual
  • 统计结果目录:experiments/symtex_statistic

规则类型说明

包含5类附加规则(a-e),特征如下:

类型 头部谓词 体部谓词构成 示例说明
a 目标谓词 仅含现有谓词 用于扩展目标谓词推理路径
b 现有谓词 必须包含目标谓词 建立现有谓词与目标的逆向关系
c 现有谓词 仅含其他现有谓词 增强现有谓词间的逻辑关联
d 混合新旧谓词 混合新旧谓词 引入新谓词扩展推理复杂度
e 新谓词 仅含其他新谓词 构建独立于原始结构的新推理链

评估体系

  • 三大任务评估
    1. ASP蕴含评估
    2. 答案集验证评估
    3. 答案集计算评估
  • 结果存储
    • 原始实验数据:experiments/各子目录
    • 统计结果:results/目录

使用限制

  • 生成参数互斥:min fact for queryadditional factsadditional rules最多同时启用两项

引用格式

bibtex @inproceedings{ren2025aspbench, title={Can LLMs Solve ASP Problems? Insights from a Benchmarking Study}, author={Ren, Lin and Xiao, Guohui and Qi, Guilin and Geng, Yishuai and Xue, Haohan}, booktitle={Proceedings of the 22nd International Conference on Principles of Knowledge Representation and Reasoning, KR}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
ASPBench的构建采用了一个系统化的三阶段生成流程,包括ASP图构建、ASP规则生成和ASPBench构造。首先,通过构建ASP图来表示逻辑依赖结构,控制推理深度和结构复杂性等关键属性。随后,将ASP图转化为具体且语法有效的ASP规则,并进行语法和安全检查及错误修复。最后,针对三个目标任务(ASP蕴含、答案集验证和答案集计算)构建符号化基准,并生成相应的文本样本。
特点
ASPBench是一个全面的ASP基准测试集,支持多种ASP操作符(如强否定、默认否定、析取和约束),并允许存在多个答案集。该数据集包含三个核心任务:ASP蕴含、答案集验证和答案集计算,涵盖了ASP推理的不同方面。此外,ASPBench不仅包含合成数据,还收集了来自公共资源的真实ASP程序,增强了数据集的多样性和复杂性。
使用方法
ASPBench可用于评估大型语言模型(LLMs)在ASP求解任务中的表现。用户可以通过三个核心任务(ASP蕴含、答案集验证和答案集计算)来测试模型的逻辑推理能力。数据集提供了符号化和文本化两种表示形式,用户可以根据需要选择合适的输入方式。此外,ASPBench还支持不同风格的谓词描述(如P-style标识符和ConceptNet相关概念),以研究谓词语义对模型推理的影响。
背景与挑战
背景概述
ASPBench是由东南大学计算机科学与工程学院的研究团队于2025年提出的一个专门用于评估大型语言模型(LLMs)在答案集编程(Answer Set Programming, ASP)领域解决问题能力的基准数据集。该数据集由Lin Ren、Guohui Xiao等学者开发,旨在填补现有评估方法在ASP领域的空白。ASP作为一种非单调逻辑编程范式,在知识表示和复杂问题求解方面具有独特优势。ASPBench的创建标志着对LLMs在逻辑推理能力评估方面的重要进展,特别是在处理多答案集、否定和析取等复杂ASP特性方面。该数据集已成为评估LLMs在符号推理和逻辑编程领域能力的重要工具。
当前挑战
ASPBench面临的主要挑战包括:1) 领域问题挑战:现有LLMs在ASP核心任务(如答案集计算)上表现不佳,特别是在处理多答案集、否定和析取等复杂ASP特性时;2) 构建过程挑战:需要生成具有多样性的ASP程序,同时确保程序语义正确性和复杂性控制,包括支持多种ASP操作符(强否定、默认否定、析取等)、处理多答案集场景,以及实现符号表示与文本描述之间的准确转换。此外,数据集还需要平衡合成程序与真实ASP程序的比例,以确保评估的全面性和实用性。
常用场景
经典使用场景
ASPBench数据集在逻辑编程和人工智能领域中被广泛用于评估大型语言模型(LLMs)在回答集编程(ASP)中的表现。该数据集通过提供多样化的ASP程序和任务,如ASP蕴含(ASE)、回答集验证(ASV)和回答集计算(ASC),帮助研究者测试模型在非单调推理任务中的能力。其经典使用场景包括验证模型在复杂逻辑规则下的推理能力,尤其是在涉及默认否定、强否定和多回答集的情况下。
实际应用
在实际应用中,ASPBench可用于开发和优化基于LLMs的逻辑推理系统,特别是在需要复杂知识表示和推理的领域,如自动规划、诊断系统和智能决策支持。例如,在医疗诊断中,ASPBench可以帮助评估模型是否能够基于不完整的医学知识库进行合理的诊断推理。此外,该数据集还可用于教育领域,测试和提升学生在逻辑编程和人工智能课程中的理解能力。
衍生相关工作
ASPBench的推出激发了多项相关研究,尤其是在LLMs与符号推理结合的方向上。例如,一些研究开始探索如何通过混合架构(如神经符号系统)来提升LLMs在ASP任务中的表现。此外,该数据集还促进了针对特定逻辑推理任务(如默认推理和信念修正)的模型优化工作。经典衍生工作包括LogicNMR和LogicBench,它们进一步扩展了非单调推理任务的评估范围,并为LLMs在复杂逻辑任务中的应用提供了新的基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作