CompoST
收藏arXiv2025-07-29 更新2025-08-08 收录
下载链接:
https://zenodo.org/records/16312742
下载链接
链接失效反馈官方服务:
资源简介:
CompoST数据集是一个用于测试大型语言模型(LLMs)在问答链接数据(QALD)场景下解读问题的组合系统性能力的基准。该数据集基于DBpedia中的图模式生成,共包含三个难度不同的数据集,用于测试LLMs解读结构复杂问题的能力。数据集通过控制方式创建,以评估LLMs在理解原子组成部分的情况下,解读复杂问题的能力。CompoST数据集旨在解决LLMs在系统性解读问题和将其映射到SPARQL查询方面的挑战。
The CompoST dataset is a benchmark designed to evaluate the compositional systematic capabilities of large language models (LLMs) when interpreting questions in the Question Answering over Linked Data (QALD) scenario. Generated based on the graph patterns from DBpedia, this dataset comprises three datasets with varying difficulty levels, all intended to test LLMs' ability to comprehend structurally complex questions. Constructed through a controlled approach, the dataset was created to assess LLMs' capacity to interpret complex questions by understanding their underlying atomic components. Ultimately, the CompoST dataset aims to address the challenges that LLMs face in systematically interpreting questions and mapping such questions to SPARQL queries.
提供机构:
比勒费尔德大学技术学院CITEC语义计算小组
创建时间:
2025-07-29
搜集汇总
数据集介绍

构建方式
CompoST数据集的构建采用了一种高度结构化的方法,旨在测试大型语言模型(LLMs)在问答链接数据(QALD)任务中的组合系统性能力。研究者首先生成了基于DBpedia中图模式的三个不同难度级别的数据集,并利用Lemon词典进行自然语言表达。数据集的创建过程严格控制,以确保测试LLMs在理解基本构建块后对结构复杂问题的解释能力。具体而言,通过生成具有不同深度和宽度的“叉状”图模式实例,并基于这些实例及其子图生成自然语言问题和对应的SPARQL查询对。
使用方法
CompoST数据集的使用方法包括零样本提示、少样本提示和微调实验。在零样本提示中,模型仅接收任务描述和输入问题;在少样本提示中,模型额外接收若干示例以帮助理解任务;在微调实验中,模型在特定任务上进行训练以优化其表现。数据集的评估基于宏F1分数和组合性F1分数,前者衡量模型在生成正确SPARQL查询方面的整体表现,后者则专门评估模型的组合系统性能力。实验结果可用于分析LLMs在组合推理方面的局限性及其在不同复杂度任务上的表现。
背景与挑战
背景概述
CompoST是由Bielefeld大学语义计算组的研究人员David Maria Schmidt、Raoul Schubert和Philipp Cimiano于2025年提出的一个基准数据集,旨在系统评估大型语言模型(LLMs)在问答链接数据(QALD)任务中的组合性解释能力。该数据集基于DBpedia知识图谱,通过精心设计的图模式和Lemon词典生成,专注于测试LLMs对复杂问题的结构化理解和SPARQL查询生成能力。CompoST的创建填补了现有QALD数据集在组合性系统测试方面的空白,为研究LLMs的组合推理能力提供了标准化评估框架。
当前挑战
CompoST面临的核心挑战包括:1) 领域问题挑战:LLMs在组合性解释复杂问题时表现不佳,特别是在需要将自然语言问题映射到结构化SPARQL查询的场景中,模型难以系统性地组合已知的基本构建块;2) 构建过程挑战:数据集创建需要精确控制图模式的深度和广度,确保子模式能完全覆盖目标模式的边集,同时通过Lemon词典实现自然语言表达的多样化,这对模式实例的生成和验证提出了较高要求。此外,数据集的划分策略(按边数比例划分训练/测试集)也增加了构建复杂度。
常用场景
经典使用场景
CompoST数据集专为评估大型语言模型(LLMs)在问答任务中的组合性能力而设计。其最经典的使用场景是在QALD(基于链接数据的问答)任务中,测试模型如何将自然语言问题转化为SPARQL查询。通过控制数据集的结构复杂性,研究者可以系统地分析模型在理解原子构建块后,对复杂问题的组合性解释能力。
解决学术问题
CompoST数据集解决了评估LLMs组合性能力的核心学术问题,特别是在问答任务中模型是否能够系统地组合已知的原子部分来理解复杂问题。通过生成不同难度的数据集,研究者可以量化模型在组合性方面的表现,填补了现有QALD任务中缺乏系统性评估的空白。
实际应用
在实际应用中,CompoST数据集可用于优化和评估问答系统,特别是在需要组合性推理的场景,如知识图谱查询和多跳问答。通过测试模型在生成SPARQL查询时的组合性能力,该数据集有助于提升问答系统在复杂查询中的准确性和鲁棒性。
数据集最近研究
最新研究方向
近年来,CompoST数据集在自然语言处理领域引起了广泛关注,特别是在评估大型语言模型(LLMs)的组合性理解能力方面。该数据集通过结构化的问题和SPARQL查询对,系统地测试了LLMs在问答任务中的组合性表现。研究热点集中在如何通过零样本提示、少样本提示和微调技术提升模型在复杂问题上的表现。前沿研究表明,尽管LLMs在原子问题上表现良好,但在组合性任务中仍存在显著局限性,尤其是在处理多跳或嵌套结构时。这一发现对知识图谱问答(QALD)任务的设计和优化具有重要启示,推动了更多关于模型组合性能力的深入研究和数据集开发。
相关研究论文
- 1CompoST: A Benchmark for Analyzing the Ability of LLMs To Compositionally Interpret Questions in a QALD Setting比勒费尔德大学技术学院CITEC语义计算小组 · 2025年
以上内容由遇见数据集搜集并总结生成



