SKA-Bench

Name: SKA-Bench
Creator: 浙江大学软件学院, 浙江大学计算机科学与技术学院, 浙江大学-蚂蚁集团知识图谱联合实验室, 蚂蚁集团
Published: 2025-07-23 11:52:24
License: 暂无描述

arXiv2025-07-23 更新2025-07-25 收录

下载链接：

https://github.com/Lza12a/SKA-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SKA-Bench是一个结构化知识增强问答数据集，旨在全面评估大型语言模型（LLMs）对结构化知识（如知识图谱和表格）的理解能力。该数据集包含921个实例，涵盖了四种广泛使用的结构化数据形式：知识图谱、表格、知识图谱+文本和表格+文本。SKA-Bench实例由一个问题、一个答案、正知识单元和噪声知识单元组成。为了评估LLMs在理解结构化知识方面的能力，我们将这些实例扩展为四个基本能力测试平台：噪声鲁棒性、顺序无关性、信息整合和负拒绝。通过在8个代表性LLMs上进行实证评估，我们发现现有的LLMs在理解结构化知识方面仍然面临重大挑战，其性能受到噪声量、知识单元顺序和幻觉现象等因素的影响。我们的数据集和代码可以在https://github.com/Lza12a/SKA-Bench上获取。

SKA-Bench is a structured knowledge-enhanced question answering dataset developed to comprehensively evaluate the ability of large language models (LLMs) to comprehend structured knowledge including knowledge graphs and tables. This dataset comprises 921 instances spanning four widely adopted structured data formats: knowledge graphs, tables, knowledge graphs combined with text, and tables combined with text. Each instance in SKA-Bench contains a question, an answer, positive knowledge units, and noisy knowledge units. To assess LLMs' proficiency in understanding structured knowledge, we expand these instances into four core capability testbeds: noise robustness, sequence irrelevance, information integration, and negative rejection. Through empirical evaluations conducted on eight representative LLMs, we discovered that existing LLMs still encounter substantial challenges in structured knowledge comprehension, with their performance influenced by factors such as the volume of noise, the order of knowledge units, and hallucination phenomena. Our dataset and code are publicly accessible at https://github.com/Lza12a/SKA-Bench.

提供机构：

浙江大学软件学院, 浙江大学计算机科学与技术学院, 浙江大学-蚂蚁集团知识图谱联合实验室, 蚂蚁集团

创建时间：

2025-07-23

原始信息汇总

SKA-Bench数据集概述

数据集简介

数据集名称：SKA-Bench
用途：用于评估大型语言模型（LLMs）在结构化知识理解方面的细粒度基准测试

环境配置

Python版本：3.9.0
依赖库：
- openai
- asyncio
- uvloop

测试集构建

测试类型

噪音鲁棒性
顺序不敏感性
信息整合

构建命令

bash python process_dataset.py --type KG --sequence random --scale 1k

参数说明

type：数据类型（如KG、Table等）
sequence：序列类型（如random、original等）
scale：数据规模（如1k、4k等）

负样本拒绝测试

bash python process_dataset.py --type Table --sequence original --scale 4k --negative_rejection negative_rejection python process_dataset.py --type KG --sequence random --scale 4k --negative_rejection negative_rejection python process_dataset.py --type Table+Text --sequence original --scale 16k --negative_rejection negative_rejection python process_dataset.py --type KG+Text --sequence random --scale 16k --negative_rejection negative_rejection

评估脚本

常规测试

bash python evaluate.py --type <type> --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/Table_original_42_4k.json

负样本拒绝测试

bash python evaluate_negative.py --type KG --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/KG_random_42_4k_negative_rejection.json python evaluate_negative.py --type Table --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/Table_original_42_4k_negative_rejection.json python evaluate_negative.py --type KG+Text --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/KG+Text_random_42_16k_negative_rejection.json python evaluate_negative.py --type Table+Text --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/Table+Text_original_42_16k_negative_rejection.json

参数说明

<type>：数据类型
<api_key>：API密钥
<api_url>：API地址
<model>：模型类型
dataset_dir：数据集路径

搜集汇总

数据集介绍

构建方式

SKA-Bench的构建采用了三阶段流程，包括问题-答案对的收集、正知识单元的迭代标注以及噪声单元的合成。首先，从多个现有结构化知识理解数据集中随机选取样本，涵盖知识图谱、表格及其与文本的混合形式。随后，通过专家标注确定每个问题的正知识单元，并利用大语言模型验证标注的合理性。最后，通过自动化方法合成噪声单元，确保其不影响原始答案的正确性。整个过程强调数据的多样性和复杂性，以全面评估大语言模型的结构化知识理解能力。

特点

SKA-Bench的特点在于其细粒度的评估框架和多样化的知识形式。数据集包含四种常见的结构化数据类型：知识图谱、表格、知识图谱与文本的混合以及表格与文本的混合。每个实例由问题、答案、正知识单元和噪声单元组成，支持构建四个基础能力测试集：噪声鲁棒性、顺序不敏感性、信息整合和负面拒绝。此外，数据集通过长结构化知识库和详细的推理路径标注，提供了对大语言模型能力的全面诊断。

使用方法

SKA-Bench的使用方法主要包括四个测试集的评估。在噪声鲁棒性测试中，通过引入不同比例的噪声单元，评估模型在噪声环境下的表现。顺序不敏感性测试通过改变知识单元的顺序，检验模型对顺序变化的适应能力。信息整合测试则关注模型整合多个知识单元或异构数据的能力。负面拒绝测试评估模型在面对无正知识单元时的拒绝能力。每个测试集均采用标准化的评估指标，如宏F1分数和拒绝率，确保评估的科学性和可比性。

背景与挑战

背景概述

SKA-Bench是由浙江大学与蚂蚁集团知识图谱联合实验室的研究团队于2023年提出的结构化知识理解评测基准。该数据集针对大语言模型在知识图谱、表格等结构化知识理解能力的系统性评估需求，创新性地整合了四种典型结构化知识形式（KG、Table、KG+Text、Table+Text），通过三阶段构建流程形成了包含921个问答实例的评测体系。其核心研究价值在于解决了现有评测方法在细粒度能力评估（噪声鲁棒性、顺序无关性等）和多模态知识融合测试方面的局限性，为揭示LLMs在复杂结构化知识理解中的瓶颈提供了标准化测量工具。

当前挑战

领域挑战方面，SKA-Bench需解决结构化知识特有的三大难题：1) 长距离依赖捕获（如跨多跳的知识图谱推理）；2) 异构数据融合（表格与文本的联合理解）；3) 噪声干扰下的精确推理。构建挑战体现在：1) 高质量正例知识单元标注需要专家级领域知识；2) 表格数据的语义完整性保持与噪声注入平衡；3) 多模态知识单元的逻辑关联验证。实验表明，即使GPT-4o等先进模型在24k令牌规模的噪声知识库上准确率仍下降38%，凸显了结构化知识理解的复杂性。

常用场景

经典使用场景

在自然语言处理领域，SKA-Bench数据集为评估大型语言模型（LLMs）对结构化知识（如知识图谱和表格）的理解能力提供了精细化的基准。该数据集通过包含四种广泛使用的结构化知识形式（KG、Table、KG+Text、Table+Text），并结合问题-回答对、正面知识单元和噪声知识单元，为研究者提供了一个全面的评估平台。其经典使用场景包括测试模型在噪声鲁棒性、顺序不敏感性、信息整合和负面拒绝等方面的能力。

实际应用

在实际应用中，SKA-Bench可用于优化金融报告分析、产品知识图谱查询等场景中LLMs的表现。例如，在金融领域，模型需要从包含大量表格和文本的混合数据中提取关键信息；在电子商务中，模型需理解产品知识图谱以回答复杂查询。通过在该数据集上的评估，开发者能够针对性地提升模型在真实场景中的鲁棒性和准确性。

衍生相关工作

SKA-Bench的构建借鉴了多种经典工作的设计思路，如WebQSP和CWQ（知识图谱问答）、WTQ和TableBench（表格问答）以及HybridQA和STaRK（混合数据问答）。这些工作为SKA-Bench提供了数据基础和评估框架。同时，该数据集进一步衍生出对LLMs在长上下文、异构数据整合等新能力的测试需求，推动了如DeepSeek-R1等模型在结构化知识理解领域的优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集