five

SKA-Bench|自然语言处理数据集|知识图谱数据集

收藏
arXiv2025-07-23 更新2025-07-25 收录
自然语言处理
知识图谱
下载链接:
https://github.com/Lza12a/SKA-Bench
下载链接
链接失效反馈
资源简介:
SKA-Bench是一个结构化知识增强问答数据集,旨在全面评估大型语言模型(LLMs)对结构化知识(如知识图谱和表格)的理解能力。该数据集包含921个实例,涵盖了四种广泛使用的结构化数据形式:知识图谱、表格、知识图谱+文本和表格+文本。SKA-Bench实例由一个问题、一个答案、正知识单元和噪声知识单元组成。为了评估LLMs在理解结构化知识方面的能力,我们将这些实例扩展为四个基本能力测试平台:噪声鲁棒性、顺序无关性、信息整合和负拒绝。通过在8个代表性LLMs上进行实证评估,我们发现现有的LLMs在理解结构化知识方面仍然面临重大挑战,其性能受到噪声量、知识单元顺序和幻觉现象等因素的影响。我们的数据集和代码可以在https://github.com/Lza12a/SKA-Bench上获取。
提供机构:
浙江大学软件学院, 浙江大学计算机科学与技术学院, 浙江大学-蚂蚁集团知识图谱联合实验室, 蚂蚁集团
创建时间:
2025-07-23
原始信息汇总

SKA-Bench数据集概述

数据集简介

  • 数据集名称:SKA-Bench
  • 用途:用于评估大型语言模型(LLMs)在结构化知识理解方面的细粒度基准测试

环境配置

  • Python版本:3.9.0
  • 依赖库:
    • openai
    • asyncio
    • uvloop

测试集构建

测试类型

  1. 噪音鲁棒性
  2. 顺序不敏感性
  3. 信息整合

构建命令

bash python process_dataset.py --type KG --sequence random --scale 1k

参数说明

  • type:数据类型(如KG、Table等)
  • sequence:序列类型(如random、original等)
  • scale:数据规模(如1k、4k等)

负样本拒绝测试

bash python process_dataset.py --type Table --sequence original --scale 4k --negative_rejection negative_rejection python process_dataset.py --type KG --sequence random --scale 4k --negative_rejection negative_rejection python process_dataset.py --type Table+Text --sequence original --scale 16k --negative_rejection negative_rejection python process_dataset.py --type KG+Text --sequence random --scale 16k --negative_rejection negative_rejection

评估脚本

常规测试

bash python evaluate.py --type <type> --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/Table_original_42_4k.json

负样本拒绝测试

bash python evaluate_negative.py --type KG --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/KG_random_42_4k_negative_rejection.json python evaluate_negative.py --type Table --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/Table_original_42_4k_negative_rejection.json python evaluate_negative.py --type KG+Text --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/KG+Text_random_42_16k_negative_rejection.json python evaluate_negative.py --type Table+Text --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/Table+Text_original_42_16k_negative_rejection.json

参数说明

  • <type>:数据类型
  • <api_key>:API密钥
  • <api_url>:API地址
  • <model>:模型类型
  • dataset_dir:数据集路径
AI搜集汇总
数据集介绍
main_image_url
构建方式
SKA-Bench的构建采用了三阶段流程,包括问题-答案对的收集、正知识单元的迭代标注以及噪声单元的合成。首先,从多个现有结构化知识理解数据集中随机选取样本,涵盖知识图谱、表格及其与文本的混合形式。随后,通过专家标注确定每个问题的正知识单元,并利用大语言模型验证标注的合理性。最后,通过自动化方法合成噪声单元,确保其不影响原始答案的正确性。整个过程强调数据的多样性和复杂性,以全面评估大语言模型的结构化知识理解能力。
特点
SKA-Bench的特点在于其细粒度的评估框架和多样化的知识形式。数据集包含四种常见的结构化数据类型:知识图谱、表格、知识图谱与文本的混合以及表格与文本的混合。每个实例由问题、答案、正知识单元和噪声单元组成,支持构建四个基础能力测试集:噪声鲁棒性、顺序不敏感性、信息整合和负面拒绝。此外,数据集通过长结构化知识库和详细的推理路径标注,提供了对大语言模型能力的全面诊断。
使用方法
SKA-Bench的使用方法主要包括四个测试集的评估。在噪声鲁棒性测试中,通过引入不同比例的噪声单元,评估模型在噪声环境下的表现。顺序不敏感性测试通过改变知识单元的顺序,检验模型对顺序变化的适应能力。信息整合测试则关注模型整合多个知识单元或异构数据的能力。负面拒绝测试评估模型在面对无正知识单元时的拒绝能力。每个测试集均采用标准化的评估指标,如宏F1分数和拒绝率,确保评估的科学性和可比性。
背景与挑战
背景概述
SKA-Bench是由浙江大学与蚂蚁集团知识图谱联合实验室的研究团队于2023年提出的结构化知识理解评测基准。该数据集针对大语言模型在知识图谱、表格等结构化知识理解能力的系统性评估需求,创新性地整合了四种典型结构化知识形式(KG、Table、KG+Text、Table+Text),通过三阶段构建流程形成了包含921个问答实例的评测体系。其核心研究价值在于解决了现有评测方法在细粒度能力评估(噪声鲁棒性、顺序无关性等)和多模态知识融合测试方面的局限性,为揭示LLMs在复杂结构化知识理解中的瓶颈提供了标准化测量工具。
当前挑战
领域挑战方面,SKA-Bench需解决结构化知识特有的三大难题:1) 长距离依赖捕获(如跨多跳的知识图谱推理);2) 异构数据融合(表格与文本的联合理解);3) 噪声干扰下的精确推理。构建挑战体现在:1) 高质量正例知识单元标注需要专家级领域知识;2) 表格数据的语义完整性保持与噪声注入平衡;3) 多模态知识单元的逻辑关联验证。实验表明,即使GPT-4o等先进模型在24k令牌规模的噪声知识库上准确率仍下降38%,凸显了结构化知识理解的复杂性。
常用场景
经典使用场景
在自然语言处理领域,SKA-Bench数据集为评估大型语言模型(LLMs)对结构化知识(如知识图谱和表格)的理解能力提供了精细化的基准。该数据集通过包含四种广泛使用的结构化知识形式(KG、Table、KG+Text、Table+Text),并结合问题-回答对、正面知识单元和噪声知识单元,为研究者提供了一个全面的评估平台。其经典使用场景包括测试模型在噪声鲁棒性、顺序不敏感性、信息整合和负面拒绝等方面的能力。
实际应用
在实际应用中,SKA-Bench可用于优化金融报告分析、产品知识图谱查询等场景中LLMs的表现。例如,在金融领域,模型需要从包含大量表格和文本的混合数据中提取关键信息;在电子商务中,模型需理解产品知识图谱以回答复杂查询。通过在该数据集上的评估,开发者能够针对性地提升模型在真实场景中的鲁棒性和准确性。
衍生相关工作
SKA-Bench的构建借鉴了多种经典工作的设计思路,如WebQSP和CWQ(知识图谱问答)、WTQ和TableBench(表格问答)以及HybridQA和STaRK(混合数据问答)。这些工作为SKA-Bench提供了数据基础和评估框架。同时,该数据集进一步衍生出对LLMs在长上下文、异构数据整合等新能力的测试需求,推动了如DeepSeek-R1等模型在结构化知识理解领域的优化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Chinese-Poetry-Corpus

本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。

github 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录