LLM-KG-Bench 3.0

Name: LLM-KG-Bench 3.0
Creator: 德国莱比锡大学、德国弗莱贝格工业大学、德国人工智能研究中心
Published: 2025-05-19 21:29:27
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://github.com/AKSW/LLM-KG-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

LLM-KG-Bench 3.0是一个用于评估大型语言模型（LLM）在语义技术和知识图谱工程（KGE）方面能力的框架。它包括一套可扩展的任务，用于自动评估LLM的答案，并涵盖了使用语义技术的不同方面。LLM-KG-Bench 3.0框架已经得到了显著改进，包括更新的任务API，提供更大的灵活性来处理评估任务，修订的任务，以及通过vllm库扩展了对各种开放模型的支持。使用超过30个当代开放和专有LLM生成的综合数据集，可以创建示例模型卡，展示模型在处理RDF和SPARQL方面的能力，以及比较它们在Turtle和JSON-LD RDF序列化任务上的性能。

提供机构：

德国莱比锡大学、德国弗莱贝格工业大学、德国人工智能研究中心

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

LLM-KG-Bench 3.0数据集通过模块化和可扩展的框架构建，支持自动化评估任务，涵盖知识图谱提取和评估相关的多种辅助方法。该框架内置对话式修正循环，使大型语言模型（LLM）能够修正先前的错误，同时支持任务数据加密以防止测试数据泄露到LLM训练数据集中。任务配置、评估编排、日志记录和结果持久化均由框架统一管理，确保了评估过程的高效性和可重复性。

使用方法

使用LLM-KG-Bench 3.0数据集时，用户可通过框架配置任务和模型，运行基准测试并生成评估结果。数据集支持多种LLM连接器，包括OpenAI、Google Gemini和Anthropic Claude等，用户可根据需求选择模型进行评估。评估结果以多种格式（如JSON、YAML和Excel）输出，便于进一步分析和比较。用户还可利用内置的可视化工具生成图表，如箱线图和能力雷达图，以直观展示模型在不同任务中的表现。

背景与挑战

背景概述

LLM-KG-Bench 3.0是由德国InfAI、开姆尼茨工业大学、莱比锡大学及DFKI等机构的研究团队于2025年推出的知识图谱工程（KGE）评估框架。该数据集旨在系统评估大语言模型（LLMs）在语义网技术中的能力表现，覆盖RDF序列化、SPARQL查询生成等核心任务。作为ESWC 2025资源轨道收录的成果，其前身版本已逐步扩展任务类型至Turtle语法修复、图谱关系推理等方向，并通过vLLM库实现对30余种开源与商用模型的支持。该框架通过模块化设计解决了传统人工评估的扩展性问题，为语义技术与LLM融合研究提供了标准化测评工具。

当前挑战

领域挑战方面，LLM-KG-Bench 3.0需应对知识图谱工程中LLM能力的多维评估难题：1) RDF序列化格式（Turtle/JSON-LD）的语法纠错要求模型精准理解语义结构；2) SPARQL查询生成需平衡自然语言理解与形式化逻辑转换。构建挑战体现在：1) 自动化评估需设计抗干扰的对话循环机制，如三次修正迭代的Prompt-Answer-Evaluate流程；2) 加密任务数据防止测试泄露至训练集的技术实现；3) 跨模型比较时参数规模差异（0.5B-72B）带来的评估公平性问题。此外，结果可视化需开发新型雷达图（Capability Compass）以综合呈现模型在语法分析、查询语义等维度的异构得分。

常用场景

经典使用场景

LLM-KG-Bench 3.0作为语义技术评估的标杆工具，其经典使用场景集中在自动化测评大语言模型（LLMs）处理知识图谱工程（KGE）任务的能力。该框架通过标准化任务（如RDF语法修复、SPARQL查询生成）和多轮对话评估循环，系统性地量化不同LLMs在Turtle、JSON-LD等RDF序列化格式上的准确性与鲁棒性。例如，在RdfSyntaxFixList任务中，模型需修复含语法错误的RDF文档，并通过迭代反馈优化输出，这一过程被广泛用于比较GPT-4、Gemini等主流模型的语义解析能力。

解决学术问题

该数据集解决了语义Web领域两大核心问题：其一，填补了现有LLM评估框架（如HELM、Big-Bench）缺乏KGE专项测评的空白，通过自动化任务实现了对30余种开源与商用模型在RDF语法分析、SPARQL语义理解等维度的横向对比；其二，提出了加密任务数据与动态对话评估机制，有效防止测试数据污染训练集，同时通过多轮提示-应答循环提升了评估结果的可靠性。其标准化评分体系（如contentF1、brevity等指标）为学术界提供了可复现的模型能力量化基准。

实际应用

在实际应用中，LLM-KG-Bench 3.0被企业级知识图谱平台用于选型适配。例如，制药公司通过评估不同LLMs在Text2SPARQL任务中的表现，筛选出最适合将自然语言查询转换为结构化查询的模型；图书馆联盟则利用其RDF序列化修复能力优化元数据转换流程。框架提供的蜘蛛图可视化（Capability Compass）可直接支撑技术决策，如GPT-4o在JSON-LD处理上的显著优势已被多个数据集成项目验证。

数据集最近研究