LLM-KG-Bench 3.0

Name: LLM-KG-Bench 3.0
Creator: 德国莱比锡大学、德国弗莱贝格工业大学、德国人工智能研究中心
Published: 2025-05-19 21:29:27
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://github.com/AKSW/LLM-KG-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

LLM-KG-Bench 3.0是一个用于评估大型语言模型（LLM）在语义技术和知识图谱工程（KGE）方面能力的框架。它包括一套可扩展的任务，用于自动评估LLM的答案，并涵盖了使用语义技术的不同方面。LLM-KG-Bench 3.0框架已经得到了显著改进，包括更新的任务API，提供更大的灵活性来处理评估任务，修订的任务，以及通过vllm库扩展了对各种开放模型的支持。使用超过30个当代开放和专有LLM生成的综合数据集，可以创建示例模型卡，展示模型在处理RDF和SPARQL方面的能力，以及比较它们在Turtle和JSON-LD RDF序列化任务上的性能。

LLM-KG-Bench 3.0 is a framework for evaluating the capabilities of Large Language Models (LLMs) in the fields of semantic technology and Knowledge Graph Engineering (KGE). It includes a suite of scalable tasks for automated evaluation of LLM-generated outputs, covering diverse facets of semantic technology utilization. The LLM-KG-Bench 3.0 framework has been significantly enhanced, featuring updated task APIs that provide greater flexibility in managing evaluation tasks, revised tasks, and expanded support for a wide range of open models via the vllm library. Leveraging a comprehensive dataset compiled from over 30 contemporary open and proprietary LLMs, users can develop sample model cards that demonstrate models' proficiencies in handling RDF and SPARQL, and compare their performance across Turtle and JSON-LD RDF serialization tasks.

提供机构：

德国莱比锡大学、德国弗莱贝格工业大学、德国人工智能研究中心

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

LLM-KG-Bench 3.0数据集通过模块化和可扩展的框架构建，支持自动化评估任务，涵盖知识图谱提取和评估相关的多种辅助方法。该框架内置对话式修正循环，使大型语言模型（LLM）能够修正先前的错误，同时支持任务数据加密以防止测试数据泄露到LLM训练数据集中。任务配置、评估编排、日志记录和结果持久化均由框架统一管理，确保了评估过程的高效性和可重复性。

使用方法

使用LLM-KG-Bench 3.0数据集时，用户可通过框架配置任务和模型，运行基准测试并生成评估结果。数据集支持多种LLM连接器，包括OpenAI、Google Gemini和Anthropic Claude等，用户可根据需求选择模型进行评估。评估结果以多种格式（如JSON、YAML和Excel）输出，便于进一步分析和比较。用户还可利用内置的可视化工具生成图表，如箱线图和能力雷达图，以直观展示模型在不同任务中的表现。

背景与挑战

背景概述

LLM-KG-Bench 3.0是由德国InfAI、开姆尼茨工业大学、莱比锡大学及DFKI等机构的研究团队于2025年推出的知识图谱工程（KGE）评估框架。该数据集旨在系统评估大语言模型（LLMs）在语义网技术中的能力表现，覆盖RDF序列化、SPARQL查询生成等核心任务。作为ESWC 2025资源轨道收录的成果，其前身版本已逐步扩展任务类型至Turtle语法修复、图谱关系推理等方向，并通过vLLM库实现对30余种开源与商用模型的支持。该框架通过模块化设计解决了传统人工评估的扩展性问题，为语义技术与LLM融合研究提供了标准化测评工具。

当前挑战

领域挑战方面，LLM-KG-Bench 3.0需应对知识图谱工程中LLM能力的多维评估难题：1) RDF序列化格式（Turtle/JSON-LD）的语法纠错要求模型精准理解语义结构；2) SPARQL查询生成需平衡自然语言理解与形式化逻辑转换。构建挑战体现在：1) 自动化评估需设计抗干扰的对话循环机制，如三次修正迭代的Prompt-Answer-Evaluate流程；2) 加密任务数据防止测试泄露至训练集的技术实现；3) 跨模型比较时参数规模差异（0.5B-72B）带来的评估公平性问题。此外，结果可视化需开发新型雷达图（Capability Compass）以综合呈现模型在语法分析、查询语义等维度的异构得分。

常用场景

经典使用场景

LLM-KG-Bench 3.0作为语义技术评估的标杆工具，其经典使用场景集中在自动化测评大语言模型（LLMs）处理知识图谱工程（KGE）任务的能力。该框架通过标准化任务（如RDF语法修复、SPARQL查询生成）和多轮对话评估循环，系统性地量化不同LLMs在Turtle、JSON-LD等RDF序列化格式上的准确性与鲁棒性。例如，在RdfSyntaxFixList任务中，模型需修复含语法错误的RDF文档，并通过迭代反馈优化输出，这一过程被广泛用于比较GPT-4、Gemini等主流模型的语义解析能力。

解决学术问题

该数据集解决了语义Web领域两大核心问题：其一，填补了现有LLM评估框架（如HELM、Big-Bench）缺乏KGE专项测评的空白，通过自动化任务实现了对30余种开源与商用模型在RDF语法分析、SPARQL语义理解等维度的横向对比；其二，提出了加密任务数据与动态对话评估机制，有效防止测试数据污染训练集，同时通过多轮提示-应答循环提升了评估结果的可靠性。其标准化评分体系（如contentF1、brevity等指标）为学术界提供了可复现的模型能力量化基准。

实际应用

在实际应用中，LLM-KG-Bench 3.0被企业级知识图谱平台用于选型适配。例如，制药公司通过评估不同LLMs在Text2SPARQL任务中的表现，筛选出最适合将自然语言查询转换为结构化查询的模型；图书馆联盟则利用其RDF序列化修复能力优化元数据转换流程。框架提供的蜘蛛图可视化（Capability Compass）可直接支撑技术决策，如GPT-4o在JSON-LD处理上的显著优势已被多个数据集成项目验证。

数据集最近研究