five

LLM-KG-Bench 3.0

收藏
arXiv2025-05-19 更新2025-05-21 收录
下载链接:
https://github.com/AKSW/LLM-KG-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
LLM-KG-Bench 3.0是一个用于评估大型语言模型(LLM)在语义技术和知识图谱工程(KGE)方面能力的框架。它包括一套可扩展的任务,用于自动评估LLM的答案,并涵盖了使用语义技术的不同方面。LLM-KG-Bench 3.0框架已经得到了显著改进,包括更新的任务API,提供更大的灵活性来处理评估任务,修订的任务,以及通过vllm库扩展了对各种开放模型的支持。使用超过30个当代开放和专有LLM生成的综合数据集,可以创建示例模型卡,展示模型在处理RDF和SPARQL方面的能力,以及比较它们在Turtle和JSON-LD RDF序列化任务上的性能。
提供机构:
德国莱比锡大学、德国弗莱贝格工业大学、德国人工智能研究中心
创建时间:
2025-05-19
搜集汇总
数据集介绍
main_image_url
构建方式
LLM-KG-Bench 3.0数据集通过模块化和可扩展的框架构建,支持自动化评估任务,涵盖知识图谱提取和评估相关的多种辅助方法。该框架内置对话式修正循环,使大型语言模型(LLM)能够修正先前的错误,同时支持任务数据加密以防止测试数据泄露到LLM训练数据集中。任务配置、评估编排、日志记录和结果持久化均由框架统一管理,确保了评估过程的高效性和可重复性。
使用方法
使用LLM-KG-Bench 3.0数据集时,用户可通过框架配置任务和模型,运行基准测试并生成评估结果。数据集支持多种LLM连接器,包括OpenAI、Google Gemini和Anthropic Claude等,用户可根据需求选择模型进行评估。评估结果以多种格式(如JSON、YAML和Excel)输出,便于进一步分析和比较。用户还可利用内置的可视化工具生成图表,如箱线图和能力雷达图,以直观展示模型在不同任务中的表现。
背景与挑战
背景概述
LLM-KG-Bench 3.0是由德国InfAI、开姆尼茨工业大学、莱比锡大学及DFKI等机构的研究团队于2025年推出的知识图谱工程(KGE)评估框架。该数据集旨在系统评估大语言模型(LLMs)在语义网技术中的能力表现,覆盖RDF序列化、SPARQL查询生成等核心任务。作为ESWC 2025资源轨道收录的成果,其前身版本已逐步扩展任务类型至Turtle语法修复、图谱关系推理等方向,并通过vLLM库实现对30余种开源与商用模型的支持。该框架通过模块化设计解决了传统人工评估的扩展性问题,为语义技术与LLM融合研究提供了标准化测评工具。
当前挑战
领域挑战方面,LLM-KG-Bench 3.0需应对知识图谱工程中LLM能力的多维评估难题:1) RDF序列化格式(Turtle/JSON-LD)的语法纠错要求模型精准理解语义结构;2) SPARQL查询生成需平衡自然语言理解与形式化逻辑转换。构建挑战体现在:1) 自动化评估需设计抗干扰的对话循环机制,如三次修正迭代的Prompt-Answer-Evaluate流程;2) 加密任务数据防止测试泄露至训练集的技术实现;3) 跨模型比较时参数规模差异(0.5B-72B)带来的评估公平性问题。此外,结果可视化需开发新型雷达图(Capability Compass)以综合呈现模型在语法分析、查询语义等维度的异构得分。
常用场景
经典使用场景
LLM-KG-Bench 3.0作为语义技术评估的标杆工具,其经典使用场景集中在自动化测评大语言模型(LLMs)处理知识图谱工程(KGE)任务的能力。该框架通过标准化任务(如RDF语法修复、SPARQL查询生成)和多轮对话评估循环,系统性地量化不同LLMs在Turtle、JSON-LD等RDF序列化格式上的准确性与鲁棒性。例如,在RdfSyntaxFixList任务中,模型需修复含语法错误的RDF文档,并通过迭代反馈优化输出,这一过程被广泛用于比较GPT-4、Gemini等主流模型的语义解析能力。
解决学术问题
该数据集解决了语义Web领域两大核心问题:其一,填补了现有LLM评估框架(如HELM、Big-Bench)缺乏KGE专项测评的空白,通过自动化任务实现了对30余种开源与商用模型在RDF语法分析、SPARQL语义理解等维度的横向对比;其二,提出了加密任务数据与动态对话评估机制,有效防止测试数据污染训练集,同时通过多轮提示-应答循环提升了评估结果的可靠性。其标准化评分体系(如contentF1、brevity等指标)为学术界提供了可复现的模型能力量化基准。
实际应用
在实际应用中,LLM-KG-Bench 3.0被企业级知识图谱平台用于选型适配。例如,制药公司通过评估不同LLMs在Text2SPARQL任务中的表现,筛选出最适合将自然语言查询转换为结构化查询的模型;图书馆联盟则利用其RDF序列化修复能力优化元数据转换流程。框架提供的蜘蛛图可视化(Capability Compass)可直接支撑技术决策,如GPT-4o在JSON-LD处理上的显著优势已被多个数据集成项目验证。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在知识图谱工程(KGE)领域的广泛应用,LLM-KG-Bench 3.0框架的最新研究聚焦于自动化评估LLMs在语义技术任务中的表现。该框架通过扩展任务集、优化任务API以及支持加密任务数据,显著提升了评估的灵活性和安全性。前沿研究方向包括RDF和SPARQL相关任务的自动化评估,如RDF语法修复、SPARQL查询生成等。此外,框架还引入了能力罗盘可视化工具,为模型性能提供直观的多维度分析。这一研究填补了现有LLM评估框架在知识图谱工程领域的空白,为语义技术的实际应用提供了重要参考。
相关研究论文
  • 1
    LLM-KG-Bench 3.0: A Compass for SemanticTechnology Capabilities in the Ocean of LLMs德国莱比锡大学、德国弗莱贝格工业大学、德国人工智能研究中心 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作