Text2KGBench
收藏github2024-05-06 更新2024-05-31 收录
下载链接:
https://github.com/cenguix/Text2KGBench
下载链接
链接失效反馈官方服务:
资源简介:
Text2KGBench是一个基准,用于评估语言模型在遵循特定本体的情况下,从自然语言文本生成知识图谱的能力。该基准包含两个数据集:Wikidata-TekGen和DBpedia-WebNLG,分别包含10个和19个本体以及相应的文本句子。
Text2KGBench is a benchmark designed to evaluate the capability of language models in generating knowledge graphs from natural language texts while adhering to specific ontologies. This benchmark comprises two datasets: Wikidata-TekGen and DBpedia-WebNLG, which include 10 and 19 ontologies respectively, along with corresponding textual sentences.
创建时间:
2023-04-07
原始信息汇总
数据集概述
数据集名称
- Text2KGBench: Benchmark for Ontology-Driven Knowledge Graph Generation from Text
数据集内容
- Wikidata-TekGen: 包含10个本体和13,474个句子。
- DBpedia-WebNLG: 包含19个本体和4,860个句子。
数据集结构
-
Wikidata-TekGen
- ontologies: 包含10个本体。
- train: 训练数据。
- test: 测试数据。
- manually_verified_sentences: 手动验证的测试案例ID。
- unseen_sentences: 新增的非Wikipedia句子。
- test unseen: 测试未见句子。
- ground_truth: 未见测试句子的真实数据。
- ground_truth: 测试数据的真实数据。
- baselines: 基准相关数据。
- test_train_sent_similarity: 每个测试案例的5个最相似训练句子。
- prompts: 对应每个测试文件的提示。
- unseen prompts: 未见测试案例的提示。
- Alpaca-LoRA-13B: Alpaca-LoRA模型相关数据。
- llm_responses: 原始LLM响应和提取的三元组。
- eval_metrics: 本体级别和聚合评估结果。
- unseen results: 未见测试案例的结果。
- llm_responses: 未见测试案例的原始LLM响应和提取的三元组。
- eval_metrics: 未见测试案例的本体级别和聚合评估结果。
- Vicuna-13B: Vicuna-13B模型相关数据。
- llm_responses: 原始LLM响应和提取的三元组。
- eval_metrics: 本体级别和聚合评估结果。
-
DBpedia-WebNLG
- ontologies: 包含19个本体。
- train: 训练数据。
- test: 测试数据。
- ground_truth: 测试数据的真实数据。
- baselines: 基准相关数据。
- test_train_sent_similarity: 每个测试案例的5个最相似训练句子。
- prompts: 对应每个测试文件的提示。
- Alpaca-LoRA-13B: Alpaca-LoRA模型相关数据。
- llm_responses: 原始LLM响应和提取的三元组。
- eval_metrics: 本体级别和聚合评估结果。
- Vicuna-13B: Vicuna-13B模型相关数据。
- llm_responses: 原始LLM响应和提取的三元组。
- eval_metrics: 本体级别和聚合评估结果。
数据集许可
- 数据集发布在Creative Commons Attribution-ShareAlike 4.0 International (CC BY 4.0) License下。
搜集汇总
数据集介绍

构建方式
Text2KGBench数据集的构建基于两个主要来源:Wikidata-TekGen和DBpedia-WebNLG。Wikidata-TekGen包含10个本体和13,474个句子,而DBpedia-WebNLG则包含19个本体和4,860个句子。数据集的构建过程涉及从自然语言文本中提取事实,并确保这些事实符合给定的本体(包括概念、关系和域/范围约束)。此外,数据集还包括手动验证的句子集和未见过的句子集,以增强其多样性和实用性。
特点
Text2KGBench数据集的主要特点在于其结合了本体驱动的知识图谱生成任务,使得语言模型在生成知识图谱时必须严格遵守预定义的本体结构。此外,数据集包含了多个本体和丰富的句子样本,涵盖了不同的领域和主题,从而提供了广泛的评估场景。数据集还包含了手动验证的句子集和未见过的句子集,这些特点使得该数据集在评估语言模型性能时具有高度的可靠性和挑战性。
使用方法
使用Text2KGBench数据集时,用户可以利用提供的源代码进行基准测试和评估。数据集分为训练集和测试集,用户可以通过加载这些数据集来训练和测试自己的模型。此外,数据集中还包含了多种基线模型(如Alpaca-LoRA-13B和Vicuna-13B)的响应和评估结果,用户可以参考这些基线来调整和优化自己的模型。数据集的结构清晰,便于用户快速上手并进行相关研究。
背景与挑战
背景概述
Text2KGBench 是一个用于评估语言模型从自然语言文本生成知识图谱(KG)能力的基准数据集,由 ISWC 2023 资源轨道提交。该数据集的核心研究问题是如何在给定本体(ontology)的指导下,从文本中提取事实并生成符合本体约束的知识图谱。Text2KGBench 包含两个主要数据集:Wikidata-TekGen 和 DBpedia-WebNLG,分别包含 10 个和 19 个本体,以及 13,474 和 4,860 个句子。该数据集的创建旨在推动知识图谱生成技术的发展,特别是在自然语言处理与知识表示的交叉领域,具有重要的研究价值和应用前景。
当前挑战
Text2KGBench 面临的主要挑战包括:首先,如何从复杂的自然语言文本中准确提取事实,并确保这些事实符合给定的本体约束,这是一个高度复杂的任务。其次,构建过程中需要处理大量不同领域的本体和句子,确保数据集的多样性和覆盖面,这增加了数据集的构建难度。此外,评估生成的知识图谱的准确性和一致性也是一个重要挑战,特别是在处理未见过的句子时,如何保持生成结果的可靠性。最后,如何设计有效的评估指标和基准模型,以客观衡量不同语言模型在该任务上的表现,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
Text2KGBench 数据集的经典使用场景主要集中在评估语言模型从自然语言文本中生成知识图谱(KG)的能力。通过提供一个预定义的本体和一组句子,该数据集要求模型从文本中提取事实,并确保这些事实符合给定的本体结构,包括概念、关系和域/范围约束。这种场景在知识图谱构建和自然语言处理领域具有重要意义,尤其是在自动化知识抽取和语义理解方面。
解决学术问题
Text2KGBench 数据集解决了知识图谱生成中的关键学术问题,特别是在如何从非结构化文本中提取结构化知识并确保其与预定义本体的兼容性方面。该数据集通过提供多样化的本体和文本样本,帮助研究者评估和改进语言模型在知识抽取和语义映射上的性能,从而推动了知识图谱自动化构建技术的发展。
衍生相关工作
基于 Text2KGBench 数据集,研究者们开发了多种语言模型和知识抽取算法,这些算法在知识图谱生成和自然语言处理领域取得了显著进展。例如,通过该数据集的基准测试,研究者们能够评估不同模型在处理复杂本体和多样化文本时的表现,进而推动了诸如 Alpaca-LoRA 和 Vicuna-13B 等模型的优化和应用。
以上内容由遇见数据集搜集并总结生成



