LM-KBC challenge dataset

github2024-04-24 更新2024-05-31 收录

下载链接：

https://github.com/lm-kbc/dataset2024

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于LM-KBC挑战赛的第三版，包含多个关系和实体，用于评估从预训练语言模型中构建知识库的能力。

This dataset is designed for the third edition of the LM-KBC challenge, encompassing a variety of relations and entities, aimed at evaluating the capability of constructing knowledge bases from pre-trained language models.

创建时间：

2024-03-13

原始信息汇总

数据集概述

数据集名称

LM-KBC: Knowledge Base Construction from Pre-trained Language Models (3rd Edition)

数据集内容

包含多个关系的数据集，用于训练、验证和测试。
每个关系在训练、验证和测试集中的唯一实体数量。

数据集结构

关系	训练	验证	测试	特殊特征
countryLandBordersCountry	63	63	63	Null值可能
personHasCityOfDeath	100	100	100	Null值可能
seriesHasNumberOfEpisodes	100	100	100	对象为数值
awardWonBy	10	10	10	多对象每主题
companyTradesAtStockExchange	100	100	100	Null值可能

评估指标

使用宏观精度、召回率和F1分数进行评估。
评估脚本为evaluate.py，支持参数-g（真实数据文件）和-p（预测数据文件）。

预测文件结构

预测文件应为jsonl格式。
每行包含一个JSON对象，至少包含三个字段：SubjectEntity（主题实体）、Relation（关系）、ObjectEntitiesID（预测对象实体ID，应为Wikidata ID列表）。

提交预测

通过CodaLab提交预测结果，参与验证和测试排行榜。
注册CodaLab账户，注册竞赛，并通过“Participate -> Submit / View Results”提交预测。

搜集汇总

数据集介绍

构建方式

LM-KBC挑战数据集通过从预训练语言模型中提取知识，构建了一个用于知识库构建的基准数据集。该数据集的构建方式基于给定的主题实体和关系，任务是预测所有正确的对象实体。与现有的探针基准不同，该数据集不假设关系的基数，即一个主题实体可以与零个、一个或多个对象实体相关联。此外，数据集要求预测结果不仅限于表面字符串的排序，而是需要输出经过消歧的实体，以便使用知识库的精度、召回率和F1分数进行评估。

特点

LM-KBC挑战数据集的显著特点在于其多样性和复杂性。数据集包含了多个关系类别，如‘国家与国家接壤’、‘人物的死亡城市’等，每个关系类别在训练、验证和测试集中的主题实体数量一致。此外，数据集允许对象实体为空值，增加了预测的难度。另一个特点是对象实体可以是数值类型，如‘系列剧集数’，这为模型处理不同类型的数据提供了挑战。

使用方法

使用LM-KBC挑战数据集时，用户首先需要克隆GitHub仓库并设置虚拟环境，安装所需依赖。随后，用户可以运行提供的基线模型，或开发自己的解决方案，生成预测文件。预测文件需遵循特定的JSONL格式，包含主题实体、关系和预测的对象实体ID。最后，用户可以使用评估脚本对预测结果进行评估，并将结果提交至CodaLab平台以参与竞赛。

背景与挑战

背景概述

LM-KBC挑战数据集是由ISWC 2024会议主办的LM-KBC挑战赛的核心数据集，旨在探索从预训练语言模型（如ChatGPT）中构建知识库的可行性。该数据集由主要研究人员和机构于2024年发布，其核心研究问题是如何从语言模型中提取并构建出具有明确实体和关系的知识库。与现有的探针基准（如LAMA）不同，LM-KBC挑战数据集不假设关系基数，即一个主体实体可以与零个、一个或多个对象实体相关联。这一研究不仅推动了知识库构建技术的发展，还为语义任务的自动化处理提供了新的思路。

当前挑战

LM-KBC挑战数据集面临的主要挑战包括：首先，如何从预训练语言模型中高效提取知识，并将其转化为结构化的知识库，这一过程涉及复杂的实体消歧和关系识别。其次，数据集中存在大量的空值和多对象关系，这增加了模型预测的难度。此外，评估指标采用宏精度、召回率和F1分数，要求模型不仅能够正确预测实体，还需确保预测结果的准确性和完整性。这些挑战使得LM-KBC挑战数据集成为知识库构建领域的一个重要研究方向。

常用场景

经典使用场景

LM-KBC挑战数据集的经典使用场景主要集中在从预训练语言模型中构建知识库。该数据集通过提供不同的主题实体和关系，要求参与者利用语言模型进行知识提取，并生成与主题实体相关的对象实体。这一任务不仅涉及简单的实体排名，还需要生成具体的、可解释的实体，从而构建一个完整的知识库。

解决学术问题

LM-KBC挑战数据集解决了预训练语言模型在知识库构建中的关键学术问题。传统方法如LAMA假设关系基数简单，而该数据集则允许主题实体与多个对象实体相关，甚至可能没有相关实体。这使得研究者能够探索更复杂的知识提取和知识库构建方法，推动了该领域的技术进步。

衍生相关工作

LM-KBC挑战数据集的发布激发了许多相关研究工作。例如，研究者们提出了多种改进的基线模型，如基于BERT和Llama的模型，这些模型在数据集上的表现显著优于传统方法。此外，该数据集还推动了知识库构建和知识提取领域的算法创新，促进了该领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集