LM-KBC dataset

github2025-05-05 更新2025-05-14 收录

下载链接：

https://github.com/lm-kbc/dataset2025

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于LM-KBC挑战，包含多个关系的数据分割，如countryLandBordersCountry、personHasCityOfDeath等。每个关系的数据分割包括训练集、验证集和测试集，并具有不同的特殊特征，如可能包含空值或对象为数值。

This dataset is designed for the LM-KBC Challenge and encompasses multiple relation splits, such as countryLandBordersCountry, personHasCityOfDeath, etc. Each relation split includes a training set, a validation set, and a test set, and possesses distinct characteristics, such as potentially containing null values or numeric objects.

创建时间：

2025-04-24

原始信息汇总

LM-KBC 2025数据集概述

数据集基本信息

名称：LM-KBC: Knowledge Base Construction from Pre-trained Language Models (4th Edition)
发布时间：2025年5月1日
用途：用于ISWC 2025的LM-KBC挑战赛，旨在从预训练语言模型中构建知识库

数据集内容

数据格式：JSONL格式
数据关系：包含6种不同关系
数据分割：训练集、验证集和测试集

数据关系详情

关系名称	训练集数量	验证集数量	测试集数量	特殊特征
countryLandBordersCountry	68	68	67	可能包含空值
personHasCityOfDeath	100	100	100	可能包含空值
hasCapacity	100	100	100	对象为数值
awardWonBy	10	10	10	每个主题有多个对象
companyTradesAtStockExchange	100	100	100	可能包含空值
hasArea	100	100	100	对象为数值（平方千米）

评估指标

主要指标：宏精确度、宏召回率和宏F1分数
评估脚本：使用提供的evaluate.py脚本进行评估

基线模型

模型名称：Qwen3-8B
结果展示：包含有实体消歧和无实体消歧两种情况的评估结果

预测文件结构要求

必需字段：
- SubjectEntity（主题实体，字符串）
- Relation（关系，字符串）
- ObjectEntities（预测的对象实体字符串列表）
- ObjectEntitiesID（预测的对象实体Wikidata ID列表）

参与方式

提交平台：CodaLab
提交步骤：注册团队账户，参与竞赛并提交预测结果

搜集汇总

数据集介绍

构建方式

LM-KBC数据集专为知识库构建任务设计，通过预训练语言模型从自然语言中提取结构化知识。该数据集构建过程涉及多个关键步骤：首先从Wikidata等知识库中筛选多样化的实体和关系，形成基础数据框架；随后采用人工校验与自动化工具相结合的方式确保数据质量；最后将数据划分为训练集、验证集和测试集，覆盖六种典型关系类型，包括地理、人物、机构等不同领域。数据集特别考虑了关系基数多样性，允许零个、单个或多个对象实体存在。

特点

该数据集最显著的特点在于其真实反映知识库构建任务的复杂性。六种精选关系类型各具特色，如countryLandBordersCountry涉及地理边界关系，awardWonBy则体现多值关系特性。数据集包含数值型（hasCapacity）、空间型（hasArea）等不同数据形态，且允许空值存在，模拟真实知识库的不完备性。评估指标采用宏/微观精确率、召回率和F1值，全面衡量模型性能。与LAMA等传统评测基准相比，该数据集取消了实体消歧要求，直接评估字符串匹配效果，更贴近实际应用场景。

使用方法

使用该数据集需遵循标准化流程：通过GitHub仓库获取数据集和评估脚本后，配置Python3.11虚拟环境并安装依赖项。研究人员可基于提供的Qwen3-8B基线模型开发新方法，预测文件需采用jsonl格式，包含SubjectEntity、Relation和ObjectEntities等必要字段。评估阶段通过evaluate.py脚本比对预测结果与验证集，支持宏微观多维度性能分析。优秀成果可提交至CodaLab平台参与竞赛，具体需按照指定格式准备预测文件，并关注不同关系类型的特殊处理要求，如数值型属性的标准化表示等。

背景与挑战

背景概述

LM-KBC数据集由ISWC 2025会议组织推出，旨在探索预训练语言模型在知识库构建领域的潜力。该数据集由国际语义网研究社区的多位专家共同开发，主要研究如何从预训练语言模型中提取结构化知识，并构建实际可用的知识库。与传统的知识库构建方法不同，LM-KBC专注于通过语言模型探针技术直接获取知识，突破了传统知识抽取方法对关系基数的限制，允许一个主体实体与零个、一个或多个客体实体建立关联。该数据集在知识表示学习、自然语言处理和信息抽取等领域产生了重要影响，为评估语言模型的知识表达能力提供了新的基准。

当前挑战

LM-KBC数据集面临的主要挑战体现在两个方面：在领域问题层面，该数据集需要解决预训练语言模型知识提取的不确定性问题，包括关系预测的准确性和完整性，特别是处理零值、多值关系以及数值型客体等复杂情况；在构建过程层面，数据集创建者需要克服预训练语言模型固有的知识局限性，确保提取的知识具有足够的覆盖率和时效性，同时设计合理的评估指标来准确衡量模型性能。此外，如何在不依赖实体消歧的情况下，仅通过字符串匹配来评估预测结果，也是一个重要的技术挑战。

常用场景

经典使用场景

在自然语言处理领域，LM-KBC数据集被广泛用于探索预训练语言模型在知识库构建任务中的潜力。该数据集通过提供多样化的关系类型，如地理边界、人物死亡地点等，为研究者提供了一个标准化的测试平台，以评估模型在复杂知识抽取任务中的表现。

实际应用

在实际应用中，LM-KBC数据集可支持智能问答系统、知识图谱构建和语义搜索等场景。例如，通过模型抽取的地理边界数据可直接用于地图服务，而人物死亡地点信息则有助于历史研究或传记生成。

衍生相关工作

该数据集已催生多项经典研究，如基于Qwen3-8B的基线模型探索，以及针对多对象预测的优化算法。相关工作还涉及实体消歧技术的改进，这些成果显著提升了语言模型在知识密集型任务中的实用性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集