LM-KBC dataset
收藏github2025-05-05 更新2025-05-14 收录
下载链接:
https://github.com/lm-kbc/dataset2025
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于LM-KBC挑战,包含多个关系的数据分割,如countryLandBordersCountry、personHasCityOfDeath等。每个关系的数据分割包括训练集、验证集和测试集,并具有不同的特殊特征,如可能包含空值或对象为数值。
This dataset is designed for the LM-KBC Challenge and encompasses multiple relation splits, such as countryLandBordersCountry, personHasCityOfDeath, etc. Each relation split includes a training set, a validation set, and a test set, and possesses distinct characteristics, such as potentially containing null values or numeric objects.
创建时间:
2025-04-24
原始信息汇总
LM-KBC 2025数据集概述
数据集基本信息
- 名称:LM-KBC: Knowledge Base Construction from Pre-trained Language Models (4th Edition)
- 发布时间:2025年5月1日
- 用途:用于ISWC 2025的LM-KBC挑战赛,旨在从预训练语言模型中构建知识库
数据集内容
- 数据格式:JSONL格式
- 数据关系:包含6种不同关系
- 数据分割:训练集、验证集和测试集
数据关系详情
| 关系名称 | 训练集数量 | 验证集数量 | 测试集数量 | 特殊特征 |
|---|---|---|---|---|
| countryLandBordersCountry | 68 | 68 | 67 | 可能包含空值 |
| personHasCityOfDeath | 100 | 100 | 100 | 可能包含空值 |
| hasCapacity | 100 | 100 | 100 | 对象为数值 |
| awardWonBy | 10 | 10 | 10 | 每个主题有多个对象 |
| companyTradesAtStockExchange | 100 | 100 | 100 | 可能包含空值 |
| hasArea | 100 | 100 | 100 | 对象为数值(平方千米) |
评估指标
- 主要指标:宏精确度、宏召回率和宏F1分数
- 评估脚本:使用提供的evaluate.py脚本进行评估
基线模型
- 模型名称:Qwen3-8B
- 结果展示:包含有实体消歧和无实体消歧两种情况的评估结果
预测文件结构要求
- 必需字段:
- SubjectEntity(主题实体,字符串)
- Relation(关系,字符串)
- ObjectEntities(预测的对象实体字符串列表)
- ObjectEntitiesID(预测的对象实体Wikidata ID列表)
参与方式
- 提交平台:CodaLab
- 提交步骤:注册团队账户,参与竞赛并提交预测结果
搜集汇总
数据集介绍

构建方式
LM-KBC数据集专为知识库构建任务设计,通过预训练语言模型从自然语言中提取结构化知识。该数据集构建过程涉及多个关键步骤:首先从Wikidata等知识库中筛选多样化的实体和关系,形成基础数据框架;随后采用人工校验与自动化工具相结合的方式确保数据质量;最后将数据划分为训练集、验证集和测试集,覆盖六种典型关系类型,包括地理、人物、机构等不同领域。数据集特别考虑了关系基数多样性,允许零个、单个或多个对象实体存在。
特点
该数据集最显著的特点在于其真实反映知识库构建任务的复杂性。六种精选关系类型各具特色,如countryLandBordersCountry涉及地理边界关系,awardWonBy则体现多值关系特性。数据集包含数值型(hasCapacity)、空间型(hasArea)等不同数据形态,且允许空值存在,模拟真实知识库的不完备性。评估指标采用宏/微观精确率、召回率和F1值,全面衡量模型性能。与LAMA等传统评测基准相比,该数据集取消了实体消歧要求,直接评估字符串匹配效果,更贴近实际应用场景。
使用方法
使用该数据集需遵循标准化流程:通过GitHub仓库获取数据集和评估脚本后,配置Python3.11虚拟环境并安装依赖项。研究人员可基于提供的Qwen3-8B基线模型开发新方法,预测文件需采用jsonl格式,包含SubjectEntity、Relation和ObjectEntities等必要字段。评估阶段通过evaluate.py脚本比对预测结果与验证集,支持宏微观多维度性能分析。优秀成果可提交至CodaLab平台参与竞赛,具体需按照指定格式准备预测文件,并关注不同关系类型的特殊处理要求,如数值型属性的标准化表示等。
背景与挑战
背景概述
LM-KBC数据集由ISWC 2025会议组织推出,旨在探索预训练语言模型在知识库构建领域的潜力。该数据集由国际语义网研究社区的多位专家共同开发,主要研究如何从预训练语言模型中提取结构化知识,并构建实际可用的知识库。与传统的知识库构建方法不同,LM-KBC专注于通过语言模型探针技术直接获取知识,突破了传统知识抽取方法对关系基数的限制,允许一个主体实体与零个、一个或多个客体实体建立关联。该数据集在知识表示学习、自然语言处理和信息抽取等领域产生了重要影响,为评估语言模型的知识表达能力提供了新的基准。
当前挑战
LM-KBC数据集面临的主要挑战体现在两个方面:在领域问题层面,该数据集需要解决预训练语言模型知识提取的不确定性问题,包括关系预测的准确性和完整性,特别是处理零值、多值关系以及数值型客体等复杂情况;在构建过程层面,数据集创建者需要克服预训练语言模型固有的知识局限性,确保提取的知识具有足够的覆盖率和时效性,同时设计合理的评估指标来准确衡量模型性能。此外,如何在不依赖实体消歧的情况下,仅通过字符串匹配来评估预测结果,也是一个重要的技术挑战。
常用场景
经典使用场景
在自然语言处理领域,LM-KBC数据集被广泛用于探索预训练语言模型在知识库构建任务中的潜力。该数据集通过提供多样化的关系类型,如地理边界、人物死亡地点等,为研究者提供了一个标准化的测试平台,以评估模型在复杂知识抽取任务中的表现。
实际应用
在实际应用中,LM-KBC数据集可支持智能问答系统、知识图谱构建和语义搜索等场景。例如,通过模型抽取的地理边界数据可直接用于地图服务,而人物死亡地点信息则有助于历史研究或传记生成。
衍生相关工作
该数据集已催生多项经典研究,如基于Qwen3-8B的基线模型探索,以及针对多对象预测的优化算法。相关工作还涉及实体消歧技术的改进,这些成果显著提升了语言模型在知识密集型任务中的实用性。
以上内容由遇见数据集搜集并总结生成



