zelda

Hugging Face2025-12-11 更新2025-12-12 收录

下载链接：

https://huggingface.co/datasets/naist-nlp/zelda

下载链接

链接失效反馈

官方服务：

资源简介：

ZELDA是一个用于实体消歧的基准数据集。由于ZELDA中没有开发集分割，我们将数据集的前90%用于训练，剩余的10%用于开发。对于实体字典，我们使用了由[Rücker和Akbik, 2025](https://github.com/flairNLP/VerbalizED)处理的维基百科页面ID和维基数据描述。 - **仓库:** [https://github.com/flairNLP/zelda](https://github.com/flairNLP/zelda) - **公开:** 是 - **来源:** [Kensho Derived Wikimedia Dataset](https://www.kaggle.com/datasets/kenshoresearch/kensho-derived-wikimedia-data) - **论文:** [ZELDA: A Comprehensive Benchmark for Supervised Entity Disambiguation](https://aclanthology.org/2023.eacl-main.151/) - **实体数量:** 821401

创建时间：

2025-12-10

原始信息汇总

数据集概述：ZELDA

基本描述

ZELDA是一个用于实体消歧的基准数据集。该数据集是公开的。

来源与构成

数据来源：Kensho Derived Wikimedia Dataset。
实体数量：821,401个。
实体字典：使用经过Rücker and Akbik, 2025处理的维基百科页面ID和维基数据描述构建。

数据集划分与配置

数据集包含以下配置：

主数据集 (dataset)：
- 训练集 (train)：data/train-00001-of-00001.jsonl
- 验证集 (validation)：data/dev-00001-of-00001.jsonl
- 注：由于原始ZELDA数据集不包含开发集，此处将前90%数据用于训练，剩余10%用于开发（验证）。
字典 (dictionary)：
- 知识库 (kb)：dictionary/dictionary-00001-of-00001.jsonl

规模类别

数据集规模为：100K < n < 1M。

引用信息

@inproceedings{milich2023zelda, title={{ZELDA}: A Comprehensive Benchmark for Supervised Entity Disambiguation}, author={Milich, Marcel and Akbik, Alan}, booktitle={{EACL} 2023, The 17th Conference of the European Chapter of the Association for Computational Linguistics}, year={2023} }

搜集汇总

数据集介绍

构建方式

在实体消歧领域，ZELDA数据集的构建依托于Kensho衍生维基媒体数据集，通过系统化处理维基百科页面标识符与维基数据描述，形成结构化知识库。该数据集采用训练集与验证集的划分策略，将原始数据的前90%用于训练，剩余10%作为开发集，确保了模型评估的严谨性。实体词典的构建进一步整合了821,401个实体，为消歧任务提供了丰富的语义背景与实体关联信息。

特点

ZELDA数据集作为监督式实体消歧的综合性基准，其核心特点在于大规模实体覆盖与高质量标注。数据集包含超过82万个实体，每个实体均关联维基数据描述，增强了语义表示的深度。数据划分经过精心设计，避免了开发集的缺失问题，同时支持模型在真实场景下的泛化能力评估。其开源特性与标准化格式进一步促进了学术研究与工程应用的无缝对接。

使用方法

使用ZELDA数据集时，研究者可通过加载JSONL格式的训练与验证文件，直接接入主流自然语言处理框架。实体词典可作为外部知识源，辅助模型进行实体链接与消歧决策。数据集的标准化配置支持快速实验复现，用户可依据提供的代码库与论文指引，构建端到端的消歧系统，或用于基准模型性能比较与算法创新验证。

背景与挑战

背景概述

实体消歧作为自然语言处理中的核心任务，旨在将文本中提及的实体链接到知识库中的唯一标识符，从而消除歧义并实现语义理解。ZELDA数据集由Marcel Milich和Alan Akbik等研究人员于2023年创建，依托欧洲计算语言学协会会议发布，其构建基于Kensho衍生的维基媒体数据，并整合了维基百科页面标识与维基数据描述。该数据集作为监督式实体消歧的综合性基准，涵盖了超过82万个实体，为实体链接模型的训练与评估提供了大规模、高质量的标注资源，显著推动了信息抽取与知识图谱构建领域的研究进展。

当前挑战

实体消歧任务面临多重挑战，包括处理文本中实体指称的模糊性、应对知识库中实体别名与同名的复杂性，以及适应领域特定语境下的语义变化。在ZELDA数据集的构建过程中，研究人员需从海量维基媒体数据中精确提取实体提及与对应标识，确保标注的一致性与覆盖度，同时平衡训练集与验证集的划分以支持模型泛化能力的评估。这些挑战共同凸显了大规模实体消歧基准在数据质量、规模与实用性方面的严格要求。

常用场景

实际应用

在实际应用中，ZELDA数据集支撑的实体消歧技术广泛应用于搜索引擎、智能问答系统和内容推荐引擎等场景。通过准确识别文本中的实体并将其链接到结构化知识库，系统能够提升信息检索的相关性，增强对话系统的理解能力，并为个性化推荐提供丰富的语义上下文。这些应用不仅优化了用户体验，也推动了商业智能和自动化信息处理技术的进步。

衍生相关工作

围绕ZELDA数据集，已衍生出多项经典研究工作，例如基于深度学习的实体链接模型和跨语言实体消歧方法。这些工作通常利用ZELDA提供的统一基准进行模型对比和性能验证，进一步探索了预训练语言模型与知识图谱融合的新途径。相关成果不仅丰富了实体消歧的理论体系，也为后续研究提供了可扩展的技术框架，持续推动该领域的前沿发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集