wikipedia_nl_wim_with_entities

Hugging Face2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/UWV/wikipedia_nl_wim_with_entities

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了分类标签、维基百科全文、上下文段落以及多个实体的序列。实体序列中包含了多个专有名词，如地名、组织名等。数据集分为训练集，并提供了相关的字节数和示例数信息。

This dataset comprises classification labels, full Wikipedia articles, contextual paragraphs, and sequences of multiple entities. These entity sequences include various proper nouns such as place names, organization names, and other similar terms. The dataset is split into a training set, and relevant metadata including total byte size and the number of examples is provided.

创建时间：

2025-06-05

原始信息汇总

数据集概述

基本信息

数据集名称: wikipedia_nl_wim_with_entities
数据集地址: https://huggingface.co/datasets/UWV/wikipedia_nl_wim_with_entities

数据集特征

class_label: 字符串类型，表示类别标签。
wiki_full_text: 字符串类型，表示完整的维基百科文本。
context_paragraph: 字符串类型，表示上下文段落。
entities: 包含多个实体的列表，每个实体均为字符串序列。具体实体包括：
- De Baarzen
- Eerdekens
- Engelse Grootpriorij van de Orde van Malta
- Festing
- Hoei
- Kosovo
- Kroatië
- Lourdes
- Nederlandse
- Seilles
- Servië
- Universiteit van Luik
- Vught
- jaren zeventig
- supermarkt
- winkelcentrum

数据集拆分

train:
- 字节数: 13868
- 样本数: 3

下载与存储信息

下载大小: 25181
数据集大小: 13868

配置信息

默认配置:
- 数据文件:
  - 拆分: train
  - 路径: data/train-*

搜集汇总

数据集介绍

构建方式

该数据集基于荷兰语维基百科内容构建，采用结构化方法提取文本中的关键实体信息。数据采集过程聚焦于保留原始文本的语义完整性，同时通过标注系统识别出地理名称、组织机构、时间表述等16类预定义实体。每条数据记录包含完整的维基百科条目文本、上下文段落以及经过标准化处理的实体标签，构建过程中注重实体边界的精确划分与跨段落指代的一致性维护。

特点

数据集最显著的特征在于其精细的实体标注体系，涵盖从地理名称到时间表述的多样化语义类别。所有实体均保持原始文本中的出现频次和分布规律，上下文段落与全文的对应关系为研究实体消歧提供理想素材。数据样本虽少但标注质量极高，每个实体都经过严格的归一化处理，确保不同条目间相同实体的表述一致性，特别适合用于低资源语言的信息抽取研究。

使用方法

使用该数据集时建议结合其多层级文本结构特点，可通过wiki_full_text字段获取完整条目内容，利用context_paragraph进行局部语境分析。实体列表采用标准化的名称表述，研究者可直接构建实体链接或指代消解模型。由于数据规模较小，推荐采用迁移学习或小样本学习范式，搭配预训练语言模型进行微调，以充分发挥其高质量实体标注的优势。

背景与挑战

背景概述

wikipedia_nl_wim_with_entities数据集是一个专注于荷兰语维基百科文本的语料库，其核心研究问题在于探索实体识别与上下文关联的自然语言处理任务。该数据集由荷兰本土或国际研究机构构建，旨在为多语言实体链接和语义理解提供高质量标注资源。通过整合维基百科全文、上下文段落及实体标注，该数据集为低资源语言的信息抽取研究填补了重要空白，对提升跨语言知识图谱构建和机器阅读理解具有显著价值。

当前挑战

该数据集面临的主要挑战体现在两方面：在领域问题层面，荷兰语作为非通用语言存在标注资源稀缺问题，实体边界模糊和指代消歧的复杂性对模型泛化能力提出更高要求；在构建过程中，维基百科文本的异构性导致实体标注一致性难以保证，且低频实体采样偏差可能影响下游任务性能。此外，跨语言实体对齐的缺失限制了该数据集在多语言场景中的应用潜力。

常用场景

经典使用场景

在自然语言处理领域，wikipedia_nl_wim_with_entities数据集为研究者提供了丰富的荷兰语维基百科文本及其标注实体。该数据集常用于命名实体识别（NER）任务的模型训练与评估，特别是在多语言环境下，研究者可以利用这些标注数据提升模型对荷兰语特定实体（如地名、机构名等）的识别能力。

衍生相关工作

基于该数据集，研究者已开发出多种荷兰语NER模型，并在多语言NLP竞赛中取得了显著成果。相关经典工作包括跨语言实体链接系统的优化，以及荷兰语知识图谱的构建。这些成果进一步推动了荷兰语NLP技术的发展和应用。

数据集最近研究