common_corpus_dutch_pd

Hugging Face2025-08-31 更新2025-09-01 收录

下载链接：

https://huggingface.co/datasets/Rijgersberg/common_corpus_dutch_pd

下载链接

链接失效反馈

官方服务：

资源简介：

Common Corpus v2 - 荷兰公开领域集合，从Common Corpus v2中筛选出的荷兰语公开领域文本数据集。

创建时间：

2025-08-31

原始信息汇总

Common Corpus v2 - Dutch Public Domain collection 数据集概述

数据集基本信息

数据集名称：Common Corpus v2 - Dutch Public Domain collection
数据集标识符：Rijgersberg/common_corpus_dutch_pd
数据语言：荷兰语（nl）
数据规模：219,209 条样本
数据集大小：8,990,640,984 字节
下载大小：5,643,578,437 字节
任务类别：文本生成（text-generation）
规模类别：100K<n<1M

数据特征

数据集包含以下字段：

identifier：字符串类型，标识符
collection：字符串类型，集合名称
open_type：字符串类型，开放类型
license：字符串类型，许可证信息
date：浮点数类型，日期
title：字符串类型，标题
creator：字符串类型，创建者
language：字符串类型，语言
language_type：字符串类型，语言类型
word_count：整数类型，词数统计
token_count：整数类型，标记统计
text：字符串类型，文本内容
index_level_0：整数类型，索引级别

数据内容统计

集合名称	开放类型	行数	词数	标记数
Dutch-PD	Open Culture	219,209	1,461,934,337	2,798,438,458

数据来源

本数据集是从原始 Common Corpus v2 数据集中筛选出的荷兰公共领域（Dutch-PD）子集，仅包含 collection 为 "Dutch-PD" 的文档行。

使用方式

python from datasets import load_dataset

dataset = load_dataset(Rijgersberg/common_corpus_dutch_pd, split=train)

创建说明

该数据集通过从 PleIAs/common_corpus 原始数据集中筛选 Dutch-PD 集合创建，使用分批次下载、筛选和合并的方式处理，最终合并为单一数据集。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，荷兰语文本资源的稀缺性促使研究者构建专用语料库。本数据集通过多阶段过滤流程从Common Corpus v2中提取荷兰公共领域文本，采用分块下载策略克服原始数据体积庞大的技术挑战，运用基于集合标识的精确筛选机制确保数据纯度，最终通过分布式处理与集成融合形成完整语料。

特点

作为荷兰语自然语言处理的重要资源，该数据集具备219,209个高质量文本样本，涵盖1.46亿词汇量和28亿标记量。其核心特征体现在严格的公共领域许可规范，所有文本均符合开放文化许可协议，确保研究使用的合规性。数据集采用标准化元数据结构，包含创作者、发布日期、语言类型等多维度标注信息，为跨模态研究提供丰富上下文。

使用方法

研究者可通过Hugging Face数据集库直接加载该语料库，使用标准接口调用训练集分割。典型应用场景包括荷兰语语言模型预训练、文本生成任务微调以及跨语言对比研究。数据处理时应注意文本列包含原始语言材料，标记计数基于RobBERT-2023荷兰语分词器计算，词汇统计则直接来源于数据集预计算字段。

背景与挑战

背景概述

荷兰公共领域语料库作为Common Corpus v2的重要子集，由法国Pleias研究机构于当代构建，专注于荷兰语文本资源的系统化整理。该数据集承载着保护低资源语言数字遗产的学术使命，通过汇集21万余份公共领域文献，为自然语言处理领域提供了珍贵的荷兰语研究基底。其多维度元数据架构不仅支持文本生成任务的模型训练，更为语言变迁研究、文化计算分析提供了前所未有的标准化数据支撑，显著推动了欧洲非英语语言技术的均衡发展。

当前挑战

构建过程面临原始数据集规模超限的技术瓶颈，需设计流式处理与分片过滤算法以克服磁盘空间约束。领域核心挑战在于解决荷兰语作为中等资源语言的语法复杂性建模问题，包括复合词分割、方言变体归一化以及历史正字法与现代拼写的对齐。数据清洗环节需应对扫描文档的光学字符识别误差、版权状态验证以及跨世纪文本的编码标准化，这些因素共同构成了语料质量控制的复杂工程体系。

常用场景

经典使用场景

在荷兰语自然语言处理研究中，该数据集作为高质量语料库广泛应用于语言模型预训练领域。其包含的219,209个公共领域文本样本，覆盖了丰富的语言现象和文体风格，为研究者提供了标准化的大规模训练数据。通过RobBERT等专用分词器处理的文本，确保了语言表征的一致性，成为荷兰语NLP基础模型开发的核心资源。

衍生相关工作

基于该数据集衍生了多项重要研究，包括RobBERT-2023等预训练语言模型的开发，这些模型在荷兰语文本分类和情感分析任务中表现出色。后续工作扩展到了跨语言对比研究，探讨荷兰语与英语的语言特征差异。还有研究者利用该数据集构建了专门的领域语料库，如法律文本分析和历史文献数字化项目，形成了以公共领域文本为核心的研究生态体系。

数据集最近研究