five

common_corpus_dutch_pd

收藏
Hugging Face2025-08-31 更新2025-09-01 收录
下载链接:
https://huggingface.co/datasets/Rijgersberg/common_corpus_dutch_pd
下载链接
链接失效反馈
官方服务:
资源简介:
Common Corpus v2 - 荷兰公开领域集合,从Common Corpus v2中筛选出的荷兰语公开领域文本数据集。
创建时间:
2025-08-31
原始信息汇总

Common Corpus v2 - Dutch Public Domain collection 数据集概述

数据集基本信息

  • 数据集名称:Common Corpus v2 - Dutch Public Domain collection
  • 数据集标识符:Rijgersberg/common_corpus_dutch_pd
  • 数据语言:荷兰语(nl)
  • 数据规模:219,209 条样本
  • 数据集大小:8,990,640,984 字节
  • 下载大小:5,643,578,437 字节
  • 任务类别:文本生成(text-generation)
  • 规模类别:100K<n<1M

数据特征

数据集包含以下字段:

  • identifier:字符串类型,标识符
  • collection:字符串类型,集合名称
  • open_type:字符串类型,开放类型
  • license:字符串类型,许可证信息
  • date:浮点数类型,日期
  • title:字符串类型,标题
  • creator:字符串类型,创建者
  • language:字符串类型,语言
  • language_type:字符串类型,语言类型
  • word_count:整数类型,词数统计
  • token_count:整数类型,标记统计
  • text:字符串类型,文本内容
  • index_level_0:整数类型,索引级别

数据内容统计

集合名称 开放类型 行数 词数 标记数
Dutch-PD Open Culture 219,209 1,461,934,337 2,798,438,458

数据来源

本数据集是从原始 Common Corpus v2 数据集中筛选出的荷兰公共领域(Dutch-PD)子集,仅包含 collection 为 "Dutch-PD" 的文档行。

使用方式

python from datasets import load_dataset

dataset = load_dataset(Rijgersberg/common_corpus_dutch_pd, split=train)

创建说明

该数据集通过从 PleIAs/common_corpus 原始数据集中筛选 Dutch-PD 集合创建,使用分批次下载、筛选和合并的方式处理,最终合并为单一数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,荷兰语文本资源的稀缺性促使研究者构建专用语料库。本数据集通过多阶段过滤流程从Common Corpus v2中提取荷兰公共领域文本,采用分块下载策略克服原始数据体积庞大的技术挑战,运用基于集合标识的精确筛选机制确保数据纯度,最终通过分布式处理与集成融合形成完整语料。
特点
作为荷兰语自然语言处理的重要资源,该数据集具备219,209个高质量文本样本,涵盖1.46亿词汇量和28亿标记量。其核心特征体现在严格的公共领域许可规范,所有文本均符合开放文化许可协议,确保研究使用的合规性。数据集采用标准化元数据结构,包含创作者、发布日期、语言类型等多维度标注信息,为跨模态研究提供丰富上下文。
使用方法
研究者可通过Hugging Face数据集库直接加载该语料库,使用标准接口调用训练集分割。典型应用场景包括荷兰语语言模型预训练、文本生成任务微调以及跨语言对比研究。数据处理时应注意文本列包含原始语言材料,标记计数基于RobBERT-2023荷兰语分词器计算,词汇统计则直接来源于数据集预计算字段。
背景与挑战
背景概述
荷兰公共领域语料库作为Common Corpus v2的重要子集,由法国Pleias研究机构于当代构建,专注于荷兰语文本资源的系统化整理。该数据集承载着保护低资源语言数字遗产的学术使命,通过汇集21万余份公共领域文献,为自然语言处理领域提供了珍贵的荷兰语研究基底。其多维度元数据架构不仅支持文本生成任务的模型训练,更为语言变迁研究、文化计算分析提供了前所未有的标准化数据支撑,显著推动了欧洲非英语语言技术的均衡发展。
当前挑战
构建过程面临原始数据集规模超限的技术瓶颈,需设计流式处理与分片过滤算法以克服磁盘空间约束。领域核心挑战在于解决荷兰语作为中等资源语言的语法复杂性建模问题,包括复合词分割、方言变体归一化以及历史正字法与现代拼写的对齐。数据清洗环节需应对扫描文档的光学字符识别误差、版权状态验证以及跨世纪文本的编码标准化,这些因素共同构成了语料质量控制的复杂工程体系。
常用场景
经典使用场景
在荷兰语自然语言处理研究中,该数据集作为高质量语料库广泛应用于语言模型预训练领域。其包含的219,209个公共领域文本样本,覆盖了丰富的语言现象和文体风格,为研究者提供了标准化的大规模训练数据。通过RobBERT等专用分词器处理的文本,确保了语言表征的一致性,成为荷兰语NLP基础模型开发的核心资源。
衍生相关工作
基于该数据集衍生了多项重要研究,包括RobBERT-2023等预训练语言模型的开发,这些模型在荷兰语文本分类和情感分析任务中表现出色。后续工作扩展到了跨语言对比研究,探讨荷兰语与英语的语言特征差异。还有研究者利用该数据集构建了专门的领域语料库,如法律文本分析和历史文献数字化项目,形成了以公共领域文本为核心的研究生态体系。
数据集最近研究
最新研究方向
荷兰语公共领域文本数据集common_corpus_dutch_pd正推动低资源语言处理领域的前沿探索。该数据集作为Common Corpus v2的荷兰语公共领域子集,包含21.9万篇文本与27.9亿个标记,为荷兰语大语言模型训练提供了高质量语料。当前研究聚焦于跨语言迁移学习与领域自适应技术,通过对比分析公共领域文本与现代语料的语言特征差异,优化模型对历史语言现象的理解能力。该数据集还支持数字人文研究,助力学者开展荷兰历史文化语境的量化分析,同时为欧洲多语言人工智能发展战略提供了重要的数据基础设施支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作