GPT-NL Public Corpus
收藏arXiv2026-04-01 更新2026-04-03 收录
下载链接:
https://huggingface.co/datasets/GPT-NL/Collection-metadata
下载链接
链接失效反馈官方服务:
资源简介:
GPT-NL公共语料库是由荷兰应用科学研究组织联合多家机构构建的荷兰语优先大模型预训练数据集,包含21个子集共360亿荷兰语Token及部分英语、代码等多语言数据。该数据集整合了Common Corpus等现有语料库的精选内容,并通过合作机构采集或合成增强技术新增荷兰语数据,所有数据均遵循CC-BY许可。其核心目标是为商业及非商业用途提供合法、低偏见且高质量的语料,支持荷兰语及多语言模型的开发,解决低资源语言训练数据稀缺与版权合规问题。
The GPT-NL Public Corpus is a Dutch-first large language model (LLM) pre-training dataset developed by the Netherlands Organization for Applied Scientific Research in collaboration with multiple institutions. It comprises 21 subsets, totaling 36 billion Dutch Tokens, along with multilingual data including partial English and code datasets. This corpus integrates curated content from existing corpora such as Common Corpus, and adds augmented Dutch language data via collection or synthetic data enhancement technologies from partner institutions. All data is licensed under CC-BY. Its core objective is to provide legal, low-bias, high-quality corpora for both commercial and non-commercial use, supporting the development of Dutch and multilingual models, and addressing the issues of scarce training data and copyright compliance for low-resource languages.
提供机构:
荷兰应用科学研究组织; GPT-NL; 荷兰语言研究所; 鲁汶大学
创建时间:
2026-04-01
原始信息汇总
GPT-NL/Collection-metadata 数据集概述
数据集简介
该数据集页面展示了构成GPT-NL语料库的元数据集合。GPT-NL是一个用于大型语言模型预训练的荷兰语语料库。
语料库构成
GPT-NL语料库由公共语料库和私有语料库两部分组成,其数据由多个合作方贡献。
GPT-NL 公共语料库贡献方
- kb
- vng
- officiele-bekendmakingen
- woogle
- Tweede-Kamer
- Rijksoverheid
- Rechtspraak
- Nationaal Archief
- Utrechts Archief
- Noord-Hollands Archief
- Zeeuws Archief
- DANS
- Naturalis
- Wikiwijs
- EP
- CommonCorpus
GPT-NL 私有语料库贡献方
- NDP Nieuwsmedia
- BNR
- NTvG
- ANP
- DNB
- ICTRecht
- ivdnt
- Movisie
- Centerdata
- Waarbenjij
- Iselinge
- Saxion
- Driestar
注意:所有在私有语料库中拥有数据集的合作方均已签署《内容贡献者协议》(可在 https://gpt-nl.nl/samenwerken/content-board 找到)。该协议规定了GPT-NL团队与数据贡献者之间的统一协议和责任。
元数据详情
所有语料库集合(包括公共语料库如 American-stories 和私有语料库如 Instituut voor de Nederlandse Taal)的元数据均可在 GPT-NL-Corpus-metadata.json 文件中查看。对于每个集合,该文件回答了以下几个问题:
- 该数据集是什么?
- 它来自哪里?
- 使用权利是什么?
- 整体数据质量如何?
- 它涵盖什么时间段?
- 它在“数字上”看起来是什么样子?
注意:已填写的元数据是与数据贡献者合作完成的。部分数据集的元数据收集仍在进行中,并可能在收到更多信息后进行调整。
元数据文件示例
文件中为每个集合提供了一个详细的条目。以“荷兰语研究所”为例,条目包含以下字段:
- description: 数据集的描述。
- origin: 数据来源的详细说明。
- modality: 数据模态(例如“text”)。
- license: 许可类型(例如
["GPT-NL Proprietary"])。 - relevance: 相关性评级(如“high”)及其理由。
- quality: 质量评级(如“medium”)及其理由。
- temporal_coverage: 时间覆盖范围分布(例如,1950年前占5%,1950-2000年占75%等)。
- acquisition: 获取方法、收集时间和收集者信息。
- processing: 对数据所做的修改。
- notes: 其他说明,例如是否包含个人身份信息(PII)。
搜集汇总
数据集介绍

构建方式
在构建大规模语言模型预训练语料库的背景下,GPT-NL Public Corpus的构建遵循了严格的准则,以确保数据的实用性、合法性与安全性。其构建过程整合了多种来源:一方面,通过与荷兰及比利时政府、研究机构、档案馆等组织合作,定向收集了公开的政府文档、议会记录、司法判决及档案文献等高质量荷兰语内容;另一方面,从现有大型语料库如Common Corpus中精心筛选了符合宽松许可协议(如CC-0、CC-BY)的英语、德语及代码数据。此外,还通过合成数据生成技术,例如将Wikidata知识图谱三元组转化为自然语句,以及将YouTube Commons的转录文本翻译为荷兰语,以扩充知识覆盖与语言多样性。所有数据均经过统一的规范化、语言检测、启发式过滤及人工评估流程,以确保最终语料库的纯净度与合规性。
特点
作为目前规模最大的宽松许可荷兰语预训练语料库,GPT-NL Public Corpus的核心特点在于其突出的法律合规性与语言针对性。该语料库总计包含约360亿个经过预处理的荷兰语词元,这些词元未出现在其他大型语言模型预训练语料中,显著填补了荷兰语高质量资源的空白。其内容构成多元,不仅涵盖新收集的荷兰语特定集合,还纳入了约2070亿英语、2320亿代码及480亿德语/丹麦语词元,旨在通过多语言与代码数据的辅助提升低资源语言的模型性能。尤为关键的是,所有数据均源自具有宽松许可(如CC-0、CC-BY)的数据集,并在CC-BY许可下重新分发,为商业与非商业用途的模型训练提供了明确的法律保障。语料库还附有详尽的数据集元数据与风险评估等级,增强了使用的透明度与可控性。
使用方法
GPT-NL Public Corpus主要服务于大规模语言模型的预训练与研究,尤其侧重于提升模型对荷兰语及英语的理解与生成能力。研究人员与开发者可通过Hugging Face Hub公开获取完整数据集。在使用前,建议详细查阅各子集的元数据说明,了解其来源、许可条款及标注的风险等级,以便根据具体研究目标与合规要求进行数据筛选与加权采样。例如,对于旨在降低模型有害输出风险的应用,可参考数据集提供的风险分析结果,相应减少高风险子集的采样比例。该语料库未进行跨集合的文档去重,用户可根据自身需求应用定制化的去重与过滤流程。此外,其包含的代码与多语言数据也为探索代码能力提升与跨语言迁移学习提供了资源基础。
背景与挑战
背景概述
在大型语言模型(LLM)预训练领域,高质量、大规模且符合法律规范的训练数据对于非英语语言而言尤为稀缺。GPT-NL Public Corpus 应运而生,由荷兰应用科学研究组织(TNO)联合GPT-NL、荷兰语言研究所等机构于2026年发布,旨在构建一个许可宽松、以荷兰语为核心的大规模预训练语料库。该数据集的核心研究问题是解决荷兰语在LLM训练中资源不足、版权合规性模糊以及数据质量参差不齐的困境,通过整合36B荷兰语令牌及大量英语、代码等多语言数据,为开发合法、有用且无害的商业化语言模型提供坚实基础,显著推动了低资源语言在人工智能领域的发展与应用。
当前挑战
GPT-NL Public Corpus 致力于解决LLM预训练中低资源语言建模的挑战,特别是在确保数据版权合规性与模型输出可靠性方面。构建过程中的主要挑战包括:在数据采集阶段,需严格筛选仅包含CC-0、CC-BY等宽松许可的内容,避免使用CC-BY-SA等限制性许可数据(如维基百科),这对数据规模构成了限制;同时,从Common Crawl等网络爬取数据中精确识别并验证许可信息,需开发如C5这样的结构化解析工具以降低误报风险。此外,在数据质量层面,需通过人工评估与风险分析来平衡历史档案中有用内容与潜在有害偏见,并处理合成数据生成中的事实溯源与隐私保护问题,确保最终语料库兼具法律安全性与模型训练效用。
常用场景
经典使用场景
在自然语言处理领域,大规模预训练语料库的构建是推动语言模型发展的基石。GPT-NL Public Corpus作为目前最大的荷兰语许可语料库,其经典使用场景集中于为荷兰语及英语大语言模型提供高质量、合规的预训练数据。该语料库整合了36B荷兰语标记及大量英语、代码等多语言内容,特别适用于训练专注于荷兰语理解与生成的专用模型,弥补了传统多语言模型中荷兰语资源不足的缺陷,为低资源语言模型研究提供了标准化数据基础。
实际应用
在实际应用层面,该语料库为荷兰语区商业与公共服务领域的AI模型开发提供了核心数据支撑。基于其训练的模型可广泛应用于政府文档处理、法律文书分析、教育内容生成及跨语言信息检索等场景。例如,整合了市政会议记录、司法判决等专项内容的语料子集,能够赋能智能政务系统与法律辅助工具,提升公共服务效率。同时,其宽松许可特性使得企业能够安全地将衍生模型投入商业化部署,促进了荷兰语数字生态的可持续发展。
衍生相关工作
该数据集的发布催生了一系列围绕荷兰语NLP的创新研究与实践。其衍生的经典工作包括基于C5(Common Crawl Creative Commons Corpus)的网页许可内容过滤工具,为社区提供了可复现的数据清洗管道。同时,语料库中合成的Wikidata-Synth等数据集启发了知识图谱与文本生成的融合方法研究。在模型层面,以该语料库为基础训练的GPT-NL系列模型,成为荷兰语专用LLM的重要基准,后续研究多在其基础上进行领域适应、偏见缓解及多模态扩展,形成了以合规数据驱动语言技术发展的研究范式。
以上内容由遇见数据集搜集并总结生成



