GPT-NL/GPT-NL_Public_Corpus

Name: GPT-NL/GPT-NL_Public_Corpus
Creator: GPT-NL
Published: 2026-05-04 12:42:07
License: 暂无描述

Hugging Face2026-05-04 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/GPT-NL/GPT-NL_Public_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

GPT-NL公共语料库是最大的宽松许可荷兰语资源，用于大型语言模型预训练。它包含29个精选集合，总计超过5240亿标记，包括360亿荷兰语、2070亿英语、2320亿代码和480亿德语/丹麦语标记。所有数据均基于宽松许可，并以CC-BY许可证重新发布。语料库旨在支持安全、透明和值得信赖的LLM应用，符合欧洲和荷兰的公共价值观。数据来源广泛，包括政府、司法、档案/公共领域、教育/科学和欧盟文件等多个领域，还包括合成和过滤的网络爬取数据。

The GPT-NL Public Corpus is the largest permissively licensed Dutch-language resource available for large language model pretraining. It consists of 29 curated collections totaling over 524 billion tokens, including 36B Dutch, 207B English, 232B code, and 48B German/Danish tokens. All data is sourced under permissive licensing and redistributed under a CC-BY license. The corpus is intended to enable LLM applications that are secure, transparent and trustworthy, in line with European and Dutch rules and public values. Data spans various domains including government, judicial, archive/public domain, education/science, and European Union documents, alongside synthetic and filtered web-crawl data.

提供机构：

GPT-NL

搜集汇总

数据集介绍

构建方式

GPT-NL Public Corpus的构建遵循了一种系统化的多层次数据采集策略，通过四种主要途径汇聚了29个精心策划的子集。首先，研究团队直接从政府、司法、档案等公共机构收集了具有开放许可的原始数据，如市政文件、司法判例和历史档案。其次，从已有的许可宽松的数据集中精选了学术文献、公共领域文本及多语言欧盟法律文档。此外，利用合成数据技术，将维基数据三元组和YouTube字幕转化为适合大语言模型训练的文本形式。最后，对通用网络爬取数据（Common Crawl）进行严格过滤，提取出符合许可要求的荷兰语内容。整个流程集成了启发式过滤、语言识别、个人身份信息去除和有害内容清洗等环节，确保了数据的高质量与合规性。

使用方法

用户可通过HuggingFace Datasets库便捷地调用该数据集，支持按子集名称（如american-stories、officiele-bekendmakingen）进行独立加载。每个子集以Parquet格式存储，仅包含训练划分，便于高效读取和处理。数据集提供了标准化的通用元数据字段，包括唯一标识符、标题、语言、许可证及完整文本，以及语言评分、平均词长等质量信号。开发者可在数据加载后利用这些元数据进行针对性筛选，例如仅选择特定语言或高质量片段进行模型训练。对于构建合规的AI应用，该数据集已预先完成个人身份信息去除，降低了GDPR合规风险。建议用户参考附带的集合级元数据，了解各子集的内容分布与数据生产者信息，以做出更明智的使用决策。

背景与挑战

背景概述

在大规模语言模型（LLM）预训练领域，高质量、多语种且合规的数据资源是推动模型性能与可信赖性的基石。GPT-NL Public Corpus由荷兰TNO机构主导、联合SURF与荷兰法医研究所（NFI）于2024年创建，旨在为荷兰语及低资源日耳曼语系语言提供首个规模超5240亿词元的宽松许可数据集。该语料库覆盖荷兰语（360亿词元）、英语（2070亿词元）、代码（2320亿词元）及德语/丹麦语（480亿词元），整合了29个精心策划的子集，来源包括政府档案、司法文档、学术出版与开源代码，并特别针对GDPR合规性实施了结构化的个人身份信息（PII）移除。其核心研究问题在于如何构建透明、安全且符合欧洲公共价值观的LLM训练数据，对推动低资源语言模型发展及负责任AI实践具有里程碑式的影响力。

当前挑战

该数据集面临的挑战多维交织。在领域问题层面，荷兰语等日耳曼语系语言在LLM预训练中长期受困于数据匮乏与版权限制，而现有英文主导的语料库难以支撑多语言模型的公平性与鲁棒性，GPT-NL Corpus需在保障语言多样性的同时维持数据质量。在构建过程中，挑战集中于三方面：一是从分散的政府、司法与档案机构中采集并数字化历史文本，需处理格式异构与元数据缺失问题；二是在清洗管道中平衡PII移除的彻底性与模型性能的保留，尤其对公众人物的身份信息需精细处理；三是面对语料库中大量来自档案领域的过时观点，如何在不引入偏见的前提下标记潜在问题内容，成为伦理合规与学术严谨性的双重考验。

常用场景

经典使用场景

GPT-NL Public Corpus作为目前规模最大的、以宽松许可证发布的荷兰语资源，其核心使用场景在于为大型语言模型的预训练提供高质量、多语言的数据基础。该语料库融合了荷兰语、英语、德语、丹麦语等多语种文本，涵盖政府公报、司法判例、学术文献、公共领域图书及开源代码等29个精心策展的集合，总token数超过5240亿。研究者可借助该语料库训练具备多语理解能力的语言模型，尤其适用于需要强荷兰语能力的自然语言处理任务，如文本生成、机器翻译、信息抽取等。语料库的CC-BY许可协议使得其在学术与工业界均可被合法使用，显著降低了合规门槛。

解决学术问题

该数据集有效回应了低资源语言（尤其是荷兰语）在大规模语言模型训练中数据匮乏的核心困境。过去，荷兰语等日耳曼语系小语种常因语料稀缺而难以获得与大语言模型对等的预训练支撑。GPT-NL Public Corpus通过系统性收集政府、司法、教育、科研等领域的公开许可文本，构建了一套具备领域多样性与法律合规性的训练语料。这一举措不仅促进了多语种语言模型研究的均衡发展，还为欧洲数据主权与隐私保护背景下的机器学习伦理探索提供了实证基础——语料库内嵌的PII去除流程与元数据体系，为研究数据可解释性、偏见分析与模型安全提供了结构化切入点。

实际应用

在实际部署中，GPT-NL Public Corpus已作为GPT-NL荷兰语大模型的训练基石，赋能政务透明、司法辅助、文化遗产数字化等关键场景。例如，基于该语料库训练的模型可自动处理市政公开信息（Openraadsinformatie）与官方公告（Officiële bekendmakingen），提升公民信息获取效率。在司法领域，模型能够辅助法官梳理判例（De Rechtspraak），加速案件索引与文书撰写。教育方面，模型可对Wijswijs平台上的学校内容进行智能标注，推动个性化学习。此外，语料库中的CC-OpenAlex学术文本与多语种EU法律文档，使得跨语言的合规审查与科研摘要成为可能，显著降低欧洲机构在多语言环境下的信息处理成本。

数据集最近研究