max-babbelaar-corpus

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/fdeantoni/max-babbelaar-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Max Babbelaar Corpus 是一个双语（荷兰语和英语）预训练语料库，包含来自公共领域的文本（1753年至1899年），总计9,077,536,083.0个标记。该数据集以《Max Havelaar》（Multatuli, 1860）命名，是荷兰语版的维多利亚时代英国图书馆文本数据集。它是用于训练Max Babbelaar语言模型的语料库，该模型是一个双语19世纪荷兰绅士风格的语言模型（约3.4亿参数）。数据集包含三个配置：`nl`（仅荷兰语记录）、`en`（仅英语记录）和`all`（所有语言记录）。每个配置包含约95%的训练集和5%的验证集，按来源和年代分层以确保所有来源和时间段在两个分割中均有体现。数据来源包括Delpher Kranten、BL Books、DBNL、Gutenberg NL和Dutch DraCor等，总计353,393条记录。数据集字段包括文本内容、来源、标题、作者、出版年份、语言、类型、URL等。所有源文本均为公共领域（1900年前）内容，数据集代码和元数据使用CC0 1.0许可发布。

创建时间：

2026-04-09

原始信息汇总

Max Babbelaar Corpus 数据集概述

数据集基本信息

数据集名称：Max Babbelaar Corpus
创建者/发布者：fdeantoni
托管地址：https://huggingface.co/datasets/fdeantoni/max-babbelaar-corpus
语言：荷兰语 (nl)、英语 (en)
许可证：CC0 1.0
任务类别：文本生成
任务ID：语言建模
数据规模：100K < n < 1M (记录数)
总词元数：9,077,536,083.0

数据集描述

Max Babbelaar Corpus 是一个双语（荷兰语 + 英语）预训练语料库，包含来自公共领域文本（1753–1899）的 9,077,536,083.0 个词元。该语料库以《Max Havelaar》（Multatuli，1860）命名，是维多利亚时代大英图书馆文本数据集 Mr. Chatterbox 的荷兰语对应版本。它是 Max Babbelaar 语言模型的训练语料库，该模型是一个双语 19 世纪荷兰绅士角色模型（约 3.4 亿参数）。

数据集配置

数据集提供三种配置，每种配置包含训练集（约 95%）和验证集（约 5%），并按来源和年代分层，确保所有来源和时间段都出现在两个分割中。

配置名称	描述
`nl`	仅荷兰语记录（`language: nl` 或 `nl+en`）
`en`	仅英语记录（`language: en` 或 `nl+en`）
`all`	两种语言的所有记录

推荐使用 all 配置进行双语训练。

数据来源

所有源文本均属于公共领域（1900 年以前出版）。

来源	记录数
delpher_kranten	321,140
blbooks	29,637
dbnl	2,298
gutenberg_nl	301
dutchdracor	17
总计	353,393

DBNL：荷兰文学数字图书馆；主要为荷兰文学和学术文本，如小说、诗歌和信件（1770–1899）。
DraCor Dutch Drama：来自 Dutch Drama Corpus (https://github.com/dracor-org/dutchdracor) 的 17 部荷兰戏剧（1753–1786），从 TEI P5 XML 数字化。包括 Lescailje、Lannoy、Merken、Winter 和 Cambon-van der Werken 的作品。
Gutenberg NL：来自古登堡计划的荷兰语文本。
Delpher Kranten：来自荷兰皇家图书馆数字化项目（Delpher）的荷兰报纸，涵盖 1770–1879 年。通过 Mistral API 丰富了主题和摘要。
BL Books：来自大英图书馆 19 世纪图书收藏的英文（和一些荷兰文）书籍，源自 TheBritishLibrary/blbooks 数据集 (https://huggingface.co/datasets/TheBritishLibrary/blbooks)。

数据字段

字段名	类型	描述
`text`	string	完整文档文本
`source`	string	来源标识：`dbnl`、`dutchdracor`、`gutenberg_nl`、`delpher_kranten` 或 `blbooks`
`source_id`	string	原始记录标识符
`title`	string	文档标题
`author`	string	作者姓名（未知则为空；多位作者用逗号连接）
`date`	int32	出版年份（可为空）
`date_raw`	string	来源中的原始日期字符串
`language`	string	语言：`nl`、`en` 或 `nl+en`
`genre`	string	体裁标签（例如 `krant`、`roman`、`treurspel`、`boek`）
`url`	string	来源 URL（Delpher 解析器、Gutenberg、CENETON/DBNL 等）
`topics`	list[string]	主题标签（仅 Delpher Kranten 有；其他为空列表）
`summary`	string	简短摘要（仅 Delpher Kranten 有；其他为空字符串）

使用方式

python from datasets import load_dataset

仅荷兰语文本

ds = load_dataset("fdeantoni/max-babbelaar-corpus", "nl", split="train")

所有文本，两种语言

ds = load_dataset("fdeantoni/max-babbelaar-corpus", "all", split="train")

合并训练集和验证集

ds = load_dataset("fdeantoni/max-babbelaar-corpus", "all", split="train+validation")

遍历文本

for example in ds: text = example["text"]

许可证信息

所有源文本均属于公共领域。
数据处理代码和丰富的元数据根据 CC0 1.0 许可证发布。

引用格式

如果使用本语料库，请引用：

@dataset{max_babbelaar_corpus, title = {Max Babbelaar Corpus}, year = {2025}, note = {Bilingual public domain Dutch/English pretraining corpus (1750–1899)}, url = {https://huggingface.co/datasets/fdeantoni/max-babbelaar-corpus} }

搜集汇总

数据集介绍

构建方式

在历史语言学与数字人文研究的交汇处，Max Babbelaar Corpus的构建体现了对公共领域文化遗产的系统性整合。该数据集汇集了来自五个核心来源的353,393条记录，涵盖1753年至1899年间的荷兰语与英语文本。构建过程首先从Delpher报纸档案、DBNL数字图书馆、荷兰戏剧语料库、古登堡荷兰语项目以及大英图书馆19世纪藏书等权威公开渠道获取原始材料。随后，数据经过清洗与标准化处理，并依据语言（荷兰语、英语或双语）和来源进行分层，最终以约95%训练集和5%验证集的比例进行划分，确保每个来源和年代在分割中均有代表性。所有文本均处于公共领域，其元数据如作者、出版年份、体裁及主题标签均得到保留与增强。

特点

该数据集的核心特征在于其作为大规模双语历史语料的独特定位。它包含了超过90亿词元，专门聚焦于19世纪及更早的荷兰语与英语文本，为研究前现代语言变体提供了珍贵资源。数据具备精细的结构化元数据，每条记录均标注了来源、语言、体裁、作者及出版年份，其中来自Delpher的报纸记录还额外附带了由Mistral API生成的主题标签与摘要。数据集提供了三种配置（荷兰语、英语及全语种），支持研究者根据需求进行选择性训练或对比分析。其时间跨度覆盖了从启蒙时代晚期到维多利亚时代末期，为追踪语言历时演变与文化变迁提供了连续性的观察窗口。

使用方法

在自然语言处理与历史人文计算领域，该数据集为训练或微调语言模型提供了高质量的预训练语料。使用者可通过Hugging Face的`datasets`库便捷加载，通过指定配置名称（如‘nl’、‘en’或‘all’）和分割（‘train’或‘validation’）来获取所需数据子集。典型的应用场景包括训练如Max Babbelaar模型般的双语历史语言模型，或用于词法、句法及语义的历时比较研究。数据以Parquet格式存储，支持高效流式读取与迭代。在进行模型训练前，建议结合元数据字段（如语言、体裁）对数据进行筛选或加权，以适配特定的研究目标，例如专注于某一文学体裁或特定历史时期的语言建模。

背景与挑战

背景概述

Max Babbelaar语料库作为一项专注于历史文本挖掘的双语预训练资源，其诞生源于对19世纪荷兰与英语文化遗产进行数字化保存与语言模型构建的迫切需求。该数据集由研究团队于2025年创建，旨在填补历史荷兰语大规模预训练数据的空白，其设计灵感来源于维多利亚时期英国图书馆文本的Mr. Chatterbox数据集。通过整合来自Delpher报纸、DBNL文学档案、荷兰戏剧语料库及古登堡计划等多个权威公共领域来源，该语料库共收录超过90亿词元，覆盖1753年至1899年的跨语言文本，为历史语言学、数字人文及跨时代语言模型研究提供了坚实的实证基础。

当前挑战

该数据集致力于解决历史双语文本的语言建模问题，其核心挑战在于如何准确捕捉与再现两个世纪前荷兰语与英语的词汇、语法及文体特征，同时克服历时语言演变带来的语义漂移与语境隔阂。在构建过程中，研究人员面临多重技术障碍：首先，原始文本的数字化质量参差不齐，需进行复杂的字符编码统一与文本清洗；其次，跨数据源的元数据整合要求高度精确的时序对齐与语言标注，尤其是处理双语混合文本时需确保语言标签的可靠性；此外，从异构格式（如TEI P5 XML）到结构化语料库的转换，以及为报纸文本添加主题标签与摘要，均依赖自动化流程与人工校验的结合，以平衡规模与数据保真度。

常用场景

经典使用场景

在历史语言学与数字人文领域，Max Babbelaar Corpus以其双语特性与大规模历史文本，为语言模型的预训练提供了经典场景。该数据集汇集了18至19世纪的荷兰语与英语公共领域文献，涵盖报纸、书籍、戏剧等多种体裁，使得研究者能够构建并微调专门针对历史语言变体的生成模型。通过其分语言配置，用户可专注于单语分析或探索跨语言迁移，为模拟19世纪绅士语言风格提供了丰富语料。

解决学术问题

该数据集有效应对了历史语言资源稀缺的学术挑战，为研究语言历时演变、跨文化传播及文体风格提供了结构化数据基础。它支持学者探究荷兰语与英语在近代的词汇、语法变迁，以及文学与新闻文本的体裁差异。通过纳入年代、作者、主题等多维度元数据，数据集助力于量化历史分析，解决了传统人文研究中数据获取与标注的瓶颈，推动了计算语言学与数字人文的交叉融合。

衍生相关工作

基于该数据集衍生的经典工作包括Max Babbelaar语言模型，这是一个模拟19世纪双语绅士风格的生成模型。相关研究扩展至历史文本分类、作者归属识别以及跨语言主题建模等领域，例如利用其报纸数据探究近代社会议题演变。数据集还与Mr. Chatterbox等维多利亚时代语料库形成互补，共同推动了历史语料驱动的人工智能研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集