max-babbelaar-corpus
收藏Max Babbelaar Corpus 数据集概述
数据集基本信息
- 数据集名称:Max Babbelaar Corpus
- 创建者/发布者:fdeantoni
- 托管地址:https://huggingface.co/datasets/fdeantoni/max-babbelaar-corpus
- 语言:荷兰语 (nl)、英语 (en)
- 许可证:CC0 1.0
- 任务类别:文本生成
- 任务ID:语言建模
- 数据规模:100K < n < 1M (记录数)
- 总词元数:9,077,536,083.0
数据集描述
Max Babbelaar Corpus 是一个双语(荷兰语 + 英语)预训练语料库,包含来自公共领域文本(1753–1899)的 9,077,536,083.0 个词元。该语料库以《Max Havelaar》(Multatuli,1860)命名,是维多利亚时代大英图书馆文本数据集 Mr. Chatterbox 的荷兰语对应版本。它是 Max Babbelaar 语言模型的训练语料库,该模型是一个双语 19 世纪荷兰绅士角色模型(约 3.4 亿参数)。
数据集配置
数据集提供三种配置,每种配置包含训练集(约 95%)和验证集(约 5%),并按来源和年代分层,确保所有来源和时间段都出现在两个分割中。
| 配置名称 | 描述 |
|---|---|
nl |
仅荷兰语记录(language: nl 或 nl+en) |
en |
仅英语记录(language: en 或 nl+en) |
all |
两种语言的所有记录 |
推荐使用 all 配置进行双语训练。
数据来源
所有源文本均属于公共领域(1900 年以前出版)。
| 来源 | 记录数 |
|---|---|
| delpher_kranten | 321,140 |
| blbooks | 29,637 |
| dbnl | 2,298 |
| gutenberg_nl | 301 |
| dutchdracor | 17 |
| 总计 | 353,393 |
- DBNL:荷兰文学数字图书馆;主要为荷兰文学和学术文本,如小说、诗歌和信件(1770–1899)。
- DraCor Dutch Drama:来自 Dutch Drama Corpus (https://github.com/dracor-org/dutchdracor) 的 17 部荷兰戏剧(1753–1786),从 TEI P5 XML 数字化。包括 Lescailje、Lannoy、Merken、Winter 和 Cambon-van der Werken 的作品。
- Gutenberg NL:来自古登堡计划的荷兰语文本。
- Delpher Kranten:来自荷兰皇家图书馆数字化项目(Delpher)的荷兰报纸,涵盖 1770–1879 年。通过 Mistral API 丰富了主题和摘要。
- BL Books:来自大英图书馆 19 世纪图书收藏的英文(和一些荷兰文)书籍,源自 TheBritishLibrary/blbooks 数据集 (https://huggingface.co/datasets/TheBritishLibrary/blbooks)。
数据字段
| 字段名 | 类型 | 描述 |
|---|---|---|
text |
string | 完整文档文本 |
source |
string | 来源标识:dbnl、dutchdracor、gutenberg_nl、delpher_kranten 或 blbooks |
source_id |
string | 原始记录标识符 |
title |
string | 文档标题 |
author |
string | 作者姓名(未知则为空;多位作者用逗号连接) |
date |
int32 | 出版年份(可为空) |
date_raw |
string | 来源中的原始日期字符串 |
language |
string | 语言:nl、en 或 nl+en |
genre |
string | 体裁标签(例如 krant、roman、treurspel、boek) |
url |
string | 来源 URL(Delpher 解析器、Gutenberg、CENETON/DBNL 等) |
topics |
list[string] | 主题标签(仅 Delpher Kranten 有;其他为空列表) |
summary |
string | 简短摘要(仅 Delpher Kranten 有;其他为空字符串) |
使用方式
python from datasets import load_dataset
仅荷兰语文本
ds = load_dataset("fdeantoni/max-babbelaar-corpus", "nl", split="train")
所有文本,两种语言
ds = load_dataset("fdeantoni/max-babbelaar-corpus", "all", split="train")
合并训练集和验证集
ds = load_dataset("fdeantoni/max-babbelaar-corpus", "all", split="train+validation")
遍历文本
for example in ds: text = example["text"]
许可证信息
- 所有源文本均属于公共领域。
- 数据处理代码和丰富的元数据根据 CC0 1.0 许可证发布。
引用格式
如果使用本语料库,请引用:
@dataset{max_babbelaar_corpus, title = {Max Babbelaar Corpus}, year = {2025}, note = {Bilingual public domain Dutch/English pretraining corpus (1750–1899)}, url = {https://huggingface.co/datasets/fdeantoni/max-babbelaar-corpus} }




