project-gutenberg-clean

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/celsowm/project-gutenberg-clean

下载链接

链接失效反馈

官方服务：

资源简介：

project-gutenberg-clean 是一个经过清理的 Project Gutenberg 书籍数据集，通过 Gutendex API 下载并处理而成。该数据集的主要目的是移除原始 Project Gutenberg 文本中的页眉、页脚、许可证声明和样板文本等非内容部分，从而提供更干净的文本语料，适用于文本生成和特征提取等自然语言处理任务。数据集按语言进行分区，目前包含葡萄牙语（pt）版本，总计 160 条记录，其中训练集 158 条，验证集和测试集各 1 条。数据结构以 Parquet 文件（可能还有 JSONL 文件）组织，按语言目录（如 data/pt）存放训练、验证和测试分割。每个数据样本包含多个字段：gutenberg_id（Project Gutenberg 中的书籍 ID）、title（书名）、authors 和 author_names（作者信息）、languages（元数据中的语言）、language_partition（分区语言）、subjects 和 bookshelves（主题和书架分类）、copyright（版权信息）、gutenberg_url 和 source_text_url（原始 URL）、text（清理后的文本内容）、char_count 和 word_count（文本的字符和单词计数）以及 license_note（使用和清理说明）。数据来源于 Project Gutenberg 的原始文本和 Gutendex 的元数据，清理工作由 gutenberg-dataset-builder 工具完成。用户需注意，尽管数据集已进行清理，但使用前仍应自行核实相关版权和许可规定，确保符合所在司法管辖区的法律要求。

project-gutenberg-clean is a cleaned dataset of Project Gutenberg books, downloaded and processed via the Gutendex API. Its primary purpose is to remove non-content parts such as headers, footers, license statements, and boilerplate text from the original Project Gutenberg texts, providing a cleaner text corpus suitable for natural language processing tasks like text generation and feature extraction. The dataset is partitioned by language, currently including a Portuguese (pt) version with a total of 160 records, comprising 158 training samples, and 1 validation and 1 test sample each. The data is organized in Parquet files (and possibly JSONL files) within language-specific directories (e.g., data/pt) for training, validation, and test splits. Each data sample contains multiple fields: gutenberg_id (book ID in Project Gutenberg), title (book title), authors and author_names (author information), languages (language from metadata), language_partition (partitioned language), subjects and bookshelves (subject and bookshelf classifications), copyright (copyright information), gutenberg_url and source_text_url (original URLs), text (cleaned text content), char_count and word_count (character and word counts of the text), and license_note (usage and cleaning notes). The data originates from Project Gutenbergs original texts and Gutendexs metadata, with cleaning performed by the gutenberg-dataset-builder tool. Users should note that, although the dataset has been cleaned, they should verify relevant copyright and licensing regulations before use to ensure compliance with legal requirements in their jurisdiction.

创建时间：

2026-05-19

原始信息汇总

数据集概述：project-gutenberg-clean

基本信息

数据集名称：project-gutenberg-clean
许可协议：other（其他）
语言：英语（en）、葡萄牙语（pt）、西班牙语（es）、法语（fr）、德语（de）、意大利语（it）
任务类别：文本生成（text-generation）、特征提取（feature-extraction）
标签：project-gutenberg、books、public-domain、literature、corpus
数据规模：1K < 记录数 < 10K
总记录数：1,260 条
生成日期：2026-05-20
语言模式：all（包含所有语言）

数据来源与处理

数据来源于 Project Gutenberg，通过 Gutendex API 下载，并经过深度清洗处理，专注于为 LLM 训练提供高质量文本。主要处理亮点包括：

深度清洗：移除标准页眉/页脚、转录注释、编辑前言以及多语言 OCR 伪影（如 [Illustration]、[Music] 等标签）
注释处理：识别并移除由特殊字符序列（如哈希符号 ####）分隔的注释块
数据划分：按语言组织，并分为训练集（train）、验证集（validation）和测试集（test），可直接使用 datasets 库加载

数据结构

数据集按语言分目录存储，每个语言目录下包含三个 Parquet 文件：

data/ en/ train.parquet validation.parquet test.parquet pt/ train.parquet validation.parquet test.parquet

（若生成时指定 --formats parquet,jsonl 参数，可能还会存在 .jsonl 文件）

字段说明

字段名	说明
`gutenberg_id`	书籍在 Project Gutenberg 中的 ID
`title`	书籍标题
`authors` / `author_names`	作者信息（来自 Gutendex 元数据）
`languages`	原始元数据中的语言
`language_partition`	记录所在文件夹的语言
`subjects` / `bookshelves`	来源分类信息
`copyright`	来源报告的版权状态
`gutenberg_url` / `source_text_url`	来源 URL
`text`	清洗后的纯文本内容
`char_count` / `word_count`	清洗后文本的字符数和单词数
`license_note`	使用和清洗说明

各语言数据分布

语言	训练集	验证集	测试集	总计
英语（en）	86	1	1	88
葡萄牙语（pt）	263	2	2	267
西班牙语（es）	289	2	2	293
法语（fr）	166	1	1	168
德语（de）	251	2	2	255
意大利语（it）	187	1	1	189

加载示例

python from datasets import load_dataset

加载英语数据

ds_en = load_dataset("celsowm/project-gutenberg-clean", data_dir="data/en")

加载葡萄牙语数据

ds_pt = load_dataset("celsowm/project-gutenberg-clean", data_dir="data/pt")

许可与使用注意事项

Project Gutenberg 基于美国版权法评估文本版权状态
本数据集管道在检测到标记时移除了页眉/页脚以及许可证/商标引用
数据集用户仍负责根据其所在司法管辖区和使用场景核实相关权限

搜集汇总

数据集介绍

构建方式

在数字人文与自然语言处理领域，高质量的古登堡计划（Project Gutenberg）图书语料库对大型语言模型的训练至关重要。该数据集通过Gutendex API批量获取古登堡计划中的公共领域图书原始文本，并实施深度清洗流程。清洗工作不仅剔除标准化的页眉和页脚，还针对转录注释、编辑前言以及多语种（英语、葡萄牙语、西班牙语、法语、德语、意大利语）的光学字符识别（OCR）伪影（如`[Illustration]`、`[Music]`等标签）进行专项移除。此外，系统能够识别并删除由特殊字符序列（如连续的`####`）界定的笔记块。最终，清洗后的文本按照语言分类，并通过Hugging Face `datasets` 库的范式被划分为训练集、验证集和测试集，以parquet格式存储。

特点

该数据集的核心优势在于其严格的语料净化标准与多语种覆盖的均衡性。相较于其他古登堡计划数据集，本项目实现了更深层次的噪声清除，包括对多语种OCR伪影和格式标记的全面过滤，从而显著提升文本纯净度。数据集收录了1,260条记录，横跨六种主要欧洲语言，其中西班牙语（293条）与葡萄牙语（267条）的样本量尤为丰富，为不同语言的模型预训练和特征提取提供了多样化的公共领域文学素材。每条记录除包含清洗后的文本外，还附有古登堡ID、标题、作者、主题、版权状态等结构化元数据，以及字符数和词数等统计指标，便于研究者进行语料库分析与筛选。

使用方法

研究者可通过Hugging Face的 `datasets` 库便捷加载该数据集。使用时，需在 `load_dataset` 函数中指定数据目录参数 `data_dir` 以加载特定语言的子集，例如 `load_dataset("celsowm/project-gutenberg-clean", data_dir="data/en")` 即可获取英语部分的数据。数据集已按语言预分为训练、验证和测试三部分，用户无需自行拆分，可直接用于文本生成或特征提取等下游任务。需要特别注意的是，尽管数据来源为美国公共领域作品，使用者仍需根据所在司法管辖区的版权法规，自行评估并履行相应的使用许可义务，以确保合规操作。

背景与挑战

背景概述

project-gutenberg-clean数据集由研究者celsowm于2026年5月创建，旨在为大型语言模型（LLM）训练提供高质量的公共领域文学作品语料库。该数据集基于Project Gutenberg的丰富藏书，通过Gutendex API获取元数据与原始文本，并进行了深度清洗处理。其核心研究问题聚焦于如何从纷繁的电子文本中自动去除OCR伪影、转录注释及版权声明等噪声，从而构建一个多语言、结构化的训练数据资源。覆盖英语、葡萄牙语、西班牙语、法语、德语和意大利语六种语言，总计1260条记录，为跨语言文本生成与特征提取任务提供了统一基准。该数据集的发布对自然语言处理领域具有重要意义，它填补了多语言文学语料库的空白，尤其为非英语LLM的预训练与微调提供了可靠数据支撑。

当前挑战

该数据集首先面临的核心领域挑战是文本数据质量对LLM性能的深远影响：现有公共领域文本常包含OCR错误、格式标记及冗长的版权声明，若直接用于训练，易导致模型学习到噪声模式，损害生成文本的连贯性与准确性。构建过程中，研究者需克服多语言识别与清洗的复杂性——不同语言存在各异的标点规则、特殊字符序列及非标准文本结构，例如葡萄牙语和德语中常出现的注释块分隔符。此外，版权合规性亦是一大挑战：尽管Project Gutenberg文本在美国属公共领域，但各司法管辖区对版权状态的解释存在差异，数据集用户需自行评估适用权限，这增加了数据使用的法律不确定性。清洗流水线gutenberg-dataset-builder的设计还需在去除噪声与保留文本完整性之间取得平衡，避免过度清洗导致语义流失。

常用场景

经典使用场景

在自然语言处理与深度学习研究领域，高质量、大规模的文本语料库是预训练语言模型不可或缺的基石。project-gutenberg-clean 数据集凭借其对公有领域文学经典的系统性整理与深度清洗，为文本生成任务提供了丰富的多语种文学素材。研究者常将其作为预训练语料或微调数据，用于训练基于Transformer架构的语言模型，如GPT系列或BERT的变体，从而提升模型在文学风格仿写、故事续写及上下文连贯性生成方面的表现。

实际应用

在实际应用层面，project-gutenberg-clean 为数字人文领域的文本挖掘与自动摘要系统提供了可靠的数据源。出版商和教育科技公司可利用其构建智能阅读辅助工具，例如生词查询、文学背景知识问答以及自动书评生成。此外，该数据集还可用于训练写作辅助软件，帮助用户模仿特定作家的叙事风格，或为创意写作课程提供自动化模板生成，从而降低文学创作的技术门槛。

衍生相关工作

围绕 project-gutenberg-clean 数据集，学界已衍生出多项经典研究工作。基于其纯净文本，研究者开发了面向古典文学的多语言词向量嵌入模型，并探索了通过对比学习提升跨语种语义相似度计算的方案。另有工作利用该数据集构建文学主题分类器与时间线事件提取系统，为文学史研究提供了量化分析工具。此外，该数据集还被用于改进端到端的文本风格迁移框架，验证了其在文学风格建模中的鲁棒性与泛化能力。

以上内容由遇见数据集搜集并总结生成