PleIAs/Czech-PD

Name: PleIAs/Czech-PD
Creator: PleIAs
Published: 2024-07-29 18:01:33
License: 暂无描述

Hugging Face2024-07-29 更新2024-04-21 收录

下载链接：

https://hf-mirror.com/datasets/PleIAs/Czech-PD

下载链接

链接失效反馈

官方服务：

资源简介：

Czech-Public Domain（捷克公共领域）是一个大规模的捷克语文献集合，旨在汇集所有属于公共领域的捷克专著和期刊。截至2024年3月，它是最大的捷克语开放语料库。该集合包含1585个独立标题，总计259,435,959个单词，来源于多个资源，如Internet Archive和欧洲各国图书馆及文化遗产机构。每个parquet文件包含随机选择的2000本书的全文。数据集的构建遵循欧盟公共领域作品的标准，特别是针对作者去世超过70年的作品。数据集目前仅包含1884年之前出版的文献，未来计划扩展到19世纪末和20世纪初的出版物。数据集的主要用途是扩展开放作品的可获得性，用于大型语言模型的训练，并且可以无限制地重新发布以支持研究的可重复性。数据集完全属于公共领域，不受版权限制。未来工作包括扩展数据集、修正OCR错误以及改进文本结构。

提供机构：

PleIAs

原始信息汇总

数据集概述

数据集名称

Czech-Public Domain 或 Czech-PD

数据集描述

该数据集旨在聚合所有捷克公共领域的专著和期刊，是截至2024年3月最大的捷克开放语料库。包含1585个独立标题，总计259,435,959字，来源于多个资源，包括Internet Archive和多个欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的全文。

数据集组成

数据集的组成遵循欧盟及Berne国家对公共领域作品的标准，即作者去世超过70年的出版物。截至2024年3月，为简化权利验证，仅保留1884年前的出版物。未来将扩展至19世纪末和20世纪初的出版物。

数据集用途

主要用于大型语言模型的训练，文本可无限制地用于模型训练和再发布，以促进可重复性。

许可证

整个数据集在全球范围内属于公共领域，意味着每个个体或集体版权持有者的遗产权利已过期。

未来工作

扩展数据集至19世纪末和20世纪初的作品，并进一步增强来自欧洲文化遗产数据存储库的未开发收藏。
修正文本中的计算机生成错误，所有文本通过光学字符识别（OCR）软件自动转录。
增强原始文本的结构/编辑呈现，以适应大规模分析或模型训练。

搜集汇总

数据集介绍

构建方式

Czech-PD数据集旨在汇聚所有进入公有领域的捷克语专著与期刊，截至2024年3月，已成为规模最大的捷克语开放语料库。其构建遵循欧盟及伯尔尼公约国家对公有领域作品的界定标准，即作者逝世超过70年的出版物。为确保版权合规，当前版本仅收录1884年之前出版的作品，后续计划逐步扩展至19世纪末及20世纪初的文献。数据源自互联网档案馆及多家欧洲国家图书馆与文化遗产机构，共计1585种书目，涵盖约2.59亿词汇。每个Parquet文件随机包含2000本书籍的完整文本，所有文本均通过光学字符识别技术自动化转录而成。

特点

该数据集的核心特点在于其严格的公有领域合规性与大规模开放性。作为欧洲AI生态中版权合规的典范，它依据2019年欧盟版权指令第14条构建，确保所有文本无版权限制，可用于模型训练与成果复现。语料库以捷克语为主，弥补了欧盟语言多样性在大型语言模型训练中的不足，同时文本具有高质量、长篇、多语言及编辑化特征，优于网络存档。此外，数据集强调科学可复现性，旨在打破训练语料封闭导致的AI研究瓶颈，并降低经济依赖，促进创新民主化。

使用方法

Czech-PD数据集专为大型语言模型的预训练与科学研究设计，其文本可自由用于模型训练及无限制再发布，以保障研究的可复现性。用户可直接使用Parquet格式文件，每份包含2000本随机书籍的完整文本，便于批量处理与分布式计算。数据集支持学术、法律及文化领域的多元应用，例如提升捷克语在AI模型中的代表性、验证版权合规下的训练流程，或作为高质量开放语料库推动欧洲语言技术的自主发展。未来版本还将优化OCR错误校正与文档结构增强，进一步提升使用便利性。

背景与挑战

背景概述

捷克公共领域数据集（Czech-Public Domain, Czech-PD）由PleIAs团队于2024年3月创建，旨在汇聚捷克语专著与期刊中已进入公共领域的文本资源。作为当前最大的捷克语开放语料库，该数据集收录了1585种独立文献，总词量超过2.59亿，来源涵盖互联网档案馆及欧洲多国国家图书馆与文化机构。其核心研究问题聚焦于应对大语言模型训练语料封闭化引发的可复现性危机，同时回应欧盟《人工智能法案》对预训练语料版权合规性的要求。该数据集通过严格遵循欧盟版权指令（第14条）中作者逝世70年后作品进入公共领域的规定，仅收录1884年前出版的文献，以规避权利验证的复杂性。其构建不仅推动了捷克语等高资源稀缺语言的语料多样性，还为欧洲文化遗产数字化与开源AI研究提供了重要基础，尤其在经济层面降低了小型研究机构对商业数据巨头的依赖，促进了创新生态的民主化。

当前挑战

Czech-PD面临的核心挑战来自领域问题与构建过程两个层面。在领域层面，大语言模型训练语料的封闭化与可复现性危机是其主要解决对象——当前商业语料库的垄断导致研究结果难以验证，而欧盟《人工智能法案》对版权合规的严格要求进一步加剧了开源语料的稀缺性。此外，捷克语等低资源语言在现有网络语料中代表性不足，高质量、长篇幅且经过编辑的公共领域文本的匮乏，制约了多语言模型的泛化能力。在构建过程中，挑战尤为显著：首先，自动光学字符识别（OCR）转录产生的文本错误亟待修正，部分早期数字化文档（自2000年代中期起）的识别质量参差不齐；其次，原始文献的复杂排版结构（如表格、多栏布局）难以被有效解析，而页眉、页码等冗余元素亦需剔除以提升数据纯度。未来版本需探索基于大语言模型的纠错方案，并逐步扩展至19世纪末至20世纪初的文献，以平衡版权验证的严谨性与语料规模的扩展需求。

常用场景

经典使用场景

Czech-PD数据集作为目前最大的捷克语开放语料库，汇集了1585种公共领域的专著与期刊，涵盖约2.59亿词汇，来源包括互联网档案馆及欧洲多国国家图书馆等文化遗产机构。其经典使用场景在于为大规模语言模型的预训练提供高质量、多领域的捷克语文本资源，尤其适用于需要长文本、编辑化出版物以及多语言背景的模型训练任务，从而有效缓解当前AI研究中训练语料封闭所导致的可重复性危机。

衍生相关工作

基于Czech-PD数据集，已衍生出多项重要工作：一是推动了对19世纪末至20世纪初捷克语文献的OCR错误校正研究，探索利用实验性LLM模型提升转录质量；二是促进了语料结构化增强工作，包括去除页眉页脚等噪声以及优化表格和多栏布局的格式；三是为开放科学社区如Occiglot、Eleuther AI和OpenLLM France等提供了合作基础，进一步催生了针对捷克语的预训练模型和语言资源建设方法论。

数据集最近研究