PleIAs/Polish-PD

Name: PleIAs/Polish-PD
Creator: PleIAs
Published: 2024-03-21 15:22:08
License: 暂无描述

Hugging Face2024-03-21 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/PleIAs/Polish-PD

下载链接

链接失效反馈

官方服务：

资源简介：

Polish Public Domain（波兰公共领域）是一个大型集合，旨在聚合所有波兰的公共领域专著和期刊。截至2024年3月，它是最大的波兰开放语料库。该集合包含247,491个文本，总计2,697,414,811个单词，这些文本来源于多个资源，包括Internet Archive和欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的完整文本。数据集的构建遵循欧盟公共领域作品的标准，所有文本均来自1884年之前出版的著作。数据集的主要用途是扩展开放作品的可用性，用于大型语言模型的训练。整个数据集在公共领域，无版权限制。未来工作包括扩展数据集、纠正OCR错误以及增强文本结构。

提供机构：

PleIAs

原始信息汇总

🇵🇱 Polish Public Domain 🇵🇱

Polish-Public Domain 或 Polish-PD 是一个大型集合，旨在聚合所有波兰公共领域的专著和期刊。截至2024年3月，它是最大的波兰开放语料库。

数据集概述

该集合包含247,491个独立文本，总计2,697,414,811个单词，这些文本来自多个来源，包括互联网档案馆和多个欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的全文。

数据集构成方法

数据集的构成遵循欧盟及所有伯尔尼国家（针对欧盟作者）的公共领域作品标准：任何作者去世超过70年的出版物。此外，文化遗产的公共领域状态的初步整合在欧盟根据2019年版权指令（第14条）进行。

截至2024年3月，为了限制权利验证，我们仅保留了1884年之前出版的标题。

该语料库将在后续阶段扩展，以涵盖19世纪末和20世纪初的出版物，并在检查公共领域有效性后进行。

用途

该集合旨在扩大开放作品的可用性，用于大型语言模型的训练。文本可以用于模型训练，并可无限制地重新发布以供可重复性目的使用。

创建此集合的理由是多方面的：

科学性：我们观察到，训练语料库的封闭是AI研究的主要障碍。大型语言模型面临着可重复性的真正危机。
法律性：随着AI法案的采用及其在预训练语料库中对版权法合规性的义务，欧洲AI生态系统将不得不改变其来源实践。
文化性：欧盟的语言多样性目前未得到充分代表。与网络档案不同，开放的、遗产的、行政的或科学文本通常质量较高：它们是长篇、多语言和经过编辑的出版物。
经济性：如今，价值捕获集中在财务资源已经相当可观的参与者身上，使他们能够以高价收集或购买数据。向尽可能多的人提供免版税的语料库，可以释放创新用途并最小化对主导行动者的经济依赖。

许可证

整个集合在所有地区均属于公共领域。这意味着每个个人或集体权利持有人的遗产权利已经过期。

多年来，欧洲一直在争论公共领域的定义及其使用限制的可能性。自2019年起，欧盟版权指令规定：“成员国应规定，当视觉艺术作品的保护期限届满时，任何由此类作品复制行为产生的材料不受版权或相关权利的约束，除非该材料由此类复制行为产生，并且具有原创性，即它是作者自己的智力创作。”（第14条）

未来工作

该数据集不是一次性工作，而是将继续在三个方向上显著发展：

扩展数据集以涵盖19世纪末和20世纪初的作品，并进一步增强来自欧洲文化遗产数据存储库的目前未开发集合。
纠正文本中的计算机生成错误。所有文本均通过光学字符识别（OCR）软件自动转录。原始文件已经过长时间的数字化（自2000年代中期以来），某些文档应重新进行OCR处理。未来版本将努力重新OCR处理原始文本或使用实验性LLM模型进行部分OCR校正。
增强原始文本的结构/编辑呈现。原始文档的某些部分可能不适合大规模分析或模型训练（如页眉、页码等）。此外，一些高级文档结构，如表格或多栏布局，可能格式不佳。

5,000+

优质数据集

54 个

任务类型

进入经典数据集