PleIAs/Polish-PD
收藏Hugging Face2024-03-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/Polish-PD
下载链接
链接失效反馈官方服务:
资源简介:
Polish Public Domain(波兰公共领域)是一个大型集合,旨在聚合所有波兰的公共领域专著和期刊。截至2024年3月,它是最大的波兰开放语料库。该集合包含247,491个文本,总计2,697,414,811个单词,这些文本来源于多个资源,包括Internet Archive和欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的完整文本。数据集的构建遵循欧盟公共领域作品的标准,所有文本均来自1884年之前出版的著作。数据集的主要用途是扩展开放作品的可用性,用于大型语言模型的训练。整个数据集在公共领域,无版权限制。未来工作包括扩展数据集、纠正OCR错误以及增强文本结构。
Polish Public Domain(波兰公共领域)是一个大型集合,旨在聚合所有波兰的公共领域专著和期刊。截至2024年3月,它是最大的波兰开放语料库。该集合包含247,491个文本,总计2,697,414,811个单词,这些文本来源于多个资源,包括Internet Archive和欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的完整文本。数据集的构建遵循欧盟公共领域作品的标准,所有文本均来自1884年之前出版的著作。数据集的主要用途是扩展开放作品的可用性,用于大型语言模型的训练。整个数据集在公共领域,无版权限制。未来工作包括扩展数据集、纠正OCR错误以及增强文本结构。
提供机构:
PleIAs
原始信息汇总
🇵🇱 Polish Public Domain 🇵🇱
Polish-Public Domain 或 Polish-PD 是一个大型集合,旨在聚合所有波兰公共领域的专著和期刊。截至2024年3月,它是最大的波兰开放语料库。
数据集概述
该集合包含247,491个独立文本,总计2,697,414,811个单词,这些文本来自多个来源,包括互联网档案馆和多个欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的全文。
数据集构成方法
数据集的构成遵循欧盟及所有伯尔尼国家(针对欧盟作者)的公共领域作品标准:任何作者去世超过70年的出版物。此外,文化遗产的公共领域状态的初步整合在欧盟根据2019年版权指令(第14条)进行。
截至2024年3月,为了限制权利验证,我们仅保留了1884年之前出版的标题。
该语料库将在后续阶段扩展,以涵盖19世纪末和20世纪初的出版物,并在检查公共领域有效性后进行。
用途
该集合旨在扩大开放作品的可用性,用于大型语言模型的训练。文本可以用于模型训练,并可无限制地重新发布以供可重复性目的使用。
创建此集合的理由是多方面的:
- 科学性:我们观察到,训练语料库的封闭是AI研究的主要障碍。大型语言模型面临着可重复性的真正危机。
- 法律性:随着AI法案的采用及其在预训练语料库中对版权法合规性的义务,欧洲AI生态系统将不得不改变其来源实践。
- 文化性:欧盟的语言多样性目前未得到充分代表。与网络档案不同,开放的、遗产的、行政的或科学文本通常质量较高:它们是长篇、多语言和经过编辑的出版物。
- 经济性:如今,价值捕获集中在财务资源已经相当可观的参与者身上,使他们能够以高价收集或购买数据。向尽可能多的人提供免版税的语料库,可以释放创新用途并最小化对主导行动者的经济依赖。
许可证
整个集合在所有地区均属于公共领域。这意味着每个个人或集体权利持有人的遗产权利已经过期。
多年来,欧洲一直在争论公共领域的定义及其使用限制的可能性。自2019年起,欧盟版权指令规定:“成员国应规定,当视觉艺术作品的保护期限届满时,任何由此类作品复制行为产生的材料不受版权或相关权利的约束,除非该材料由此类复制行为产生,并且具有原创性,即它是作者自己的智力创作。”(第14条)
未来工作
该数据集不是一次性工作,而是将继续在三个方向上显著发展:
- 扩展数据集以涵盖19世纪末和20世纪初的作品,并进一步增强来自欧洲文化遗产数据存储库的目前未开发集合。
- 纠正文本中的计算机生成错误。所有文本均通过光学字符识别(OCR)软件自动转录。原始文件已经过长时间的数字化(自2000年代中期以来),某些文档应重新进行OCR处理。未来版本将努力重新OCR处理原始文本或使用实验性LLM模型进行部分OCR校正。
- 增强原始文本的结构/编辑呈现。原始文档的某些部分可能不适合大规模分析或模型训练(如页眉、页码等)。此外,一些高级文档结构,如表格或多栏布局,可能格式不佳。



