five

PleIAs/Ukrainian-CulturalHeritage-Books

收藏
Hugging Face2024-03-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/Ukrainian-CulturalHeritage-Books
下载链接
链接失效反馈
官方服务:
资源简介:
乌克兰文化遗产书籍数据集是一个包含乌克兰文化遗产书籍和期刊的集合,大多数属于公共领域。该数据集由Pierre-Carl Langlais从Internet Archive上的19,574个数字化文件中编译而成,包含462M单词,并计划扩展到其他文化遗产来源。数据集的构成遵循欧盟公共领域作品的标准,所有文本均可用于模型训练并无限制地重新发布。未来工作包括扩展数据集、纠正OCR错误以及增强文本结构。

乌克兰文化遗产书籍数据集是一个包含乌克兰文化遗产书籍和期刊的集合,大多数属于公共领域。该数据集由Pierre-Carl Langlais从Internet Archive上的19,574个数字化文件中编译而成,包含462M单词,并计划扩展到其他文化遗产来源。数据集的构成遵循欧盟公共领域作品的标准,所有文本均可用于模型训练并无限制地重新发布。未来工作包括扩展数据集、纠正OCR错误以及增强文本结构。
提供机构:
PleIAs
原始信息汇总

Ukrainian-Cultural Heritage-Books 数据集概述

数据集简介

Ukrainian-Cultural Heritage-Books 是一个包含乌克兰文化遗产书籍和期刊的集合,其中大部分作品属于公共领域。该集合由 Pierre-Carl Langlais 从 Internet Archive 上托管的 19,574 个数字化文件(共 4.62 亿字)编译而成,并将扩展到其他文化遗产来源。

数据集构成方法

数据集的构成遵循欧盟及所有伯尔尼国家(针对欧盟作者)的公共领域作品标准:任何作者去世超过 70 年的出版物。此外,文化遗产的公共领域状态在欧盟根据 2019 年版权指令(第 14 条)进行初始整合。 截至 2024 年 3 月,为了限制权利验证,我们仅保留了 1884 年之前出版的标题。未来阶段,该语料库将扩展到 19 世纪末和 20 世纪初的出版物,并在验证公共领域有效性后进行。

用途

该集合旨在扩大大型语言模型训练的开放作品可用性。文本可用于模型训练,并可无限制地重新发布以供可重复性目的使用。

创建该集合的理由包括:

  • 科学性:我们观察到,训练语料库的封闭是 AI 研究的主要障碍。大型语言模型面临可重复性的真正危机。
  • 法律性:随着 AI 法案的通过及其对预训练语料库版权法合规性的义务,欧洲 AI 生态系统将不得不改变其来源实践。
  • 文化性:欧盟的语言多样性目前代表性不足。与网络档案不同,开放的、遗产的、行政的或科学文本通常质量较高:它们是长篇、多语言和编辑化的出版物。
  • 经济性:目前,价值捕获集中在财务资源已经相当可观的参与者身上,使他们能够以高价收集或购买数据。向尽可能多的人提供免版税的语料库,可以释放创新用途,并最小化对主导参与者的经济依赖。

许可证

整个集合在所有地区均属于公共领域。这意味着每个个人或集体权利持有人的遗产权利已经过期。

多年来,欧洲一直在争论公共领域的定义及其使用限制的可能性。自 2019 年以来,欧盟版权指令规定:“成员国应规定,当视觉艺术作品的保护期限届满时,任何由此类作品复制行为产生的材料不受版权或相关权利的约束,除非该材料由此类复制行为产生,并且在该意义上是作者自己的智力创作。”(第 14 条)

未来工作

该数据集不是一个一次性工作,而是将持续在三个方向上显著发展:

  • 扩展数据集到 19 世纪末和 20 世纪初的作品,并进一步增强目前未开发的来自欧洲文化遗产数据存储库的集合。
  • 纠正计算机生成的文本错误。所有文本均通过光学字符识别(OCR)软件自动转录。原始文件自 2000 年代中期以来已经数字化,一些文件应该重新进行 OCR 处理。未来的版本将努力重新 OCR 化原始文本或使用实验性 LLM 模型进行部分 OCR 校正。
  • 增强原始文本的结构/编辑呈现。原始文档的某些部分可能不适合大规模分析或模型训练(如页眉、页码等)。此外,一些高级文档结构,如表格或多列布局,可能格式不佳。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作