five

PleIAs/Italian-PD

收藏
Hugging Face2024-07-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/Italian-PD
下载链接
链接失效反馈
官方服务:
资源简介:
意大利公共领域书籍(Italian-Public Domain-Book)是一个大型集合,旨在汇总所有意大利的公共领域专著。截至2024年3月,它是最大的意大利开放语料库。该集合包含从多个来源恢复的12,945,781,983个单词(171,113个标题),包括互联网档案馆和各种欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的全文。数据集的整理方法遵循欧盟公共领域作品的标准,特别是作者去世超过70年的出版物。数据集的用途主要是为了扩展开放作品的可用性,用于大型语言模型的训练,并且可以无限制地重新发布以用于重现性目的。未来工作包括扩展数据集到19世纪末和20世纪初的作品,纠正计算机生成的文本错误,以及增强原始文本的结构和编辑展示。

意大利公共领域书籍(Italian-Public Domain-Book)是一个大型集合,旨在汇总所有意大利的公共领域专著。截至2024年3月,它是最大的意大利开放语料库。该集合包含从多个来源恢复的12,945,781,983个单词(171,113个标题),包括互联网档案馆和各种欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的全文。数据集的整理方法遵循欧盟公共领域作品的标准,特别是作者去世超过70年的出版物。数据集的用途主要是为了扩展开放作品的可用性,用于大型语言模型的训练,并且可以无限制地重新发布以用于重现性目的。未来工作包括扩展数据集到19世纪末和20世纪初的作品,纠正计算机生成的文本错误,以及增强原始文本的结构和编辑展示。
提供机构:
PleIAs
原始信息汇总

数据集概述

名称: Italian Public Domain Books (Italian)
简称: Italian-Public Domain-Book 或 Italian-PD-Books
目标: 聚合所有意大利公共领域专著
规模: 截至2024年3月,包含11,400,353,695字(150,359标题)
来源: 互联网档案馆、多个欧洲国家图书馆及文化遗产机构
文件格式: 每个parquet文件包含随机选择的2,000本书的全文

数据集组成

版权状态: 遵循欧盟及Berne国家对公共领域作品的定义,即作者去世超过70年的出版物。
筛选标准: 截至2024年3月,仅包含1884年之前的出版物。
未来计划: 将扩展至19世纪末至20世纪初的出版物,并验证其公共领域状态。

使用目的

主要用途: 用于大型语言模型的训练,支持无限制的模型训练和再发布,以促进可重复性研究。
创建理由:

  • 科学: 解决AI研究中训练语料库封闭的问题。
  • 法律: 遵守AI法案中的版权合规要求。
  • 文化: 增强欧盟语言多样性的代表性。
  • 经济: 减少对数据资源丰富的主要参与者的经济依赖,促进创新。

许可证

版权状态: 整个集合在所有地区均为公共领域。
法律依据: 欧盟2019年版权指令规定,当视觉艺术作品的保护期限届满后,任何由此产生的复制材料不受版权或相关权利限制,除非该材料是作者的原创智力创作。

未来发展

扩展计划: 将数据集扩展至19世纪末至20世纪初的作品,并整合来自欧洲文化遗产数据存储库的新数据。
质量提升: 修正文本中的计算机生成错误,优化原始文本的结构和编辑呈现。
技术改进: 通过重新OCR或使用实验性LLM模型进行部分OCR校正,提高文本质量。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作