PleIAs/Italian-PD

Name: PleIAs/Italian-PD
Creator: PleIAs
Published: 2024-07-29 18:00:53
License: 暂无描述

Hugging Face2024-07-29 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/PleIAs/Italian-PD

下载链接

链接失效反馈

官方服务：

资源简介：

意大利公共领域书籍（Italian-Public Domain-Book）是一个大型集合，旨在汇总所有意大利的公共领域专著。截至2024年3月，它是最大的意大利开放语料库。该集合包含从多个来源恢复的12,945,781,983个单词（171,113个标题），包括互联网档案馆和各种欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的全文。数据集的整理方法遵循欧盟公共领域作品的标准，特别是作者去世超过70年的出版物。数据集的用途主要是为了扩展开放作品的可用性，用于大型语言模型的训练，并且可以无限制地重新发布以用于重现性目的。未来工作包括扩展数据集到19世纪末和20世纪初的作品，纠正计算机生成的文本错误，以及增强原始文本的结构和编辑展示。

提供机构：

PleIAs

原始信息汇总

数据集概述

名称: Italian Public Domain Books (Italian)
简称: Italian-Public Domain-Book 或 Italian-PD-Books
目标: 聚合所有意大利公共领域专著
规模: 截至2024年3月，包含11,400,353,695字（150,359标题）
来源: 互联网档案馆、多个欧洲国家图书馆及文化遗产机构
文件格式: 每个parquet文件包含随机选择的2,000本书的全文

数据集组成

版权状态: 遵循欧盟及Berne国家对公共领域作品的定义，即作者去世超过70年的出版物。
筛选标准: 截至2024年3月，仅包含1884年之前的出版物。
未来计划: 将扩展至19世纪末至20世纪初的出版物，并验证其公共领域状态。

使用目的

主要用途: 用于大型语言模型的训练，支持无限制的模型训练和再发布，以促进可重复性研究。
创建理由:

科学: 解决AI研究中训练语料库封闭的问题。
法律: 遵守AI法案中的版权合规要求。
文化: 增强欧盟语言多样性的代表性。
经济: 减少对数据资源丰富的主要参与者的经济依赖，促进创新。

许可证

版权状态: 整个集合在所有地区均为公共领域。
法律依据: 欧盟2019年版权指令规定，当视觉艺术作品的保护期限届满后，任何由此产生的复制材料不受版权或相关权利限制，除非该材料是作者的原创智力创作。

未来发展

扩展计划: 将数据集扩展至19世纪末至20世纪初的作品，并整合来自欧洲文化遗产数据存储库的新数据。
质量提升: 修正文本中的计算机生成错误，优化原始文本的结构和编辑呈现。
技术改进: 通过重新OCR或使用实验性LLM模型进行部分OCR校正，提高文本质量。

5,000+

优质数据集

54 个

任务类型

进入经典数据集