PleIAs/Spanish-PD-Books

Name: PleIAs/Spanish-PD-Books
Creator: PleIAs
Published: 2024-07-29 18:09:30
License: 暂无描述

Hugging Face2024-07-29 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/PleIAs/Spanish-PD-Books

下载链接

链接失效反馈

官方服务：

资源简介：

西班牙公共领域书籍数据集，专注于收集西班牙公共领域内的报纸。该数据集包含247,491个独立文本，总计2,697,414,811个单词，来源于西班牙主要文化遗产机构Biblioteca Digitale Hispanica和Internet Archive。数据集旨在扩大开放作品的可用性，支持大型语言模型的训练，并且所有内容都在公共领域内，可以无限制地用于模型训练和再发布。

提供机构：

PleIAs

原始信息汇总

数据集概述

数据集名称

Spanish-Public Domain-Newspapers 或 Spanish-PD-Newspapers

数据集描述

这是一个旨在聚合所有西班牙公共领域专著的大型集合。截至2024年3月，它是最大的西班牙开放语料库，包含247,491个独立文本，总计2,697,414,811个单词，来源于多个来源，包括西班牙主要文化遗产机构Biblioteca Digitale Hispanica (BDH)和Internet Archive。

数据集组成

每个parquet文件包含随机选择的2,000本书的全文。

数据集用途

该集合旨在扩大开放作品的可用性，用于大型语言模型的训练。文本可用于模型训练和无限制地重新发布，以支持可重复性目的。

许可证

整个集合在全球范围内属于公共领域，这意味着每个个体或集体版权持有人的遗产权利已过期。

未来工作

扩展数据集至19世纪末和20世纪初的作品，并进一步增强来自欧洲文化遗产数据存储库的未利用收藏。
纠正文本中的计算机生成错误，所有文本通过光学字符识别（OCR）软件自动转录。
增强原始文本的结构/编辑呈现，以适应大规模分析或模型训练。

5,000+

优质数据集

54 个

任务类型

进入经典数据集