PleIAs/Spanish-PD-Books
收藏Hugging Face2024-07-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/Spanish-PD-Books
下载链接
链接失效反馈官方服务:
资源简介:
西班牙公共领域书籍数据集,专注于收集西班牙公共领域内的报纸。该数据集包含247,491个独立文本,总计2,697,414,811个单词,来源于西班牙主要文化遗产机构Biblioteca Digitale Hispanica和Internet Archive。数据集旨在扩大开放作品的可用性,支持大型语言模型的训练,并且所有内容都在公共领域内,可以无限制地用于模型训练和再发布。
西班牙公共领域书籍数据集,专注于收集西班牙公共领域内的报纸。该数据集包含247,491个独立文本,总计2,697,414,811个单词,来源于西班牙主要文化遗产机构Biblioteca Digitale Hispanica和Internet Archive。数据集旨在扩大开放作品的可用性,支持大型语言模型的训练,并且所有内容都在公共领域内,可以无限制地用于模型训练和再发布。
提供机构:
PleIAs
原始信息汇总
数据集概述
数据集名称
Spanish-Public Domain-Newspapers 或 Spanish-PD-Newspapers
数据集描述
这是一个旨在聚合所有西班牙公共领域专著的大型集合。截至2024年3月,它是最大的西班牙开放语料库,包含247,491个独立文本,总计2,697,414,811个单词,来源于多个来源,包括西班牙主要文化遗产机构Biblioteca Digitale Hispanica (BDH)和Internet Archive。
数据集组成
每个parquet文件包含随机选择的2,000本书的全文。
数据集用途
该集合旨在扩大开放作品的可用性,用于大型语言模型的训练。文本可用于模型训练和无限制地重新发布,以支持可重复性目的。
许可证
整个集合在全球范围内属于公共领域,这意味着每个个体或集体版权持有人的遗产权利已过期。
未来工作
- 扩展数据集至19世纪末和20世纪初的作品,并进一步增强来自欧洲文化遗产数据存储库的未利用收藏。
- 纠正文本中的计算机生成错误,所有文本通过光学字符识别(OCR)软件自动转录。
- 增强原始文本的结构/编辑呈现,以适应大规模分析或模型训练。



