PleIAs/English-PD
收藏Hugging Face2024-07-29 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/English-PD
下载链接
链接失效反馈官方服务:
资源简介:
English Public Domain Books(英文公共领域书籍)是一个大型数据集,旨在汇集大量公共领域的英文专著。该数据集包含从多个来源(特别是互联网档案馆)恢复的78,566,669,909个单词(736,214个标题)。每个parquet文件包含随机选择的1,000本书的全文。数据集遵循欧盟的公共领域标准,所有作品的作者已去世超过70年。数据集的主要用途是为大型语言模型的训练提供开放的文本资源,并可在不限制的情况下重新发布以用于重现性目的。未来计划包括扩展数据集、修正OCR错误以及改进文本结构。
English Public Domain Books is a large collection aiming to aggregate a significant part of English monographies in the public domain. The collection contains 78,566,669,909 words (736,214 titles) recovered from multiple sources, especially Internet Archive. Each parquet file has the full text of 1,000 books selected at random. The dataset adheres to the criteria for public domain works in the EU, meaning any publication whose author is dead for more than 70 years. The primary use of the dataset is to expand the availability of open works for the training of Large Language Models, and it can be republished without restriction for reproducibility purposes. Future work includes expanding the dataset, correcting OCR errors, and enhancing the structure of the original text.
提供机构:
PleIAs
原始信息汇总
English Public Domain Books (English)
数据集概述
- 名称: English-Public Domain-Book 或 English-PD-Books
- 内容: 包含78,566,669,909个单词(736,214本书),主要从Internet Archive等来源收集。
- 格式: 每个parquet文件包含1,000本随机选择的书的完整文本。
数据集构成
- 公共领域标准: 符合欧盟及伯尔尼公约国家的公共领域作品标准,即作者去世超过70年的作品。
- 时间范围: 截至2024年6月,仅保留1884年之前出版的书籍。
- 未来扩展: 计划扩展至19世纪末和20世纪初的出版物。
用途
- 科学研究: 用于大型语言模型的训练,解决训练语料库封闭的问题。
- 法律合规: 符合欧盟AI法案对预训练语料库的版权法合规要求。
- 文化多样性: 提升欧盟语言多样性的代表性。
- 经济效益: 促进创新,减少对主导数据收集者的经济依赖。
许可
- 公共领域: 整个数据集在所有地区均属于公共领域,无版权限制。
未来工作
- 数据扩展: 扩展至19世纪末和20世纪初的作品,并整合欧洲文化遗产数据。
- 文本校正: 修正OCR自动转录的错误,可能通过重新OCR或使用实验性LLM模型进行部分校正。
- 结构优化: 改进原始文本的结构和编辑呈现,去除不适合大规模分析或模型训练的部分。



