five

PleIAs/Portuguese-PD

收藏
Hugging Face2024-07-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/Portuguese-PD
下载链接
链接失效反馈
官方服务:
资源简介:
Portuguese-Public Domain(葡萄牙语公共领域)是一个大型集合,旨在汇集所有葡萄牙语的公共领域专著和期刊。截至2024年3月,它是最大的葡萄牙语开放语料库。该集合包含7,840个独立标题,共计672,197,538个单词,这些数据来自多个来源,包括互联网档案馆和各种欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的全文。数据集的使用不受限制,主要用于大型语言模型的训练,旨在促进AI研究的可重复性和欧洲语言多样性。

Portuguese-Public Domain(葡萄牙语公共领域)是一个大型集合,旨在汇集所有葡萄牙语的公共领域专著和期刊。截至2024年3月,它是最大的葡萄牙语开放语料库。该集合包含7,840个独立标题,共计672,197,538个单词,这些数据来自多个来源,包括互联网档案馆和各种欧洲国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的全文。数据集的使用不受限制,主要用于大型语言模型的训练,旨在促进AI研究的可重复性和欧洲语言多样性。
提供机构:
PleIAs
原始信息汇总

数据集概述

数据集名称

Portuguese-Public DomainPortuguese-PD

数据集描述

  • 包含7,840个独立标题,总计672,197,538个单词。
  • 数据来源于Internet Archive及多个欧洲国家图书馆和文化遗产权机构。
  • 每个parquet文件包含随机选择的2,000本书的全文。

数据集构成

  • 遵循欧盟及Berne国家对公共领域作品的定义:作者去世超过70年的出版物。
  • 截至2024年3月,仅包含1884年之前的出版物。
  • 计划未来扩展至19世纪末至20世纪初的出版物。

数据集用途

  • 用于大型语言模型的训练。
  • 文本可无限制地用于模型训练和再发布,以支持可重复性研究。

许可证

  • 整个数据集在全球范围内属于公共领域。
  • 根据2019年欧盟版权指令,过期版权的作品及其复制品不受版权或相关权利限制。

未来工作

  • 扩展数据集至19世纪末至20世纪初的出版物,并整合更多未利用的欧洲文化遗产数据。
  • 修正文本中的计算机生成错误,改进文本的结构和编辑呈现。

致谢

  • 数据集的存储和处理得到Scaleway的支持。
  • 构建过程中得到LANGU:IA、法国文化部和DINUM的支持,以及开放科学LLM社区的合作和见解。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作