five

PleIAs/German-PD

收藏
Hugging Face2024-07-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/German-PD
下载链接
链接失效反馈
官方服务:
资源简介:
German-Public Domain(德国公共领域)数据集是一个大型集合,旨在汇总所有德国公共领域的专著和期刊。截至2024年3月,它是最大的德国开放语料库。数据集包含260,638个文本,总计37,650,706,611个单词,来源于多个渠道,如Internet Archive和欧洲各国的国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的全文。数据集的构建遵循欧盟公共领域作品的标准,适用于所有伯尔尼公约国家。数据集的主要用途是扩展开放作品的可用性,用于大型语言模型的训练,并且可以无限制地重新发布以支持研究的可重复性。数据集的创建动机包括科学、法律、文化和经济方面的考虑。整个数据集在公共领域内,不受版权限制。未来的工作计划包括扩展数据集、纠正OCR错误以及增强文本的结构和编辑呈现。

German-Public Domain(德国公共领域)数据集是一个大型集合,旨在汇总所有德国公共领域的专著和期刊。截至2024年3月,它是最大的德国开放语料库。数据集包含260,638个文本,总计37,650,706,611个单词,来源于多个渠道,如Internet Archive和欧洲各国的国家图书馆及文化遗产机构。每个parquet文件包含随机选择的2,000本书的全文。数据集的构建遵循欧盟公共领域作品的标准,适用于所有伯尔尼公约国家。数据集的主要用途是扩展开放作品的可用性,用于大型语言模型的训练,并且可以无限制地重新发布以支持研究的可重复性。数据集的创建动机包括科学、法律、文化和经济方面的考虑。整个数据集在公共领域内,不受版权限制。未来的工作计划包括扩展数据集、纠正OCR错误以及增强文本的结构和编辑呈现。
提供机构:
PleIAs
原始信息汇总

数据集概述

名称: German Public Domain (German-PD)

描述: German-PD是一个大型集合,旨在聚合所有德国公共领域的专著和期刊。截至2024年3月,它是最大的德国开放语料库。

内容:

  • 包含196,116个独立文本,总计29,560,083,934个单词。
  • 数据来源于Internet Archive以及多个欧洲国家图书馆和文化遗产权机构。
  • 每个parquet文件包含随机选择的2,000本书的全文。

版权:

  • 数据集遵循欧盟及Berne国家对公共领域作品的定义,即作者去世超过70年的出版物。
  • 根据2019年欧盟版权指令(艺术14),所有内容均为公共领域。

用途:

  • 用于大型语言模型的训练。
  • 可无限制地用于模型训练和再发布,以支持可重复性。

未来发展:

  • 计划扩展到19世纪末和20世纪初的作品,并增加来自欧洲文化遗产数据存储库的新未利用集合。
  • 将修正文本中的计算机生成错误,这些文本通过光学字符识别(OCR)软件自动转录。
  • 将改进原始文本的结构/编辑呈现,以适应大规模分析或模型训练。

支持:

  • 数据集的存储和处理得到了Scaleway的慷慨支持。
  • 由法国文化部和DINUM支持的LANGU:IA(国家初创企业)构建。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作