five

PleIAs/French-PD-Books

收藏
Hugging Face2024-03-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/French-PD-Books
下载链接
链接失效反馈
官方服务:
资源简介:
French-Public Domain-Book数据集是一个大规模的法国公共领域书籍集合,包含了来自法国国家图书馆(Gallica)的289,000本书籍,总计16,407,292,362个单词。每本书的文本和核心元数据(如Gallica ID、标题、作者、字数等)被存储在parquet文件中。数据集主要用于文化分析项目和大规模语言模型的训练。数据集遵循欧盟公共领域作品的标准,所有内容在全球范围内都属于公共领域。未来,数据集将继续改进OCR错误、增强文本结构,并扩展到其他文化遗产收藏。

French-Public Domain-Book数据集是一个大规模的法国公共领域书籍集合,包含了来自法国国家图书馆(Gallica)的289,000本书籍,总计16,407,292,362个单词。每本书的文本和核心元数据(如Gallica ID、标题、作者、字数等)被存储在parquet文件中。数据集主要用于文化分析项目和大规模语言模型的训练。数据集遵循欧盟公共领域作品的标准,所有内容在全球范围内都属于公共领域。未来,数据集将继续改进OCR错误、增强文本结构,并扩展到其他文化遗产收藏。
提供机构:
PleIAs
原始信息汇总

数据集概述

数据集名称

  • French-Public Domain-BookFrench-PD-Books

数据集描述

  • 该数据集旨在聚合所有法国公共领域的专著,是一个大型集合。
  • 原始数据由Pierre-Carl Langlais编纂,基于Benoît de Courson和Benjamin Azoulay为Gallicagram策划的大型语料库,并与OpenLLMFrance合作。

数据集内容

  • 截至2024年1月,包含289,000本书(16,407,292,362字),来自法国国家图书馆(Gallica)。
  • 每个parquet文件包含随机选择的2,000本书的全文及少量核心元数据(Gallica ID、标题、作者、字数等)。

数据集用途

  • 主要用于大规模文化分析项目,如Gallicagram项目。
  • 用于大型语言模型的训练,文本可用于模型训练和无限制地重新发布以支持可重复性。

许可证

  • 整个集合在全球范围内属于公共领域。
  • 法国国家图书馆在其使用条款中对商业用途进行了限制。

未来发展

  • 计划进行文本中计算机生成错误的修正。
  • 增强原始文本的结构/编辑呈现。
  • 扩展到其他文化遗产持有,如Hathi Trust、Internet Archive和Google Books。

致谢

  • 数据集的存储和处理得到了Scaleway的慷慨支持。
  • 构建过程中得到了LANGU:IA、法国文化和通信部以及DINUM的支持。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作