PleIAs/French-PD-Books

Name: PleIAs/French-PD-Books
Creator: PleIAs
Published: 2024-03-19 15:18:40
License: 暂无描述

Hugging Face2024-03-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PleIAs/French-PD-Books

下载链接

链接失效反馈

官方服务：

资源简介：

French-Public Domain-Book数据集是一个大规模的法国公共领域书籍集合，包含了来自法国国家图书馆（Gallica）的289,000本书籍，总计16,407,292,362个单词。每本书的文本和核心元数据（如Gallica ID、标题、作者、字数等）被存储在parquet文件中。数据集主要用于文化分析项目和大规模语言模型的训练。数据集遵循欧盟公共领域作品的标准，所有内容在全球范围内都属于公共领域。未来，数据集将继续改进OCR错误、增强文本结构，并扩展到其他文化遗产收藏。

提供机构：

PleIAs

原始信息汇总

数据集概述

数据集名称

French-Public Domain-Book 或 French-PD-Books

数据集描述

该数据集旨在聚合所有法国公共领域的专著，是一个大型集合。
原始数据由Pierre-Carl Langlais编纂，基于Benoît de Courson和Benjamin Azoulay为Gallicagram策划的大型语料库，并与OpenLLMFrance合作。

数据集内容

截至2024年1月，包含289,000本书（16,407,292,362字），来自法国国家图书馆（Gallica）。
每个parquet文件包含随机选择的2,000本书的全文及少量核心元数据（Gallica ID、标题、作者、字数等）。

数据集用途

主要用于大规模文化分析项目，如Gallicagram项目。
用于大型语言模型的训练，文本可用于模型训练和无限制地重新发布以支持可重复性。

许可证

整个集合在全球范围内属于公共领域。
法国国家图书馆在其使用条款中对商业用途进行了限制。

未来发展

计划进行文本中计算机生成错误的修正。
增强原始文本的结构/编辑呈现。
扩展到其他文化遗产持有，如Hathi Trust、Internet Archive和Google Books。

致谢

数据集的存储和处理得到了Scaleway的慷慨支持。
构建过程中得到了LANGU:IA、法国文化和通信部以及DINUM的支持。

5,000+

优质数据集

54 个

任务类型

进入经典数据集