PleIAs/French-PD-Books
收藏Hugging Face2024-03-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/French-PD-Books
下载链接
链接失效反馈官方服务:
资源简介:
French-Public Domain-Book数据集是一个大规模的法国公共领域书籍集合,包含了来自法国国家图书馆(Gallica)的289,000本书籍,总计16,407,292,362个单词。每本书的文本和核心元数据(如Gallica ID、标题、作者、字数等)被存储在parquet文件中。数据集主要用于文化分析项目和大规模语言模型的训练。数据集遵循欧盟公共领域作品的标准,所有内容在全球范围内都属于公共领域。未来,数据集将继续改进OCR错误、增强文本结构,并扩展到其他文化遗产收藏。
French-Public Domain-Book数据集是一个大规模的法国公共领域书籍集合,包含了来自法国国家图书馆(Gallica)的289,000本书籍,总计16,407,292,362个单词。每本书的文本和核心元数据(如Gallica ID、标题、作者、字数等)被存储在parquet文件中。数据集主要用于文化分析项目和大规模语言模型的训练。数据集遵循欧盟公共领域作品的标准,所有内容在全球范围内都属于公共领域。未来,数据集将继续改进OCR错误、增强文本结构,并扩展到其他文化遗产收藏。
提供机构:
PleIAs
原始信息汇总
数据集概述
数据集名称
- French-Public Domain-Book 或 French-PD-Books
数据集描述
- 该数据集旨在聚合所有法国公共领域的专著,是一个大型集合。
- 原始数据由Pierre-Carl Langlais编纂,基于Benoît de Courson和Benjamin Azoulay为Gallicagram策划的大型语料库,并与OpenLLMFrance合作。
数据集内容
- 截至2024年1月,包含289,000本书(16,407,292,362字),来自法国国家图书馆(Gallica)。
- 每个parquet文件包含随机选择的2,000本书的全文及少量核心元数据(Gallica ID、标题、作者、字数等)。
数据集用途
- 主要用于大规模文化分析项目,如Gallicagram项目。
- 用于大型语言模型的训练,文本可用于模型训练和无限制地重新发布以支持可重复性。
许可证
- 整个集合在全球范围内属于公共领域。
- 法国国家图书馆在其使用条款中对商业用途进行了限制。
未来发展
- 计划进行文本中计算机生成错误的修正。
- 增强原始文本的结构/编辑呈现。
- 扩展到其他文化遗产持有,如Hathi Trust、Internet Archive和Google Books。
致谢
- 数据集的存储和处理得到了Scaleway的慷慨支持。
- 构建过程中得到了LANGU:IA、法国文化和通信部以及DINUM的支持。



