PleIAs/French-PD-Newspapers
收藏Hugging Face2024-03-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/French-PD-Newspapers
下载链接
链接失效反馈官方服务:
资源简介:
French-Public Domain-Newspapers数据集是一个大规模的法国公共领域报纸和期刊的集合,旨在汇集所有法国公共领域的报纸和期刊。截至2024年1月,该集合包含来自法国国家图书馆(Gallica)的近三百万份独特的报纸和期刊版本(69,763,525,347字)。每个parquet文件包含随机选择的几千份报纸的全文,以及一些核心元数据(如Gallica ID、标题、作者、字数等)。该数据集遵循法国的公共领域标准,并且在全球范围内都属于公共领域。数据集的主要用途是用于大规模的文化分析项目,以及扩展大语言模型的训练数据。
French-Public Domain-Newspapers数据集是一个大规模的法国公共领域报纸和期刊的集合,旨在汇集所有法国公共领域的报纸和期刊。截至2024年1月,该集合包含来自法国国家图书馆(Gallica)的近三百万份独特的报纸和期刊版本(69,763,525,347字)。每个parquet文件包含随机选择的几千份报纸的全文,以及一些核心元数据(如Gallica ID、标题、作者、字数等)。该数据集遵循法国的公共领域标准,并且在全球范围内都属于公共领域。数据集的主要用途是用于大规模的文化分析项目,以及扩展大语言模型的训练数据。
提供机构:
PleIAs
原始信息汇总
French-Public Domain-Newspapers 数据集概述
基本信息
- 任务类别: 文本生成
- 语言: 法语
- 标签: OCR
- 美观名称: French-Public Domain-Newspapers
内容
- 时间: 截至2024年1月
- 包含内容: 近三百万份独特的报纸和期刊版本,共计69,763,525,347个单词
- 来源: 法国国家图书馆(Gallica)
- 文件格式: 每个parquet文件包含随机选择的数千篇文章的全文及核心元数据(如Gallica ID、标题、作者、字数等)
- 元数据扩展: 可通过BNF API轻松扩展
版权与使用
- 版权状态: 整个数据集处于公共领域,无版权限制
- 使用限制: 法国国家图书馆在其使用条款中限制商业用途
未来发展
- 文本校正: 计划对通过OCR软件自动转录的文本进行错误校正
- 结构优化: 改进原始文本的结构和编辑呈现,去除不必要部分,优化复杂文档结构
- 数据扩展: 计划扩展至其他文化遗产资源,如Hathi Trust、Internet Archive和Google Books
致谢
- 存储与处理支持: Scaleway
- 构建支持: 法国文化部、DINUM及语言技术联盟EDIC(ALT-EDIC)
- 社区合作: Occiglot、Eleuther AI、Allen AI



