five

PleIAs/French-PD-Newspapers

收藏
Hugging Face2024-03-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/French-PD-Newspapers
下载链接
链接失效反馈
官方服务:
资源简介:
French-Public Domain-Newspapers数据集是一个大规模的法国公共领域报纸和期刊的集合,旨在汇集所有法国公共领域的报纸和期刊。截至2024年1月,该集合包含来自法国国家图书馆(Gallica)的近三百万份独特的报纸和期刊版本(69,763,525,347字)。每个parquet文件包含随机选择的几千份报纸的全文,以及一些核心元数据(如Gallica ID、标题、作者、字数等)。该数据集遵循法国的公共领域标准,并且在全球范围内都属于公共领域。数据集的主要用途是用于大规模的文化分析项目,以及扩展大语言模型的训练数据。

French-Public Domain-Newspapers数据集是一个大规模的法国公共领域报纸和期刊的集合,旨在汇集所有法国公共领域的报纸和期刊。截至2024年1月,该集合包含来自法国国家图书馆(Gallica)的近三百万份独特的报纸和期刊版本(69,763,525,347字)。每个parquet文件包含随机选择的几千份报纸的全文,以及一些核心元数据(如Gallica ID、标题、作者、字数等)。该数据集遵循法国的公共领域标准,并且在全球范围内都属于公共领域。数据集的主要用途是用于大规模的文化分析项目,以及扩展大语言模型的训练数据。
提供机构:
PleIAs
原始信息汇总

French-Public Domain-Newspapers 数据集概述

基本信息

  • 任务类别: 文本生成
  • 语言: 法语
  • 标签: OCR
  • 美观名称: French-Public Domain-Newspapers

内容

  • 时间: 截至2024年1月
  • 包含内容: 近三百万份独特的报纸和期刊版本,共计69,763,525,347个单词
  • 来源: 法国国家图书馆(Gallica)
  • 文件格式: 每个parquet文件包含随机选择的数千篇文章的全文及核心元数据(如Gallica ID、标题、作者、字数等)
  • 元数据扩展: 可通过BNF API轻松扩展

版权与使用

  • 版权状态: 整个数据集处于公共领域,无版权限制
  • 使用限制: 法国国家图书馆在其使用条款中限制商业用途

未来发展

  • 文本校正: 计划对通过OCR软件自动转录的文本进行错误校正
  • 结构优化: 改进原始文本的结构和编辑呈现,去除不必要部分,优化复杂文档结构
  • 数据扩展: 计划扩展至其他文化遗产资源,如Hathi Trust、Internet Archive和Google Books

致谢

  • 存储与处理支持: Scaleway
  • 构建支持: 法国文化部、DINUM及语言技术联盟EDIC(ALT-EDIC)
  • 社区合作: Occiglot、Eleuther AI、Allen AI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作