five

PleIAs/US-PD-Newspapers

收藏
Hugging Face2024-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/US-PD-Newspapers
下载链接
链接失效反馈
官方服务:
资源简介:
US Public Domain Newspapers数据集是美国国会图书馆数字化的报纸档案的汇总,包含了从1690年到1963年的近2100万份报纸和期刊版本,总字数接近1000亿字。所有材料都属于公共领域,没有知识产权限制。数据集主要用于文化分析和大型语言模型的训练。未来发展方向包括纠正OCR错误、增强文本结构和扩展收藏。
提供机构:
PleIAs
原始信息汇总

US Public Domain Newspapers 数据集概述

基本信息

  • 许可证: cc0-1.0
  • 任务类别: 文本生成
  • 语言: 英语,包含其他欧洲语言如德语和西班牙语
  • 标签: OCR
  • 美观名称: United States-Public Domain-Newspapers

内容

  • 数据集大小: 包含近2100万份独特的报纸和期刊版本,总计约987亿字。
  • 时间范围: 出版时间从1690年至1963年。
  • 数据来源: 由Pierre-Carl Langlais基于美国国会图书馆提供的dumps编译。
  • 文件格式: 每个parquet文件对应原始的2618个dump文件之一,包含完整的文本和一些核心元数据(如版本ID、日期、字数等)。

语言

  • 主要语言: 英语
  • 其他语言: 包含德语(60万版)和西班牙语(40万版)。

用途

  • 主要用途: 文化分析,支持如Viral Texts等大型数字人文项目。
  • 其他用途: 用于大型语言模型的训练,文本可无限制地用于模型训练和再发布,以支持可重复性。

许可证

  • 版权状态: 符合美国公共领域标准,无版权限制。
  • 适用范围: 适用于所有采用伯尔尼著作权模式的国家。

未来发展

  • 改进方向:
    • 修正文本中的计算机生成错误。
    • 增强原始文本的结构和编辑呈现。
    • 扩展至其他文化遗产,如Hathi Trust、Internet Archive和Google Books。

相关数据集

  • American Stories数据集: 是此资源的一个精选和增强版本,重点关注文本质量和文档记录,目前保留了原数据的约20%。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作