PleIAs/US-PD-Newspapers
收藏Hugging Face2024-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/US-PD-Newspapers
下载链接
链接失效反馈官方服务:
资源简介:
US Public Domain Newspapers数据集是美国国会图书馆数字化的报纸档案的汇总,包含了从1690年到1963年的近2100万份报纸和期刊版本,总字数接近1000亿字。所有材料都属于公共领域,没有知识产权限制。数据集主要用于文化分析和大型语言模型的训练。未来发展方向包括纠正OCR错误、增强文本结构和扩展收藏。
提供机构:
PleIAs
原始信息汇总
US Public Domain Newspapers 数据集概述
基本信息
- 许可证: cc0-1.0
- 任务类别: 文本生成
- 语言: 英语,包含其他欧洲语言如德语和西班牙语
- 标签: OCR
- 美观名称: United States-Public Domain-Newspapers
内容
- 数据集大小: 包含近2100万份独特的报纸和期刊版本,总计约987亿字。
- 时间范围: 出版时间从1690年至1963年。
- 数据来源: 由Pierre-Carl Langlais基于美国国会图书馆提供的dumps编译。
- 文件格式: 每个parquet文件对应原始的2618个dump文件之一,包含完整的文本和一些核心元数据(如版本ID、日期、字数等)。
语言
- 主要语言: 英语
- 其他语言: 包含德语(60万版)和西班牙语(40万版)。
用途
- 主要用途: 文化分析,支持如Viral Texts等大型数字人文项目。
- 其他用途: 用于大型语言模型的训练,文本可无限制地用于模型训练和再发布,以支持可重复性。
许可证
- 版权状态: 符合美国公共领域标准,无版权限制。
- 适用范围: 适用于所有采用伯尔尼著作权模式的国家。
未来发展
- 改进方向:
- 修正文本中的计算机生成错误。
- 增强原始文本的结构和编辑呈现。
- 扩展至其他文化遗产,如Hathi Trust、Internet Archive和Google Books。
相关数据集
- American Stories数据集: 是此资源的一个精选和增强版本,重点关注文本质量和文档记录,目前保留了原数据的约20%。



