PleIAs/US-PD-Newspapers

Name: PleIAs/US-PD-Newspapers
Creator: PleIAs
Published: 2024-03-22 15:06:48
License: 暂无描述

Hugging Face2024-03-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PleIAs/US-PD-Newspapers

下载链接

链接失效反馈

官方服务：

资源简介：

US Public Domain Newspapers数据集是美国国会图书馆数字化的报纸档案的汇总，包含了从1690年到1963年的近2100万份报纸和期刊版本，总字数接近1000亿字。所有材料都属于公共领域，没有知识产权限制。数据集主要用于文化分析和大型语言模型的训练。未来发展方向包括纠正OCR错误、增强文本结构和扩展收藏。

提供机构：

PleIAs

原始信息汇总

US Public Domain Newspapers 数据集概述

基本信息

许可证: cc0-1.0
任务类别: 文本生成
语言: 英语，包含其他欧洲语言如德语和西班牙语
标签: OCR
美观名称: United States-Public Domain-Newspapers

内容

数据集大小: 包含近2100万份独特的报纸和期刊版本，总计约987亿字。
时间范围: 出版时间从1690年至1963年。
数据来源: 由Pierre-Carl Langlais基于美国国会图书馆提供的dumps编译。
文件格式: 每个parquet文件对应原始的2618个dump文件之一，包含完整的文本和一些核心元数据（如版本ID、日期、字数等）。

语言

主要语言: 英语
其他语言: 包含德语（60万版）和西班牙语（40万版）。

用途

主要用途: 文化分析，支持如Viral Texts等大型数字人文项目。
其他用途: 用于大型语言模型的训练，文本可无限制地用于模型训练和再发布，以支持可重复性。

许可证

版权状态: 符合美国公共领域标准，无版权限制。
适用范围: 适用于所有采用伯尔尼著作权模式的国家。

未来发展

改进方向:
- 修正文本中的计算机生成错误。
- 增强原始文本的结构和编辑呈现。
- 扩展至其他文化遗产，如Hathi Trust、Internet Archive和Google Books。

PleIAs/US-PD-Newspapers

US Public Domain Newspapers 数据集概述

基本信息

内容

语言

用途

许可证

未来发展

相关数据集