loc_chronicling_america_1770-1810_issues

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/RevolutionCrossroads/loc_chronicling_america_1770-1810_issues

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于美国国会图书馆的Chronicling America数字收藏，是国家数字报纸计划(NDNP)的一部分。数据集提供了1770年至1810年间出版的报纸的期级表示，将单个页面记录聚合为完整的报纸期次，包含OCR文本和出版元数据。数据集由史密森学会为'Revolution Crossroads'项目准备，基于公开可用的Chronicling America历史美国报纸收藏数据。数据集包含14,563个样本，每个记录对应一个报纸期次，包含图书馆控制号(LCCN)、出版日期、版次、期次ID、报纸标题、出版地、页数、期次URL、IIIF清单、缩略图URL、JPEG2000 URL、PDF URL、OCR URL、OCR文本和源记录创建日期等字段。数据集适用于图像到文本、文本检索、文本分类和特征提取等任务。

创建时间：

2026-03-27

原始信息汇总

数据集概述：Chronicling America Historic American Newspapers 1770–1810 - Issue-Level

数据集基本信息

数据集名称：Chronicling America Historic American Newspapers 1770–1810 - Issue-Level
提供者/共享者：Revolution Crossroads（史密森尼学会数字与创新办公室人员准备）
数据来源：美国国会图书馆 Chronicling America 历史美国报纸数字馆藏（国家数字报纸计划 NDNP 的一部分）
语言：英语
许可协议：CC0 1.0（公共领域）
任务类别：图像到文本、文本检索、文本分类、特征提取
标签：美国历史
规模类别：10K < n < 100K

数据集内容与范围

时间范围：1770年至1810年间出版的报纸。
数据层级：报纸“期”级别（Issue-Level）。该数据集是对原始页面级数据集的重构，将单个页面记录聚合为完整的报纸期次。
数据量：包含14,563个样本（即报纸期次记录）。
数据大小：下载大小约为845 MB，数据集大小约为1.16 GB。
派生关系：本数据集派生自页面级数据集（https://huggingface.co/datasets/RevolutionCrossroads/loc_chronicling_america_1770-1810）。

数据集结构

配置：默认配置（default）。
数据分割：仅包含一个“train”分割。
特征字段：共16个字段，具体如下：
- lccn (string): 报纸标题的美国国会图书馆控制号。
- issue_date (string): 该期报纸的出版日期。
- edition_order (string): 当天的版次编号/顺序，默认为1。
- issue_id (string): 由LCCN、日期和版次衍生的唯一标识符，格式为lccn_issue_date_edition_order。
- newspaper_title (string): 报纸标题。
- place_of_publication (string): 出版城市和州。
- page_count (int64): 该期报纸的页数。
- issue_url (string): 指向Chronicling America网站上该期报纸的URL。
- iiif_manifest (string): 该期报纸的IIIF清单URL。
- thumbnail_url (sequence: string): 该期各页面缩略图URL的列表。
- jpeg2000_url (sequence: string): 该期各页面JPEG2000 (JP2) 图像URL的列表。
- pdf_url (sequence: string): 源自源数据集的各页面级PDF URL列表。
- ocr_url (sequence: string): 由Chronicling America合作机构提供的各页面OCR XML文件URL列表。
- ocr_text (sequence: string): 从该期所有页面聚合的OCR文本列表，源自原始的Chronicling America OCR。
- source_record_create_date (date32): 源记录的创建日期。

配套文件

在数据集的“文件”选项卡中提供了期级别的PDF文件。
这些PDF文件代表完整的报纸期次，由源页面图像编译而成，按报纸的LCCN分组存放，文件名格式为对应的issue_id（即“titleLCCN_IssueDate_EditionNumber”）。

创建目的与用途

创建动因：原始页面级结构无法保留跨页面的文档级上下文。创建此数据集旨在：
- 保留跨页面的文档级上下文。
- 支持在期级别进行OCR和文本提取工作流。
- 支持跨完整报纸期次进行实体识别和分析。
项目背景：本数据集是为“Revolution Crossroads”项目（https://www.si.edu/revolution-crossroads）所准备。

使用注意事项

内容风险：数据集包含历史材料，其中的语言可能不符合所描绘社区成员的偏好，可能包含负面刻板印象或冒犯性词语。这些材料反映的是其创建者的观点。
数据质量：文本由光学字符识别（OCR）生成，存在错误，特别是在源图像质量不佳或排版特殊时。1810年以前出版的内容可能因历史排版（如类似“f”的“长s”字符）导致文本误读。
建议：在准确性至关重要时，研究人员应依据图像验证提取的信息，并谨慎对待OCR文本的完整性和权威性。建议查阅Chronicling America馆藏以获取最新记录。

引用信息

BibTeX：参见README文件内容。
APA：Revolution Crossroads Project Team. (2025). Chronicling America: Historic American Newspapers 1770–1810 - Issue-level [Data set]. Hugging Face.

联系方式

revolutioncrossroads@si.edu

搜集汇总

数据集介绍

构建方式

在历史文献数字化领域，loc_chronicling_america_1770-1810_issues数据集的构建体现了对原始资料的结构化重组。该数据集源自美国国会图书馆的“Chronicling America”数字典藏，作为国家数字报纸计划的一部分，其原始数据以页面为单位记录。史密森学会的“Revolution Crossroads”项目团队对这些页面级记录进行了系统化聚合，依据图书馆控制号、发行日期和版次顺序将属于同一期的报纸页面归并整合。这一过程不仅生成了包含完整期次OCR文本和出版元数据的结构化记录，还通过计算页面数量、构建唯一期次标识符，并保留了与源数据集的所有关键链接，从而实现了从分散页面到完整文献单元的转换。

使用方法

该数据集适用于多种数字人文与计算语言学任务，如图像到文本转换、文本检索、分类及特征提取。研究者可通过Hugging Face平台直接加载数据集，利用其结构化的字段访问每期报纸的元数据、OCR文本及多种格式的数字资源。对于文本分析，可直接使用`ocr_text`字段获取整期报纸的机器识别文本；若需核查原始版面或进行图像分析，则可调用`jpeg2000_url`或`pdf_url`链接获取高质量图像。值得注意的是，由于OCR文本可能存在因历史字体或图像质量导致的识别误差，在关键研究中建议结合原始图像进行验证。数据集遵循CC0许可，允许广泛的学术与创造性使用。

背景与挑战

背景概述

在数字人文与历史信息学领域，历史报刊的数字化与结构化处理已成为研究早期社会变迁的关键途径。loc_chronicling_america_1770-1810_issues数据集由史密森尼学会的数字与创新办公室于2025年前后构建，作为“革命十字路口”项目的重要组成部分。该数据集源自美国国会图书馆的“编年美国”数字典藏，聚焦于1770年至1810年间美国早期报纸的完整期次级别聚合。其核心研究问题在于如何从海量碎片化的页面级记录中重构完整的报纸期次，以支持跨页面的上下文分析与实体识别，从而深化对建国时期舆论生态与社会动态的理解。该数据集的发布为历史文本挖掘、数字档案重建及文化传承研究提供了珍贵的结构化资源，显著推动了早期美国史研究的量化与计算化转型。

当前挑战

该数据集致力于解决历史报刊数字化领域中的多页面文档重构与上下文连贯性分析挑战。具体而言，其构建过程面临若干技术难题：原始资料以分散的页面形式存在，需通过图书馆控制号、出版日期与版次信息进行精确聚合，以确保期次结构的完整性；同时，光学字符识别文本存在因历史印刷体、纸张退化或特殊字符（如长s符号）导致的识别错误，影响了后续文本挖掘的准确性。此外，在汇编期次级PDF时，需处理高分辨率图像尺寸不一、缺乏DPI元数据的问题，并通过比例调整维持视觉保真度与系统兼容性之间的平衡。这些挑战共同凸显了在保存历史文献原貌与实现机器可读性之间寻求技术妥协的复杂性。

常用场景

经典使用场景

在历史学与数字人文研究领域，loc_chronicling_america_1770-1810_issues数据集为学者提供了美国早期报纸的完整期次级数字化资源。该数据集通过聚合页面级记录，保留了每期报纸的完整上下文，使得研究者能够对1770年至1810年间美国独立战争及建国初期的舆论动态进行宏观分析。其经典应用场景包括利用OCR文本进行大规模内容挖掘，追踪特定议题如政治辩论、社会变迁在历史文献中的演变轨迹，为历史语义分析和话语研究奠定数据基础。

解决学术问题

该数据集有效解决了早期美国史研究中原始文献获取困难、文本分散且缺乏机器可读格式的学术瓶颈。通过提供结构化的期次级元数据与OCR文本，它支持学者进行跨期次的实体识别、主题建模与网络分析，从而深化对历史事件传播机制、公共领域形成以及印刷文化影响的理解。其意义在于将传统史料转化为可计算的研究对象，推动了历史学研究方法的数字化转型，为跨学科的历史信息学提供了关键数据支撑。

实际应用

在实际应用层面，该数据集被广泛用于构建数字档案平台与教育工具，例如博物馆的交互式展览或在线历史课程资源。图书馆与档案馆可借助其期次级PDF与IIIF资源，实现报纸的高效数字化保存与公众访问。在文化遗产领域，它支持自动化的文本修复与增强检索系统，帮助家族历史研究者或地方史爱好者追溯特定地域的新闻报道，从而促进历史知识的公共传播与社区记忆的构建。

数据集最近研究