Newspaper Navigator Dataset

Name: Newspaper Navigator Dataset
Creator: 美国国会图书馆
Published: 2020-05-04 23:51:13
License: 暂无描述

arXiv2020-05-04 更新2024-06-21 收录

下载链接：

https://github.com/LibraryOfCongress/newspaper-navigator

下载链接

链接失效反馈

官方服务：

资源简介：

Newspaper Navigator Dataset是由美国国会图书馆创建的大型数据集，包含超过1600万页的历史美国报纸页面。该数据集通过深度学习模型提取了包括标题、照片、插图、地图、漫画、社论漫画和广告在内的7类视觉内容。创建过程涉及使用Beyond Words众包项目中的边界框注释来训练视觉内容识别模型，并自动从METS/ALTO OCR中提取文本内容。该数据集的应用领域广泛，旨在通过数字化历史报纸内容，支持学术研究、教育、公共历史和创意计算等多个领域的需求，解决历史报纸内容分析和检索的问题。

The Newspaper Navigator Dataset is a large-scale dataset created by the Library of Congress, containing over 16 million pages of historical American newspapers. This dataset extracts 7 categories of visual content including headlines, photographs, illustrations, maps, cartoons, editorial cartoons, and advertisements via deep learning models. Its development involved training visual content recognition models using bounding box annotations from the Beyond Words crowdsourcing project, and automatically extracting text content from METS/ALTO OCR. The dataset has broad application scenarios, aiming to support the needs of multiple fields such as academic research, education, public history and creative computing by digitizing historical newspaper content, and addressing the challenges of historical newspaper content analysis and retrieval.

提供机构：

美国国会图书馆

创建时间：

2020-05-04

搜集汇总

数据集介绍

构建方式

在数字人文研究领域，大规模历史报纸的视觉内容提取一直面临技术挑战。Newspaper Navigator数据集的构建采用了创新的多阶段流水线方法：首先基于国会图书馆“超越文字”众包项目标注的边界框数据，对预训练的Faster R-CNN模型进行微调，形成能够识别七类视觉内容（标题、照片、插图、地图、漫画、社论漫画和广告）的视觉内容识别模型。随后，该模型被部署到自动化流水线中，对《编年美国》数字档案中的1630万页历史报纸进行批量处理，同步提取图像边界框坐标、置信度分数及对应的METS/ALTO光学字符识别文本。最后，通过ResNet架构生成图像嵌入向量，构建了包含视觉内容、文本描述和语义向量的多层次数据集。

特点

该数据集在历史文献数字化领域具有里程碑意义，其核心特征体现在三个维度：规模上，它覆盖了1789年至1963年间出版的1630万页报纸，包含超过1亿个标注视觉内容，成为迄今最大的历史报纸视觉内容数据集；内容上，不仅提供七类视觉元素的边界框标注，还融合了对应的OCR文本和图像嵌入向量，实现了视觉与文本信息的跨模态关联；技术上，数据集采用分层置信度阈值设计，允许研究者根据精度与召回率的平衡需求灵活选择数据子集，同时提供预打包的地理与时间分类数据集，大幅降低了非技术用户的使用门槛。

使用方法

研究者可通过多种路径利用该数据集：对于计算人文研究，可直接使用公开的JSON格式元数据文件，其中包含每页的视觉内容边界框、置信度分数、OCR文本及图像嵌入向量，支持大规模视觉模式分析、内容传播研究或版面设计演变考察；技术开发者可调用预训练的视觉内容识别模型，将其迁移至其他历史文献数字化项目；教育工作者则可直接下载预打包的主题数据集（如南北战争地图集），用于课堂教学或公众展览。数据集所有组件均以公有领域许可发布，支持无限制的学术与创造性使用。

背景与挑战

背景概述

在数字人文与文化遗产保护的交叉领域，大规模历史文献的视觉内容分析正成为新兴的研究焦点。Newspaper Navigator数据集于2020年由华盛顿大学与国会图书馆联合创建，旨在从Chronicling America项目的1600万页历史报纸中自动提取并分类视觉内容。该数据集的核心研究问题在于解决海量数字化报纸中视觉元素的机器识别与语义化组织难题，通过深度学习模型对照片、插图、地图、漫画、社论漫画、广告及标题等七类内容进行定位与提取。其构建不仅为历史学、新闻学与视觉文化研究提供了前所未有的量化分析素材，更推动了数字档案的智能检索与跨模态研究范式的发展。

当前挑战

该数据集致力于解决历史报纸视觉内容分析与检索的领域挑战，具体包括：如何在海量异构版面中实现多类别视觉元素的精准检测与分类，以及如何将提取的视觉内容与对应的光学字符识别文本进行关联以支持语义查询。在构建过程中，研究团队面临多重技术障碍：首先，训练数据依赖于众包标注项目Beyond Words，其标注范围与一致性存在局限，需额外扩充标题与广告等类别的标注；其次，历史报纸的版面设计、印刷质量及时代演变导致视觉特征高度多样化，使得模型在跨越不同世纪报纸时的泛化能力受到考验，尤其对19世纪早期报纸的识别精度显著下降；此外，处理数千万页高分辨率图像所需的大规模计算管道设计与效率优化，亦是工程实现上的关键挑战。

常用场景

经典使用场景

在数字人文与历史研究领域，Newspaper Navigator数据集为学者提供了前所未有的视觉内容分析平台。该数据集通过深度学习模型从Chronicling America的1630万页历史报纸中自动提取了标题、照片、插图、地图、漫画、社论漫画和广告等七类视觉内容，并附带了相关的OCR文本与图像嵌入向量。其经典应用场景在于支持大规模的历史视觉文化研究，例如分析19世纪末至20世纪初美国报纸中视觉元素的演变趋势，或探究特定历史事件（如南北战争）期间地图的传播模式。研究者可利用该数据集进行跨时空的视觉内容量化分析，揭示社会文化变迁的视觉表征。

衍生相关工作

Newspaper Navigator数据集已催生了一系列相关研究与实践项目。在数字人文领域，其视觉嵌入向量被用于构建图像相似性检索系统，支持如“Civil War maps”等主题集合的自动化汇编。该数据集的方法论启发了其他文化遗产数字化项目，例如将类似管道应用于不同语言或时期的历史报纸集。同时，其基于众包数据训练深度学习模型的范式，为机器学习与公众科学（citizen science）的合作提供了案例参考，促进了如Living with Machines等项目在历史文档分析中的技术进步。

数据集最近研究