American Stories

Name: American Stories
Creator: 哈佛大学
Published: 2023-08-24 08:24:42
License: 暂无描述

arXiv2023-08-24 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/dell-research-harvard/AmericanStories

下载链接

链接失效反馈

官方服务：

资源简介：

American Stories数据集是由哈佛大学等机构的研究人员开发，包含从美国国会图书馆的公共领域Chronicling America收藏中提取的近2亿扫描图像的结构化文本数据。该数据集覆盖了所有州，内容可追溯至17世纪，主要集中在20世纪初。数据集提供了高质量的数据，可用于预训练大型语言模型，以更好地理解历史英语和历史世界知识。此外，结构化的文章文本便于使用基于变换器的方法进行社会科学应用，如主题分类、内容复制检测和新闻故事聚类。数据集还提供了大规模的银质量数据，用于创新多模态布局分析模型和其他多模态应用。

The American Stories dataset was developed by researchers from Harvard University and other institutions. It contains nearly 200 million structured text data extracted from scanned images in the public-domain Chronicling America collection of the Library of Congress. The dataset covers all U.S. states, with content dating back to the 17th century and primarily focused on the early 20th century. It provides high-quality data suitable for pre-training large language models (LLMs) to better understand historical English and historical world knowledge. Furthermore, its structured article text facilitates the use of Transformer-based methods for social science applications, including topic classification, content copy detection, and news story clustering. Additionally, the dataset offers large-scale silver-standard data for developing innovative multimodal layout analysis models and other multimodal applications.

提供机构：

哈佛大学

创建时间：

2023-08-24

搜集汇总

数据集介绍

构建方式

在历史文献数字化领域，传统方法常因版面复杂和OCR质量低下导致文本混杂。American Stories数据集通过创新的深度学习流程，系统性地解决了这些挑战。该流程首先采用YOLOv8进行版面检测，识别文章、标题、广告等区域；随后通过MobileNetV3进行可读性分类，过滤模糊文本；接着运用高效的EfficientOCR架构进行字符识别，并结合基于规则的关联方法整合跨区域文本。整个流程采用模块化设计，兼顾了成本效益与处理规模，最终从美国国会图书馆的Chronicling America收藏中提取出超过11.4亿个内容区域。

使用方法

研究者可通过Hugging Face平台直接访问该数据集，其提供按年份划分的JSON格式文件，支持文章级别或扫描级别的数据加载。数据集适用于多种学术与应用场景：在自然语言处理领域，可用于历史语言模型的预训练或检索增强型模型的构建；在计算社会科学中，支持主题分类、内容传播网络分析和新闻故事聚类；在多模态研究中，为版面分析与分类任务提供大规模银标数据。使用时可结合原始扫描图像，并利用提供的元数据链接坐标信息，以实现更深入的分析。

背景与挑战

背景概述

在数字人文与计算社会科学领域，历史报纸文本的数字化与结构化处理是挖掘历史信息的关键环节。美国故事数据集（American Stories）由哈佛大学等机构的研究团队于2023年创建，旨在解决美国国会图书馆“Chronicling America”项目中近2000万份历史报纸扫描件的文本提取难题。该数据集通过深度学习流程，实现了对复杂版面布局的精准识别、文本可读性分类及高效光学字符识别，最终生成了包含11.4亿个内容区域的高质量结构化文本。其核心研究问题聚焦于如何从布局混乱、质量参差的扫描图像中提取完整文章文本，以支持历史语言建模、社会分析及多模态应用，为研究19至20世纪初的美国社会、文化与语言变迁提供了前所未有的数据基础。

当前挑战

美国故事数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域层面，历史报纸数字化需应对图像分类与文本提取的复杂性，例如版面中文章、标题、广告等区域的交错混杂，以及因年代久远导致的图像模糊、字体多样等问题，这增加了准确分离与识别文本的难度。构建过程中，研究团队需克服大规模数据处理的技术瓶颈，包括设计高效的版面检测模型、开发适应历史字体与低质量扫描的自定义OCR系统，并在有限预算下实现近20亿字符的并行处理。此外，数据集的构建还需平衡文本质量与成本效益，确保输出结果既能满足学术研究的高精度要求，又能以可扩展的方式应用于更广泛的历史文档集合。

常用场景

经典使用场景

在历史文献数字化与自然语言处理领域，American Stories数据集为研究者提供了大规模、高质量的结构化报纸文章文本。该数据集通过先进的深度学习流程，从美国国会图书馆的Chronicling America收藏中提取了近2000万份扫描件中的文章内容，解决了传统报纸扫描件因复杂版面布局导致的文本混杂问题。其经典使用场景包括训练历史语言模型，以增强对19世纪至20世纪初英语及历史世界知识的理解，同时支持基于检索增强的语言模型应用，使历史信息更易于访问和分析。

解决学术问题

American Stories数据集有效解决了历史报纸数字化中的多个学术难题。它通过布局检测、可读性分类和定制化OCR技术，克服了传统数据集因版面混乱和OCR质量低下导致的文本噪声问题。这为社会科学研究提供了高质量数据，支持主题分类、内容传播网络分析和新闻故事聚类等应用。数据集的结构化特性使得基于Transformer的方法能够更准确地执行语义分析，从而推动历史语言学、计算社会科学和数字人文领域的研究进展。

实际应用

在实际应用层面，American Stories数据集为历史研究、家族史探索和文化分析提供了强大工具。例如，研究人员可利用该数据集检索特定历史事件的媒体报道，分析政治观点的演变，或追踪家族祖先的日常生活细节。此外，数据集的多模态布局和文本信息可用于训练布局分析模型，支持图像标注、视觉问答和跨模态检索等任务。这些应用不仅提升了历史文献的可用性，还为教育、档案管理和文化遗产保护提供了技术支持。

数据集最近研究