dell-research-harvard/AmericanStories

Name: dell-research-harvard/AmericanStories
Creator: dell-research-harvard
Published: 2025-03-26 15:49:08
License: 暂无描述

Hugging Face2025-03-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dell-research-harvard/AmericanStories

下载链接

链接失效反馈

官方服务：

资源简介：

American Stories数据集是一个包含从美国历史报纸图像中提取的全文文章的集合，包含近2000万份来自公共领域Chronicling America收藏的扫描件。该数据集通过创新的深度学习管道创建，包括布局检测、可读性分类、自定义OCR和多框文章文本关联。数据集适用于预训练大型语言模型，增强对历史英语和世界知识的理解，也可用于检索增强的语言模型，使历史信息更易获取。此外，数据集的结构化文章文本支持使用transformer方法进行内容复制检测，提高准确性。

The American Stories dataset is a collection of full-text articles extracted from historical American newspaper images, containing nearly 20 million scanned items from the public-domain Chronicling America collection. This dataset was developed through an innovative deep learning pipeline, which includes layout detection, readability classification, custom OCR, and multi-box article text association. The dataset is applicable to pre-trained large language models (LLMs) to enhance their understanding of historical English and world knowledge, and can also be used for retrieval-augmented language models to make historical information more accessible. Furthermore, the structured article text of the dataset supports content duplication detection using Transformer-based methods, improving detection accuracy.

提供机构：

dell-research-harvard

原始信息汇总

数据集概述

数据集名称： AmericanStories

数据集描述： AmericanStories 数据集是一个包含从历史美国报纸图像中提取的全文文章集合。该数据集包含近2000万份来自公共领域Chronicling America收藏的扫描件，由美国国会图书馆维护。数据集旨在解决现有报纸数据集中复杂的布局和低质量OCR的挑战。通过使用一种新颖的深度学习管道，该数据集整合了布局检测、可读性分类、自定义OCR和跨多个边界框的文章文本关联。

数据集用途：

预训练大型语言模型，提高对历史英语和世界知识的理解。
集成到检索增强的语言模型中，使历史信息更易于访问。
使用基于Transformer的方法进行内容复制检测。

语言： 英语（en）

数据集结构：

数据实例： 数据集包含两种类型的输出：文章级输出和扫描级输出。
- 文章级输出： 每个实例包含文章ID、报纸名称、版次、日期、页码、标题、作者线和文章内容。
- 扫描级输出： 包含未解析的扫描级数据，包括扫描元数据、内容区域及其边界框、OCR文本和可读性分类。
数据分割： 数据按年份分割，可通过特定年份访问数据。

访问数据：

数据可通过配置选项下载，支持按年份选择下载文章级或扫描级数据。

数据集创建：

数据来源： 数据源自美国国会图书馆提供的公共领域图像扫描。
数据处理： 使用深度学习管道进行布局检测、可读性分类、自定义OCR和文本关联。

许可证： CC-BY 4.0

贡献者：

Melissa Dell (Harvard), Jacob Carlson (Harvard), Tom Bryan (Harvard), Emily Silcock (Harvard), Abhishek Arora (Harvard), Zejiang Shen (MIT), Luca DAmico-Wong (Harvard), Quan Le (Princeton), Pablo Querubin (NYU), Leander Heldring (Kellog School of Business)

引用信息：

@misc{dell2023american, title={American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers}, author={Melissa Dell and Jacob Carlson and Tom Bryan and Emily Silcock and Abhishek Arora and Zejiang Shen and Luca DAmico-Wong and Quan Le and Pablo Querubin and Leander Heldring}, year={2023}, eprint={2308.12477}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在历史文献数字化研究领域，美国故事数据集采用创新的深度学习流程构建而成。该流程整合了版面检测、可读性分类、定制化光学字符识别技术，并实现了跨多边界框的文章文本关联。其核心方法借鉴了移动设备优化的高效架构，专门针对美国国会图书馆“记录美国”公共领域收藏中近两千万幅历史报纸扫描图像进行处理，有效克服了传统报纸数据集因复杂版面布局和低质量OCR带来的技术挑战。

特点

作为大规模历史文献语料库，该数据集具备显著的结构化特征与多粒度访问能力。其核心优势在于提供文章级别与扫描级别的双重数据视图，前者包含完整的文章ID、报刊名称、出版日期及正文内容等结构化字段，后者则保留原始扫描元数据与版面区域信息。数据集按年份进行自然划分，覆盖1774年至1963年的历史跨度，且所有内容均经过可读性筛选与文本关联处理，形成了兼具规模与质量的银色标准语料，特别适用于对历史语言现象与社会变迁的深度分析。

使用方法

在自然语言处理与数字人文研究中，该数据集通过四种配置模式提供灵活访问途径。研究者可使用Hugging Face Datasets库，通过指定‘subset_years’或‘all_years’参数获取文章级数据，或选择‘subset_years_content_regions’及‘all_years_content_regions’配置访问扫描级原始信息。数据加载脚本支持按年份子集进行选择性下载，例如指定year_list参数获取特定年代的数据切片。这种设计使得数据集既能支持大规模语言模型预训练，也能满足细粒度的历史信息检索与多模态版面分析等研究需求。

背景与挑战

背景概述

在数字人文与计算社会科学领域，历史报纸档案的文本化与结构化处理是挖掘大规模历史信息的关键基础。美国故事数据集由哈佛大学等机构的研究团队于2023年创建，旨在应对现有历史报纸数据集中复杂的版面布局与低质量光学字符识别所带来的挑战。该数据集从美国国会图书馆的“Chronicling America”公共馆藏中提取了近两千万份扫描图像，通过创新的深度学习流程实现了文章级文本的高质量提取与关联。其核心研究问题聚焦于如何从异构的历史文献中构建大规模、结构化的文本语料，以支持历史语言学、社会变迁分析与文化研究等多个方向，为预训练大语言模型提供了珍贵的历史语言资源，显著推动了数字档案的智能化利用。

当前挑战

该数据集致力于解决历史报纸文本提取与利用中的双重挑战。在领域问题层面，历史报纸版面复杂多样，文章常跨区域分布，且早期印刷质量参差不齐，导致传统OCR技术识别错误率高、文本关联困难，严重制约了历史文本的机器可读性与分析精度。在构建过程中，研究团队需设计高效的移动端架构以处理海量图像数据，同时开发集版面检测、可读性分类与自定义OCR于一体的深度学习流程，确保文本提取的准确性与规模化。此外，数据集的银级质量虽适于创新研究，但仍需应对原始内容中可能存在的史实偏差与表述偏见，这对后续应用的可靠性提出了审慎要求。

常用场景

经典使用场景

在历史文献数字化与自然语言处理领域，AmericanStories数据集以其近两千万篇历史报纸文章的高质量文本，成为研究历史语言变迁与社会动态的珍贵资源。该数据集通过先进的深度学习流程，有效克服了传统光学字符识别在复杂版面与低质量扫描图像上的局限，为学者提供了结构化的文章级文本。其经典应用场景集中于历史语料库的构建与分析，支持对长达两个世纪的美国新闻报道进行大规模文本挖掘，从而揭示语言使用模式、社会议题演变及文化叙事传承。

实际应用

在实际应用层面，AmericanStories数据集为开发检索增强型语言模型提供了丰富的历史知识库，使公众能够更便捷地获取从宏观政治事件解读到微观祖先生活细节的信息。其高质量文本可用于预训练大语言模型，提升模型对历史英语与世界知识的理解能力，进而增强诸如历史问答、内容摘要及信息检索等下游任务的性能。同时，数据集支持多模态版面分析模型的创新，为数字人文项目、档案自动化处理及教育工具开发提供了可靠的数据基础。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在利用其结构化文本改进历史内容检测与复制识别任务。研究者们借助其文章级标注，开发了基于Transformer的模型，以更准确地追踪新闻内容的传播与重用。此外，数据集促进了历史语言模型预训练领域的探索，为理解长期语言演变提供了新基准。在多模态分析方向，它激励了结合版面视觉信息与文本语义的模型创新，推动了数字档案智能化处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集