Southern Newswire Corpus

Name: Southern Newswire Corpus
Creator: 都柏林圣三一学院
Published: 2025-02-17 22:57:47
License: 暂无描述

arXiv2025-02-17 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.11866v1

下载链接

链接失效反馈

官方服务：

资源简介：

南方电讯文章语料库是一个大规模的历史电讯文章数据集，由美国南方报纸于1960年至1975年间出版的约1000万页数字化报纸中提取而得，涵盖了美联社、合众国际社和报业企业协会等多家电讯服务机构的文章。这个数据集不仅包括了报纸头版的文章，还包括了整个报纸中的文章，大大增加了电讯来源材料的范围。数据集提供了经过大型语言模型清理的版本和原始OCR版本，以减少光学字符识别噪声，提高了定量文本分析的适用性。此外，数据集还保留了文章的不同版本，以供分析不同报纸编辑在语言和框架上的差异。该数据集适用于计算社会科学、数字人文和历史语言学等领域的研究，为理解美国南方报纸如何传达国家和国际新闻，以及这些新闻如何塑造公共话语提供了详细视角。

The Southern Telegraphic Articles Corpus is a large-scale historical telegraphic article dataset derived from approximately 10 million digitized pages of newspapers published by Southern U.S. newspapers between 1960 and 1975, covering articles from multiple telegraphic services including the Associated Press (AP), United Press International (UPI), and Newspaper Enterprise Association (NEA). This dataset includes not only front-page articles but also articles across the entire newspaper, significantly expanding the scope of telegraphic source materials. The dataset provides both a Large Language Model (LLM)-cleaned version and the raw Optical Character Recognition (OCR) version, to reduce OCR noise and improve the suitability for quantitative text analysis. Furthermore, the dataset preserves different versions of articles, enabling analysis of linguistic and framing differences across various newspaper editors. This dataset is applicable to research in fields such as Computational Social Science, Digital Humanities, and Historical Linguistics, providing detailed insights into how Southern U.S. newspapers conveyed national and international news, and how such news shaped public discourse.

提供机构：

都柏林圣三一学院

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

Southern Newswire Corpus 数据集的构建是通过检测来自美国南部报纸的约 10,000 万份数字化页面中的新闻电讯服务（AP、UPI 和 NEA）文章来完成的。该数据集包含每份报纸的每个版次的所有页面，并提供每篇文章的原始 OCR 版本和通过大型语言模型（LLM）进行文本清理的版本，以降低 OCR 噪声，增强定量文本分析的能力。

特点

该数据集的特点在于：1）捕捉了整个报纸中的新闻电讯文章，而不仅仅是头版，大幅增加了新闻电讯素材的范围；2）提供了一种经过 LLM 清理的文本版本，显著减少了 OCR 引入的噪声；3）明确标识了主要新闻电讯机构（AP、UPI、NEA），方便跨机构报道的比较；4）对同一新闻电讯文本的重复版本进行了独特处理。

使用方法

使用 Southern Newswire Corpus 数据集时，研究者可以依据其提供的新闻电讯元数据和地理参考信息，进行历史文本分析。数据集中的 LLM 校正版本支持强大的自然语言处理任务，如主题建模、命名实体网络分析和大规模语言模型微调。此外，跨机构标记使得研究者能够比较不同新闻电讯机构之间的编辑或修辞变化。

背景与挑战

背景概述

南方新闻电讯数据库（Southern Newswire Corpus）是一项涵盖美国南方报纸在1960至1975年间所发布的新闻电讯的大型数据集。该数据集由都柏林三一学院的Michael McRae主导创建，旨在为计算社会科学、数字人文和历史语言学等领域的研究提供详实的视角，展现美国历史上一段社会政治变革时期，南方报纸如何传达国内外新闻。该数据集的特点在于不仅覆盖了头版内容，更包括了报纸内各版块的新闻电讯，从而提供了对20世纪中叶南方新闻报道的全面洞察。

当前挑战

在构建该数据集的过程中，研究人员面临了多项挑战。首先，数据集需要克服传统报纸数字化工作通常聚焦于头版或单一新闻电讯服务的局限，实现全面覆盖。其次，数据集在处理光学字符识别（OCR）产生的噪音时，采用了大型语言模型进行文本清洗，以降低错误率并提高文本分析的准确性。此外，数据集在保留新闻电讯原始版本的同时，还需区分并标注不同新闻机构的来源，以及处理重复新闻电讯的识别问题，以便进行跨报纸的编辑差异分析。

常用场景

经典使用场景

Southern Newswire Corpus作为一个包含美国南方报纸历史电讯文章的大型数据集，其经典使用场景主要集中于对20世纪中叶美国南方新闻传播的深入研究。学者们可以通过该数据集，探究不同电讯服务如何塑造并反映当地社区对于民权运动、冷战政治、越南战争等关键事件的认知与互动。

实际应用

在实际应用中，Southern Newswire Corpus能够服务于计算社会科学、数字人文以及历史语言学等领域的研究。它可以帮助研究人员进行话题建模、命名实体网络分析以及大规模语言模型的微调等任务，进而深入理解特定历史时期的新闻传播和社会变迁。

衍生相关工作

基于该数据集，已经衍生出了一系列相关工作，包括对新闻电讯的语义相似度分析、历史新闻档案的大规模语义相似度数据集构建等。这些工作进一步扩展了数据集的应用范围，为历史新闻内容的深度挖掘和分析提供了新的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集