HistoricalNewspapersCorpus

github2017-12-19 更新2024-05-31 收录

下载链接：

https://github.com/nfreire/HistoricalNewspapersCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含数字化历史报纸全文的数据集，目前包含欧洲报纸数据集的一个子集，未来将提供完整的欧洲报纸数据集。数据集中的报纸包括Jaunākās Ziņas、Berliner Tageblatt和LUnivers等，每个报纸都有详细的年份、来源图书馆和文本许可信息。

This dataset comprises the full text of digitized historical newspapers, currently including a subset of European newspaper collections, with plans to offer the complete European newspaper dataset in the future. The newspapers in the dataset include Jaunākās Ziņas, Berliner Tageblatt, and L'Univers, among others, each accompanied by detailed information on the year of publication, source library, and text licensing.

创建时间：

2015-06-28

原始信息汇总

数据集概述

数据集名称

HistoricalNewspapersCorpus

当前内容

数据集目前包含欧洲报纸文库的一个子集，未来将增加内容，并最终公开完整的欧洲报纸文库。

包含的报纸标题及详情

Jaunākās Ziņas
- 可获取年份：1911-1936
- 来源图书馆：国家图书馆 of Latvia
- 文本许可：Creative Commons Public Domain Mark 1.0
- 在GitHub仓库中的状态：可用
Berliner Tageblatt
- 可获取年份：1878-1929
- 来源图书馆：Staatsbibliothek zu Berlin
- 文本许可：Creative Commons Public Domain Mark 1.0
- 在GitHub仓库中的状态：尚未可用
LUnivers (National Library of France)
- 可获取年份：1867-1920
- 来源图书馆：National Library of France
- 文本许可：Creative Commons Public Domain Mark 1.0
- 在GitHub仓库中的状态：尚未可用

文件结构

数据集在GitHub仓库中的文件结构如下：

README.md
报纸标题
- 描述性元数据（Dublin Core格式的报纸标题元数据记录）
- 描述性元数据（EDM - Europeana数据模型格式的报纸标题元数据记录）
- 年份（yyyy）
  - 报纸期号（基于出版日期的文件夹名称：yyyymmdd）
    - 描述性元数据（Dublin Core格式的报纸期号元数据记录）
    - 描述性元数据（EDM - Europeana数据模型格式的报纸期号元数据记录）
    - 全文文件（ZIP档案中的ALTO格式文件，尚未可用）
    - 全文文件（ZIP档案中的纯文本格式文件）

联系信息

联系人：Alastair Dunning
邮箱：Alastair.Dunning@theeuropeanlibrary.org

搜集汇总

数据集介绍

构建方式

HistoricalNewspapersCorpus数据集旨在通过GitHub平台，为研究者提供一份规模庞大的OCR（光学字符识别）文本资源。该数据集目前包含欧洲报纸资源库（Europeana Newspaper corpus）的一个子集。数据集构建者计划逐步扩充内容，最终将整个欧洲报纸资源库公之于众。数据集的组织结构遵循特定的文件夹结构，每个报纸标题下列出相应年份、期号及其描述性元数据，元数据遵循都柏林核心（Dublin Core）和欧洲数据模型（EDM）两种格式。

特点

该数据集的特点在于，它依托GitHub平台，便于用户便捷地访问历史报纸文本。它包含了不同语言的报纸，如拉脱维亚的《Jaunākās Ziņas》、德国的《Berliner Tageblatt》以及法国的《L'Univers》。每份报纸均提供了详细的描述性元数据，并计划提供OCR识别的全文文本。此外，所有文本内容均遵循Creative Commons公共领域标记1.0许可，意味着用户可以自由使用这些文本资源。

使用方法

用户可以通过GitHub仓库访问该数据集。每个报纸标题下，用户可以找到按年份和期号组织的文件夹。文件夹中包含了描述性元数据和全文文本（目前仅提供文本格式，ALTO格式尚不可用）。用户需遵守相应的使用许可，并可以通过提供的链接，在European Library网站上进行报纸的检索。对于数据集的使用，用户应当直接通过GitHub进行，并通过提供的联系方式与数据集维护者进行交流。

背景与挑战

背景概述

HistoricalNewspapersCorpus数据集是一项旨在通过GitHub提供大规模光学字符识别（OCRed）文本存取的实验性项目。该数据集包含了欧洲图书馆（Europeana）报纸资料库的一个子集，计划逐步扩大内容，最终实现整个欧洲报纸资料库的公开访问。该项目启动于近期，由欧洲图书馆负责，主要目标是数字化并公开三份重要报纸的全文，包括《Jaunākās Ziņas》、《Berliner Tageblatt》和《L'Univers》。这些报纸分别来源于拉脱维亚国家图书馆、柏林国家图书馆和法国国家图书馆，其文本内容遵循公共领域标记1.0版许可，可在特定网站上检索，为历史文献研究、语言学研究等领域提供了宝贵的数据资源。

当前挑战

该数据集在构建过程中面临的主要挑战包括：1）如何确保大规模文本数据的高质量OCR转换，以便提供准确可搜索的文本；2）如何处理和整合不同图书馆和档案的元数据标准，确保数据集的统一性和可用性；3）数据集的持续更新与维护，尤其是在不断扩大数据规模的同时，保持高效的数据管理和访问；4）对于《Berliner Tageblatt》和《L'Univers》的数字化内容尚未可供访问，需要解决数字化和上传过程中的技术障碍。这些挑战对于提升数据集的质量和实用性至关重要。

常用场景

经典使用场景

在数字人文与历史研究领域，HistoricalNewspapersCorpus数据集的经典使用场景主要涉及历史文献的数字化整理与内容分析。该数据集提供了一个丰富的历史报纸文本集合，可供研究者进行文本挖掘、情感分析、历史事件追踪等研究，进而深入挖掘不同历史时期的社会文化特征。

衍生相关工作

基于该数据集，已衍生出一系列相关研究工作，包括历史事件的时间线构建、历史人物关系网络分析、语言变迁的研究等。这些研究进一步推动了数字人文领域的发展，并为相关学科提供了宝贵的研究资源。

数据集最近研究