Travelogues Corpus

github2022-11-24 更新2024-05-31 收录

下载链接：

https://github.com/travelogues/travelogues-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含1500-1876年间德语旅行日志的语料库，由奥地利国家图书馆的奥地利书籍在线项目提供，通过SACHA基础设施获取全文和元数据。该数据集用于训练机器学习模型，用于识别大型文本语料库中的历史旅行日志。

A corpus containing German travel logs from 1500 to 1876, provided by the Austrian Books Online project of the Austrian National Library, with full texts and metadata accessible through the SACHA infrastructure. This dataset is utilized for training machine learning models to identify historical travel logs within large text corpora.

创建时间：

2020-01-08

原始信息汇总

数据集概述

数据集名称

Travelogues Corpus

数据集描述

该数据集包含1500至1876年间德语旅行记，来源于奥地利国家图书馆的奥地利书籍在线项目。数据由Travelogues项目的领域专家编译，使用图书馆的ALMA管理系统，并通过SACHA基础设施获取全文和元数据。文本采用光学字符识别（OCR）技术生成，未经人工校正。

数据集内容

16世纪部分
- 16c-books.zip (14 MB, 66 files)
- 16c-metadata.zip (68 KB, 66 files)
17世纪部分
- 17c-books.zip (49 MB, 204 files)
- 17c-metadata.zip (202 KB, 204 files)
18世纪部分
- 18c-books.zip (214 MB, 949 files)
- 18c-metadata.zip (814 KB, 949 files)

数据集使用

该数据集用于训练自动分类器，相关研究发表于arXiv:2001.01673。

许可证

文本文件：无版权 - 仅限非商业使用 NoC-NC 1.0
元数据：根据Creative Commons CC0授权

搜集汇总

数据集介绍

构建方式

Travelogues Corpus 数据集的构建依托于奥地利国家图书馆的奥地利图书在线项目，涵盖了1500年至1876年间的德语旅行日志。该数据集由旅行日志项目的领域专家通过图书馆管理系统（ALMA）进行整理，并利用SACHA基础设施获取了全文和包含元数据的清单。文本内容通过光学字符识别（OCR）技术生成，未经过人工校正。该项目的资金支持来自奥地利科学基金（FWF）和德国研究基金会（DFG）的资助。

特点

Travelogues Corpus 数据集的特点在于其时间跨度广泛，涵盖了四个世纪的德语旅行日志，为研究历史语言学、文化变迁和地理探索提供了丰富的素材。数据集按世纪划分为16世纪、17世纪和18世纪三个子集，每个子集包含书籍文件和元数据文件，便于用户按需使用。文本内容虽未经过人工校正，但其原始性为研究OCR技术的局限性和改进提供了独特的机会。

使用方法

Travelogues Corpus 数据集的使用方法较为灵活，用户可通过Git LFS克隆整个仓库以获取数据。书籍和元数据文件以奥地利国家图书馆的条形码标识命名，用户可通过条形码前缀`http://data.onb.ac.at/ABO/+`构建永久URL访问数字对象。该数据集已被用于机器学习领域，特别是在训练自动分类器以识别历史旅行日志方面，相关研究成果已发表在学术论文中。用户可参考提供的GitHub仓库获取更多信息和源代码。

背景与挑战

背景概述

Travelogues Corpus 是一个包含1500年至1876年间德语旅行日志的语料库，源自奥地利国家图书馆的奥地利图书在线项目。该语料库由Travelogues Project的领域专家通过图书馆的管理系统（ALMA）编制，并利用SACHA基础设施获取了全文和包含元数据的清单。文本通过光学字符识别（OCR）技术生成，未经人工校正。该项目的资金支持来自奥地利科学基金（FWF）和德国研究基金会（DFG）的资助。该数据集为历史文献的数字化保存和机器学习的应用提供了重要资源，尤其在历史旅行日志的自动分类研究中发挥了关键作用。

当前挑战

Travelogues Corpus 在构建和应用过程中面临多重挑战。首先，由于文本来源于历史文献，OCR技术的识别精度受到手写字体、印刷质量以及历史语言变体的影响，导致文本中存在一定程度的错误。其次，尽管数据集提供了丰富的元数据，但其非商业用途的限制可能限制了其在更广泛研究中的应用。此外，如何有效利用这些历史文本进行机器学习模型的训练，尤其是在缺乏人工校正的情况下，仍然是一个技术难题。最后，数据集的规模较大，管理和处理这些数据需要高效的计算资源和存储方案，这对研究者的技术能力提出了较高要求。

常用场景

经典使用场景

Travelogues Corpus 数据集主要应用于历史文献的数字化处理与分析。该数据集包含了1500年至1876年间的德语旅行日志，这些文本通过光学字符识别（OCR）技术转化为数字格式，为研究者提供了丰富的历史文献资源。经典的使用场景包括历史学家对旅行日志的内容分析、语言学家对德语历史演变的研究，以及数字人文领域的研究者利用机器学习技术对文本进行分类和主题分析。

解决学术问题

Travelogues Corpus 数据集解决了历史文献数字化处理中的多个学术问题。首先，它提供了大量未经手动校正的OCR文本，为研究者提供了研究OCR错误率及其对文本分析影响的实验数据。其次，该数据集为历史学家和语言学家提供了研究德语历史演变、旅行文化以及跨文化交流的宝贵资源。此外，该数据集还被用于训练机器学习模型，以自动识别和分类历史旅行日志，推动了数字人文领域的技术进步。

衍生相关工作

Travelogues Corpus 数据集衍生了许多相关的研究工作。例如，Jan Rörden 等人在2019年发表的论文中，利用该数据集训练了一个自动分类器，用于在大规模文本语料库中识别历史旅行日志。这项工作不仅展示了机器学习在历史文献分析中的应用潜力，还为后续研究者提供了技术参考。此外，该数据集还促进了数字人文领域的研究合作，推动了历史文献数字化处理技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集