Spanish Corpus XIX & XX

github2020-09-30 更新2024-05-31 收录

下载链接：

https://github.com/RaulAranovich/SpanishCorpusXIX

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个收集了19世纪和20世纪西班牙新闻和小说的语料库，数据来源于Project Gutenberg，包含多种文体和地区方言的文本。

This is a corpus that collects Spanish news and novels from the 19th and 20th centuries, sourced from Project Gutenberg, encompassing a variety of literary styles and regional dialects.

创建时间：

2018-06-22

原始信息汇总

数据集概述

数据集名称

Spanish Corpus XIX & XX - 美国与半岛西班牙语的历史研究

作者

Nicole Dodd (ncdodd@ucdavis.edu)
Daniel Lavados
Raul Aranovich (raranovich@ucdavis.edu)

数据来源

数据集包含19世纪和20世纪的西班牙新闻和小说，来源于Project Gutenberg。

数据集内容

分析部分

关键性分析：使用卡方检验、对数似然比、优势比、KL散度等统计测试，分析美国与半岛方言的关键性。
tu/usted和vosotros/ustedes分布分析：按方言（美国和半岛）和不同领域划分进行分析。

语料文件

文件命名规则：
- 第一标签：方言（a = 美国，p = 半岛）
- 第二标签：世纪（xix = 19世纪，xx = 20世纪）
- 第三标签：领域（d = 戏剧，f = 小说，n = 非小说，p = 诗歌，j = 期刊/新闻）

文件部分

google-ngrams：n-gram下载
ground-truth-sets：手动校正的OCR文档
newspapers：来自Project Gutenberg的原始报纸
ocr：待校正的原始OCR文档

OCR后处理

fonseca-code：作为当前模型灵感的基线代码（Fonseca, 2019）
levenshtein-edits：用于创建和输出加权Levenshtein编辑距离矩阵的代码
output：OCR后处理模型的输出

脚本

clean-ocr.py：清理OCR输出，移除换行，合并连字符单词
unified-file.py：从多个OCR后的.txt文件生成单一的.txt文件
SpanishReader.py：专为西班牙语文本设计的语料库阅读器
SpanishCorpusReader.ipynb：包含SpanishReader教程的Jupyter Notebook

西班牙语词典

包含用于创建基线OCR输出的词典的所有文件和脚本

搜集汇总

数据集介绍

构建方式

Spanish Corpus XIX & XX 数据集构建于19世纪和20世纪的西班牙语新闻和小说，主要来源于Project Gutenberg。数据集的构建过程包括从原始文档中进行光学字符识别（OCR），并对OCR结果进行后处理以提高文本质量。此外，数据集还包含手工校正的OCR文档，用于训练加权Levenshtein编辑矩阵，以进一步优化文本识别精度。数据集的命名规则明确，通过文件名中的标签可以快速识别文本的方言、世纪和领域。

特点

该数据集的特点在于其丰富的历史语言资源，涵盖了19世纪和20世纪的美国与半岛西班牙语的对比研究。数据集不仅包含多种文本类型（如戏剧、小说、非小说、诗歌和新闻），还提供了详细的方言分析工具，如关键性分析、tu/usted和vosotros/ustedes的分布分析等。这些工具为研究者提供了深入探讨西班牙语方言差异的便利。

使用方法

使用Spanish Corpus XIX & XX数据集时，研究者可以通过提供的脚本和工具进行文本清洗、OCR后处理和文本分析。数据集附带的Jupyter Notebook教程（SpanishCorpusReader.ipynb）详细介绍了如何使用SpanishReader类进行文本读取和分析。此外，研究者可以利用数据集中的统计测试工具进行方言关键性分析，或通过提供的字典和OCR校正工具进行文本质量优化。

背景与挑战

背景概述

Spanish Corpus XIX & XX 数据集由Nicole Dodd、Daniel Lavados和Raul Aranovich等研究人员创建，旨在研究19世纪和20世纪美洲与半岛西班牙语的历史演变。该数据集主要来源于古腾堡计划中的新闻和小说文本，涵盖了戏剧、小说、非小说、诗歌和新闻等多种文本类型。通过统计分析方法，如卡方检验、对数似然比、比值比和KL散度等，研究人员能够深入探讨美洲与半岛西班牙语之间的关键差异。该数据集为语言学家和历史学家提供了宝贵的资源，有助于理解西班牙语在不同地理区域和时间段内的语言变化。

当前挑战

Spanish Corpus XIX & XX 数据集在构建过程中面临多重挑战。首先，原始文本的OCR（光学字符识别）质量参差不齐，需要进行大量的后处理工作以提高文本的准确性和可读性。其次，数据集的分析部分需要开发复杂的统计模型来识别和比较不同方言之间的关键差异，这对算法的精确性和计算效率提出了较高要求。此外，数据集的扩展和完善也面临挑战，例如完成《El Imparcial》报纸的OCR工作以及优化现有的OCR后处理模型。这些挑战不仅涉及技术层面的问题，还需要跨学科的合作，以确保数据集的高质量和广泛应用。

常用场景

经典使用场景

Spanish Corpus XIX & XX数据集在语言学和历史研究中扮演着重要角色，特别是在分析19世纪和20世纪美洲与半岛西班牙语的差异方面。研究者通过该数据集进行关键词分析，使用卡方检验、对数似然比、比值比和KL散度等统计方法，深入探讨两种方言在词汇使用上的显著差异。此外，数据集还支持对tu/usted和vosotros/ustedes等代词在不同方言和领域中的分布研究，为语言演变提供了丰富的实证数据。

解决学术问题

该数据集解决了西班牙语历史语言学中的多个关键问题，尤其是美洲与半岛西班牙语在19世纪和20世纪的词汇和语法差异。通过提供大量历史文本，研究者能够量化分析两种方言的关键词频率和分布，揭示语言变化的规律。此外，数据集还支持对OCR后处理模型的开发，解决了历史文献数字化中的文本识别和校正问题，为语言学研究提供了高质量的数据基础。

衍生相关工作

基于Spanish Corpus XIX & XX数据集，研究者开发了多种相关工具和模型，如OCR后处理模型和加权Levenshtein编辑距离矩阵。这些工具不仅提升了历史文献的数字化质量，还为其他语言的文本处理提供了参考。此外，数据集还催生了一系列关于西班牙语方言演变的研究论文，进一步推动了历史语言学和计算语言学的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集