five

Historical Ink: LatamXIX

收藏
arXiv2024-07-04 更新2024-07-22 收录
下载链接:
https://huggingface.co/datasets/Flaglab/latam-xix
下载链接
链接失效反馈
官方服务:
资源简介:
Historical Ink: LatamXIX 数据集由安第斯大学创建,专注于19世纪拉丁美洲西班牙语报纸文本,旨在填补该地区历史和语言分析专业语料库的空白。数据集包含约10,176条记录,涵盖58种报纸,时间跨度为1845至1899年,主要来源于哥伦比亚的国家图书馆和路易斯·安赫尔·阿朗戈图书馆。数据集通过大型语言模型(LLM)进行OCR错误校正,提高了文本的准确性和可读性,适用于历史、文化和语言学研究。

The Historical Ink: LatamXIX dataset was created by the University of the Andes, focusing on Spanish-language newspaper texts from 19th-century Latin America, and aims to fill the gap in specialized corpora for historical and linguistic analyses of this region. The dataset contains approximately 10,176 records spanning 58 newspapers, with a time range from 1845 to 1899, and is mainly sourced from the National Library of Colombia and the Luis Ángel Arango Library. OCR errors in the dataset have been corrected using Large Language Models (LLMs), which enhances the accuracy and readability of the texts, making it suitable for historical, cultural, and linguistic research.
提供机构:
安第斯大学
创建时间:
2024-07-04
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Latin-American XIX Century Spanish Corpus
  • 语言: 西班牙语
  • 语言创建者: 众包、机器生成
  • 许可证: MIT
  • 多语言性: 单语种
  • 数据集大小: 1K<n<10K
  • 源数据集: 原始数据

标签

  • 拉丁美洲
  • 报纸
  • 19世纪
  • 1800-1900年
  • 研究
  • 西班牙语

任务类别

  • 填空
  • 文本检索
  • 文本分类

具体任务

  • 槽填充
  • 掩码语言建模
  • 文档检索
  • 对话生成
  • 多标签分类
  • 实体链接分类
  • 情感分类
  • 语义相似度评分
  • 语义相似度分类
  • 情感评分
  • 情感分析
  • 主题分类
  • 多输入文本分类
  • 多类分类
  • 仇恨言论检测

配置

  • corrected
    • 数据文件: corrected-latam-xix.parquet
    • 默认: 是
  • cleaned
    • 数据文件: cleaned-latam-xix.parquet
  • original
    • 数据文件: original-latam-xix.parquet
搜集汇总
数据集介绍
main_image_url
构建方式
Historical Ink: LatamXIX数据集的构建从哥伦比亚最重要的报纸档案数字目录中选取材料,主要包括带有印刷或插图的作品。通过对纸质档案的手动审查,并利用Azure AI Vision Model的OCR服务进行文本转录。构建过程中,特别针对19世纪拉丁美洲西班牙语的特点,采用LLM模型进行OCR错误校正,以提高转录文本的准确性和可读性。
特点
该数据集的特点在于,它填补了19世纪拉丁美洲报纸专有语料库的空白,为历史和语言学分析提供了宝贵的资源。它包含了经过LLM模型校正的OCR文本,以及丰富的元数据,有助于后续的研究工作。此外,数据集还提供了19世纪拉丁美洲西班牙语表面形式的列表,对于研究语言演变和区域差异具有重要价值。
使用方法
使用Historical Ink: LatamXIX数据集时,研究者可以依托其中的OCR校正文本和丰富的元数据进行历史和语言学研究。数据集提供的表面形式列表可用于语义变化检测任务,帮助研究者比较不同时期或不同西班牙语地区的语言演变。此外,数据集的构建框架可适用于其他语言和特定上下文,具有一定的通用性。
背景与挑战
背景概述
Historical Ink: LatamXIX数据集是一个19世纪拉丁美洲报纸文本的数据集,由哥伦比亚安第斯大学的系统和计算机工程系与历史地理系共同研发。该数据集旨在解决该地区历史和语言学分析专用语料库的缺乏问题,并引入了一种基于大型语言模型(LLM)的OCR错误校正和语言表面形式检测的框架。这一框架适用于多种语境,并已在新的数据集上得到具体应用。该数据集的创建对相关领域产生了重要影响,为历史和语言学的研究提供了宝贵的资源。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1)光学字符识别(OCR)技术的准确性问题,特别是在处理历史文档时,由于文档质量退化或字体非标准化,传统的OCR方法常常产生错误;2)构建过程中,对于19世纪拉丁美洲西班牙语的特殊性,缺乏训练有素的OCR模型;3)在处理旧报纸文本时,由于字体磨损和书写方法的不同,OCR错误检测和自动校正面临着巨大挑战;4)需要开发一种自动化的评价方法来评估OCR的准确性,并进一步自动化规则定义过程,以提高OCR校正框架的效率和准确性。
常用场景
经典使用场景
Historical Ink: LatamXIX数据集是一个19世纪拉丁美洲报纸文本的集合,它专门针对历史和语言学分析在拉丁美洲该时期缺乏专业语料库的问题。该数据集的经典使用场景在于为研究者提供了一个独特的资源,使其能够深入探索19世纪拉丁美洲的历史、文化和西班牙语的语言特点。
实际应用
在实际应用中,Historical Ink: LatamXIX数据集可用于数字化人文领域,支持对19世纪拉丁美洲社会、政治和文化过程的深入研究。此外,它还可以作为OCR技术和语言模型训练的重要资源,以改进对旧西班牙语文本的处理能力。
衍生相关工作
基于Historical Ink: LatamXIX数据集,已经衍生出了一系列相关工作,包括对19世纪拉丁美洲西班牙语表面形式的详细研究,以及将这些表面形式应用于语义变化检测任务。此外,该数据集的OCR校正框架也被应用于其他历史文档的数字化处理,进一步推动了数字化人文领域的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作