five

scta-htr-training-data

收藏
Hugging Face2024-09-17 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/scta/scta-htr-training-data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含拉丁语文本和图像数据,主要用于分割主要文本并忽略旁文。数据集包含图像、边界框、转录文本和文本等特征,分为训练集,包含3074个样本,总大小为4023153557.496字节。转录原则包括扩展缩写和保留拼写。
创建时间:
2024-09-05
原始信息汇总

SCTA HTR Training Data 数据集概述

语言

  • 拉丁语 (la)

数据集信息

特征

  • image: 图像数据,数据类型为 image
  • img_url: 图像URL,数据类型为 string
  • bounding_boxes: 边界框,数据类型为 int32 的序列
  • transcriptions: 转录文本,数据类型为 string 的序列
  • text: 文本数据,数据类型为 string

数据分割

  • train: 训练集,包含 3520 个样本,数据大小为 4322880581.32 字节

数据集大小

  • 下载大小: 3820299585 字节
  • 数据集大小: 4322880581.32 字节

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*

数据集指导原则

分割

  • 目标是对“主要文本”进行分割,忽略旁注、页码、关键词和边缘注释。

转录

  • 转录原则包括:
    • 扩展缩写
    • 保留正字法
搜集汇总
数据集介绍
main_image_url
构建方式
scta-htr-training-data数据集专注于拉丁文手稿的数字化处理,其构建过程严格遵循文本分割与转录的原则。在文本分割方面,该数据集特别强调对主文本的提取,而忽略诸如页码、边注等辅助信息,确保数据的纯粹性和研究价值。转录过程中,数据集采用扩展缩写并保留原始拼写的方式,以保持文本的历史真实性。
特点
该数据集的特点在于其高精度的图像标注和详尽的文本转录。每张图像均配有精确的边界框标注,便于进行文本定位和识别。此外,数据集提供了丰富的文本转录信息,包括扩展的缩写和原始拼写,为研究者提供了深入分析拉丁文手稿的宝贵资源。
使用方法
scta-htr-training-data数据集适用于手写文本识别(HTR)和自然语言处理(NLP)领域的研究。用户可以通过分析图像和对应的文本数据,训练和优化手写识别模型。此外,该数据集还可用于研究拉丁文的历史演变和语言学特征,为学术研究提供数据支持。
背景与挑战
背景概述
scta-htr-training-data数据集专注于拉丁文手稿的自动识别与转录,由相关领域的学者和机构共同开发,旨在推动数字人文领域的技术进步。该数据集的创建时间可追溯至近年,主要研究人员致力于解决手稿文本的自动分割与转录问题,特别是针对中世纪拉丁文手稿的复杂结构。通过提供高质量的图像数据及其对应的文本转录,该数据集为手写文本识别(HTR)领域的研究提供了重要支持,显著提升了相关算法的训练效果与应用范围。
当前挑战
scta-htr-training-data数据集在解决手写文本识别问题时面临多重挑战。首先,拉丁文手稿的复杂排版与多样化的书写风格增加了文本分割与识别的难度,尤其是如何准确区分主文本与旁注、页码等非核心内容。其次,手稿中的缩写扩展与正字法保留问题对转录的准确性提出了更高要求。在数据构建过程中,研究人员还需克服图像质量参差不齐、手稿保存状态不佳等技术难题,以确保数据集的完整性与可用性。这些挑战共同构成了该数据集在数字人文领域中的核心研究难点。
常用场景
经典使用场景
scta-htr-training-data数据集在历史文献数字化和文本识别领域具有重要应用。该数据集主要用于训练和评估手写文本识别(HTR)模型,特别是在处理拉丁文手稿时。通过提供高质量的图像和对应的文本转录,研究者能够开发出更精确的OCR工具,用于自动识别和转录古代手稿中的文字。
实际应用
在实际应用中,scta-htr-training-data数据集被广泛用于图书馆、档案馆和博物馆的数字化项目。通过使用该数据集训练的模型,这些机构能够更高效地将大量手写文献转化为可搜索的电子文本,从而方便学者和公众访问这些珍贵的历史资料。
衍生相关工作
基于scta-htr-training-data数据集,许多经典的研究工作得以展开。例如,研究者开发了多种先进的HTR模型,这些模型在拉丁文手稿的识别和转录任务中表现出色。此外,该数据集还促进了跨学科合作,推动了历史文献数字化技术的发展,为文化遗产保护做出了重要贡献。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作