Teklia/Himanis-line

Name: Teklia/Himanis-line
Creator: Teklia
Published: 2025-02-11 09:56:45
License: 暂无描述

Hugging Face2025-02-11 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/Teklia/Himanis-line

下载链接

链接失效反馈

官方服务：

资源简介：

Himanis-line数据集是一个中世纪文献的语料库，包含拉丁语和法语两种语言的文献。该数据集用于历史文献索引，以便用户控制搜索，包括图像到文本的任务。所有图像都被调整到固定的高度为128像素。数据集分为训练集、验证集和测试集，总共包含23112个实例。

Himanis (HIstorical MANuscript Indexing for user controlled Search) is a corpus of medieval documents written in Latin and French. The dataset is used for historical manuscript indexing, enabling user-controlled search with an image-to-text task. All images are resized to a fixed height of 128 pixels. The dataset is split into training, validation, and test sets, totaling 23,112 instances.

提供机构：

Teklia

原始信息汇总

Himanis - line level 数据集概述

数据集描述

Himanis (HIstorical MANuscript Indexing for user controlled Search) 是一个中世纪文档的语料库。所有图像都被调整为固定高度128像素。

语言

数据集中的所有文档都是用拉丁语和法语书写的。

数据集结构

数据实例

json { "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=4300x128 at 0x1A800E8E190>, "text": "Philippus, Dei gratia Francorum et Navarre rex. Notum facimus universis, tam presentibus quam futuris, quod, cum supplicato nobs nuper," }

数据字段

image: 一个包含图像的 PIL.Image.Image 对象。注意，当访问图像列（使用 dataset[0]["image"]）时，图像文件会自动解码。解码大量图像文件可能需要大量时间，因此建议先查询样本索引再访问 "image" 列，即 dataset[0]["image"] 应始终优先于 dataset["image"][0]。
text: 图像的标签转录。

数据集信息

特征:
- image: 图像类型
- text: 字符串类型
分割:
- train: 18504 个样本
- validation: 2367 个样本
- test: 2240 个样本
数据集大小: 23111
标签:
- atr
- ocr
- htr
- historical
- handwritten

5,000+

优质数据集

54 个

任务类型

进入经典数据集