Teklia/NorHand-v2-line
收藏Hugging Face2025-02-11 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Teklia/NorHand-v2-line
下载链接
链接失效反馈官方服务:
资源简介:
NorHand v2数据集包含19世纪和20世纪初的挪威信件和日记行图像及文本。所有图像都被调整为128像素的固定高度。数据集的语言为挪威博克马尔语。数据实例包括图像和对应的文本标签。
NorHand v2数据集包含19世纪和20世纪初的挪威信件和日记行图像及文本。所有图像都被调整为128像素的固定高度。数据集的语言为挪威博克马尔语。数据实例包括图像和对应的文本标签。
提供机构:
Teklia
原始信息汇总
NorHand v2 - line level 数据集概述
数据集描述
NorHand v2 数据集包含19世纪和20世纪初的挪威信件和日记行图像及文本。所有图像都被调整为固定高度128像素。
语言
数据集中的所有文档均以挪威博克马尔语(Norwegian Bokmål)书写。
数据集结构
数据实例
json { "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=4300x128 at 0x1A800E8E190>, "text": "og Hjertelighed" }
数据字段
image: 一个包含图像的PIL.Image.Image对象。注意,当访问图像列(使用dataset[0]["image"])时,图像文件会自动解码。解码大量图像文件可能需要大量时间,因此建议先查询样本索引再访问“image”列,即dataset[0]["image"]应始终优先于dataset["image"][0]。text: 图像的标签转录文本。
数据集信息
- 特征:
image: 图像类型,数据类型为图像。text: 文本类型,数据类型为字符串。
- 分割:
train: 训练集,包含145008个样本。validation: 验证集,包含14965个样本。test: 测试集,包含1792个样本。
- 数据集大小: 161831个样本。
- 标签:
atrhtrocrhistoricalhandwritten



