Teklia/HOME-Alcar-line
收藏Hugging Face2024-10-28 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Teklia/HOME-Alcar-line
下载链接
链接失效反馈官方服务:
资源简介:
HOME-Alcar(对齐和注释的契约书)数据集是一个中世纪的手稿语料库。该语料库中的17本中世纪手稿是契约书,即复制宪章和法律法案的书籍,产生于12至14世纪。所有图像都被调整为128像素的固定高度。数据集的语言为拉丁语。数据集的结构包括图像和文本两个字段,图像是PIL.Image.Image对象,文本是图像的标签转录。数据集分为训练集、验证集和测试集,分别包含59969、7905和6932个样本。
HOME-Alcar(对齐和注释的契约书)数据集是一个中世纪的手稿语料库。该语料库中的17本中世纪手稿是契约书,即复制宪章和法律法案的书籍,产生于12至14世纪。所有图像都被调整为128像素的固定高度。数据集的语言为拉丁语。数据集的结构包括图像和文本两个字段,图像是PIL.Image.Image对象,文本是图像的标签转录。数据集分为训练集、验证集和测试集,分别包含59969、7905和6932个样本。
提供机构:
Teklia
原始信息汇总
HOME-Alcar - line level 数据集概述
数据集描述
HOME-Alcar (Aligned and Annotated Cartularies) 数据集是一个中世纪手稿语料库,包含17本中世纪的特许状和法律文书抄本,时间跨度为12世纪到14世纪。所有图像都被调整为固定高度128像素。
语言
数据集中的所有文档都是用拉丁文书写的。
数据集结构
数据实例
json { "image": "<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=4300x128 at 0x1A800E8E190>", "text": "quatre mille livres de tournoiz poiez, si com¬" }
数据字段
image: 一个 PIL.Image.Image 对象,包含图像。注意,当访问图像列(使用 dataset[0]["image"])时,图像文件会自动解码。解码大量图像文件可能会花费大量时间,因此建议先查询样本索引再访问 "image" 列,即 dataset[0]["image"] 应始终优先于 dataset["image"][0]。text: 图像的标签转录。
数据集信息
- 特征:
image: 图像类型,数据类型为image。text: 文本类型,数据类型为string。
- 分割:
train: 训练集,包含 59969 个样本。validation: 验证集,包含 7905 个样本。test: 测试集,包含 6932 个样本。
- 数据集大小: 74806 个样本。
- 标签:
atrhtrocrhistoricalhandwritten



