davanstrien/leicester_loaded_annotations
收藏Hugging Face2022-12-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/leicester_loaded_annotations
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: image
dtype: string
- name: id
dtype: int64
- name: choice
dtype: string
- name: annotator
dtype: int64
- name: annotation_id
dtype: int64
- name: created_at
dtype: string
- name: updated_at
dtype: string
- name: lead_time
dtype: float64
- name: image_url
dtype: string
- name: text
dtype: string
- name: loaded_images
dtype: image
- name: labels
dtype:
class_label:
names:
'0': local_desc
'1': county_desc
'2': major_residences_index
'3': advert
'4': county_trades
'5': county_residence_alpha
'6': index_general_or_place
'7': title_page
'8': adverts_index_alpha
'9': adverts_index_business_cat
'10': prefatory_text
splits:
- name: train
num_bytes: 1096673288.0
num_examples: 525
download_size: 1064406432
dataset_size: 1096673288.0
---
# Dataset Card for "leicester_loaded_annotations"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征项:
- 字段名:图像(image),数据类型:字符串
- 字段名:编号(id),数据类型:64位整数
- 字段名:选项(choice),数据类型:字符串
- 字段名:标注者(annotator),数据类型:64位整数
- 字段名:标注编号(annotation_id),数据类型:64位整数
- 字段名:创建时间(created_at),数据类型:字符串
- 字段名:更新时间(updated_at),数据类型:字符串
- 字段名:标注耗时(lead_time),数据类型:浮点数
- 字段名:图像链接(image_url),数据类型:字符串
- 字段名:文本(text),数据类型:字符串
- 字段名:加载图像(loaded_images),数据类型:图像
- 字段名:标签(labels),数据类型:类别标签,其类别名称对应如下:
'0':本地描述(local_desc)
'1':郡级描述(county_desc)
'2':主要住宅索引(major_residences_index)
'3':广告(advert)
'4':郡级行业索引(county_trades)
'5':郡级住宅字母索引(county_residence_alpha)
'6':通用索引或地点索引(index_general_or_place)
'7':标题页(title_page)
'8':广告字母索引(adverts_index_alpha)
'9':广告商业分类索引(adverts_index_business_cat)
'10':序文文本(prefatory_text)
数据集划分:
- 划分名称:训练集(train),字节占用量:1096673288.0,样本数量:525
下载体积:1064406432字节
数据集总体积:1096673288.0字节
---
# 「莱斯特加载标注」数据集卡片(leicester_loaded_annotations)
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
davanstrien
原始信息汇总
数据集概述
数据集名称
- 名称: leicester_loaded_annotations
数据集特征
- 特征列表:
image: 数据类型 - stringid: 数据类型 - int64choice: 数据类型 - stringannotator: 数据类型 - int64annotation_id: 数据类型 - int64created_at: 数据类型 - stringupdated_at: 数据类型 - stringlead_time: 数据类型 - float64image_url: 数据类型 - stringtext: 数据类型 - stringloaded_images: 数据类型 - imagelabels: 数据类型 -class_label:names:- 0: local_desc
- 1: county_desc
- 2: major_residences_index
- 3: advert
- 4: county_trades
- 5: county_residence_alpha
- 6: index_general_or_place
- 7: title_page
- 8: adverts_index_alpha
- 9: adverts_index_business_cat
- 10: prefatory_text
数据集分割
- 分割名称: train
- 数据量: 1096673288.0 字节
- 示例数量: 525
数据集大小
- 下载大小: 1064406432 字节
- 数据集大小: 1096673288.0 字节
搜集汇总
数据集介绍

构建方式
在历史文献数字化领域,莱斯特加载标注数据集通过系统化的标注流程构建而成。该数据集源自对历史文档图像的深度处理,每幅图像均关联了详尽的元数据与分类标签。标注工作由多位标注者协作完成,记录了标注时间、处理时长及版本更新信息,确保了数据追溯的完整性。图像与文本内容经过结构化整合,形成了涵盖多种文档类别的标注体系,为历史文献的机器识别提供了坚实基础。
特点
该数据集的核心特点在于其多维度的特征表示与精细的类别划分。数据集不仅包含原始图像数据,还整合了文本描述、标注者信息及时间戳等元数据,支持跨模态分析。标签体系覆盖了从本地描述、县区信息到广告索引等十余个历史文档类别,反映了文献内容的多样性。图像以加载格式存储,便于直接用于计算任务,同时保持了标注过程的透明性与可重复性。
使用方法
在历史文档分析研究中,该数据集适用于训练与评估文档分类与内容识别模型。使用者可通过加载图像与对应标签,进行监督学习任务,如自动归类文档页面类型。数据集的分割结构支持直接划分训练集,结合文本与图像特征,可探索多模态学习方法。标注者与时间信息有助于分析标注一致性,为模型优化提供参考维度。
背景与挑战
背景概述
在数字人文与历史档案研究领域,历史文献的数字化与结构化标注是推动学术研究的关键环节。数据集davanstrien/leicester_loaded_annotations由相关研究机构于近年创建,旨在系统处理英国莱斯特地区历史档案中的图像与文本资料。该数据集的核心研究问题聚焦于如何通过多类别标注体系,对历史文档中的图像内容进行精细化分类,涵盖本地描述、郡县记录、广告索引及前言文本等多种类型。其构建工作不仅促进了历史档案的机器可读性,也为文化遗产的数字化保存与智能分析提供了重要数据基础,对数字人文领域的算法开发与跨学科研究产生了积极影响。
当前挑战
该数据集致力于解决历史文档图像多标签分类的复杂问题,其挑战在于历史文献往往包含模糊、破损或风格各异的视觉元素,要求模型具备强大的特征提取与上下文理解能力。在构建过程中,研究人员面临标注一致性的难题,因为不同注释者对历史内容的理解可能存在主观差异,需通过严格的质量控制流程来确保标注的可靠性。此外,历史图像的数字化处理常遇到分辨率不均、背景噪声干扰等技术障碍,增加了数据清洗与预处理的复杂度。这些挑战共同凸显了在文化遗产领域应用人工智能时所需的高精度与鲁棒性要求。
常用场景
经典使用场景
在数字人文与历史档案研究领域,davanstrien/leicester_loaded_annotations数据集为学者提供了珍贵的标注资源。该数据集聚焦于历史文档图像的多类别标注,涵盖本地描述、郡县描述、主要住宅索引、广告、郡县贸易、郡县住宅字母索引、通用或地点索引、标题页、广告索引字母分类、广告索引商业分类以及前言文本等类别。其经典使用场景在于支持历史文档的自动化分类与内容识别研究,通过机器学习模型对扫描文档图像进行结构化解析,从而辅助历史学家快速定位与提取关键信息,推动档案数字化进程的深入。
解决学术问题
该数据集有效应对了历史文档分析中的若干核心学术挑战。传统上,历史档案的整理依赖人工阅读与标注,效率低下且易受主观影响。本数据集通过提供大规模、多类别的标注样本,为训练自动化文档分类模型奠定了数据基础。它解决了历史文档图像中文本区域识别与语义分类的难题,使得研究者能够开发算法,自动区分文档中的广告、索引、前言等不同功能部分,从而提升历史研究的客观性与可重复性,为数字人文领域的定量分析提供了关键工具。
衍生相关工作
围绕该数据集,已衍生出多项具有影响力的经典研究工作。在计算机视觉与文档分析交叉领域,研究者利用其构建了针对历史文档的细粒度分类模型,这些模型在识别文档结构布局与语义内容方面取得了显著进展。相关成果进一步推动了光学字符识别(OCR)后处理技术、文档图像分割算法以及多模态历史信息检索系统的发展。这些工作不仅深化了对历史文档内容的理解,也为后续更复杂的任务,如历史事件关联分析与时空数据挖掘,提供了重要的方法论与模型基础。
以上内容由遇见数据集搜集并总结生成



