five

biglam/nls_chapbook_illustrations

收藏
Hugging Face2023-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/nls_chapbook_illustrations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自苏格兰国家图书馆的小册子插图图像,这些图像经过数字化处理,并附有注释。注释包括插图的边界框、分类标签以及视觉分组信息。数据集支持的目标检测、图像分类和图像匹配任务,并提供了相关任务的性能指标。数据集的创建旨在促进对苏格兰小册子插图的研究,并通过自动化检测减少研究人员的手动标注工作量。
提供机构:
biglam
原始信息汇总

数据集概述

数据集名称

  • 名称: National Library of Scotland Chapbook Illustrations
  • 别名: NLS Chapbook Illustrations

数据集描述

  • 摘要: 该数据集包含来自国家图书馆苏格兰分馆持有的传单书的图像,这些图像已被数字化并作为其“苏格兰印刷的传单书”数据集发布。传单书是17世纪末至19世纪末的日常阅读材料,通常在标题页上带有粗糙的木刻插图。
  • 任务: 数据集支持以下任务:
    • 物体检测:数据集包含传单书中图像的边界框。
    • 图像分类:提供一个分类标签,指示页面是否包含插图。
    • 图像匹配:数据集中的注释被分类为“视觉组”,这些组包含通过VGG图像搜索引擎(VISE)软件确定的视觉匹配内容。

数据集结构

  • 数据实例: 数据集包含三种配置的数据实例:
    • illustration-detection: 包含图像ID、宽度、高度、图像和对象(包括边界框、类别ID等)。
    • image-classification: 包含图像和标签(指示页面是否包含插图)。
    • image-matching: 包含图像和组标签(标识图像的特定实例)。
  • 数据字段:
    • illustration-detection: 图像ID、高度、宽度、图像、对象(包括边界框、类别ID等)。
    • image-classification: 图像、标签。
    • image-matching: 图像、组标签。
  • 数据分割: 所有配置均使用单一的train分割。

数据集创建

  • 来源数据: 数据源自国家图书馆苏格兰分馆的“苏格兰印刷的传单书”数据集。
  • 注释过程: 注释由Abhishek Dutta和Giles Bergel创建,使用VGG列表注释器(LISA)软件和EfficientDet对象检测器。
  • 许可证: 数据集遵循公共领域许可证。

使用数据集的考虑

  • 社会影响: 数据集旨在帮助训练和基准测试插图检测器,自动化手动注释任务,节省研究人员的时间和劳动。
  • 偏见讨论: 数据集可能不完全代表所有苏格兰印刷的传单书,插图的定义在一定程度上是任意的。
  • 其他已知限制: 数据集中的插图重复使用程度异常高,这些注释可能不适用于其他印刷作品。

附加信息

  • 数据集管理员: Giles Bergel, Abhishek Dutta
  • 贡献者: @davanstrien, Giles Bergel
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作