five

gigant/oldbookillustrations

收藏
Hugging Face2023-12-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gigant/oldbookillustrations
下载链接
链接失效反馈
官方服务:
资源简介:
Old Book Illustrations数据集包含从旧书中扫描的4172幅插图,由Old Book Illustrations网站的团队收集和整理。该数据集支持多语言,主要是英语,但也包含一些法语和德语句子。数据集的结构包括多个字段,如原始扫描图像、清理后的图像、插图页面的URL、艺术家信息、书籍信息、插图来源等。数据集的创建目的是为了支持BigLAM倡议。数据集的许可证为CC-BY-NC-4.0,且大多数图像在美国和欧洲属于公共领域,但也有一些例外。

The Old Book Illustrations dataset consists of 4,172 illustrations scanned from antique books, collected and curated by the team behind the Old Book Illustrations website. This dataset supports multilingual content, primarily in English, with some sentences in French and German as well. The dataset structure includes multiple fields, such as raw scanned images, cleaned images, URLs of illustration pages, artist information, book metadata, illustration sources, and more. The dataset was developed to support the BigLAM initiative. The dataset is licensed under CC-BY-NC-4.0, and most of the images are in the public domain in the United States and Europe, with a few exceptions.
提供机构:
gigant
原始信息汇总

数据集概述

数据集名称

  • 名称: Old Book Illustrations
  • 别名: OBI

数据集基本信息

  • 语言: 英语、法语、德语
  • 许可证: CC-BY-NC-4.0
  • 多语言性: 多语言
  • 数据集大小: 4172个实例
  • 数据来源: 原始数据
  • 任务类别: 文本到图像、图像到文本、图像到图像
  • 任务ID: 图像标题生成

数据集结构

  • 数据字段:
    • rawscan: 原始扫描图像
    • 1600px: 清理并调整大小后的图像
    • info_url: 图像页面URL
    • info_src: 图标大小图像URL
    • info_alt: 图像简短描述
    • artist_name: 艺术家名称
    • artist_birth_date: 艺术家出生日期
    • artist_death_date: 艺术家逝世日期
    • artist_countries: 艺术家所属国家列表
    • book_title: 书籍原始标题
    • book_authors: 书籍作者列表
    • book_publishers: 书籍出版商列表
    • date_published: 出版日期
    • openlibrary-url: 书籍在OpenLibrary的条目URL
    • tags: 关键词列表
    • illustration_source_name: 插图来源名称列表
    • illustration_source_url: 插图来源URL列表
    • illustration_subject: 插图主题类别
    • illustration_format: 插图格式类别
    • image_title: 图像标题
    • image_caption: 图像标题
    • image_description: 图像描述
    • rawscan_url: 原始扫描图像URL
    • 1600px_url: 清理后图像URL

数据集创建

  • 数据收集: 从Old Book Illustrations网站收集
  • 数据整理: 由网站团队整理
  • 版权信息: 大部分图像为公共领域,但存在例外情况

使用考虑

  • 偏见讨论: 数据集可能包含被认为具有攻击性、令人不安或误导性的图像

附加信息

  • 数据集维护者: Old Book Illustrations网站团队
  • 许可证信息: 文本内容受CC-BY-NC-4.0许可证保护
  • 引用信息: 使用时需引用Old Book Illustrations网站
  • 贡献者: 感谢@gigant添加此数据集
搜集汇总
数据集介绍
main_image_url
构建方式
在数字人文与文化遗产保护领域,Old Book Illustrations数据集通过系统化采集与专家标注构建而成。其源数据源自Old Book Illustrations网站,该平台专注于收录19世纪至20世纪初的书籍插图。构建过程中,团队采用网络爬虫技术提取了4172幅插图的高质量扫描图像,并同步收集了每幅作品的多维度元数据,包括艺术家生平、书籍出版信息、插图主题分类及多语言描述文本。所有数据均经过人工校验与结构化处理,确保了图像与文本信息的准确对应,形成兼具视觉资料与文献价值的标准化集合。
特点
该数据集的核心特点在于其丰富的历史文化维度与精细的结构化设计。图像资源涵盖原始扫描与预处理后的两种版本,分别保留历史原貌与适配计算分析的清晰度。元数据体系尤为完备,不仅包含插图的艺术属性与来源书籍的文献细节,还提供了多语言标注、主题标签及开放图书馆链接,支持跨模态检索与研究。数据规模适中但覆盖广泛,涉及英语、法语、德语等多语种内容,为研究19世纪视觉文化、出版史与跨语言图像理解提供了珍贵素材。
使用方法
在学术研究与技术开发中,该数据集可灵活应用于多类任务。用户可通过HuggingFace平台直接加载数据,利用其图像与文本字段进行跨模态训练,如图像描述生成、风格迁移或历史图像分类。研究者可依据艺术家国籍、出版年代或主题标签进行数据筛选,开展特定历史时期的视觉文化分析。需注意,使用时应遵循CC-BY-NC-4.0许可协议,并审慎处理数据中可能存在的历史性偏见或敏感内容,确保符合学术伦理与版权法规。
背景与挑战
背景概述
在数字人文与文化遗产保护的交叉领域,Old Book Illustrations数据集于2022年由BigLAM计划支持构建,其核心源自Old Book Illustrations网站团队的专业策展。该数据集汇集了19世纪至20世纪初的4172幅古籍插图,涵盖英语、法语及德语等多语言标注,旨在为文本到图像、图像到文本及图像到图像等多模态任务提供珍贵的历史视觉资料。通过系统化整理艺术家、书籍元数据及插图主题信息,它不仅推动了艺术史与文献学的数字化研究,也为生成式人工智能在历史图像理解与重建方面奠定了数据基础。
当前挑战
该数据集致力于解决历史插图多模态理解中的核心挑战,包括跨世纪艺术风格的自动识别、低质量扫描图像的语义还原,以及多语言描述与视觉内容的对齐问题。在构建过程中,策展团队面临古籍插图数字化固有的难题:原始扫描图像存在褪色、污损或变形,需通过清洗与尺寸标准化提升可用性;同时,插图的版权状态复杂,部分作品因艺术家逝世时间较晚,在欧洲或美国尚未进入公有领域,这要求数据使用必须严格遵循地域性著作权法律。此外,插图的主题与描述可能包含历史性偏见或敏感内容,需在应用中保持批判性审视。
常用场景
经典使用场景
在数字人文与文化遗产保护领域,Old Book Illustrations数据集为学者提供了丰富的视觉与文本资源。其经典使用场景在于支持跨模态学习研究,特别是图像描述生成与图文检索任务。通过整合19世纪书籍插画的高质量扫描图像及多语言元数据,该数据集能够训练模型理解历史艺术风格与文本语境之间的复杂关联,为自动化图像标注和内容分析奠定基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在跨模态预训练与历史图像分析领域。例如,BigLAM计划利用其进行大规模艺术语言建模,探索插图风格与文本描述的联合表征学习。后续研究则拓展至插图风格迁移、时代分类和艺术家归属识别等任务,这些工作不仅深化了对历史视觉语法的计算理解,也为保护濒危图像遗产提供了算法支持。
数据集最近研究
最新研究方向
在数字人文与文化遗产保护领域,Old Book Illustrations数据集凭借其丰富的19世纪书籍插图资源,正成为跨模态人工智能研究的热点。该数据集的多语言标注与高分辨率图像为图像描述生成、风格迁移及历史视觉分析提供了珍贵素材。前沿探索聚焦于利用生成式模型复原破损插图,或结合自然语言处理技术自动解析插图背后的文化叙事,以推动艺术史研究与教育资源的数字化创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作