five

ajanco/pesp

收藏
Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ajanco/pesp
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Pages of Early Soviet Performance (PESP),主要包含早期苏联表演艺术相关的插图期刊的文本和图像研究数据。数据集是通过使用计算机视觉技术和YOLO实时对象检测模型生成的,旨在为十月革命后(1917-1932)苏联文化的研究提供新的途径。数据集来源于普林斯顿大学图书馆的数字PUL(DPUL),包含了10种期刊的526期,约26,000页的内容。数据集的处理过程包括文档分割、图像、文本、标题和混合文本区域的预测,以及使用多种OCR引擎进行文本提取。数据集中的每个图像条目包含文件名、期刊名称、年份、期号、URI、YOLO模型预测结果以及使用不同OCR引擎提取的文本等信息。
提供机构:
ajanco
原始信息汇总

Pages of Early Soviet Performance (PESP) 数据集概述

数据集基本信息

  • 语言: 俄语 (ru)
  • 许可证: AFL-3.0
  • 多语言性: 单语种
  • 数据来源: 原始数据
  • 任务类别: 其他

数据集描述

  • 目的: 利用机器学习生成与早期苏联表演艺术相关的插图期刊数据集,通过计算机视觉技术和YOLO实时对象检测模型,生成文本和图像数据,以促进对十月革命后苏联文化的研究。
  • 数据源: 普林斯顿大学图书馆的数字PUL(DPUL),包含10种期刊,总计526期,约26,000页。
  • 数据内容: 包含文章、诗歌、编辑评论、广告以及图像、插图和图形艺术。

数据集创建

  • 创建者: Natalia Ermolaev, Thomas Keenan, Katherine Reischl, Andrew Janco, Quinn Dombrowski, Antonina Puchkovskaia, Alexander Jacobson, Anastasiia Mamonova, Michael Galperin, Vladislav Tretyak
  • 创建方法: 使用makesense.ai和自定义的"Mayakovsky"应用程序生成训练数据,用于YOLOv5模型的微调。

数据集结构

  • 文件信息: 每个图像文件包含名称、DPUL链接、期刊名称、年份、期号、IIIF URI和YOLO模型预测结果。
  • 预测结果: 包括预测标签、位置、尺寸以及通过ABBYY FineReader、Tesseract和Google Vision提取的文本。

使用示例

python from datasets import load_dataset

dataset = load_dataset(ajanco/pesp) for item in dataset[train]: for prediction in item[yolo_predictions]: print(prediction)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作