five

ai-forever/Peter

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai-forever/Peter
下载链接
链接失效反馈
官方服务:
资源简介:
Digital Peter是一个具有历史背景的教育任务,基于多种AI技术(计算机视觉、自然语言处理和知识图谱)创建。该任务是与俄罗斯科学院圣彼得堡历史研究所(N.P.Lihachov大厦)、俄罗斯联邦档案局和俄罗斯国家古代档案局共同准备的。数据集包含662张全页图像和9696个注释文本文件,共有265788个符号和大约50998个单词。数据集注释采用COCO格式,包含类别、图像和注释信息,用于训练检测和OCR模型,以及从页面读取文本的端到端模型。

语言: - 俄语 许可证: - MIT许可证 源数据集: - 原始数据集 任务类别: - 图像分割 - 目标检测 任务子类型:无 标签: - 光学字符识别(Optical Character Recognition,OCR) - 文本检测 - OCR # 数字彼得(Digital Peter) 彼得数据集可用于识别彼得大帝所撰手稿中的文本。该数据集的标注包含用于训练检测模型与OCR模型的端到端标注方案,同时也配套了用于从页面中提取文本的端到端模型。 相关论文可访问:http://arxiv.org/abs/2103.09354 ## 数据集概况 数字彼得(Digital Peter)是一项兼具历史属性的教育任务,其构建基于多项人工智能技术,包括计算机视觉(Computer Vision)、自然语言处理(Natural Language Processing,NLP)以及知识图谱(knowledge graphs)。本任务由俄罗斯科学院圣彼得堡历史研究所(N.P.利哈乔夫公馆旧址)、俄罗斯联邦档案署以及俄罗斯国家古代档案库联合打造。 如需了解该任务的详细说明(含任务背景深度解析),可查阅[detailed_description_of_the_task_en.pdf](https://github.com/sberbank-ai/digital_peter_aij2020/blob/master/desc/detailed_description_of_the_task_en.pdf) 本数据集包含662张完整页面图像与9696个标注文本文件,总计标注265788个字符与约50998个单词。 ## 标注格式 标注采用COCO格式。`annotation["categories"]`:包含类别信息的字典列表,涵盖类别名称与类别索引。 - `annotation["images"]`:描述图像信息的字典列表,每个字典需包含以下字段: - `file_name`:图像文件的文件名。 - `id`:图像唯一标识符。 - `annotation["annotations"]`:包含标注信息的字典列表。每个字典对应数据集中的一个多边形标注,需包含以下字段: - `image_id`:该多边形所属图像的索引。 - `category_id`:该多边形的类别索引。 - `attributes`:包含额外标注信息的字典,其中`translation`子字典存储了对应文本行的译文。 - `segmentation`:多边形的坐标信息,由一组数值构成,每两个数值为一组x、y坐标对。 ## 赛事情况 我们曾基于本数据集举办相关赛事。相关GitHub仓库链接:[https://github.com/sberbank-ai/digital_peter_aij2020](https://github.com/sberbank-ai/digital_peter_aij2020),赛事页面链接:[https://ods.ai/tracks/aij2020](https://ods.ai/tracks/aij2020)(需注册后访问)
提供机构:
ai-forever
原始信息汇总

数据集概述

数据集名称

  • Digital Peter

语言

  • 俄语 (ru)

许可证

  • MIT

数据来源

  • 原始数据 (original)

任务类别

  • 图像分割
  • 目标检测

标签

  • 光学字符识别 (optical-character-recognition)
  • 文本检测 (text-detection)
  • OCR

数据集描述

  • 用于从彼得大帝手稿中读取文本的训练数据集。
  • 包含662张全页图像和9696个标注文本文件。
  • 共有265788个符号和约50998个单词。

标注格式

  • 使用COCO格式。
  • annotation.json 包含以下字典:
    • annotation["categories"] - 类别信息列表。
    • annotation["images"] - 图像描述列表,包含文件名和图像ID。
    • annotation["annotations"] - 标注信息列表,描述每个多边形,包含图像ID、类别ID、属性和分割坐标。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作