ai-forever/Peter

Name: ai-forever/Peter
Creator: ai-forever
Published: 2022-10-25 11:09:06
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ai-forever/Peter

下载链接

链接失效反馈

官方服务：

资源简介：

Digital Peter是一个具有历史背景的教育任务，基于多种AI技术（计算机视觉、自然语言处理和知识图谱）创建。该任务是与俄罗斯科学院圣彼得堡历史研究所（N.P.Lihachov大厦）、俄罗斯联邦档案局和俄罗斯国家古代档案局共同准备的。数据集包含662张全页图像和9696个注释文本文件，共有265788个符号和大约50998个单词。数据集注释采用COCO格式，包含类别、图像和注释信息，用于训练检测和OCR模型，以及从页面读取文本的端到端模型。

语言： - 俄语许可证： - MIT许可证源数据集： - 原始数据集任务类别： - 图像分割 - 目标检测任务子类型：无标签： - 光学字符识别（Optical Character Recognition，OCR） - 文本检测 - OCR # 数字彼得（Digital Peter）彼得数据集可用于识别彼得大帝所撰手稿中的文本。该数据集的标注包含用于训练检测模型与OCR模型的端到端标注方案，同时也配套了用于从页面中提取文本的端到端模型。相关论文可访问：http://arxiv.org/abs/2103.09354 ## 数据集概况数字彼得（Digital Peter）是一项兼具历史属性的教育任务，其构建基于多项人工智能技术，包括计算机视觉（Computer Vision）、自然语言处理（Natural Language Processing，NLP）以及知识图谱（knowledge graphs）。本任务由俄罗斯科学院圣彼得堡历史研究所（N.P.利哈乔夫公馆旧址）、俄罗斯联邦档案署以及俄罗斯国家古代档案库联合打造。如需了解该任务的详细说明（含任务背景深度解析），可查阅[detailed_description_of_the_task_en.pdf](https://github.com/sberbank-ai/digital_peter_aij2020/blob/master/desc/detailed_description_of_the_task_en.pdf) 本数据集包含662张完整页面图像与9696个标注文本文件，总计标注265788个字符与约50998个单词。 ## 标注格式标注采用COCO格式。`annotation["categories"]`：包含类别信息的字典列表，涵盖类别名称与类别索引。 - `annotation["images"]`：描述图像信息的字典列表，每个字典需包含以下字段： - `file_name`：图像文件的文件名。 - `id`：图像唯一标识符。 - `annotation["annotations"]`：包含标注信息的字典列表。每个字典对应数据集中的一个多边形标注，需包含以下字段： - `image_id`：该多边形所属图像的索引。 - `category_id`：该多边形的类别索引。 - `attributes`：包含额外标注信息的字典，其中`translation`子字典存储了对应文本行的译文。 - `segmentation`：多边形的坐标信息，由一组数值构成，每两个数值为一组x、y坐标对。 ## 赛事情况我们曾基于本数据集举办相关赛事。相关GitHub仓库链接：[https://github.com/sberbank-ai/digital_peter_aij2020](https://github.com/sberbank-ai/digital_peter_aij2020)，赛事页面链接：[https://ods.ai/tracks/aij2020](https://ods.ai/tracks/aij2020)（需注册后访问）

提供机构：

ai-forever

原始信息汇总

数据集概述

数据集名称

Digital Peter

语言

俄语 (ru)

许可证

数据来源

原始数据 (original)

任务类别

图像分割
目标检测

数据集描述

用于从彼得大帝手稿中读取文本的训练数据集。
包含662张全页图像和9696个标注文本文件。
共有265788个符号和约50998个单词。

标注格式

使用COCO格式。
annotation.json 包含以下字典：
- annotation["categories"] - 类别信息列表。
- annotation["images"] - 图像描述列表，包含文件名和图像ID。
- annotation["annotations"] - 标注信息列表，描述每个多边形，包含图像ID、类别ID、属性和分割坐标。

5,000+

优质数据集

54 个

任务类型

进入经典数据集