ai-forever/Peter
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai-forever/Peter
下载链接
链接失效反馈官方服务:
资源简介:
Digital Peter是一个具有历史背景的教育任务,基于多种AI技术(计算机视觉、自然语言处理和知识图谱)创建。该任务是与俄罗斯科学院圣彼得堡历史研究所(N.P.Lihachov大厦)、俄罗斯联邦档案局和俄罗斯国家古代档案局共同准备的。数据集包含662张全页图像和9696个注释文本文件,共有265788个符号和大约50998个单词。数据集注释采用COCO格式,包含类别、图像和注释信息,用于训练检测和OCR模型,以及从页面读取文本的端到端模型。
语言:
- 俄语
许可证:
- MIT许可证
源数据集:
- 原始数据集
任务类别:
- 图像分割
- 目标检测
任务子类型:无
标签:
- 光学字符识别(Optical Character Recognition,OCR)
- 文本检测
- OCR
# 数字彼得(Digital Peter)
彼得数据集可用于识别彼得大帝所撰手稿中的文本。该数据集的标注包含用于训练检测模型与OCR模型的端到端标注方案,同时也配套了用于从页面中提取文本的端到端模型。
相关论文可访问:http://arxiv.org/abs/2103.09354
## 数据集概况
数字彼得(Digital Peter)是一项兼具历史属性的教育任务,其构建基于多项人工智能技术,包括计算机视觉(Computer Vision)、自然语言处理(Natural Language Processing,NLP)以及知识图谱(knowledge graphs)。本任务由俄罗斯科学院圣彼得堡历史研究所(N.P.利哈乔夫公馆旧址)、俄罗斯联邦档案署以及俄罗斯国家古代档案库联合打造。
如需了解该任务的详细说明(含任务背景深度解析),可查阅[detailed_description_of_the_task_en.pdf](https://github.com/sberbank-ai/digital_peter_aij2020/blob/master/desc/detailed_description_of_the_task_en.pdf)
本数据集包含662张完整页面图像与9696个标注文本文件,总计标注265788个字符与约50998个单词。
## 标注格式
标注采用COCO格式。`annotation["categories"]`:包含类别信息的字典列表,涵盖类别名称与类别索引。
- `annotation["images"]`:描述图像信息的字典列表,每个字典需包含以下字段:
- `file_name`:图像文件的文件名。
- `id`:图像唯一标识符。
- `annotation["annotations"]`:包含标注信息的字典列表。每个字典对应数据集中的一个多边形标注,需包含以下字段:
- `image_id`:该多边形所属图像的索引。
- `category_id`:该多边形的类别索引。
- `attributes`:包含额外标注信息的字典,其中`translation`子字典存储了对应文本行的译文。
- `segmentation`:多边形的坐标信息,由一组数值构成,每两个数值为一组x、y坐标对。
## 赛事情况
我们曾基于本数据集举办相关赛事。相关GitHub仓库链接:[https://github.com/sberbank-ai/digital_peter_aij2020](https://github.com/sberbank-ai/digital_peter_aij2020),赛事页面链接:[https://ods.ai/tracks/aij2020](https://ods.ai/tracks/aij2020)(需注册后访问)
提供机构:
ai-forever
原始信息汇总
数据集概述
数据集名称
- Digital Peter
语言
- 俄语 (ru)
许可证
- MIT
数据来源
- 原始数据 (original)
任务类别
- 图像分割
- 目标检测
标签
- 光学字符识别 (optical-character-recognition)
- 文本检测 (text-detection)
- OCR
数据集描述
- 用于从彼得大帝手稿中读取文本的训练数据集。
- 包含662张全页图像和9696个标注文本文件。
- 共有265788个符号和约50998个单词。
标注格式
- 使用COCO格式。
annotation.json包含以下字典:annotation["categories"]- 类别信息列表。annotation["images"]- 图像描述列表,包含文件名和图像ID。annotation["annotations"]- 标注信息列表,描述每个多边形,包含图像ID、类别ID、属性和分割坐标。



