PypayaTech/PypayaNumbers

Name: PypayaTech/PypayaNumbers
Creator: PypayaTech
Published: 2023-08-30 15:53:52
License: 暂无描述

Hugging Face2023-08-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PypayaTech/PypayaNumbers

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由数字图像及其边界框坐标和标签组成，分为训练集和测试集。每个实例包括一个图像文件、一个包含图像中数字的文本文件以及一个包含图像中每个数字边界框坐标的文本文件。数据集支持光学字符识别（OCR）和对象检测任务，特别是用于图像中的数字识别。数据集不包含自然语言数据，由PypayaTech通过从各种计算机游戏和程序中截取包含数字的片段生成，并使用LabelImg软件进行边界框标注。数据集不包含个人或敏感信息，可能有助于改进数字识别模型，但可能不适用于其他类型的字符或更复杂的图像。

The PypayaNumbers dataset consists of images of numbers along with their bounding box coordinates and labels. The dataset is divided into train and test sets, with each set containing images, numbers, and bounding boxes. The numbers are represented as one-line text files, while the bounding boxes are in YOLO format. This dataset supports the task of Optical Character Recognition (OCR) and object detection, specifically for digit recognition in images. The dataset does not contain any natural language data. Each instance comprises an image file, a corresponding text file with the number represented in the image, and a text file with the bounding box coordinates for each digit in YOLO format. The dataset was curated by PypayaTech to support the development and evaluation of models for digit recognition in images. The images and labels were generated by taking screenshots from various computer games and programs and cutting fragments containing numbers. The bounding box annotations were generated using open-source LabelImg software. The dataset does not contain any personal or sensitive information.

提供机构：

PypayaTech

原始信息汇总

数据集卡片 for PypayaNumbers

数据集描述

数据集概述

该数据集包含数字图像及其边界框坐标和标签。数据集分为训练集和测试集，每个集包含图像、数字和边界框。数字以单行文本文件表示，而边界框以YOLO格式表示。

支持的任务和排行榜

该数据集支持光学字符识别（OCR）和目标检测任务。具体可用于图像中的数字识别。

语言

该数据集不包含任何自然语言数据。

数据集结构

数据实例

数据集中的每个实例包括一个图像文件、对应的文本文件（包含图像中的数字）和文本文件（包含图像中每个数字的边界框坐标，以YOLO格式表示）。

数据字段

image: 包含数字的图像文件路径。
number: 包含图像中数字的文本文件路径。
bounding_boxes: 包含图像中每个数字边界框坐标的文本文件路径。

数据分割

数据集分为包含5000个实例的训练集和包含2500个实例的测试集。

数据集创建

策划理由

该数据集是为了支持图像中数字识别模型的开发和评估而策划的。

源数据

初始数据收集和规范化

该数据集中的图像和标签是通过从各种电脑游戏和程序中截取屏幕截图并裁剪包含数字的片段生成的。

源语言生产者

N/A

标注

标注过程

边界框标注是通过开源的LabelImg软件生成的。

标注者

PypayaTech

个人和敏感信息

该数据集不包含任何个人或敏感信息。

使用数据时的考虑

数据集的社会影响

该数据集有助于改进图像中数字识别模型，这些模型在自动化数据录入、车牌识别和表格数字化等方面有广泛应用。

偏见讨论

由于数据集包含合成数字图像，预计不会存在与人类人口统计或行为相关的固有偏见。

其他已知限制

该数据集仅包含数字图像，可能不适用于其他类型的字符或更复杂的图像。

附加信息

数据集策展人

PypayaTech

许可信息

该数据集在MIT许可下发布。

贡献

欢迎对该数据集进行贡献。请联系数据集策展人获取更多信息。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集