visions-datasets

github2021-01-20 更新2024-05-31 收录

下载链接：

https://github.com/LauriHursti/visions-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

用于训练机器学习模型以识别图像中MTG卡牌名称的图像数据集。数据集包括验证数据和连接组件分类，用于提高文本识别算法的准确性。

An image dataset designed for training machine learning models to identify the names of MTG (Magic: The Gathering) cards within images. The dataset includes validation data and connected component classification to enhance the accuracy of text recognition algorithms.

创建时间：

2020-06-17

原始信息汇总

数据集概述

验证数据集

目的: 用于验证机器学习模型在图像中识别MTG卡牌名称的方法。
性能指标: 该方法在识别卡牌名称时达到0.96的召回率和0.993的精确率。
数据内容:
- 图像: 包含500张图像，总计1750张卡牌，包括875张现代框架卡牌和875张M15框架卡牌。图像存放在validation/images目录。
- 标注: 包含目标检测和卡牌名称的标注，采用ICDAR 2015格式。标注文件存放在validation/gt目录，与图像文件通过名称配对。
- 单字标注: 针对单个单词的目标检测，存放在validation/gt_split目录。

连接组件数据集

目的: 用于训练卷积神经网络，以分类图像中的连接组件是否为文本的一部分。
数据内容:
- 图像: 连接组件图像为24x24像素的彩色图像。
- 分类: 包含347,783个正样本（文本名称部分）和267,875个负样本（非文本名称部分）。
- 存储: 正负样本分别存放在samples/cc_positive和samples/cc_negative目录，数据集被分割成多个压缩包。

卡牌名称图像数据集

目的: 用于训练文本识别网络。
数据内容:
- 图像: 彩色图像，高度为32像素，宽度可变。
- 分类: 根据名称长度分为三部分：10个字符、20个字符和44个字符。
- 数量: 10字符集包含25,685张图像，20字符集包含85,380张图像，44字符集包含88,365张图像。
- 存储: 各部分样本分别存放在samples/names_10、samples/names_20和samples/names_44目录，数据集被分割成多个压缩包。

搜集汇总

数据集介绍

构建方式

visions-datasets数据集的构建基于对《魔法风云会》（MTG）卡牌图像中卡牌名称的识别需求。数据集的核心部分包括验证集和连接组件图像。验证集包含500张图像，每张图像中嵌入了多个MTG卡牌，总计1750张卡牌，涵盖了现代框架和M15框架的卡牌。每张图像均配有ICDAR 2015格式的标注文件，标注内容包括卡牌名称及其在图像中的位置。此外，数据集还包含用于训练文本识别网络的卡牌名称图像，这些图像按名称长度分为10、20和44字符三个子集，分别包含25,685、85,380和88,365张图像。

特点

visions-datasets的特点在于其多样性和精确性。验证集中的图像不仅包含多种卡牌框架，还提供了详细的标注信息，支持目标检测和卡牌名称识别的双重任务。连接组件图像则进一步细分为正负样本，分别代表卡牌名称的文本部分和非文本部分，为文本检测算法提供了丰富的训练数据。卡牌名称图像按长度分类，便于针对不同长度的文本进行模型训练和评估。数据集的高精度标注和多样化的样本使其成为卡牌识别领域的理想选择。

使用方法

visions-datasets的使用方法主要分为验证和训练两个阶段。验证阶段，用户可通过验证集中的图像和标注文件评估模型的卡牌识别性能。训练阶段，连接组件图像可用于训练文本检测模型，而卡牌名称图像则用于训练文本识别模型。数据集中的图像和标注文件按名称配对，便于用户快速定位和使用。此外，数据集按需分包的存储方式确保了数据的高效管理和下载。用户可根据具体需求选择相应的子集进行训练或验证，从而提升模型的识别精度和鲁棒性。

背景与挑战

背景概述

visions-datasets数据集由Lauri Hursti等人创建，旨在为机器学习模型提供训练数据，以识别图像中的《魔法风云会》（MTG）卡牌名称。该数据集的核心研究问题是通过计算机视觉技术实现对卡牌名称的自动识别与分类，特别是在复杂背景和多卡牌共存的情况下。数据集包含500张图像，共计1750张卡牌，涵盖了现代框架和M15框架的卡牌。该数据集不仅为卡牌识别提供了丰富的图像资源，还通过ICDAR 2015格式的标注文件，为文本检测算法的验证与优化提供了重要支持。其高精度（召回率0.96，精确率0.993）的识别效果，显著推动了卡牌识别领域的研究进展。

当前挑战

visions-datasets数据集在解决卡牌名称识别问题时，面临多重挑战。首先，卡牌图像通常包含复杂的背景和多种字体样式，这对文本检测算法的鲁棒性提出了较高要求。其次，卡牌名称的长度和排版方式多样，尤其是长名称的识别难度较大，需要模型具备更强的上下文理解能力。在数据集构建过程中，研究人员还需处理大量噪声数据，例如非文本的连通组件，这对数据清洗和标注工作提出了较高要求。此外，数据集的规模较大，如何高效存储和分发数据也是一个技术难点。这些挑战共同构成了该数据集在卡牌识别领域的重要研究价值。

常用场景

经典使用场景

在计算机视觉领域，visions-datasets数据集被广泛用于训练和验证机器学习模型，特别是针对图像中MTG卡牌名称的识别任务。该数据集包含大量带有标注的卡牌图像，涵盖了不同框架和长度的卡牌名称，为模型提供了丰富的训练样本。通过该数据集，研究人员能够评估模型在复杂背景下的文本检测和识别能力，尤其是在多卡牌共存的情况下。

实际应用

visions-datasets数据集在实际应用中具有重要价值，特别是在卡牌游戏自动化管理、图像检索和文档数字化等领域。例如，在MTG卡牌交易平台中，该数据集可用于开发自动识别卡牌名称的工具，提升交易效率。此外，其文本检测与识别技术还可应用于其他场景，如车牌识别、手写文字识别等，展现了广泛的应用潜力。

衍生相关工作

基于visions-datasets数据集，许多经典研究工作得以展开。例如，FASText算法通过该数据集中的连接组件分类任务，显著提升了文本检测的效率与准确性。此外，该数据集还推动了基于卷积神经网络的文本识别模型的发展，为后续研究提供了重要的实验基础。相关成果在计算机视觉领域的顶级会议和期刊中得到了广泛引用，进一步推动了图像文本识别技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集