mtg_synthetic_large_dataset
收藏Hugging Face2025-11-12 更新2025-11-13 收录
下载链接:
https://huggingface.co/datasets/dhvazquez/mtg_synthetic_large_dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个合成的MTG卡牌图像数据集,适用于图像分类、图像分割和图像特征提取任务。数据集采用BlenderProc2和HDRI环境进行了逼真渲染,具有精确的卡牌几何形状和随机变换。还包括用于语义分割训练的分割掩码。
This is a synthetic MTG card image dataset suitable for image classification, image segmentation and image feature extraction tasks. The dataset is photorealistically rendered using BlenderProc2 and HDRI environments, featuring precise card geometry and random transformations. It also includes segmentation masks for semantic segmentation training.
创建时间:
2025-11-11
原始信息汇总
MTG合成大型图像数据集概述
数据集基本信息
- 数据集名称:Magic The Gathering Synthetic Large Image Dataset
- 许可协议:MIT
- 任务类别:图像分类、图像分割、图像特征提取
- 语言:英语
数据集特征
- 使用BlenderProc2和HDRI环境进行照片级真实感渲染
- 精确的卡片几何形状(圆角)
- 随机变换用于数据增强
- 包含语义分割训练的分割掩码
数据集结构
训练集
/train/image- 渲染图像(jpg格式)/train/keypoints- 角点关键点(json格式)/train/mask- 掩码(png格式)/train/temp_textures- 3D模型纹理(参考)
测试集
/test/image- 渲染图像(jpg格式)/test/keypoints- 角点关键点(json格式)/test/mask- 掩码(png格式)/test/temp_textures- 3D模型纹理(参考)
文件命名规范
目录结构:<set>/<data_type>/<reference>/<file>
参考目录格式:oracle_id__card_id_set_code_collector_number_lang_layout
数据集统计分析
总体统计
| 指标 | 数值 |
|---|---|
| 总卡片数 | 102,644 |
| 唯一卡片数 | 7,715 |
| 涉及卡牌系列 | 825 |
| 语言种类 | 11 |
| 全画幅卡片 | 2,501 |
颜色身份分布
| 颜色身份 | 卡片数量 |
|---|---|
| 无色 | 12,827 |
| 黑色 | 10,780 |
| 红色 | 10,380 |
| 绿色 | 11,223 |
| 蓝色 | 10,746 |
| 白色 | 10,445 |
边框颜色分布
| 边框颜色 | 卡片数量 |
|---|---|
| 黑色 | 95,769 |
| 金色 | 989 |
| 白色 | 2,226 |
| 黄色 | 535 |
| 无边框 | 2,545 |
| 银色 | 580 |
布局分布
| 布局类型 | 卡片数量 |
|---|---|
| 普通 | 95,545 |
| 冒险 | 1,108 |
| 分裂 | 1,224 |
| 传奇 | 1,279 |
| 时空 | 816 |
语言分布
| 语言 | 卡片数量 |
|---|---|
| 英语 | 26,934 |
| 日语 | 11,813 |
| 法语 | 10,203 |
| 德语 | 10,178 |
| 西班牙语 | 9,276 |
| 意大利语 | 9,105 |
全画幅卡片语言分布
| 语言 | 全画幅卡片数量 |
|---|---|
| 英语 | 872 |
| 日语 | 253 |
| 德语 | 235 |
| 法语 | 234 |
| 西班牙语 | 217 |
搜集汇总
数据集介绍

构建方式
在集换式卡牌游戏数字图像分析领域,该数据集采用BlenderProc2渲染引擎与高动态范围成像环境相结合的技术路径,生成具有照片级真实感的魔法风云会卡牌合成图像。构建过程严格遵循卡牌几何特征,保留圆角设计细节,并通过随机变换技术实现数据增强。数据集结构采用分层组织模式,涵盖训练集与测试集,每张卡牌均配备图像、关键点坐标、分割掩码及三维模型纹理四类数据,形成完整的计算机视觉研究素材。
特点
本数据集在卡牌图像语义理解方面展现出显著特性,包含102,644张合成图像,覆盖7,715种独特卡牌与825个卡牌系列,构成丰富的视觉多样性。数据标注体系尤为精密,不仅提供像素级语义分割掩码,还包含精确的角点关键坐标标注,为姿态估计与几何校正研究奠定基础。多语言支持涵盖11种语言版本,卡牌布局涵盖常规版、冒险版、双面版等18种类型,色彩身份分布均衡,为跨语言与多模态研究提供充分素材。
使用方法
针对计算机视觉任务的应用场景,该数据集支持图像分类、语义分割与特征提取等多重研究范式。研究人员可通过标准化目录结构访问数据,训练集与测试集分别存储于独立路径,确保模型评估的严谨性。分割掩码可直接用于像素级分类任务,关键点坐标数据适用于卡牌检测与对齐算法开发。数据集采用统一的文件命名规范,通过Oracle ID与Card ID的双重标识系统保障数据追溯性,纹理文件则为生成式模型研究提供额外参考。
背景与挑战
背景概述
在计算机视觉与数字图像处理领域,合成数据集的构建为解决真实世界数据稀缺问题提供了创新路径。mtg_synthetic_large_dataset作为基于《万智牌》卡牌图像的合成数据集,采用BlenderProc2渲染引擎与高动态范围成像技术,精确模拟了卡牌的几何特征与材质纹理。该数据集由数字图像处理研究团队开发,核心目标在于推动图像分类、语义分割及特征提取等任务的发展。通过涵盖825个卡牌系列、11种语言变体的102,644张合成图像,其多样化的颜色身份分布与版式结构为模型泛化能力研究提供了重要支撑。
当前挑战
构建过程中面临多重技术挑战:在物理仿真层面需精确还原卡牌圆角几何与复杂材质的光学特性,同时通过随机变换实现有效数据增强。语义分割任务中,边缘细节与透明区域的掩码标注对渲染精度提出极高要求。领域问题层面,数据集需解决多语言卡牌文本识别、异形版式(如双面卡、传奇卡)的结构解析,以及全艺术卡牌与特殊边框的色彩特征提取等核心难题。此外,跨语言版本间视觉一致性维护与大规模合成数据的真实性验证亦是关键挑战。
常用场景
经典使用场景
在计算机视觉与数字图像处理领域,万智牌合成大型数据集凭借其高保真渲染图像与结构化标注,成为图像分割与目标检测任务中的基准资源。该数据集通过BlenderProc2引擎生成具有真实光影效果的卡牌图像,并附带精确的语义分割掩码与角点关键坐标,为深度学习模型提供了标准化的训练与评估环境。其多语言版本与多样化布局特性,进一步拓展了模型在复杂场景下的泛化能力研究。
衍生相关工作
该数据集已催生多项计算机视觉领域的创新研究,包括基于注意力机制的卡牌布局解析网络、融合多模态特征的跨语言识别框架等。在生成对抗网络领域,其纹理库为材质合成研究提供了丰富样本,而精准的关键点标注则推动了三维重建技术在平面物体逆向工程中的应用。相关成果已延伸至增强现实交互设计、数字文化遗产保护等交叉学科领域。
数据集最近研究
最新研究方向
在数字藏品与计算机视觉交叉领域,该合成数据集正推动三维重建与多模态理解的前沿探索。研究者利用其高精度角点标注与真实感渲染特性,开发端到端的几何感知网络架构,显著提升了实体卡牌数字化建模的精度。随着元宇宙与数字资产溯源需求的激增,该数据集的语义分割掩码成为训练跨语言卡牌识别系统的核心资源,尤其在多语种游戏道具的自动化鉴定场景中展现出重要应用价值。
以上内容由遇见数据集搜集并总结生成



