TrevorJS/mtg-scryfall-cropped-art-embeddings-siglip-so400m-patch14-384
收藏Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/TrevorJS/mtg-scryfall-cropped-art-embeddings-siglip-so400m-patch14-384
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如图像、艺术家、风味文本、稀有度、套装名称、套装、卡片艺术URI、卡片PNG URI、颜色、ID、忠诚度、法力值、名称、预言文本、力量、发布日期、Scryfall URI、韧性、类型线、URI、文本以及SigLip嵌入。数据集分为一个训练集,包含40,274个示例,总大小为3,430,623,554.75字节。下载大小为3,516,435,214字节。
The dataset includes various features related to cards, such as images, artist information, card descriptions, rarity, set information, card art and PNG URIs, colors, card ID, loyalty, mana cost, card name, oracle text, power, release date, Scryfall link, toughness, card type, URI, text, and siglip embeddings. The dataset is primarily for training, containing 40274 samples, with both the download and actual sizes provided.
提供机构:
TrevorJS
原始信息汇总
数据集概述
数据集信息
特征
- image: 图像数据
- artist: 艺术家名称,字符串类型
- flavor_text: 描述文本,字符串类型
- rarity: 稀有度,字符串类型
- set_name: 系列名称,字符串类型
- set: 系列,字符串类型
- card_art_uri: 卡片艺术URI,字符串类型
- card_png_uri: 卡片PNG URI,字符串类型
- colors: 颜色,字符串类型
- id: 唯一标识符,字符串类型
- loyalty: 忠诚度,字符串类型
- mana_cost: 法力消耗,字符串类型
- name: 名称,字符串类型
- oracle_text: 预言文本,字符串类型
- power: 力量值,字符串类型
- released_at: 发布日期,整数类型
- scryfall_uri: Scryfall URI,字符串类型
- toughness: 韧性值,字符串类型
- type_line: 类型行,字符串类型
- uri: URI,字符串类型
- text: 文本,字符串类型
- siglip_embeddings: 嵌入向量,浮点数序列
数据分割
- train: 训练集
- 字节数: 3430623554.75
- 样本数: 40274
数据集大小
- 下载大小: 3516435214 字节
- 数据集大小: 3430623554.75 字节
配置
- default: 默认配置
- 数据文件路径:
data/train-*
- 数据文件路径:
搜集汇总
数据集介绍

构建方式
该数据集以万智牌卡牌艺术图像为核心,依托Scryfall平台收集了超过四万张卡牌样本。每张图像均经过裁剪以突出画作主体,并关联了艺术家、稀有度、系列名称、法力费用、规则文本等丰富的元数据字段。尤为关键的是,数据集借助SigLIP-SO400M-Patch14-384视觉模型对裁剪后的卡牌艺术进行编码,生成了高维浮点向量(siglip_embeddings),从而将视觉语义转化为可计算的嵌入表示。整体结构以HuggingFace Datasets格式组织,包含单一训练分割,数据以Parquet文件形式存储,便于高效加载与处理。
特点
本数据集的核心特点在于其将万智牌卡牌艺术与多模态语义嵌入深度结合。每张卡牌不仅保留了原始图像、艺术家姓名、风味文字、稀有度等传统属性,还额外提供了由SigLIP模型提取的视觉嵌入,这为跨模态检索、风格聚类、艺术相似性分析等任务奠定了坚实基础。数据集规模适中,约4万样本,覆盖了从普通到秘稀的多种稀有度,时间跨度从早期扩展至近代系列,确保了艺术风格的多样性。此外,所有卡牌图像均经过裁剪以聚焦于画作本身,排除了边框与文字干扰,提升了视觉特征的纯净度。
使用方法
使用该数据集时,可通过HuggingFace Datasets库直接加载,指定config名称为'default'并读取'train'分割即可获取完整的图像与元数据。对于需要视觉嵌入的应用场景,可直接访问'siglip_embeddings'字段,该字段为固定长度的浮点序列,适合作为神经网络输入或进行降维可视化。研究者可结合'color'、'rarity'、'artist'等标签进行条件过滤,构建特定子集用于风格迁移、艺术生成或卡牌推荐系统的训练。数据集的图像字段兼容PIL格式,可无缝衔接PyTorch或TensorFlow的数据流水线,便于集成到现有工作流中。
背景与挑战
背景概述
在数字人文与计算机视觉交叉领域,万智牌(Magic: The Gathering)卡牌艺术图像作为富含语义与美学价值的视觉语料,正逐步成为多模态学习研究的重要对象。TrevorJS/mtg-scryfall-cropped-art-embeddings-siglip-so400m-patch14-384数据集由研究者TrevorJS基于Scryfall数据库构建,创建时间约为2024年,旨在为卡牌艺术图像提供高质量的语义嵌入表征。该数据集收录了40,274张经过裁剪的卡牌艺术图像,并关联了艺术家、稀有度、系列名称、法术力费用、规则文本等结构化元数据,以及通过SigLIP-SO400M-Patch14-384模型预提取的视觉嵌入。核心研究问题在于如何利用大规模预训练视觉-语言模型,将卡牌艺术的视觉特征与游戏机制、叙事背景进行对齐,从而推动自动卡牌检索、风格分析、艺术生成及语义理解等方向的发展。该数据集的出现,为多模态学习、计算艺术史及游戏AI研究提供了标准化的基准资源,显著降低了领域内数据获取与特征工程的门槛。
当前挑战
该数据集面临的核心挑战集中于两个层面。在领域问题层面,卡牌艺术图像的语义理解高度依赖对万智牌复杂世界观的把握,包括色彩标识、生物类别、法术类型等抽象概念与视觉元素的对应关系,这使得简单的图像分类或特征匹配难以捕捉深层内涵,亟需融合领域知识的跨模态推理方法。在构建过程中,数据集的挑战主要体现在:首先,卡牌艺术图像的版权归属与艺术家署名需精确维护,确保数据合规性与可溯源;其次,从Scryfall接口获取的原始图像存在分辨率不一、边框干扰及文字覆盖等问题,裁剪与清洗流程需兼顾艺术完整性;最后,SigLIP嵌入的生成依赖特定模型架构,其维度与分布特性可能限制下游任务对通用视觉特征的迁移能力,如何平衡预训练嵌入的便捷性与任务特异性,仍是数据使用中的潜在难点。
常用场景
经典使用场景
该数据集以《万智牌》卡牌艺术图像为核心,融合了SigLIP视觉语言模型提取的384维嵌入特征,为多模态学习研究提供了结构化资源。经典使用场景包括基于卡牌艺术内容的语义检索与跨模态匹配,例如通过自然语言描述(如“黑暗森林中的龙”)检索对应卡牌图像,或利用嵌入向量实现风格相似的卡牌艺术聚类分析,从而探索视觉语义与卡牌属性(如稀有度、颜色)之间的内在关联。
解决学术问题
该数据集有效解决了卡牌艺术领域缺乏标准化多模态基准的问题,推动了视觉语义嵌入与结构化元数据对齐的研究。学术上,它可用于探究预训练视觉模型(如SigLIP)在特定艺术风格数据上的迁移能力,分析嵌入空间是否蕴含卡牌类型、法术力费用等抽象游戏机制的表征。此外,它为验证跨模态检索算法在细粒度艺术图像上的鲁棒性提供了测试平台,助力理解视觉特征与文本描述(如背景故事)之间的语义映射规律。
衍生相关工作
该数据集衍生了多项经典工作,包括基于对比学习的卡牌艺术风格迁移模型,通过SigLIP嵌入空间约束生成与目标卡牌视觉风格一致的合成图像;以及多模态卡牌知识图谱构建,将嵌入特征与卡牌规则文本(如oracle_text)结合,实现游戏机制与视觉元素的联合推理。此外,有研究利用该数据集训练零样本卡牌检索系统,在未见过的卡牌扩展包中实现跨集合的语义搜索,推动了领域自适应检索技术的发展。
以上内容由遇见数据集搜集并总结生成



