slay-the-spire-1-card-multimodal-embeddings

Hugging Face2026-05-13 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/t22000t/slay-the-spire-1-card-multimodal-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

Slay the Spire 1: Multimodal Card Embeddings 是一个多模态卡牌嵌入数据集，专门为游戏《Slay the Spire》（1.0版本）设计构建。该数据集包含游戏中所有360张卡牌的联合文本和图像嵌入向量，这些向量由Qwen3-VL-Embedding-2B模型生成，每个嵌入是经过单位归一化的1024维向量，旨在使机制和视觉相似的卡牌在嵌入空间中彼此接近。数据字段包括稳定卡牌标识符（id）、游戏标识（game，固定为sts1）、卡牌显示名称（name）、预处理JSON格式卡牌文本（card_text）、指示卡牌是否有图像的布尔标志（has_image）以及核心多模态嵌入向量（multimodal_embedding）。嵌入生成过程涉及对图像进行解码、转换、调整大小和填充，对于无图像的卡牌仅使用文本输入，最终将2048维向量截断并重新归一化为1024维。编码时附加任务指令，强调以卡牌文本机制为主要信号、肖像艺术为次要线索，以确保嵌入空间主要反映机制相似性。数据集适用于特征提取、卡牌相似性计算、图像特征提取等任务，并支持与《Slay the Spire 2》的对应数据集进行跨游戏相似性计算。使用需注意视觉相似性可能带来的偏差风险、部分卡牌缺少图像、仅支持英语以及游戏知识产权问题，遵循CC BY 4.0许可。

Slay the Spire 1: Multimodal Card Embeddings is a multimodal card embedding dataset specifically constructed for the game Slay the Spire (version 1.0). It contains joint text and image embedding vectors for all 360 cards in the game, generated by the Qwen3-VL-Embedding-2B model. Each embedding is a unit-normalized 1024-dimensional vector designed to make cards with similar mechanics and visuals close in the embedding space. Data fields include a stable card identifier (id), game identifier (game, fixed as sts1), card display name (name), preprocessed JSON-formatted card text for encoding (card_text), a boolean flag indicating whether the card has an image (has_image), and the core multimodal embedding vector (multimodal_embedding). The embedding generation process involves decoding images, converting to RGB, resizing and padding to 512x512 pixels, and for cards without images, using only text input; the resulting 2048-dimensional vector is truncated via Matryoshka technology and re-normalized to 1024 dimensions. Task instructions are appended during encoding, explicitly requiring card text mechanics as the primary signal and portrait art as a secondary clue to ensure the embedding space primarily reflects mechanical similarity. The dataset is suitable for tasks such as feature extraction, card similarity calculation, and image feature extraction, and supports cross-game similarity calculations with the corresponding dataset for Slay the Spire 2. Usage considerations include potential bias risks from visual similarity, missing images for some cards, current support only for English, and game intellectual property rights, under the CC BY 4.0 license.

创建时间：

2026-05-09

原始信息汇总

数据集概述

基本信息

数据集名称： Slay the Spire 1: Multimodal Card Embeddings
许可证： CC BY 4.0（数据集）；嵌入模型为 Apache 2.0；游戏 IP 归 Mega Crit 所有
语言： 英文
数据集大小： n<1K
任务类别： 特征提取、句子相似度、图像特征提取
标签： 游戏、卡牌游戏、牌组构建、杀戮尖塔、Roguelike、嵌入、多模态、视觉-语言

数据集描述

该数据集包含了《杀戮尖塔》（Slay the Spire 1.0 版本）中每张卡牌的联合文本+图像嵌入向量，由 Qwen/Qwen3-VL-Embedding-2B 模型生成。每张卡牌对应一个单位归一化的 1024 维向量。在嵌入空间中，机械上相似且视觉上相似的卡牌相互靠近；杀戮尖塔 1 和 2 的卡牌共享同一坐标系统。

数据字段

字段	类型	描述
`id`	字符串	稳定的卡牌标识符——连接键
`game`	字符串	始终为 `"sts1"`
`name`	字符串	显示名称
`card_text`	字符串	提供给编码器的美化 JSON 文档
`has_image`	布尔值	卡牌在嵌入时是否有肖像图像
`multimodal_embedding`	list[float32] (1024)	单位归一化的联合文本+图像向量

嵌入生成方法

模型： Qwen/Qwen3-VL-Embedding-2B，冻结参数，无微调
图像预处理： 解码 PNG → RGB（丢弃 Alpha 通道）→ 调整大小并填充至 512×512，使用中性灰色背景。使用填充而非中心裁剪，以保留卡牌肖像边缘的角色图标
无艺术图的卡牌： 仅通过模型进行文本编码，仍保留在联合坐标系统中
截断： Matryoshka 截断至 1024 维，然后重新归一化
任务指令（在编码时前置添加）：

"表示这张杀戮尖塔卡牌，使得机械上相似的卡牌（相同框架、类似的伤害/格挡模式、相关关键词）在嵌入空间中接近，以卡牌的文本机制作为主要信号，肖像艺术作为角色/职业和视觉框架的次要线索。"

使用说明

加载数据： 使用 datasets 库加载数据集并获取嵌入向量，示例代码中展示了如何计算余弦相似度
跨游戏相似度： 由于使用相同模型、相同指令和相同维度，可以在杀戮尖塔1和2之间直接计算点积相似度

注意事项

视觉偏差风险： 多模态嵌入可能过度依赖视觉相似性。指令已明确将艺术特征置于次要地位；如果观察到不期望的视觉聚类，建议使用独立的文本和图像嵌入进行加权拼接
无图像卡牌： 有1张卡牌（IMPULSE）在源 JAR 中没有肖像，其向量为纯文本。可通过 has_image=False 字段进行过滤或差异化加权
语言限制： 当前快照仅支持英文
游戏 IP： 杀戮尖塔 © Mega Crit。数据集仅包含事实参考数据和数值嵌入向量，不重新分发卡牌艺术图像数据

数据出处

数据集附带 provenance.json 文件，记录模型 ID、嵌入维度、任务指令、图像预处理方法、n_with_image、n_without_image 和时间戳。

相关数据集

文本嵌入数据集： t22000t/slay-the-spire-1-card-embeddings（使用 Qwen3-Embedding-0.6B 模型）
卡牌元数据与肖像数据集： t22000t/slay-the-spire-1-cards
杀戮尖塔 2 多模态嵌入数据集： t22000t/slay-the-spire-2-card-multimodal-embeddings
完整系列： slaythespire-codex 集合（共6个数据集 + 3个 Gradio 演示）

搜集汇总

数据集介绍

构建方式

该数据集基于《Slay the Spire》1.0版本中全部360张卡牌构建而成。每张卡牌均通过冻结参数的Qwen3-VL-Embedding-2B模型进行多模态联合编码，图像预处理采用等比填充至512×512像素的灰度底版，以保留角色肖像的边缘细节。编码时预先植入任务指令，强调以卡牌文本机制为主、视觉艺术为辅的相似性度量，最终通过Matryoshka截断技术将2048维向量压缩至1024维并进行单位归一化，确保与纯文本嵌入版本保持维度一致。

使用方法

用户可通过HuggingFace Datasets库直接加载数据集，使用Python代码如‘load_dataset(“t22000t/slay-the-spire-1-card-multimodal-embeddings”, split=“train”)’获取训练集。嵌入向量以‘multimodal_embedding’字段存储，支持通过点积计算余弦相似度。为便于跨游戏分析，STS1与STS2的数据集可联合加载，通过名称索引直接计算任意两张卡牌间的相似度，实现跨版本卡牌检索与匹配。

背景与挑战

背景概述

Slay the Spire作为一款标志性的卡牌构筑类Roguelike游戏，其复杂的卡牌机制与视觉风格为游戏AI和内容分析研究提供了独特的实验场。由研究者timothy22000于2026年创建的slay-the-spire-1-card-multimodal-embeddings数据集，旨在为游戏内全部360张卡牌提供联合文本与图像的向量化表示。该数据集利用Qwen3-VL-Embedding-2B模型生成1024维的单位归一化嵌入向量，通过精心设计的任务指令优先编码卡牌机制文本，辅以肖像画视觉线索，使机械相似或视觉相近的卡牌在嵌入空间中自然聚簇。这一创新性工作不仅服务于跨游戏相似性检索，更为游戏领域的多模态表征学习与语义理解奠定了数据基础，填补了卡牌游戏数据子领域缺乏高质量多模态嵌入集的空白。

当前挑战

该数据集面临的核心挑战包括：其一，多模态嵌入中存在的视觉相似性偏见风险——模型可能过度依赖肖像画的色彩与构图，导致机械功能迥异但外观相似的卡牌被错误聚类，尽管指令已明确弱化视觉信号，但联合编码的本质仍难以彻底根除此偏差；其二，构建过程中1张卡牌缺失肖像图，导致其仅能依赖文本编码，如何在多模态空间中对齐纯文本与多模态向量成为技术难点；其三，数据集的单语限制与游戏知识产权约束，既限制了跨语言应用场景的使用，又因不直接分发艺术资源而增加了下游任务中视觉特征复用的复杂度。

常用场景

经典使用场景

在游戏人工智能与多模态表征学习交汇的前沿领域，Slay the Spire 1 多模态卡牌嵌入数据集为研究者提供了一套弥合视觉与文本语义鸿沟的标准化工具。其经典使用场景在于将卡牌游戏中蕴含的机制信息（如伤害数值、护甲模式、关键字效果）与卡面艺术风格（角色肖像、色彩构图）融合为统一的 1024 维语义向量，使得机械相似且视觉相近的卡牌在嵌入空间中自然聚集。这一设定尤其适用于构建卡牌推荐系统、自动卡组分析器以及跨游戏卡牌迁移学习基准，为密集型战略类游戏中的概念映射与语义检索奠定了可重复计算的基础。

解决学术问题

该数据集直面多模态学习中模态间表征对齐不充分的核心学术挑战，通过精心设计的任务指令——将卡牌文本机制作为主信号而肖像艺术作为辅助线索——有效抑制了视觉主导的聚类偏差，从而解决了同类研究中常见的“外貌相似性过拟合”问题。它为理解结构性游戏知识如何在视觉与语言之间分布式编码提供了量化实验平台，并支持对 Matryoshka 表示截断策略在保持语义完整性的同时实现维度压缩的有效性进行系统评估。这一资源对推动策略推理、概念抽象与跨域迁移学习等方向的研究具有重要方法论意义。

实际应用

在实际应用层面，该数据集赋能了一系列面向 Slay the Spire 玩家社群的智能化工具：开发者可以构建基于语义相似度的卡牌检索器，让玩家通过上传一张卡牌截图即可获取功能对等的替代方案；主播与内容创作者能够利用跨游戏嵌入对齐特性，在 StS1 与 StS2 之间实时推荐具有相似战术定位的卡牌组合；更深入一层，该嵌入系统可作为游戏内 AI 教练或卡组生成器的特征引擎，通过相似度计算识别潜在构筑漏洞并给出替换建议。这些应用皆以轻量化向量检索为基座，适配性强且延迟极低。

数据集最近研究