slay-the-spire-2-card-multimodal-embeddings

Hugging Face2026-05-13 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/t22000t/slay-the-spire-2-card-multimodal-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

《杀戮尖塔2：多模态卡牌嵌入》数据集为热门卡牌构筑类Roguelike游戏《杀戮尖塔2》（早期测试版）中的每张卡牌提供了联合文本与图像的多模态嵌入向量。该数据集使用Qwen/Qwen3-VL-Embedding-2B模型生成，为每张卡牌生成一个单位归一化的1024维向量，旨在捕获卡牌的机制（文本描述）与视觉（肖像图）特征，使得在机制和视觉上相似的卡牌在向量空间中彼此接近。数据集包含约576张卡牌（数量随游戏补丁更新而变化），所有卡牌在嵌入时均附有肖像图。主要数据字段包括：稳定的卡牌标识符（id，作为连接键）、游戏标识（game，固定为sts2）、卡牌显示名称（name）、格式化JSON文档形式的卡牌文本（card_text）、是否有图像的标志（has_image）以及单位归一化的多模态嵌入向量（multimodal_embedding）。该数据集与同系列纯文本嵌入数据集及基础卡牌元数据集可通过id字段连接，且其嵌入向量与《杀戮尖塔1》的多模态嵌入共享坐标系，便于跨游戏分析。适用于特征提取、句子（卡牌）相似性计算、图像特征提取等任务，可用于卡牌推荐、卡组构建分析、游戏内容理解等应用场景。需要注意的是，由于游戏处于早期测试阶段，卡牌内容（添加、移除、平衡性调整）不稳定，嵌入向量仅代表特定快照版本的状态，存在补丁漂移和外观相似性偏差等潜在问题。数据集遵循CC BY 4.0许可协议。

创建时间：

2026-05-09

原始信息汇总

数据集概述：Slay the Spire 2 多模态卡牌嵌入

基本信息

数据集名称：Slay the Spire 2: Multimodal Card Embeddings
数据集地址：https://huggingface.co/datasets/t22000t/slay-the-spire-2-card-multimodal-embeddings
许可证：CC BY 4.0（数据集）、MIT（管道代码）、Apache 2.0（嵌入模型）
语言：英语
数据规模：n<1K（约576张卡牌）
任务类别：特征提取、句子相似性、图像特征提取
标签：游戏、卡牌游戏、牌组构建、杀戮尖塔、杀戮尖塔2、Roguelike、抢先体验、嵌入、多模态、视觉-语言

数据集描述

该数据集为**杀戮尖塔2（Slay the Spire 2，抢先体验版）**中每张卡牌提供联合文本+图像嵌入向量，使用模型Qwen/Qwen3-VL-Embedding-2B生成。每张卡牌对应一个单位归一化的1024维向量。机械和视觉上相似的卡牌在向量空间中彼此靠近，且与杀戮尖塔1的卡牌共享同一坐标系。

⚠️ 注意：杀戮尖塔2于2026年3月5日进入抢先体验阶段，卡牌内容可能频繁变动。请始终检查provenance.json以获取快照版本信息。

数据字段

字段	类型	描述
`id`	string	稳定的卡牌标识符（连接键）
`game`	string	始终为`"sts2"`
`name`	string	卡牌显示名称
`card_text`	string	馈入编码器的美化JSON文档
`has_image`	bool	嵌入时卡牌是否有肖像图
`multimodal_embedding`	list[float32] (1024)	单位归一化的联合文本+图像向量

嵌入生成方法

模型：Qwen/Qwen3-VL-Embedding-2B，冻结参数
图像预处理：解码PNG → RGB → 缩放并填充至512×512，使用中性灰色背景
任务指令：以机械信息为主、艺术信息为辅
Matryoshka截断：从2048维截断至1024维并重新归一化

加载方式

python from datasets import load_dataset import numpy as np

ds = load_dataset("t22000t/slay-the-spire-2-card-multimodal-embeddings", split="train") emb = np.array(ds["multimodal_embedding"], dtype=np.float32) print(emb.shape) # (~576, 1024)

使用注意事项

补丁漂移：抢先体验期间卡牌频繁变动，向量仅描述provenance.json中的快照版本。跨快照进行数值分析时需对齐游戏版本。
相似外观偏差：可能因艺术风格相似导致过度聚类，任务指令已部分缓解此问题。
仅限英语：当前快照仅包含英语内容。
游戏知识产权：杀戮尖塔2版权归Mega Crit所有，本数据集仅提供事实参考数据及数值嵌入向量。

引用格式

bibtex @dataset{sts2_multimodal_card_embeddings, title = {Slay the Spire 2: Multimodal Card Embeddings}, author = {timothy22000}, year = {2026}, url = {https://huggingface.co/datasets/t22000t/slay-the-spire-2-card-multimodal-embeddings}, note = {Early Access snapshot; embedded with Qwen3-VL-Embedding-2B; card data via nkhoit/spire-archive; game IP (c) Mega Crit} }

搜集汇总

数据集介绍

构建方式

该数据集通过调用多模态嵌入模型Qwen/Qwen3-VL-Embedding-2B，对《Slay the Spire 2》抢先体验版本中的所有卡牌进行联合文本与图像嵌入向量的提取。卡牌图像预处理为先解码PNG格式并转换为RGB色彩空间，然后通过填充中性灰色背景的方式调整至512×512像素分辨率。嵌入过程采用冻结模型权重的策略，并遵循统一的指令模板（以卡牌机制为主要锚点，美术风格为次要参考），最终从模型原生输出的2048维向量中通过俄罗斯套娃截断（Matryoshka truncation）压缩至1024维，并执行单位归一化处理，确保与同一系列中仅含文本嵌入的数据集保持维度一致。

特点

本数据集的核心特色在于其多模态统一表征能力。每张卡牌均对应一个单位归一化后的1024维浮点向量，该向量同时编码了卡牌的机制文本与视觉肖像信息，使得在嵌入空间中，机制与风格均相似的卡牌自然邻近。数据集不仅覆盖了抢先体验版本中期约576张卡牌，还提供了稳定的ID字段，允许用户与同系列的其他数据集（如文本嵌入数据集、卡牌元数据集）进行无缝关联。值得注意的是，当前嵌入空间与初代作品的对应多模态嵌入处于同一坐标系中，为跨代卡牌分析提供了便利。此外，数据集附带了provenance.json文件，用以记录生成快照的游戏版本，便于追踪抢先体验阶段频繁的卡牌变更。

使用方法

用户可通过HuggingFace的datasets库便捷加载数据，加载命令为load_dataset("t22000t/slay-the-spire-2-card-multimodal-embeddings", split="train")，返回的数据集包含id、game、name、card_text、has_image及multimodal_embedding字段。嵌入向量可直接转换为NumPy数组进行后续的相似度计算、聚类分析或作为下游模型的特征输入。使用时需注意抢先体验期内卡牌迭代导致的版本漂移问题，跨快照的数值对比需对齐游戏版本。同时，由于美术风格可能引入视觉偏误，建议在使用时评估指令模板对机制与艺术特征权重的平衡效果。

背景与挑战

背景概述

《Slay the Spire 2》是由Mega Crit开发的卡牌构筑类Roguelike游戏，其前作在策略卡牌领域树立了标杆，推动了程序化生成与牌组构建结合的创新玩法。本数据集由研究者timothy22000于2026年创建，专注于提取游戏中每张卡牌的多模态嵌入表示，联合编码卡牌的文字描述与视觉肖像，生成1024维的单位归一化向量。该数据集依托Qwen3-VL-Embedding-2B模型，旨在为游戏AI、卡牌推荐系统及多模态语义分析提供稳健的特征基础。其发布在HuggingFace平台上，与Slay the Spire系列其他数据集共同构成了slaythespire-codex集合，对游戏智能与多模态检索研究具有重要推动作用。

当前挑战

该数据集所应对的领域挑战在于，传统卡牌游戏分析多依赖单一模态特征，难以同时捕获牌面机制与视觉风格的复合语义，而多模态嵌入的联合表征则能提升卡牌间相似性判别的精度。构建过程中，研究人员面临Early Access版本频繁更新的内容不稳定问题，卡牌数量与属性随补丁持续变动，需依赖provenance.json记录快照版本以确保可重现性。此外，为防止视觉风格过度主导embedding聚类，实验通过精心设计的指令文本在机制信息与美术特征之间取得平衡，避免机械相似但画风迥异的卡牌被错误归并，从而保证嵌入空间的语义对齐质量。

常用场景

经典使用场景

在游戏人工智能与计算美学交叉领域，该数据集为卡牌游戏中的多模态表征学习提供了基准资源。研究者可利用其提供的576张卡牌联合文本与图像的1024维嵌入向量，探索卡牌间基于机制与视觉的双重相似性度量。通过检索或聚类任务，可以复现并评估卡牌在统一语义空间中的分布规律，尤其适用于验证多模态模型在游戏领域对齐图文特征的有效性。

解决学术问题

该数据集解决了游戏领域缺乏标准化多模态卡牌表征的学术困境，弥合了文本规则描述与视觉艺术风格之间的语义鸿沟。其联合嵌入空间使得量化分析卡牌的设计风格演化、牌组构建的隐性规律成为可能，为理解复杂策略游戏的可组合性提供了新视角。同时，它推动了多模态嵌入模型在领域特定数据上的泛化能力评估，促进了图像与文本融合表征方法论的发展。

衍生相关工作

该数据集催生了一系列衍生工作，包括其文本-only嵌入版本与Slay the Spire 1的多模态对应数据集，共同构成了跨游戏版本的统一嵌入坐标系。相关研究可能涵盖跨游戏的卡牌迁移学习、基于嵌入空间的牌组生成模型，以及融合时序变化的卡牌平衡性演化分析。这些工作共同构建了卡牌游戏领域的多模态分析生态系统，为策略游戏的可计算性研究奠定了数据基础。

以上内容由遇见数据集搜集并总结生成