five

slay-the-spire-2-card-multimodal-embeddings

收藏
Hugging Face2026-05-13 更新2026-05-14 收录
下载链接:
https://huggingface.co/datasets/t22000t/slay-the-spire-2-card-multimodal-embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
《杀戮尖塔2:多模态卡牌嵌入》数据集为热门卡牌构筑类Roguelike游戏《杀戮尖塔2》(早期测试版)中的每张卡牌提供了联合文本与图像的多模态嵌入向量。该数据集使用Qwen/Qwen3-VL-Embedding-2B模型生成,为每张卡牌生成一个单位归一化的1024维向量,旨在捕获卡牌的机制(文本描述)与视觉(肖像图)特征,使得在机制和视觉上相似的卡牌在向量空间中彼此接近。数据集包含约576张卡牌(数量随游戏补丁更新而变化),所有卡牌在嵌入时均附有肖像图。主要数据字段包括:稳定的卡牌标识符(id,作为连接键)、游戏标识(game,固定为sts2)、卡牌显示名称(name)、格式化JSON文档形式的卡牌文本(card_text)、是否有图像的标志(has_image)以及单位归一化的多模态嵌入向量(multimodal_embedding)。该数据集与同系列纯文本嵌入数据集及基础卡牌元数据集可通过id字段连接,且其嵌入向量与《杀戮尖塔1》的多模态嵌入共享坐标系,便于跨游戏分析。适用于特征提取、句子(卡牌)相似性计算、图像特征提取等任务,可用于卡牌推荐、卡组构建分析、游戏内容理解等应用场景。需要注意的是,由于游戏处于早期测试阶段,卡牌内容(添加、移除、平衡性调整)不稳定,嵌入向量仅代表特定快照版本的状态,存在补丁漂移和外观相似性偏差等潜在问题。数据集遵循CC BY 4.0许可协议。
创建时间:
2026-05-09
原始信息汇总

数据集概述:Slay the Spire 2 多模态卡牌嵌入

基本信息

  • 数据集名称:Slay the Spire 2: Multimodal Card Embeddings
  • 数据集地址:https://huggingface.co/datasets/t22000t/slay-the-spire-2-card-multimodal-embeddings
  • 许可证:CC BY 4.0(数据集)、MIT(管道代码)、Apache 2.0(嵌入模型)
  • 语言:英语
  • 数据规模:n<1K(约576张卡牌)
  • 任务类别:特征提取、句子相似性、图像特征提取
  • 标签:游戏、卡牌游戏、牌组构建、杀戮尖塔、杀戮尖塔2、Roguelike、抢先体验、嵌入、多模态、视觉-语言

数据集描述

该数据集为**杀戮尖塔2(Slay the Spire 2,抢先体验版)**中每张卡牌提供联合文本+图像嵌入向量,使用模型Qwen/Qwen3-VL-Embedding-2B生成。每张卡牌对应一个单位归一化的1024维向量。机械和视觉上相似的卡牌在向量空间中彼此靠近,且与杀戮尖塔1的卡牌共享同一坐标系。

⚠️ 注意:杀戮尖塔2于2026年3月5日进入抢先体验阶段,卡牌内容可能频繁变动。请始终检查provenance.json以获取快照版本信息。

数据字段

字段 类型 描述
id string 稳定的卡牌标识符(连接键
game string 始终为"sts2"
name string 卡牌显示名称
card_text string 馈入编码器的美化JSON文档
has_image bool 嵌入时卡牌是否有肖像图
multimodal_embedding list[float32] (1024) 单位归一化的联合文本+图像向量

嵌入生成方法

  • 模型Qwen/Qwen3-VL-Embedding-2B,冻结参数
  • 图像预处理:解码PNG → RGB → 缩放并填充至512×512,使用中性灰色背景
  • 任务指令:以机械信息为主、艺术信息为辅
  • Matryoshka截断:从2048维截断至1024维并重新归一化

相关数据集

以下数据集可通过id字段进行连接:

杀戮尖塔1的多模态嵌入对应数据集:t22000t/slay-the-spire-1-card-multimodal-embeddings

完整数据集包(两个游戏的6个数据集 + 3个Gradio演示)可在slaythespire-codex集合中找到。

加载方式

python from datasets import load_dataset import numpy as np

ds = load_dataset("t22000t/slay-the-spire-2-card-multimodal-embeddings", split="train") emb = np.array(ds["multimodal_embedding"], dtype=np.float32) print(emb.shape) # (~576, 1024)

使用注意事项

  1. 补丁漂移:抢先体验期间卡牌频繁变动,向量仅描述provenance.json中的快照版本。跨快照进行数值分析时需对齐游戏版本。
  2. 相似外观偏差:可能因艺术风格相似导致过度聚类,任务指令已部分缓解此问题。
  3. 仅限英语:当前快照仅包含英语内容。
  4. 游戏知识产权:杀戮尖塔2版权归Mega Crit所有,本数据集仅提供事实参考数据及数值嵌入向量。

引用格式

bibtex @dataset{sts2_multimodal_card_embeddings, title = {Slay the Spire 2: Multimodal Card Embeddings}, author = {timothy22000}, year = {2026}, url = {https://huggingface.co/datasets/t22000t/slay-the-spire-2-card-multimodal-embeddings}, note = {Early Access snapshot; embedded with Qwen3-VL-Embedding-2B; card data via nkhoit/spire-archive; game IP (c) Mega Crit} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过调用多模态嵌入模型Qwen/Qwen3-VL-Embedding-2B,对《Slay the Spire 2》抢先体验版本中的所有卡牌进行联合文本与图像嵌入向量的提取。卡牌图像预处理为先解码PNG格式并转换为RGB色彩空间,然后通过填充中性灰色背景的方式调整至512×512像素分辨率。嵌入过程采用冻结模型权重的策略,并遵循统一的指令模板(以卡牌机制为主要锚点,美术风格为次要参考),最终从模型原生输出的2048维向量中通过俄罗斯套娃截断(Matryoshka truncation)压缩至1024维,并执行单位归一化处理,确保与同一系列中仅含文本嵌入的数据集保持维度一致。
特点
本数据集的核心特色在于其多模态统一表征能力。每张卡牌均对应一个单位归一化后的1024维浮点向量,该向量同时编码了卡牌的机制文本与视觉肖像信息,使得在嵌入空间中,机制与风格均相似的卡牌自然邻近。数据集不仅覆盖了抢先体验版本中期约576张卡牌,还提供了稳定的ID字段,允许用户与同系列的其他数据集(如文本嵌入数据集、卡牌元数据集)进行无缝关联。值得注意的是,当前嵌入空间与初代作品的对应多模态嵌入处于同一坐标系中,为跨代卡牌分析提供了便利。此外,数据集附带了provenance.json文件,用以记录生成快照的游戏版本,便于追踪抢先体验阶段频繁的卡牌变更。
使用方法
用户可通过HuggingFace的datasets库便捷加载数据,加载命令为load_dataset("t22000t/slay-the-spire-2-card-multimodal-embeddings", split="train"),返回的数据集包含id、game、name、card_text、has_image及multimodal_embedding字段。嵌入向量可直接转换为NumPy数组进行后续的相似度计算、聚类分析或作为下游模型的特征输入。使用时需注意抢先体验期内卡牌迭代导致的版本漂移问题,跨快照的数值对比需对齐游戏版本。同时,由于美术风格可能引入视觉偏误,建议在使用时评估指令模板对机制与艺术特征权重的平衡效果。
背景与挑战
背景概述
《Slay the Spire 2》是由Mega Crit开发的卡牌构筑类Roguelike游戏,其前作在策略卡牌领域树立了标杆,推动了程序化生成与牌组构建结合的创新玩法。本数据集由研究者timothy22000于2026年创建,专注于提取游戏中每张卡牌的多模态嵌入表示,联合编码卡牌的文字描述与视觉肖像,生成1024维的单位归一化向量。该数据集依托Qwen3-VL-Embedding-2B模型,旨在为游戏AI、卡牌推荐系统及多模态语义分析提供稳健的特征基础。其发布在HuggingFace平台上,与Slay the Spire系列其他数据集共同构成了slaythespire-codex集合,对游戏智能与多模态检索研究具有重要推动作用。
当前挑战
该数据集所应对的领域挑战在于,传统卡牌游戏分析多依赖单一模态特征,难以同时捕获牌面机制与视觉风格的复合语义,而多模态嵌入的联合表征则能提升卡牌间相似性判别的精度。构建过程中,研究人员面临Early Access版本频繁更新的内容不稳定问题,卡牌数量与属性随补丁持续变动,需依赖provenance.json记录快照版本以确保可重现性。此外,为防止视觉风格过度主导embedding聚类,实验通过精心设计的指令文本在机制信息与美术特征之间取得平衡,避免机械相似但画风迥异的卡牌被错误归并,从而保证嵌入空间的语义对齐质量。
常用场景
经典使用场景
在游戏人工智能与计算美学交叉领域,该数据集为卡牌游戏中的多模态表征学习提供了基准资源。研究者可利用其提供的576张卡牌联合文本与图像的1024维嵌入向量,探索卡牌间基于机制与视觉的双重相似性度量。通过检索或聚类任务,可以复现并评估卡牌在统一语义空间中的分布规律,尤其适用于验证多模态模型在游戏领域对齐图文特征的有效性。
解决学术问题
该数据集解决了游戏领域缺乏标准化多模态卡牌表征的学术困境,弥合了文本规则描述与视觉艺术风格之间的语义鸿沟。其联合嵌入空间使得量化分析卡牌的设计风格演化、牌组构建的隐性规律成为可能,为理解复杂策略游戏的可组合性提供了新视角。同时,它推动了多模态嵌入模型在领域特定数据上的泛化能力评估,促进了图像与文本融合表征方法论的发展。
衍生相关工作
该数据集催生了一系列衍生工作,包括其文本-only嵌入版本与Slay the Spire 1的多模态对应数据集,共同构成了跨游戏版本的统一嵌入坐标系。相关研究可能涵盖跨游戏的卡牌迁移学习、基于嵌入空间的牌组生成模型,以及融合时序变化的卡牌平衡性演化分析。这些工作共同构建了卡牌游戏领域的多模态分析生态系统,为策略游戏的可计算性研究奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作