mtg-embeddings

github2025-02-24 更新2025-02-26 收录

下载链接：

https://github.com/minimaxir/mtg-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

用于创建所有Magic: The Gathering卡片的文本嵌入的数据集，专注于卡片机制（即不包括口味文本/卡片艺术嵌入），以数学方式识别相似卡片。

A dataset for generating text embeddings of all Magic: The Gathering cards, which focuses on card mechanics (i.e., excluding flavor text and card art embeddings) to mathematically identify similar cards.

创建时间：

2025-01-26

原始信息汇总

MTG-Embeddings 数据集概述

数据集简介

数据集名称：mtg-embeddings
内容：包含所有《魔法风云会》（Magic: The Gathering）卡牌（截至Aetherdrift，2025-02-14）的文本嵌入向量
重点：专注于卡牌机制文本（不含风味文本或卡牌艺术嵌入），用于数学方法识别相似卡牌

数据来源与处理

原始数据来源：MTGJSON
预处理方式：
- 按卡牌名称去重，保留最新印刷版本
- 将卡牌数据聚合为格式化的JSON对象字符串（包含缩进）
嵌入模型：Alibaba-NLP/gte-modernbert-base
处理耗时：1小时17分钟（使用Google Cloud Platform的L4 GPU）

数据结构

JSON字段定义：

name：卡牌名称
manaCost：卡牌法力值消耗
type：卡牌类型（完整文本行）
text：卡牌文本（卡牌名称精确匹配被替换为~）
power：卡牌力量值（如适用）
toughness：卡牌防御力（如适用）
loyalty：卡牌忠诚度（如适用）
rarities：所有印刷版本的稀有度列表（按顺序排列）
sets：所有印刷版本的集合列表（按时间顺序排列）

数据获取

下载地址：Hugging Face datasets
文件格式：mtg-embeddings.parquet

维护信息

创建者：Max Woolf (@minimaxir)
许可证：MIT

搜集汇总

数据集介绍

构建方式

mtg-embeddings数据集的构建基于MTGJSON提供的数据出口。数据首先经过去重处理，以最新打印的卡片为准，然后聚合成一个格式化的JSON对象字符串。此字符串经过编码和单位归一化，使用了Alibaba-NLP/gte-modernbert-base文本嵌入模型，专注于卡牌机制而非风味文本或卡片艺术，从而实现数学上的相似卡牌识别。

特点

本数据集的主要特点是包含了所有至Aetherdrift（2025-02-14）为止的《魔法：聚会》卡牌的文本嵌入。这些嵌入是针对卡牌机制设计的，使得研究者能够通过数学方法识别具有相似特性的卡牌。数据集以parquet文件格式提供，便于高效的数据处理和分析。

使用方法

用户可以从Hugging Face datasets下载这些嵌入，具体文件为mtg-embeddings.parquet。数据集的使用涉及多个相关的Jupyter笔记本，包括数据预处理、嵌入批量创建、维度降低以及数据可视化等步骤。这些笔记本提供了从数据处理到可视化整个流程的Python和R代码示例。

背景与挑战

背景概述

mtg-embeddings数据集是针对桌面卡牌游戏《魔法：集合》构建的文本嵌入向量集合。该数据集由Max Woolf于2025年2月14日前创建，包含了所有卡牌的文本嵌入，专注于卡牌机制而非艺术或风味描述，旨在通过数学方法识别相似的卡牌。这些嵌入向量可从Hugging Face的数据集下载，并可用于各种机器学习任务，如分类和推荐系统。该数据集不仅为游戏理论研究者提供了丰富的资源，也为自然语言处理领域贡献了独特的应用案例。

当前挑战

在构建mtg-embeddings数据集的过程中，研究人员面临了多个挑战。首先是数据预处理，包括去除重复项、统一卡牌信息的格式等。其次，为了生成高质量的嵌入向量，需要选择合适的文本嵌入模型和处理方法。此外，高维数据的可视化也是一个挑战，需要通过降维技术如UMAP将768维的嵌入向量降至2维，以供数据可视化分析。最后，数据集的维护与更新也是一个持续性的挑战，需要定期整合新卡牌的信息并更新嵌入向量。

常用场景

经典使用场景

mtg-embeddings数据集是一组针对《万智牌》卡牌文本的嵌入表示，其经典使用场景在于通过数学方式识别具有相似机制的卡牌。该数据集的核心在于利用文本嵌入技术，对卡牌的文本信息进行处理，进而实现对卡牌属性的聚类分析，为卡牌游戏的设计、策略分析提供技术支撑。

衍生相关工作

基于mtg-embeddings数据集，衍生了诸多相关的工作，包括但不限于卡牌推荐系统、游戏策略分析工具、以及卡牌属性的可视化研究。这些工作进一步拓展了该数据集的应用范围，推动了相关领域的技术进步和学术研究发展。

数据集最近研究