five

mtg-embeddings

收藏
github2025-02-24 更新2025-02-26 收录
下载链接:
https://github.com/minimaxir/mtg-embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
用于创建所有Magic: The Gathering卡片的文本嵌入的数据集,专注于卡片机制(即不包括口味文本/卡片艺术嵌入),以数学方式识别相似卡片。

A dataset for generating text embeddings of all Magic: The Gathering cards, which focuses on card mechanics (i.e., excluding flavor text and card art embeddings) to mathematically identify similar cards.
创建时间:
2025-01-26
原始信息汇总

MTG-Embeddings 数据集概述

数据集简介

  • 数据集名称:mtg-embeddings
  • 内容:包含所有《魔法风云会》(Magic: The Gathering)卡牌(截至Aetherdrift,2025-02-14)的文本嵌入向量
  • 重点:专注于卡牌机制文本(不含风味文本或卡牌艺术嵌入),用于数学方法识别相似卡牌

数据来源与处理

  • 原始数据来源:MTGJSON
  • 预处理方式:
    • 按卡牌名称去重,保留最新印刷版本
    • 将卡牌数据聚合为格式化的JSON对象字符串(包含缩进)
  • 嵌入模型:Alibaba-NLP/gte-modernbert-base
  • 处理耗时:1小时17分钟(使用Google Cloud Platform的L4 GPU)

数据结构

JSON字段定义:

  • name:卡牌名称
  • manaCost:卡牌法力值消耗
  • type:卡牌类型(完整文本行)
  • text:卡牌文本(卡牌名称精确匹配被替换为~
  • power:卡牌力量值(如适用)
  • toughness:卡牌防御力(如适用)
  • loyalty:卡牌忠诚度(如适用)
  • rarities:所有印刷版本的稀有度列表(按顺序排列)
  • sets:所有印刷版本的集合列表(按时间顺序排列)

数据获取

相关资源

维护信息

  • 创建者:Max Woolf (@minimaxir)
  • 许可证:MIT
搜集汇总
数据集介绍
main_image_url
构建方式
mtg-embeddings数据集的构建基于MTGJSON提供的数据出口。数据首先经过去重处理,以最新打印的卡片为准,然后聚合成一个格式化的JSON对象字符串。此字符串经过编码和单位归一化,使用了Alibaba-NLP/gte-modernbert-base文本嵌入模型,专注于卡牌机制而非风味文本或卡片艺术,从而实现数学上的相似卡牌识别。
特点
本数据集的主要特点是包含了所有至Aetherdrift(2025-02-14)为止的《魔法:聚会》卡牌的文本嵌入。这些嵌入是针对卡牌机制设计的,使得研究者能够通过数学方法识别具有相似特性的卡牌。数据集以parquet文件格式提供,便于高效的数据处理和分析。
使用方法
用户可以从Hugging Face datasets下载这些嵌入,具体文件为mtg-embeddings.parquet。数据集的使用涉及多个相关的Jupyter笔记本,包括数据预处理、嵌入批量创建、维度降低以及数据可视化等步骤。这些笔记本提供了从数据处理到可视化整个流程的Python和R代码示例。
背景与挑战
背景概述
mtg-embeddings数据集是针对桌面卡牌游戏《魔法:集合》构建的文本嵌入向量集合。该数据集由Max Woolf于2025年2月14日前创建,包含了所有卡牌的文本嵌入,专注于卡牌机制而非艺术或风味描述,旨在通过数学方法识别相似的卡牌。这些嵌入向量可从Hugging Face的数据集下载,并可用于各种机器学习任务,如分类和推荐系统。该数据集不仅为游戏理论研究者提供了丰富的资源,也为自然语言处理领域贡献了独特的应用案例。
当前挑战
在构建mtg-embeddings数据集的过程中,研究人员面临了多个挑战。首先是数据预处理,包括去除重复项、统一卡牌信息的格式等。其次,为了生成高质量的嵌入向量,需要选择合适的文本嵌入模型和处理方法。此外,高维数据的可视化也是一个挑战,需要通过降维技术如UMAP将768维的嵌入向量降至2维,以供数据可视化分析。最后,数据集的维护与更新也是一个持续性的挑战,需要定期整合新卡牌的信息并更新嵌入向量。
常用场景
经典使用场景
mtg-embeddings数据集是一组针对《万智牌》卡牌文本的嵌入表示,其经典使用场景在于通过数学方式识别具有相似机制的卡牌。该数据集的核心在于利用文本嵌入技术,对卡牌的文本信息进行处理,进而实现对卡牌属性的聚类分析,为卡牌游戏的设计、策略分析提供技术支撑。
衍生相关工作
基于mtg-embeddings数据集,衍生了诸多相关的工作,包括但不限于卡牌推荐系统、游戏策略分析工具、以及卡牌属性的可视化研究。这些工作进一步拓展了该数据集的应用范围,推动了相关领域的技术进步和学术研究发展。
数据集最近研究
最新研究方向
mtg-embeddings数据集为《万智牌》卡牌创建了基于文本的嵌入表示,专注于卡牌机制而非风味文本或卡牌艺术。近期研究方向聚焦于利用这些嵌入表示进行卡牌之间的数学相似性识别,以促进游戏策略分析及自动化卡牌分类。该数据集的应用推动了数字卡牌游戏领域的文本分析和嵌入技术发展,对游戏设计、玩家策略制定及游戏AI研发具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作