MasterMind
收藏github2025-04-27 更新2025-05-10 收录
下载链接:
https://github.com/opendilab/Mastermind
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含MasterMind中提出的Doudizhu和Go任务的专家数据集。该数据集使用问答格式,问题部分提供游戏的当前状态;答案部分提供相应的游戏策略和采用该策略的逻辑。数据集将所有上述信息以字符串格式编码,所有专家信息均由代理自动生成。
This dataset contains expert datasets for the Doudizhu and Go tasks proposed in MasterMind. It adopts a question-answering format, where the question segment presents the current game state, while the answer segment provides the corresponding game strategy and the rationale for adopting such a strategy. All the aforementioned information is encoded in string format within this dataset, and all expert-related content is automatically generated by AI agents.
创建时间:
2025-04-26
原始信息汇总
MasterMind数据集概述
数据集简介
- 名称:MasterMind
- 目的:通过算法数据合成增强LLMs在决策游戏中的能力
- 内容:包含Doudizhu和Go任务的专家数据集,采用QA格式编码游戏状态与策略
- 语言:全英文构建
- 最新动态:已被ICLR2025 Workshop SynthData接受(论文链接)
数据集结构
子数据集1:Doudizhu
- 数据实例:包含"question"(当前游戏状态)和"sentence"(分析与决策)
- 任务支持:
action_acc:动作选择与专家一致的比例thought_acc:思维过程与专家匹配的比例
- 数据分割:
- 训练集:490局游戏
- 测试集:10局游戏
子数据集2:Go
- 任务支持:
s Acc.:下一状态预测准确率expl. RLsum:自然语言解释的RLsumWinrate MAE:胜率平均绝对误差Score MAE:分数差平均绝对误差
- 数据分割:
- 下一状态预测:45,000训练/5,000测试
- 情境分析:10训练/2测试
- 自然语言解释:450训练/51测试
数据字段
- 通用字段:
question:当前游戏状态及任务指令sentence:最终行动及推理过程
数据集创建
- 动机:提升语言模型在战略决策游戏中的理解与交互能力
- 数据来源:
- Doudizhu:专家代理DouZero vs RLcard
- Go:专家代理KataGo + 李世乭的文本解说
- 注释:无人工标注
使用注意事项
- 社会影响:旨在通过数据角度增强语言模型的推理能力
- 限制:
- 仅限学术研究
- 商业用途需联系:opendilab@pjlab.org.cn
附加信息
- 许可证:Apache License 2.0
- 引用信息: bibtex @misc{MasterMind, title={{MasterMind: OpenDILab} Empowering LLMs in Decision Games through Algorithmic Data Synthesis}, author={Haolin Wang, Xueyan Li, Yazhe Niu, Shuai Hu, Hongsheng Li}, publisher = {huggingface}, howpublished = {url{https://huggingface.co/datasets/OpenDILabCommunity/MasterMind}}, year={2024}, }
搜集汇总
数据集介绍

构建方式
MasterMind数据集通过算法数据合成技术构建,专注于提升大型语言模型在决策游戏中的表现。数据集采用问答格式,问题部分描述游戏当前状态,答案部分提供相应的游戏策略及其背后的逻辑。数据生成过程中,Doudizhu子集利用DouZero作为专家代理与RLcard代理对战,收集中间状态并基于Q值筛选生成最终动作;Go子集则采用KataGo作为专家代理,结合围棋环境自动判断和李世乭的文本评论构建。所有专家信息均由算法自动生成,确保了数据的专业性和一致性。
特点
MasterMind数据集以其独特的结构设计脱颖而出,包含Doudizhu和Go两个子集,覆盖多种决策任务。Doudizhu子集支持动作准确性和思维过程匹配度评估,Go子集则涵盖下一状态预测、局势分析和自然语言解释等复杂任务。数据集采用纯英文构建,所有信息以字符串格式编码,既保留了游戏决策的完整逻辑链条,又为语言模型提供了丰富的训练素材。特别值得注意的是,该数据集通过专家代理生成的策略信息与真实对局数据相结合,形成了兼具专业性和多样性的训练样本。
使用方法
使用MasterMind数据集时,研究人员可通过简单的指令微调流程快速上手。安装指定版本的PyTorch及相关依赖后,运行提供的示例代码即可开始模型训练。数据集已预先划分为训练集和测试集,Doudizhu子集包含490场训练对局和10场测试对局,Go子集则根据不同任务需求进行了细致划分。用户可根据具体研究目标,选择评估动作准确性、思维匹配度或各类围棋专项指标。该数据集特别适合用于提升语言模型在策略游戏中的决策能力和逻辑推理水平,为相关领域研究提供了标准化基准。
背景与挑战
背景概述
MasterMind数据集由OpenDILab团队于2024年推出,旨在通过算法数据合成增强大型语言模型在决策游戏中的表现。该数据集聚焦于斗地主和围棋两种策略性游戏,采用问答形式记录游戏状态与专家策略的对应关系,所有专家信息均由智能体自动生成。其核心研究问题在于如何通过语言模型理解复杂的游戏策略与决策逻辑,从而提升模型的推理能力。该数据集已被ICLR2025 Workshop SynthData接受,标志着其在人工智能与游戏决策交叉领域的重要影响力。
当前挑战
MasterMind数据集面临的挑战主要体现在两个方面:领域问题的挑战方面,该数据集旨在解决语言模型在复杂策略游戏中的决策与推理问题,如斗地主的不完全信息博弈和围棋的高维度状态空间,这对模型的策略理解与生成能力提出了极高要求;构建过程的挑战方面,数据集的生成依赖于专家智能体如DouZero和KataGo,如何准确提取并转换其决策逻辑为自然语言描述,同时保持数据的多样性与平衡性,是构建过程中的主要难点。此外,围棋数据的可视化与自然语言解释的匹配也增加了数据集构建的复杂性。
常用场景
经典使用场景
在人工智能领域,MasterMind数据集为研究大型语言模型在复杂决策游戏中的表现提供了重要支持。该数据集通过问答形式,将游戏状态与专家策略紧密结合,特别适用于训练模型在斗地主和围棋等游戏中的决策能力。其独特之处在于不仅提供最终行动,还包含背后的逻辑推理过程,使得模型能够学习到更深层次的战略思维。
实际应用
该数据集的实际价值体现在多个应用层面。在游戏AI开发中,可用于构建更智能的对手系统;在教育领域,可作为策略分析的教学素材;在决策支持系统中,能够提升模型在复杂环境下的判断能力。特别是围棋子数据集的分析功能,为专业棋手提供了有价值的参考,展现了人工智能辅助人类决策的潜力。
衍生相关工作
围绕MasterMind数据集已产生一系列创新研究。基于斗地主子数据集的工作探索了不完全信息博弈中的策略迁移;而围棋子数据集则催生了关于状态预测和自然语言解释生成的新方法。这些衍生研究不仅验证了数据集的学术价值,还推动了多模态学习、强化学习与语言模型结合等前沿方向的发展。
以上内容由遇见数据集搜集并总结生成



