OpenDILabCommunity/MasterMind
收藏数据集卡片 for MasterMind
数据集描述
数据集摘要
该数据集包含MasterMind中斗地主和围棋任务的专家数据集。简而言之,该数据集采用QA格式,问题部分提供游戏的当前状态;答案部分提供相应的游戏策略及采用该策略的逻辑。数据集将所有上述信息以字符串格式编码,所有专家信息均由代理自动生成。
快速开始
以下是应用指令调优于此数据集的简单教程:
- 安装torch==2.2.2。您可以直接运行以下命令以安装cuda==11.8。对于其他版本,请查看官方教程:PyTorch
bash pip install torch==2.2.2 --index-url https://download.pytorch.org/whl/cu118
- 通过以下命令安装其他需求:
bash pip3 install -r requirements.txt
- 运行我们的演示代码:
bash python demo.py
支持的任务和排行榜
子数据集1:斗地主
该子数据集支持两个任务:action_acc,对应代理选择的动作与专家相同的动作的比例;和thought_acc,对应代理的思考过程与专家匹配的比例。需要注意的是,action_acc相对较容易,因为如果思考过程完全正确,最终答案也将正确。这两个任务的排行榜如下:
| 模型 | thought acc | action acc |
|---|---|---|
| LLaMA-2-7B | 0% | 0% |
| + MasterMind-Dou | 66% | 95% |
| Gemma-7B | 0% | 0% |
| + MasterMind-Dou | 61% | 91% |
子数据集2:围棋
该子数据集支持四个任务:s ACC,即给定当前状态和采取的动作的下一个状态的预测准确性;expl. RLsum,给定当前状态的自然语言解释的RLsum;Winrate MAE,即给定当前状态的胜率平均绝对误差;和Score MAE,即给定当前状态的分数差的平均绝对误差。这四个任务的排行榜如下:
| 模型 | s Acc. | expl. RLsum | Winrate MAE | Score MAE |
|---|---|---|---|---|
| LLaMA-2-7B | 0% | 11.45 | N/A | N/A |
| + MasterMind-Go | 99.44% | 5.23 | 5.14 | 1.74 |
语言
该数据集完全以英语构建。
数据集结构
数据实例
斗地主
该数据集中的每个条目包括两部分:一个“问题”,编码当前游戏状态,和一个“句子”,提供对当前情况的分析和最终决策。斗地主的基本示例如下:
<img src="./README.assets/image-20240522135701355.png" alt="image-20240522135701355" style="zoom: 50%;" />
围棋-任务1
由于围棋的示例不容易可视化,我们将其转换为图像。以下是一些示例。
任务1:预测下一个棋盘状态。
<img src="./README.assets/image-20240515105949253.png" alt="image-20240515105949253" style="zoom:50%;" />
围棋-任务2
任务2:预测katago提供的分析。
<img src="./README.assets/image-20240515110152381.png" alt="image-20240515110152381" style="zoom:33%;" />
围棋-任务3
任务3:预测当前游戏状态的解释。
棋盘状态:
<img src="./README.assets/0_board.png" alt="0_board" style="zoom: 33%;" />
解释: 当白1在上右高挂时,黑2的攻击准备工作事先考虑。当白3过来时,黑4至12的走法,白13的走法,黑14的断与引入有关。
数据字段
数据集的每一行包括以下字段:
- question:向LLM提出的问题,主要包括当前游戏情况,可能包括合法动作和LLM完成任务的简单指令等额外信息。
- sentence:标准答案数据集。它包括最终采取的动作和由此结果得出的思考过程。
数据分割
数据集包含两个一般决策任务:斗地主和围棋。
- 斗地主: 该任务包含一个训练分割和一个测试分割。在数据集创建过程中,我们使用了总共500场完整的斗地主游戏。为了确保与测试的一致性,我们随机选择了490场比赛作为训练集,10场比赛作为测试集。
- 围棋: 该数据集可以分为三个子集。第一个子集用于预测下一个状态,包含总共45,000个转换用于训练和5,000个转换用于测试;第二个子集用于情境分析,包含总共12场比赛,其中10场比赛用作训练集,2场比赛作为测试集;第三个子集用于情境的自然语言解释,包含450个条目用于训练和51个条目用于测试。
数据集创建
策划理由
MasterMind数据集的策划旨在推动语言模型理解和在各种决策游戏的战略情境中进行交互的能力。认识到涉及不完全信息、概率结果和竞争动态的战略决策游戏的复杂性,该数据集特别关注专家级游戏与语言模型训练之间的交互。
源数据
初始数据收集和规范化
斗地主: 在生成数据集时,我们使用DouZero作为专家代理,RLcard作为对手代理。具体来说,我们让DouZero作为地主对抗两个RLcard代理作为农民,进行多次战斗并收集所有中间状态作为数据集。在答案部分,可能动作的生成规则是DouZero输出的Q值的top-p过滤。最终采取的动作是DouZero实际使用的动作。
围棋: 我们使用KataGo作为专家代理进行数据收集。预测下一个状态的数据集源自围棋环境的自动判断,环境的分析基于KataGo,棋盘状态的文字评论来自李昌镐的著作。
源语言生产者是谁?
数据集中的策略信息来自代理DouZero和KataGo,其余语言模板由MasterMind的作者提供。棋盘状态的文字解释来自李昌镐的著作。
注释
数据集不包含任何手动注释。
注释过程
[N/A]
注释者是谁?
[N/A]
个人和敏感信息
[N/A]
使用数据时的注意事项
数据集的社会影响
该数据集的核心目的是创建一个纯粹的决策游戏监督数据集的语言形式。通过在该数据集上训练语言模型,我们旨在实现两个目标:1)使语言模型能够玩各种决策游戏;2)通过数据集中的逻辑推理过程增强语言模型的通用推理能力。该数据集希望为研究人员提供更多从数据角度增强语言模型能力的考虑。
偏见的讨论
[N/A]
其他已知限制
- 该数据集仅用于学术研究。
- 对于任何商业用途或其他合作,请联系:opendilab@pjlab.org.cn
附加信息
数据集策展人
[更多信息需要]
许可信息
该数据集在Apache License 2.0下。
引用信息
bibtex @misc{MasterMind, title={{MasterMind: OpenDILab} A language dataset for doudizhu and go decision game.}, author={MasterMind Contributors}, publisher = {huggingface}, howpublished = {url{https://huggingface.co/datasets/OpenDILabCommunity/MasterMind}}, year={2024}, }
贡献
[更多信息需要]



