MeepleLM数据集

github2026-01-20 更新2026-01-22 收录

下载链接：

https://github.com/leroy9472/MeepleLM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1,727个结构校正的规则书和150K经过质量评分和面感知采样选择的评论。数据还增加了Mechanics-Dynamics-Aesthetics (MDA)推理，以明确连接书面规则和玩家体验之间的因果差距。数据集还包括游戏元数据（如游戏ID、名称、排名、权重、年份）和用于微调的Alpaca格式数据集。

This dataset contains 1,727 structurally corrected rulebooks and 150,000 reviews selected via quality scoring and face-aware sampling. It is augmented with Mechanics-Dynamics-Aesthetics (MDA) reasoning to explicitly bridge the causal gap between written game rules and player experiences. The dataset also includes game metadata (such as game ID, name, ranking, weight, and release year) as well as Alpaca-formatted datasets for fine-tuning.

创建时间：

2026-01-12

原始信息汇总

MeepleLM 数据集概述

数据集基本信息

数据集名称: MeepleLM
核心用途: 模拟桌面游戏中不同玩家群体的主观体验，作为虚拟试玩员。
数据总量: 包含1,727份经过结构化校正的规则书和150,000条经过质量评分与面向采样的评论。
数据增强: 采用“机制-动态-美学”（Mechanics-Dynamics-Aesthetics， MDA）推理链，以显式地连接书面规则与玩家体验之间的因果鸿沟。
关键创新: 提炼了玩家角色（Persona），并引入了MeepleLM模型，该模型内化了特定于角色的推理模式，以准确模拟不同玩家原型的反馈。

数据集文件结构

数据集文件位于项目根目录的 data/ 文件夹下，具体结构如下：

`data/metadata/`

game_info.json: 包含游戏ID到元数据（名称、排名、复杂度、年份）的映射。
test_games_list.json: 论文中使用的官方评估集（包含207款游戏）。

`data/finetuning/`

包含用于监督微调（SFT）的、Alpaca格式的即用型数据集。每个子文件夹包含 _train.json 和 _test.json 文件。

MeepleLM/: 包含MDA思维链推理的完整数据集。
wo_MDA/: 不含推理链的消融数据集。
wo_Persona/: 不含玩家角色描述的消融数据集。
wo_Rulebook/: 不含规则书上下文的消融数据集。

`data/rulebooks/`

包含1,727份经过处理的Markdown格式规则书语料。

`data/reviews/`

包含用于构建训练数据的、经过筛选的高质量评论语料。

关联模型与检查点

提供了基于 Qwen3-8B 训练的 LoRA适配器，可通过 vLLM 加载。

模型变体	描述	路径
MeepleLM (Ours)	包含角色条件约束和MDA推理的完整模型。	`./checkpoints/MeepleLM/`
w/o MDA	移除了思维链推理的消融模型。	`./checkpoints/wo_MDA/`
w/o Persona	使用通用玩家提示的消融模型。	`./checkpoints/wo_Persona/`
w/o Rulebook	仅依赖内部知识的消融模型。	`./checkpoints/wo_Rulebook/`

训练与推理

训练框架: 使用 LLaMA-Factory 框架进行训练，具体配置位于 training/ 目录。
推理脚本: inference/ 目录包含生成虚拟试玩结果的脚本（如 playtest_inference.py），设计用于与通过vLLM服务的MeepleLM检查点配合工作。
结果输出: 模型生成的输出JSON文件存储在 results/ 目录（例如 results/inference_meeplelm/）。

引用信息

如果研究中使用MeepleLM、规则书数据集或角色分类法，请引用以下论文： bibtex @article{li2026meeplelm, title={MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences}, author={Li, Zizhen and Li, Chuanhao and Wang, Yibin and Feng, Yukang and Sun, Jianwen and Ai, Jiaxin and Zhang, Fanrui and Sun, Mingzhu and Huang, Yifei and Zhang, Kaipeng}, journal={arXiv preprint arXiv:2601.07251}, year={2026} }

搜集汇总

数据集介绍

构建方式

在桌游设计领域，为了弥合规则文本与玩家体验之间的认知鸿沟，MeepleLM数据集的构建采用了严谨的多阶段流程。研究团队首先收集并结构化处理了1727份桌游规则书，形成高质量的规则文本语料库。随后，通过质量评分与面向特定维度的采样策略，从社区平台筛选出约15万条玩家评论，确保数据覆盖多样的主观体验。核心创新在于引入了机制-动态-美学推理框架，为每条数据标注了连接规则设计与玩家感受的因果链条，并进一步蒸馏出不同的玩家角色画像，从而构建出能够模拟特定玩家群体反馈的指令微调数据集。

使用方法

数据集以标准的Alpaca格式组织，便于直接用于大语言模型的监督微调。研究者或开发者可以利用提供的配置文件，通过LLaMA-Factory等训练框架加载不同版本的数据集进行模型训练，例如包含完整推理链的版本或进行特定模块消融的版本。对于推理应用，训练好的模型适配器可通过vLLM等高效推理库进行部署。用户通过提供游戏规则书并指定目标玩家角色，即可调用模型生成模拟该角色视角的游玩评测，实现虚拟试玩员的功能，辅助游戏设计迭代与体验评估。

背景与挑战

背景概述

随着大语言模型在棋盘游戏领域从单纯的对弈代理演变为创造性协同设计者，其在用户体验层面的批判性反馈能力仍显不足。为弥合这一鸿沟，MeepleLM数据集应运而生，其构建工作由相关研究团队于2026年通过学术论文正式提出。该数据集的核心研究目标在于模拟多样化玩家群体的主观游戏体验，旨在推动人机协作向受众对齐、体验感知的方向发展。通过整合1727份经过结构校正的规则手册与15万条经质量评分和面向采样的评论，并引入机制-动态-美学推理框架，该数据集为连接规则文本与玩家体验之间的因果鸿沟提供了结构化基础。这一工作不仅为棋盘游戏设计提供了虚拟测试平台，也为通用交互系统的人机协同评估开辟了新路径。

当前挑战

在构建MeepleLM数据集以解决棋盘游戏体验模拟与批判生成问题的过程中，研究团队面临多重挑战。首要挑战源于问题领域本身：如何在没有显式游戏引擎的情况下，从文本规则中推断出影响游戏过程的潜在动态机制；同时，如何精准建模不同玩家群体在体验上的主观异质性，避免模型产生偏见或不可预测的输出。在数据集构建层面，挑战则体现在数据采集与处理环节：需从海量用户评论中通过质量评分与多维度采样筛选出高质量、具有代表性的子集；此外，将抽象的玩家体验与具体的游戏规则进行因果关联，需要设计并应用如机制-动态-美学这样的理论框架来构建推理链条，这一过程对数据的结构化与标注提出了极高要求。

常用场景

经典使用场景

在桌面游戏设计领域，MeepleLM数据集的核心应用场景在于模拟虚拟游戏测试。通过整合经过结构校正的规则手册与高质量玩家评论，该数据集能够驱动大型语言模型生成针对不同玩家原型的个性化反馈。这一过程不仅涵盖了游戏机制、动态与美学之间的因果推理，还融入了玩家角色画像，使得模型能够精准捕捉游戏规则与主观体验之间的潜在关联。

解决学术问题

该数据集有效解决了交互系统研究中两个关键挑战：一是无需显式游戏引擎即可推断规则与游戏体验之间的潜在动态；二是建模多样化玩家群体的主观异质性。通过引入机制-动态-美学推理链与玩家角色蒸馏，MeepleLM为人类与人工智能协作提供了经验感知的基础，显著提升了模型在社区对齐与评论质量方面的表现，推动了面向受众的体验驱动型研究。

实际应用

在实际应用中，MeepleLM数据集可作为可靠的虚拟游戏测试工具，辅助游戏设计师在开发早期阶段获取多元化的外部视角。它能够模拟不同玩家原型的反馈，帮助识别游戏平衡性、规则清晰度与娱乐性等方面的潜在问题，从而降低开发成本并缩短迭代周期。此外，该框架也可扩展至其他交互式系统的用户体验评估。

数据集最近研究