PokerBench
收藏github2025-01-15 更新2025-01-17 收录
下载链接:
https://github.com/pokerllm/pokerbench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含自然语言游戏场景和由求解器计算出的最优决策,适用于无限德州扑克。数据集分为翻牌前和翻牌后两部分,每部分都包含训练和测试集。数据以JSON和CSV格式存储。
This dataset comprises natural language poker game scenarios and optimal decisions computed by a solver, specifically designed for No-Limit Texas Hold'em. The dataset is split into two segments: pre-flop and post-flop, each containing both training and test subsets. All data is stored in both JSON and CSV formats.
创建时间:
2024-12-19
原始信息汇总
PokerBench 数据集概述
数据集简介
- 数据集名称: PokerBench
- 数据集链接: https://huggingface.co/datasets/RZ412/PokerBench
- 数据集用途: 用于训练和评估语言模型在无限注德州扑克中的决策能力。
数据集内容
- 数据类型: 包含自然语言游戏场景和由求解器计算的最优决策。
- 数据格式: JSON 和 CSV 格式。
- JSON 文件: 包含自然语言提示(instruction)和最优决策(output)。
- CSV 文件: 包含生成 JSON 文件的结构化游戏信息。
数据集结构
JSON 文件
- instruction: 详细描述游戏场景的自然语言文本,包括游戏状态、玩家位置、动作和公共牌。
- output: 针对描述场景的最优决策,可能包括 check、fold、call 或 bet/raise。
CSV 文件
Pre-Flop CSV
- prev_line: 当前决策点之前的玩家动作序列。
- hero_pos: 做出决策的玩家位置。
- hero_holding: 玩家的底牌。
- correct_decision: 玩家的最优决策。
- num_players: 决策点时仍在牌局中的玩家数量。
- num_bets: 到目前为止的投注轮次/动作数量。
- available_moves: 玩家可以做出的可能决策。
- pot_size: 决策点时的当前底池大小。
Post-Flop CSV
- preflop_action: 导致翻牌的玩家动作序列。
- board_flop: 翻牌的三张公共牌。
- board_turn: 转牌(如果可用)。
- board_river: 河牌(如果可用)。
- aggressor_position: 最近攻击者的位置。
- postflop_action: 翻牌后的玩家动作序列。
- evaluation_at: 决策评估的街(Flop、Turn 或 River)。
- available_moves: 玩家可以做出的可能决策。
- pot_size: 决策点时的当前底池大小。
- hero_position: 做出决策的玩家位置。
- holding: 玩家的底牌。
- correct_decision: 玩家的最优决策。
文件描述
Pre-Flop 数据集
- preflop_60k_train_set_game_scenario_information.csv: 60,000 个训练示例的结构化游戏信息。
- preflop_60k_train_set_prompt_and_label.json: 60,000 个训练示例的自然语言提示和决策。
- preflop_1k_test_set_game_scenario_information.csv: 1,000 个测试示例的结构化游戏信息。
- preflop_1k_test_set_prompt_and_label.json: 1,000 个测试示例的自然语言提示和决策。
Post-Flop 数据集
- postflop_500k_train_set_game_scenario_information.csv: 500,000 个训练示例的结构化游戏信息。
- postflop_500k_train_set_prompt_and_label.json: 500,000 个训练示例的自然语言提示和决策。
- postflop_10k_test_set_game_scenario_information.csv: 10,000 个测试示例的结构化游戏信息。
- postflop_10k_test_set_prompt_and_label.json: 10,000 个测试示例的自然语言提示和决策。
使用说明
- JSON 文件: 直接用于自然语言提示和决策的训练和评估。
- CSV 文件: 用于更详细的分析或生成自定义提示。
搜集汇总
数据集介绍

构建方式
PokerBench数据集的构建基于无限注德州扑克的游戏场景,通过自然语言描述和求解器计算的最优决策来生成数据。数据集分为翻牌前(pre-flop)和翻牌后(post-flop)两部分,每部分均包含训练集和测试集。数据以JSON和CSV两种格式存储,JSON文件包含自然语言提示和最优决策,CSV文件则记录了游戏场景的结构化信息,如玩家动作、位置和牌面状态。
特点
PokerBench数据集的特点在于其全面覆盖了无限注德州扑克的不同阶段,提供了丰富的自然语言提示和结构化游戏信息。JSON文件中的自然语言提示详细描述了游戏状态、玩家位置、动作和公共牌,而CSV文件则通过列结构清晰地展示了游戏场景的细节。数据集规模庞大,包含60,000个翻牌前训练样本和500,000个翻牌后训练样本,适合用于训练和评估语言模型在复杂决策场景中的表现。
使用方法
PokerBench数据集的使用方法灵活多样。用户可以直接利用JSON文件中的自然语言提示和最优决策进行语言模型的训练和评估,适用于生成式模型的开发。对于更深入的分析或自定义提示的生成,CSV文件提供了详细的结构化信息,便于用户根据具体需求进行数据处理和模型优化。数据集适用于研究无限注德州扑克中的决策策略,也可作为训练专业扑克玩家AI的基础资源。
背景与挑战
背景概述
PokerBench数据集由RZ412团队开发,旨在为大型语言模型提供训练资源,使其能够在无限制德州扑克中做出专业级别的决策。该数据集于2025年被AAAI会议接受,标志着其在人工智能与博弈论交叉领域的重要突破。数据集包含自然语言描述的游戏场景和由求解器计算的最优决策,分为翻牌前(pre-flop)和翻牌后(post-flop)两部分,分别以JSON和CSV格式存储。PokerBench的推出为研究语言模型在复杂博弈环境中的决策能力提供了重要支持,推动了人工智能在博弈策略优化领域的发展。
当前挑战
PokerBench数据集在构建和应用中面临多重挑战。首先,无限制德州扑克的决策空间极为复杂,涉及大量动态变量,如玩家位置、手牌组合、公共牌状态等,如何准确捕捉并描述这些变量是数据集构建的核心难题。其次,生成自然语言描述的游戏场景需要高度精确的语言建模能力,以确保模型能够理解并模拟真实博弈环境。此外,数据集的规模和质量对模型的训练效果至关重要,如何在保证数据多样性的同时避免偏差,是数据集设计中的另一大挑战。最后,如何将数据集应用于实际模型训练,并验证其在真实博弈场景中的泛化能力,仍需进一步探索。
常用场景
经典使用场景
PokerBench数据集在自然语言处理与博弈论交叉领域的研究中具有重要地位,尤其是在训练大型语言模型以模拟专业扑克玩家决策的场景中。该数据集通过提供详细的游戏场景描述和最优决策,使得研究人员能够构建和评估模型在复杂博弈环境中的表现。其JSON文件格式的自然语言提示与决策输出,为模型提供了直接的训练和测试材料,而CSV文件则支持更深入的游戏状态分析。
解决学术问题
PokerBench数据集解决了在博弈论和人工智能交叉领域中,如何训练模型在复杂、不完全信息环境下做出最优决策的学术问题。通过提供大量真实且多样化的扑克游戏场景,该数据集为研究者提供了一个标准化的基准,用于评估模型在德州扑克中的决策能力。这不仅推动了博弈论与人工智能的结合研究,还为不完全信息博弈中的决策优化提供了新的研究方向。
衍生相关工作
PokerBench数据集的发布催生了一系列相关研究,尤其是在基于语言模型的博弈决策优化领域。例如,研究者利用该数据集开发了能够模拟职业扑克玩家决策的AI模型,并在不完全信息博弈中取得了显著成果。此外,该数据集还启发了其他不完全信息博弈场景的研究,如拍卖、谈判和战略规划,推动了博弈论与人工智能的深度融合。
以上内容由遇见数据集搜集并总结生成



