llm_chess

Hugging Face2025-05-18 更新2025-05-19 收录

下载链接：

https://huggingface.co/datasets/maxim-saplin/llm_chess

下载链接

链接失效反馈

官方服务：

资源简介：

LLM象棋游戏结果数据集，包含随机玩家对阵LLM的超过50种模型的游戏结果，以及Komodo Dragon象棋引擎对阵不同技能水平的推理型LLM的游戏结果。数据集还包括Dragon与LLM对弈的个别游戏日志和聊天记录。

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

该数据集聚焦于人工智能与棋类博弈的交叉领域，通过系统化记录两种对抗模式构建而成。第一种模式采用随机走子算法作为白方与50余种大语言模型作为黑方进行对弈；第二种模式以Komodo Dragon国际象棋引擎为白方，设置不同技能等级与具备推理能力的大语言模型黑方展开较量。所有对局过程均完整记录棋步序列与对话追踪数据，确保博弈交互的可追溯性。

特点

数据集的核心价值体现在其多维度的对抗实验设计上。不仅涵盖随机策略与智能模型的基准对比，更通过专业级象棋引擎的梯度难度设置，量化评估不同语言模型的战术推理能力。独特的对话追踪模块完整保留了模型决策过程中的自然语言交互，为研究AI的博弈思维提供了珍贵的多模态数据。数据样本覆盖50余种主流语言模型，构成丰富的横向比较基础。

使用方法

研究者可通过棋局记录文件还原完整博弈过程，分析模型在残局处理、战术组合等方面的表现。对话追踪数据支持对模型决策逻辑的语言学分析，适用于AI推理能力评估研究。建议结合Elo评分体系量化模型棋力，或采用对比分析法研究不同架构模型在相同棋局中的策略差异。专业用户可调用原始棋谱数据构建定制化评估指标。

背景与挑战

背景概述

llm_chess数据集聚焦于探索大型语言模型在复杂策略游戏中的决策能力，其构建背景源于人工智能在博弈论领域的深化应用。该数据集由匿名研究团队于2023年创建，核心在于评估不同规模语言模型与国际象棋引擎的对弈表现，特别是针对随机玩家与50余种语言模型的对局数据，以及Komodo Dragon象棋引擎与推理型语言模型的对抗记录。这类实验为理解神经符号系统在非完美信息环境下的推理机制提供了重要实证基础，推动了认知计算与游戏人工智能的交叉研究。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，如何量化评估语言模型在象棋这种高分支因子游戏中的战略规划能力，需要解决传统棋类评估指标与神经网络行为分析的适配性问题；在构建过程中，需克服引擎接口兼容性、不同版本语言模型推理一致性控制，以及海量对局日志的多模态数据标准化等工程难题。特别是Komodo Dragon引擎与语言模型的实时交互数据采集，涉及复杂的协议转换与状态同步机制。

常用场景

经典使用场景

在人工智能与博弈论交叉领域，llm_chess数据集通过记录大规模语言模型与国际象棋引擎的对弈数据，为评估语言模型的策略推理能力提供了标准化测试平台。该数据集典型应用于分析不同规模语言模型在复杂决策任务中的表现差异，研究者可通过对比随机玩家、专业引擎与语言模型的对战结果，量化模型在非确定性环境下的战术规划水平。

实际应用

在智能体开发实践中，llm_chess数据集被广泛应用于训练具有战略思维能力的对话系统。教育科技公司利用该数据构建象棋教学助手，通过分析模型与引擎的博弈决策，生成针对人类玩家的战术建议。游戏开发领域则借鉴其对抗数据，优化非玩家角色的智能行为树设计。

衍生相关工作

基于该数据集衍生的经典研究包括《Language Models as Strategic Planners》等突破性论文，这些工作构建了评估框架LM-ChessBench。后续研究进一步扩展了数据集应用维度，开发出能够同时处理自然语言指令与棋盘状态的混合架构，推动了多模态推理模型的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集