PokemonLLMAgentBenchmark

github2025-03-08 更新2025-03-09 收录

下载链接：

https://github.com/CalebDeLeeuwMisfits/PokemonLLMAgentBenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

用于玩Pokémon Red游戏的LLM代理的基准测试数据集，记录了游戏播放的数据

Benchmark dataset for the LLM-based Pokémon Red game agent, recording gameplay data.

创建时间：

2025-03-04

原始信息汇总

Pokémon LLM Agent 数据集概述

数据集简介

本数据集是一个用于训练和评估大型语言模型（LLM）在玩《精灵宝可梦红版》游戏中的自主代理（agent）的项目。代理使用Hugging Face的smolagents，并通过PyBoy emulator与游戏互动，分析屏幕截图来理解游戏状态，管理知识库，并在游戏世界中导航。

关键特性

使用Claude API或Ollama本地推理进行决策。
通过屏幕截图捕获和分析来理解游戏状态。
可选的数据集收集功能，将游戏播放数据推送到Hugging Face Hub。
集成了Hugging Face的smolagents库，提供了更 robust 的代理。

数据集结构

main.py：应用的入口点和协调器，负责加载配置、初始化组件和运行游戏循环。
agent.py：包含系统的核心智能，包括知识库、决策引擎和工具函数。
game_interface.py：处理与游戏通过PyBoy emulator的所有交互。
dataset_manager.py：管理游戏数据的收集和上传。

LLM选项

Anthropic Claude：基于云的服务，需要API密钥。
Ollama：本地推理，需要在机器上运行Ollama服务。

使用说明

安装依赖。
安装Tesseract OCR。
设置环境变量。
运行代理。
（可选）运行数据集收集。

命令行参数

--rom：Pokémon ROM文件的路径。
--llm-provider：LLM提供者（anthropic或ollama）。
--model-name：要使用的模型名称。
--save-screenshots：游戏过程中保存屏幕截图。
--screenshot-interval：保存屏幕截图的时间间隔。
--debug：启用调试模式。
--load-knowledge：从文件加载知识库。
--save-knowledge：退出时保存知识库。
--enable-dataset：启用数据集收集。
--dataset-name：数据集的名称。
--hf-repo-id：Hugging Face仓库ID。
--hf-token：Hugging Face API令牌。
--push-interval：收集样本数后推送到Hugging Face。

许可

Mozilla Public License (MPL)。

[数据集概述完毕]

搜集汇总

数据集介绍

构建方式

PokemonLLMAgentBenchmark数据集通过整合Hugging Face的smolagents库与PyBoy游戏模拟器，构建了一个能够自主玩转《口袋妖怪红》版本的大型语言模型（LLM）智能体。该智能体利用截图分析游戏状态，管理知识库，并在游戏世界中导航。数据集的构建涉及多个文件的协同工作，包括主程序文件、智能体文件、游戏接口文件以及数据管理文件，共同实现了智能体的决策和游戏数据的记录上传。

特点

该数据集的特点在于其创新性地将大型语言模型应用于经典游戏环境中，通过不断地屏幕截图和智能体交互，收集并上传游戏数据至Hugging Face Hub，以便进行后续的基准测试。数据集不仅包含游戏画面，还涵盖智能体的思考和行动记录，为研究LLM在游戏决策中的应用提供了丰富的信息。

使用方法

使用该数据集首先需要配置游戏环境和LLM模型，通过设置环境变量和参数来指定ROM路径、LLM提供者、模型名称等。数据集的收集可以通过命令行参数进行配置，如启用数据集收集、设置数据集名称、Hugging Face存储库ID和API令牌等。智能体的运行和数据的上传均通过Python脚本实现，用户可根据需要调整参数以适应不同的研究目的。

背景与挑战

背景概述

PokemonLLMAgentBenchmark数据集是一款旨在通过大型语言模型（LLM）玩转《宝可梦红版》的自主代理项目。该项目起初由Misfits and Machines团队作为Wandering项目的一部分而发起，其灵感来源于Anthropic的研究成果——ClaudePlaysPokemon报告及直播。该数据集以Hugging Face smolagents为框架，通过与PyBoy模拟器互动，分析屏幕截图，管理知识库，并在游戏世界中导航。数据集定期将游戏记录推送到Hugging Face Hub，以便进行基准测试。其主要研究背景是探索LLM在游戏环境中的应用及其决策能力。

当前挑战

该数据集面临的挑战主要包括：1) 如何精确地通过屏幕截图分析游戏状态，并有效地与LLM决策相结合；2) 构建过程中遇到的挑战，例如确保代理在游戏中的稳定性和决策的有效性；3) 对于游戏特定内存映射的完善，以及如何利用这些映射提高游戏的导航和策略制定；4) 数据集的标准化和可扩展性问题，以确保其对于不同的LLM模型和游戏环境具有广泛的适用性。

常用场景

经典使用场景

PokemonLLMAgentBenchmark数据集主要用于研究和开发大型语言模型（LLM）在游戏环境中的应用。其经典使用场景在于，通过结合PyBoy游戏模拟器和LLM，实现对经典游戏《精灵宝可梦》的自动化智能游玩。该数据集记录了游戏屏幕截图、智能体 reasoning 和 actions，为训练和评估LLM在游戏决策方面的能力提供了丰富的实验材料。

实际应用

在实际应用中，PokemonLLMAgentBenchmark数据集可用于开发更智能的游戏AI，优化游戏体验。例如，可以通过分析数据集中智能体的行为模式来改进游戏设计，或者利用收集的数据训练新的模型，以实现更自然和高效的游戏交互。

衍生相关工作

基于PokemonLLMAgentBenchmark数据集，研究者可以开展一系列衍生工作。例如，开发更高级的游戏状态追踪系统，设计更复杂的战斗策略，或者构建具有高级导航和事件管理能力的智能体。这些工作将进一步推动游戏智能体领域的研究，拓宽LLM的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集