HeroBench

github2025-08-20 更新2025-08-22 收录

下载链接：

https://github.com/stefanrer/HeroBench

下载链接

链接失效反馈

官方服务：

资源简介：

HeroBench是一个基于RPG风格虚拟世界的基准测试，用于评估长时程规划和结构化推理能力。它结合了模拟环境、精心设计的任务数据集和分析工具，用于评估大型语言模型在战略长时程规划、资源管理和数学方面的能力

HeroBench is a benchmark test built on RPG-style virtual worlds, aimed at evaluating long-term planning and structured reasoning capabilities. It integrates simulated environments, meticulously curated task datasets, and analytical tools to assess the capabilities of large language models in strategic long-term planning, resource management, and mathematical reasoning.

创建时间：

2025-08-03

原始信息汇总

HeroBench 数据集概述

数据集简介

HeroBench 是一个用于评估长时程规划和结构化推理能力的基准测试数据集，基于 RPG 风格的虚拟世界构建。该数据集结合了模拟环境、精心设计的任务集和分析工具，专门用于评估大语言模型在战略长时程规划、资源管理和数学计算方面的能力。

核心特性

世界布局：包含 70 个地点，涵盖资源节点、工坊和怪物生成点
内容多样性：包含 25 种独特怪物、17 种资源类型和 208 种可制作物品（装备和组件）
任务类型：
- 制作任务：收集资源并生产物品
- 战斗任务：击败怪物，通常需要制作装备
游戏机制：
- 基于回合制的战斗系统，包含四种元素伤害类型、抗性和增幅
- 有向制作链，具有多步依赖关系
难度扩展：
- 等级提升：智能体必须从等级 1 开始提升专业技能（如采矿、制作）
- 噪声物品：添加看似有效但无法制作的干扰装备

数据集规模

大型数据集：包含 844 个任务
小型数据集：包含 9 个难度级别，每个级别 20 个任务（共 180 个任务）
扩展版本：包含等级提升机制和噪声物品的扩展数据集

数据格式

prompts.json：包含可直接用于大语言模型的提示词
tasks.json：包含结构化的任务描述

评估结果

数据集对 25 个最先进的大语言模型进行了评估，评估指标包括：

成功率（%）
得分（平均值 ± 标准差）
令牌使用量（平均值 ± 标准差）

在标准基准任务中，表现最佳的模型：

Grok-4：成功率 91.7%，得分 95.3 ± 3.3
GPT-5：成功率 83.9%，得分 95.0 ± 3.3
Gemini-2.5-pro：成功率 62.9%，得分 86.6 ± 10.4

应用场景

大语言模型的长时程规划能力评估
结构化推理能力测试
资源管理和战略规划研究
多步任务执行和决策制定评估

相关资源

论文地址：https://arxiv.org/abs/2508.12782
许可证：MIT License

搜集汇总

数据集介绍

构建方式

HeroBench数据集构建于角色扮演游戏启发的虚拟世界ArtifactsMMO之上，采用结构化JSON格式定义环境数据与任务，确保高度可复现性。该数据集包含844项任务，涵盖资源采集、物品制作与战斗挑战等多元场景，通过精心设计的任务链与依赖关系模拟真实决策环境。构建过程中还引入了等级提升机制与噪声物品干扰项，以扩展任务复杂度与对抗性干扰，为评估模型的长时程规划能力提供丰富且可控的测试基础。

使用方法

用户可通过克隆GitHub仓库并安装Python依赖快速部署环境，支持Redis或SQLite后端运行。数据集以prompts.json与tasks.json双文件形式提供，可直接用于大语言模型评估。利用scoring_pipeline.py脚本可对接OpenAI、HuggingFace等多种API服务，自动化执行任务并生成结果日志。后续可通过可视化脚本分析模型表现，并支持自定义任务采样与难度扩展机制，满足差异化研究需求。

背景与挑战

背景概述

人工智能领域对长程规划与结构化推理能力的研究日益深入，HeroBench数据集应运而生，由Petr Anokhin等研究人员于2025年创建。该数据集基于ArtifactsMMO虚拟角色扮演游戏构建，专注于评估大语言模型在复杂环境中的战略规划、资源管理与数学推理能力。其核心研究问题在于解决智能体在多层次任务链中的决策优化，通过精心设计的任务结构和环境模拟，为人工智能的长程推理研究提供了重要基准，显著推动了虚拟环境中智能行为生成技术的发展。

当前挑战

HeroBench致力于解决虚拟环境中长程规划与结构化推理的复杂性挑战，包括多步任务依赖关系处理、资源动态管理及对抗性干扰项的识别。构建过程中面临环境仿真的高保真度要求，需整合70个场景节点、25类怪物实体及208种可制作物品的复杂交互逻辑。同时，数据标注需确保任务链的逻辑一致性，并平衡不同难度级别的分布，这对数据集的结构化设计与验证机制提出了极高要求。

常用场景

经典使用场景

在人工智能与游戏智能体研究领域，HeroBench作为基于RPG虚拟世界的评估基准，其经典使用场景聚焦于测试大语言模型在长时程规划与结构化推理方面的能力。该数据集通过精心设计的任务链，要求智能体在资源采集、装备合成与战斗策略等环节中进行多步决策，模拟真实游戏环境中所需的战略思维与资源管理能力，为研究者提供标准化评估框架。

解决学术问题

HeroBench有效解决了复杂环境中智能体长期规划能力的量化评估难题，填补了现有基准在结构化推理与多步决策评估方面的空白。通过引入等级提升机制和噪声干扰项，该数据集能够精确衡量模型在对抗性干扰下的鲁棒性，为研究社区提供了可复现的评估标准，推动了具身智能与认知架构领域的理论发展。

实际应用

该数据集的实际应用价值体现在游戏AI开发、智能决策系统构建等领域。基于HeroBench训练的模型能够应用于现实世界的资源调度优化、应急响应决策等场景，其多步推理能力还可迁移至机器人任务规划、自动化流程管理等工业应用，为构建具备人类级规划能力的AI系统提供重要技术支撑。

数据集最近研究