null-epoch-season-0
收藏Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/FirespawnStudios/null-epoch-season-0
下载链接
链接失效反馈官方服务:
资源简介:
The Null Epoch - Season 0 数据集由Firespawn Studios发布,记录了一个持续10天的持久性大型多人在线角色扮演游戏(MMORPG)风格世界中,21个自主人工智能智能体的交互日志、系统指标、经济交易和推理轨迹。该数据集旨在研究不同大语言模型在长期持久性、经济策略、玩家对战(PvP)战斗和资源收集等任务中的行为表现。数据集包含超过90,000个智能体事件,其中70%以上的事件附带了模型输出的自然语言推理轨迹,覆盖了Qwen3、GLM 4.7、Gemma 3、Ministral、Nemotron等多种开源和专有大语言模型的行为。数据以JSON和JSONL格式组织,核心文件包括:记录每个智能体所有动作及推理的agent_events.jsonl(92,855行);记录分片级系统指标的metrics.jsonl(171,108行);记录拍卖行和商人交易的价格历史price_history.jsonl(1,899行);记录服务器广播的grid_transmissions.jsonl(583行);以及由大语言模型生成的叙事性编年史narratives.jsonl(98行)。此外,还包含智能体最终状态配置文件、智能体到模型的映射关系以及按模型聚合的统计数据。数据集适用于多智能体系统研究,包括分析模型对齐、博弈论应用、攻击性行为、空间推理、多步骤库存管理,以及经济收敛或对抗压力效应。数据来源于17个由Firespawn Studios运营的系统智能体和4个由用户(Firespawn人员或研究项目参与者)部署的智能体。所有个人身份信息均已排除,数据集在CC BY-NC 4.0许可下发布。
The Null Epoch - Season 0 dataset, released by Firespawn Studios, logs interactions, system metrics, economic transactions, and reasoning traces of 21 autonomous AI agents in a persistent, MMORPG-style world over 10 days. It aims to study the behavior of various large language models in tasks like long-term persistence, economic strategy, PvP combat, and resource gathering. The dataset contains over 90,000 agent events, with more than 70% including natural language reasoning traces from model outputs, covering behaviors of open-source and proprietary LLMs such as Qwen3, GLM 4.7, Gemma 3, Ministral, and Nemotron. Data is organized in JSON and JSONL formats, with core files including: agent_events.jsonl (92,855 lines) recording all actions and reasoning per agent; metrics.jsonl (171,108 lines) for shard-level system metrics; price_history.jsonl (1,899 lines) for auction house and merchant price history; grid_transmissions.jsonl (583 lines) for server broadcasts; and narratives.jsonl (98 lines) for LLM-generated narrative chronicles. It also includes final agent state configs, agent-to-model mappings, and model-aggregated statistics. The dataset is suitable for multi-agent system research, including analysis of model alignment, game theory applications, aggressive behavior, spatial reasoning, multi-step inventory management, and economic convergence or adversarial pressure effects. Data comes from 17 system agents operated by Firespawn Studios and 4 user-deployed agents (by Firespawn staff or research participants). All personally identifiable information is excluded, and the dataset is released under the CC BY-NC 4.0 license.
创建时间:
2026-05-15
搜集汇总
数据集介绍

构建方式
本数据集由Firespawn Studios构建,源自一场为期十天的实时MMO模拟实验,其中21个自主AI代理(17个由Firespawn基于8种不同大语言模型操控,4个为用户部署)在持久化游戏世界中交互。通过记录代理的每一步行动、推理轨迹、经济交易及系统指标,原始交互日志经匿名化处理后以JSON和JSONL格式存储,确保隐私合规,核心文件包括agent_events.jsonl(涵盖92,855条事件)、metrics.jsonl等,并附有系统提示文档以阐明底层规则架构。
使用方法
使用该数据集时,研究者可直接从HuggingFace页面下载JSONL文件,利用agent_events.jsonl分析代理行为模式与模型推理逻辑,结合price_history.jsonl探索经济收敛动态。建议通过agent_model_mapping.json关联模型身份,并参考SYSTEM_PROMPTS.md理解代理行为框架。适用场景包括对齐分析、空间推理训练或博弈论研究,但需注意内部思考块因API限制未被捕获,仅保留模型输出的理由解释。此外,CC BY 4.0的开放版本(排除一位参与者)可供商业用途。
背景与挑战
背景概述
大型语言模型(LLM)在多智能体系统中的长期自主决策能力是当前人工智能研究的前沿课题,传统基准测试多聚焦于单轮问答或静态任务,无法捕捉智能体在动态、持续环境中的适应性行为。由Firespawn Studios于近期发布的Null Epoch - Season 0数据集,通过记录21个自主AI智能体在10天在线MMO模拟中的互动日志、经济交易与推理轨迹,构建了一个多模型对比研究平台。该数据集涵盖8种开源与专有LLM(如Qwen3、Gemma 3等),包含超过90,000个智能体事件和70%以上的推理轨迹覆盖率,为分析模型在长期生存、经济策略与资源博弈中的表现提供了弥足珍贵的实验证据,在LLM行为分析领域具有开创性影响力。
当前挑战
该数据集核心挑战在于解决LLM在复杂、持续性多智能体环境中的评估难题:传统静态基准无法反映模型在长时间尺度下的适应性、策略规划与对抗压力响应的能力。其次,数据构建中面临多重挑战,包括因API限制无法捕获模型的内部思考(<think>块),仅能保留输出推理文本,限制了认知过程分析的深度;此外,需严格处理用户部署智能体的隐私与知情同意问题,移除未授权参与者的数据并匿名化关联引用,同时排除内部日志与财务指标,确保数据发布符合伦理与法律规范。
常用场景
经典使用场景
本数据集源自一场为期十天的多人在线角色扮演游戏(MMORPG)模拟,记录了21个自主AI代理在持久化虚拟世界中的完整行为轨迹。其经典使用场景聚焦于多智能体系统的行为分析,特别是不同大语言模型在长期生存、资源采集、经济交易、玩家对战等复杂任务中的决策过程。研究者可通过解析超过九万条代理事件日志,深入探究模型在空间导航、多步库存管理、对抗性博弈等维度的能力差异。数据集涵盖多种开源与专有模型的行为数据,为比较不同架构LLM的自主决策特性提供了标准化基准。
解决学术问题
该数据集有效回应了多智能体系统研究中长期面临的真实环境数据稀缺问题。传统多智能体模拟往往受限于简化规则或合成环境,难以捕捉模型在持续演化、资源稀缺和社交博弈中的涌现行为。本数据集通过提供高保真的交互日志、定价过程、推理轨迹,为研究LLM的长期一致性、经济策略收敛性、协作与竞争中的博弈行为提供了实证基础。它特别适合用于探讨强化学习与语言模型结合的技术路线,填补了现有基准测试在动态开放世界评估方面的空白。
实际应用
在实际应用层面,本数据集为开发更鲁棒的自主智能体系统提供了训练与评估素材。游戏开发商可利用其中的经济交易和战斗记录,优化非玩家角色(NPC)的智能行为设计;自动化交易系统开发者可基于拍卖行报价历史,检验市场博弈算法的有效性。此外,数据集中包含的系统提示词与模型映射文件,可直接用于指导智能体系统的提示工程优化。研究团队还可利用这些数据构建更逼真的模拟环境,用于测试机器人控制、虚拟助理等场景下的分布式决策算法。
数据集最近研究
最新研究方向
该数据集作为多智能体持久化模拟的前沿标杆,正引领LLM在长期记忆、经济博弈与空间推理等维度的能力评估。其90,000余条包含推理痕迹的代理事件,为研究模型的策略一致性、对齐性与攻防行为提供了前所未有的微观洞察。结合MMO架构下的实时拍卖与资源争夺场景,该数据推动自主代理在复杂社会系统中的涌现行为分析,并为多步决策训练提供了高保真语料。尤为关键的是,跨8种开源与闭源模型(如Qwen3、Gemma 3)的对比设计,揭示了不同架构在持久化环境下的性能差异,为下一代具身化智能体的鲁棒性校准与安全对齐研究开辟了新范式。
以上内容由遇见数据集搜集并总结生成



