StarDojo
收藏arXiv2025-07-11 更新2025-07-12 收录
下载链接:
https://weihaotan.github.io/StarDojo
下载链接
链接失效反馈官方服务:
资源简介:
StarDojo是一个基于游戏《星露谷物语》的生产-生活模拟环境,旨在评估人工智能代理在开放环境中进行生产活动和社交互动的能力。该数据集包含了1000个精心设计的任务,涉及五个关键领域:农业、手工艺、探索、战斗和社交互动。StarDojo提供了一个统一的用户友好界面,支持所有主要操作系统,并允许并行执行多个环境实例,使其特别适合评估由多模态大型语言模型(MLLMs)驱动的最具能力的代理。
StarDojo is a production-and-lifestyle simulation environment based on the game Stardew Valley, designed to evaluate the capabilities of AI Agents to conduct productive activities and social interactions in open-ended environments. This dataset includes 1,000 meticulously crafted tasks covering five core domains: agriculture, crafting, exploration, combat, and social interaction. StarDojo offers a unified, user-friendly interface that supports all major operating systems, and enables parallel execution of multiple environment instances, making it exceptionally well-suited for evaluating state-of-the-art agents powered by multimodal large language models (MLLMs).
提供机构:
南洋理工大学, 新加坡
创建时间:
2025-07-10
原始信息汇总
StarDojo 数据集概述
数据集简介
- 名称: StarDojo
- 目标: 评估多模态大语言模型(MLLMs)在开放式的生产-生活模拟中的行为表现
- 基准环境: 基于《星露谷物语》(Stardew Valley)的开放模拟RPG游戏
- 核心功能: 同时评估生产活动(如耕作、制作)和社交互动能力
关键特性
环境设计
- 交互方式: 通过StarDojoMod扩展实现结构化交互(基于Stardew Modding API)
- 系统支持: 兼容Linux/macOS/Windows全主流操作系统
- 并行执行: 支持多实例并行运行(每个实例独立端口管理)
- 响应速度: 观测获取时间可缩短至30毫秒
任务体系
- 总任务量: 1000个精心设计的任务
- 任务分类:
- 五大领域: 耕作(Farming)、制作(Crafting)、探索(Exploration)、战斗(Combat)、社交(Social)
- 三级难度: 简单(Easy, ≤30步)、中等(Medium, ≤50步)、困难(Hard, ≤150步)
- 精简版: StarDojo-Lite(100个代表性任务)
评估结果
- 最佳表现模型: GPT-4.1(总成功率12.7%)
- 开源最佳模型: Llama 4 Maverick(成功率<11%)
- 主要挑战领域:
- 视觉理解
- 多模态推理
- 底层操作
- 长期规划
- 典型缺陷: 中高难度任务接近零成功率
技术实现
- 底层架构: C#实现的StarDojoMod(基于SMAPI框架)
- 用户接口: 提供Python封装层
- 无头模式: 支持Xvfb虚拟帧缓冲
- 状态控制: 可配置的暂停-恢复机制
搜集汇总
数据集介绍

构建方式
StarDojo数据集基于广受欢迎的模拟游戏《星露谷物语》构建,通过精心设计的StarDojoMod扩展模块实现了游戏引擎与AI代理的高效交互。该数据集包含1,000个涵盖农耕、制造、探索、战斗和社交五大领域的任务,每个任务根据复杂度分为简单、中等和困难三个等级。研究人员通过Python封装接口实现无缝交互,并利用SMAPI框架实时获取游戏内部状态,避免了传统屏幕截图和键鼠模拟的低效操作。数据集特别设计了100个核心任务的精简版StarDojo-Lite,支持跨平台(Ubuntu/macOS/Windows)并行环境执行,为多模态大语言模型的评估提供了标准化测试平台。
特点
StarDojo的突出特点在于其高度仿真的生产-生活模拟系统,完美融合了资源管理与社会交互的双重挑战。数据集不仅包含农作物种植、工具制造等生产活动,还模拟了节日庆典、婚姻关系等45个NPC的社交网络,并完整再现了昼夜循环、季节更替和体力消耗等现实机制。独特的观察空间整合了720P视觉画面与7×7网格的文本环境描述,支持智能体进行多模态推理。相比现有基准,StarDojo首次实现了开放式交互、长期规划、现实经济系统与语言API的完整结合,为评估智能体在复杂社会环境中的综合能力设立了新标准。
使用方法
使用StarDojo时,研究者需通过Python接口配置任务初始状态,智能体接收包含视觉截图和结构化文本的观察输入。系统提供10种基础动作空间,包括移动、使用工具、物品选择等核心操作,并支持最多两个动作的序列执行。评估机制采用增量式进度追踪,通过比较连续状态变化自动判定任务完成度。为提升效率,建议从StarDojo-Lite的100个代表性任务入手,利用内置的自动评估脚本进行多轮测试。对于高级研究,可扩展至完整数据集的长期'Playthrough'任务,考察智能体在数百个游戏日内积累百万财富的宏观规划能力。
背景与挑战
背景概述
StarDojo是由新加坡南洋理工大学等机构的研究团队于2025年推出的多模态大语言模型(MLLMs)智能体评估基准,基于热门模拟游戏《星露谷物语》构建。该数据集创新性地将生产活动(如耕种、采矿)与社会交互(如NPC社交、节日参与)纳入统一评估框架,包含1,000个跨5个核心领域的任务,填补了现有基准在开放式生产-生活系统评估上的空白。其特色在于通过游戏引擎原生接口实现多实例并行运行,支持视觉-文本多模态输入,为AGI研究提供了高度拟真的复杂决策环境。
当前挑战
StarDojo面临双重挑战:领域层面,现有MLLMs在视觉空间理解(如目标定位、地图导航)、多模态推理(视觉与文本信息协同)和长程规划(跨季节任务链)方面表现欠佳,最优模型GPT-4.1任务成功率仅12.7%;构建层面,需解决商业游戏交互限制(如键盘模拟替代)、动态环境建模(天气/季节系统)、以及评估指标设计(增量式任务进度追踪)等工程难题。特别是游戏独特的美术风格识别和精确操作要求,对智能体的低层级控制能力提出严峻考验。
常用场景
经典使用场景
StarDojo数据集作为基于《星露谷物语》的多模态开放环境基准测试平台,其经典使用场景聚焦于评估智能体在开放式生产-生活模拟中的综合能力。研究者在虚拟农场环境中部署多模态大语言模型(MLLMs)驱动的智能体,要求其同步完成作物种植、资源采集、工具制作等生产活动,同时参与节日庆典、NPC社交等生活交互任务。通过1000个跨5大领域(农业、制造、探索、战斗、社交)的精细化任务设计,该数据集有效支撑了智能体在复杂动态环境中的长期规划能力与多任务协同表现的量化评估。
衍生相关工作
该数据集催生了多个标志性研究方向:Cradle框架将其作为跨游戏智能体通用控制能力的测试基准;Synapse项目基于其社交任务开发了记忆增强型对话策略;OSWorld团队借鉴其并行环境架构改进了网页操作智能体的评估系统。相关衍生工作已形成『虚拟社会智能体』研究子领域,在NeurIPS等会议形成专门研讨主题。
数据集最近研究
最新研究方向
StarDojo作为多模态大语言模型(MLLMs)在开放式生产-生活模拟环境中的基准测试平台,近期研究聚焦于三大前沿方向:首先,探索多模态理解与推理能力的边界,特别是在视觉定位、跨模态信息融合方面的性能瓶颈,如实验显示顶级模型GPT-4.1在复杂空间导航任务中成功率不足13%;其次,针对长期规划与实时决策的协同优化,研究通过并行化环境实例和暂停机制设计,解决传统评估中忽视的时间动态性问题;第三,构建社会-经济系统耦合的评估框架,填补现有基准在同时评估生产活动(如耕作、采矿)与社会交互(如交易、婚姻)的空白,其1000个跨领域任务已揭示当前智能体在资源管理、季节性适应等现实场景中的显著缺陷。
相关研究论文
- 1StarDojo: Benchmarking Open-Ended Behaviors of Agentic Multimodal LLMs in Production-Living Simulations with Stardew Valley南洋理工大学, 新加坡 · 2025年
以上内容由遇见数据集搜集并总结生成



