five

Orak|人工智能数据集|游戏数据集

收藏
arXiv2025-06-04 更新2025-06-06 收录
人工智能
游戏
下载链接:
https://github.com/krafton-ai/Orak
下载链接
链接失效反馈
资源简介:
Orak是一个旨在训练和评估大型语言模型(LLM)代理在多种现实视频游戏中的能力的基准。该数据集包含12种流行的视频游戏,涵盖了所有主要类型,如动作、冒险、角色扮演、模拟、策略和益智游戏。Orak引入了基于模型上下文协议(MCP)的即插即用接口,允许LLM无缝连接到游戏并操作代理模块。此外,Orak还提供了一个微调数据集,其中包含专家LLM在Orak中的所有游戏上的游戏轨迹。该数据集旨在将预训练的LLM转变为有效的游戏代理。Orak提供了一个全面的评估框架,包括通用游戏得分排行榜、LLM战斗竞技场以及对视觉输入状态、代理策略和微调效果的深入分析。Orak不仅为开发通用游戏代理奠定了基础,而且成为在现实、长期决策任务上评估通用LLM的关键基准。
提供机构:
KRAFTON, 首尔国立大学, NVIDIA, 威斯康星大学麦迪逊分校
创建时间:
2025-06-04
原始信息汇总

Orak 数据集概述

基本信息

核心特性

  • 覆盖12款流行游戏,涵盖多种游戏类型
  • 支持通过模型上下文协议(MCP)进行即插即用的代理模块研究
  • 支持对文本和视觉游戏状态的LLM和VLM分析
  • 易于集成新环境、模型和自定义代理

游戏列表

动作类 冒险类 RPG类 模拟类 策略类 解谜类
Street Fighter III Ace Attorney Pokémon Red Minecraft StarCraft II Baba Is You
Super Mario Her Story Darkest Dungeon Stardew Valley Slay the Spire 2048

核心模块

  • mcp_agent_client/: 管理代理模块与游戏环境的交互
  • mcp_agent_servers/: 基于LLM/SLM的游戏代理实现
  • mcp_game_servers/: 支持的游戏环境集合

安装要求

  1. 游戏设置:

    • 6款游戏需一次性购买(价格$9.99-$24.99)
    • 6款游戏可免费游玩
    • 各游戏需单独设置,参考docs/setup_{game}.md
  2. Python环境:

    • 支持MCP脚本(基于uv环境)和Python脚本(基于conda环境)
    • 基础安装: pip install -r requirements/base.txt
    • 特定游戏需额外安装: pip install -r requirements/{game}.txt
  3. API密钥设置:

    • 支持OpenAI、Anthropic、Google(Vertex AI)、DeepSeek等商业API
    • 密钥文件需存放在src/mcp_agent_servers/keys/目录下

评估方式

  1. 单人排行榜:

    • 通过scripts/leaderboard/mcp/{game}.shscripts/leaderboard/python/{game}.sh运行
  2. 双人对战:

    • 通过scripts/arena/mcp/{game}.shscripts/arena/python/{game}.sh运行

自定义脚本

可通过指定<游戏, LLM, 代理模块, 输入类型>自定义运行脚本: bash uv run ./scripts/mcp_play_game.py --config ./src/mcp_agent_client/configs/{game}/config.yaml env.input_modality={input_modality} agent.llm_name={model} agent.agent_type={agent} agent.prompt_path=mcp_agent_servers.{game}.prompts.{input_modality}.{agent}

特色功能

  • 支持通过MCP与Claude进行自由形式的开放式游戏
  • 提供Claude玩《Ace Attorney》和《Baba Is You》的示例视频

引用

bibtex @article{park2025orak, title = {Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games}, author = {Park, Dongmin and Kim, Minkyu and Choi, Beongjun and Kim, Junhyuck and Lee, Keon and Lee, Jonghyun and Park, Inkyu and Lee, Byeong-Uk and Hwang, Jaeyoung and Ahn, Jaewoo and Mahabaleshwarkar, Ameya S. and Kartal, Bilal and Biswas, Pritam and Suhara, Yoshi and Lee, Kangwook and Cho, Jaewoong}, year = {2025}, eprint = {2506.03610}, archivePrefix = {arXiv}, note = {arXiv:2506.03610} }

AI搜集汇总
数据集介绍
构建方式
Orak数据集通过整合12款涵盖动作、冒险、角色扮演、模拟、策略和解谜等主要游戏类型的真实视频游戏构建而成,采用模块化设计理念,基于模型上下文协议(MCP)开发了即插即用接口。数据采集过程结合专家LLM的游戏轨迹记录与人工标注,通过Harmony和BepInEx等工具实现游戏状态提取与动作注入,并利用YOLOv11模型增强视觉特征解析能力。
特点
该数据集具有三大核心特征:首先,其覆盖六大全游戏类型,包含《街头霸王III》《逆转裁判》《星露谷物语》等12款经典游戏,支持对LLM空间推理、长期规划等7大核心能力的系统评估;其次,创新性地采用MCP协议实现游戏环境与智能体模块的解耦,支持反射、记忆等模块的灵活组合研究;最后,提供包含10k样本的微调数据集,包含GPT-4o等专家模型的游戏轨迹与策略分析。
使用方法
使用Orak需通过MCP接口连接游戏环境,支持三种评估模式:基础模式通过leaderboard比较游戏得分,竞技场模式支持LLM对战与Elo评分,研究模式可分析视觉输入与智能体策略的影响。数据集提供标准化的文本/图像双模态输入接口,支持零样本、反思-规划等多种智能体架构。用户可通过配置eval.py快速切换游戏、LLM骨干和策略模块,或通过agent.py开发新型策略模块。
背景与挑战
背景概述
Orak是由KRAFTON、首尔国立大学、NVIDIA和威斯康星大学麦迪逊分校的研究团队于2025年6月提出的一个基础性基准测试,旨在评估和训练大型语言模型(LLM)代理在多样化视频游戏中的表现。该数据集包含12款涵盖动作、冒险、角色扮演、模拟、策略和谜题等主要游戏类型的流行视频游戏,如《街头霸王III》、《超级马里奥》、《逆转裁判》、《她的故事》等。Orak通过引入基于模型上下文协议(MCP)的即插即用接口,支持对LLM能力和代理模块的全面评估,并提供了微调数据集以将预训练的LLM转化为有效的游戏代理。该数据集对推动通用游戏代理的发展和相关领域的研究具有重要影响力。
当前挑战
Orak面临的挑战主要包括两个方面:1) 领域问题的挑战:现有的游戏基准测试大多局限于文本游戏或2D网格模拟器,缺乏对复杂真实视频游戏的评估,且对代理模块(如自我反思、记忆和工具使用)的评估不足,这些模块对于复杂游戏玩法至关重要。2) 构建过程中的挑战:构建过程中需要处理多样化游戏类型的集成、实时游戏状态的转换、多模态输入的融合以及确保评估的一致性和可扩展性。此外,如何有效微调预训练的LLM以适应不同游戏的特定需求也是一个重要挑战。
常用场景
经典使用场景
Orak数据集作为评估大型语言模型(LLM)在多样化视频游戏中表现的基础性基准,广泛应用于训练和测试LLM代理的能力。通过涵盖12种不同游戏类型,包括动作、冒险、角色扮演、模拟、策略和解谜等,Orak能够全面评估LLM在复杂游戏场景中的表现。其经典的用例包括游戏玩法排行榜、LLM对战竞技场以及深入的代理模块研究。
实际应用
在实际应用中,Orak数据集被广泛用于游戏行业中,以提升非玩家角色(NPC)的智能水平,增强用户体验。例如,通过Orak训练的LLM代理可以用于设计更智能的游戏角色、怪物和同伴。此外,Orak的评估框架还被用于研究和开发通用游戏代理,推动游戏AI技术的进步。
衍生相关工作
Orak数据集衍生了许多相关研究工作,特别是在LLM代理的开发和评估领域。例如,基于Orak的研究提出了多种代理策略和模块,如反射代理、规划代理和技能管理代理。此外,Orak还启发了对多模态输入(如文本和图像)在游戏代理中应用的研究,以及针对特定游戏类型的优化策略。这些工作进一步推动了LLM代理在多样化游戏环境中的性能提升和应用扩展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

SECOM

SECOM数据集包含590个实例,每个实例有590个特征,主要用于半导体制造过程中的质量控制。数据集中的特征包括各种传感器读数和制造过程中的参数。目标变量是一个二进制标签,表示制造过程是否成功。

archive.ics.uci.edu 收录

TJ4DRadSet

TJ4DRadSet是由同济大学雷达实验室创建的自动驾驶数据集,专注于4D雷达点云数据。该数据集包含7757个同步帧,涵盖44个连续序列,均配有高质量的3D边界框和跟踪ID标注。数据集覆盖多种驾驶场景,如高架道路、复杂交叉口、单行道和城市道路,以及恶劣光照条件。创建过程中,使用了包括4D雷达、相机、激光雷达和全球导航卫星系统在内的多传感器平台。TJ4DRadSet旨在推动基于4D雷达的环境感知算法研究,特别是在高级自动驾驶系统中的应用。

arXiv 收录

GOME-2

GOME-2数据集包含全球臭氧监测实验-2(Global Ozone Monitoring Experiment-2)卫星的观测数据,主要用于监测大气中的臭氧层、气溶胶和云层等参数。

earth.esa.int 收录