Orak|人工智能数据集|游戏数据集
收藏Orak 数据集概述
基本信息
- 名称: Orak (오락)
- 类型: 大型语言模型(LLM)代理在视频游戏中的评估基准
- 开发者: KRAFTON AI、首尔国立大学、NVIDIA、威斯康星大学麦迪逊分校
- 论文: Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games
- 名称来源: 韩语"오락"(orak),意为"游戏"
核心特性
- 覆盖12款流行游戏,涵盖多种游戏类型
- 支持通过模型上下文协议(MCP)进行即插即用的代理模块研究
- 支持对文本和视觉游戏状态的LLM和VLM分析
- 易于集成新环境、模型和自定义代理
游戏列表
动作类 | 冒险类 | RPG类 | 模拟类 | 策略类 | 解谜类 |
---|---|---|---|---|---|
Street Fighter III | Ace Attorney | Pokémon Red | Minecraft | StarCraft II | Baba Is You |
Super Mario | Her Story | Darkest Dungeon | Stardew Valley | Slay the Spire | 2048 |
核心模块
mcp_agent_client/
: 管理代理模块与游戏环境的交互mcp_agent_servers/
: 基于LLM/SLM的游戏代理实现mcp_game_servers/
: 支持的游戏环境集合
安装要求
-
游戏设置:
- 6款游戏需一次性购买(价格$9.99-$24.99)
- 6款游戏可免费游玩
- 各游戏需单独设置,参考
docs/setup_{game}.md
-
Python环境:
- 支持MCP脚本(基于uv环境)和Python脚本(基于conda环境)
- 基础安装:
pip install -r requirements/base.txt
- 特定游戏需额外安装:
pip install -r requirements/{game}.txt
-
API密钥设置:
- 支持OpenAI、Anthropic、Google(Vertex AI)、DeepSeek等商业API
- 密钥文件需存放在
src/mcp_agent_servers/keys/
目录下
评估方式
-
单人排行榜:
- 通过
scripts/leaderboard/mcp/{game}.sh
或scripts/leaderboard/python/{game}.sh
运行
- 通过
-
双人对战:
- 通过
scripts/arena/mcp/{game}.sh
或scripts/arena/python/{game}.sh
运行
- 通过
自定义脚本
可通过指定<游戏, LLM, 代理模块, 输入类型>自定义运行脚本: bash uv run ./scripts/mcp_play_game.py --config ./src/mcp_agent_client/configs/{game}/config.yaml env.input_modality={input_modality} agent.llm_name={model} agent.agent_type={agent} agent.prompt_path=mcp_agent_servers.{game}.prompts.{input_modality}.{agent}
特色功能
- 支持通过MCP与Claude进行自由形式的开放式游戏
- 提供Claude玩《Ace Attorney》和《Baba Is You》的示例视频
引用
bibtex @article{park2025orak, title = {Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games}, author = {Park, Dongmin and Kim, Minkyu and Choi, Beongjun and Kim, Junhyuck and Lee, Keon and Lee, Jonghyun and Park, Inkyu and Lee, Byeong-Uk and Hwang, Jaeyoung and Ahn, Jaewoo and Mahabaleshwarkar, Ameya S. and Kartal, Bilal and Biswas, Pritam and Suhara, Yoshi and Lee, Kangwook and Cho, Jaewoong}, year = {2025}, eprint = {2506.03610}, archivePrefix = {arXiv}, note = {arXiv:2506.03610} }
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
SECOM
SECOM数据集包含590个实例,每个实例有590个特征,主要用于半导体制造过程中的质量控制。数据集中的特征包括各种传感器读数和制造过程中的参数。目标变量是一个二进制标签,表示制造过程是否成功。
archive.ics.uci.edu 收录
TJ4DRadSet
TJ4DRadSet是由同济大学雷达实验室创建的自动驾驶数据集,专注于4D雷达点云数据。该数据集包含7757个同步帧,涵盖44个连续序列,均配有高质量的3D边界框和跟踪ID标注。数据集覆盖多种驾驶场景,如高架道路、复杂交叉口、单行道和城市道路,以及恶劣光照条件。创建过程中,使用了包括4D雷达、相机、激光雷达和全球导航卫星系统在内的多传感器平台。TJ4DRadSet旨在推动基于4D雷达的环境感知算法研究,特别是在高级自动驾驶系统中的应用。
arXiv 收录
GOME-2
GOME-2数据集包含全球臭氧监测实验-2(Global Ozone Monitoring Experiment-2)卫星的观测数据,主要用于监测大气中的臭氧层、气溶胶和云层等参数。
earth.esa.int 收录