eval_game

Hugging Face2026-01-16 更新2026-01-17 收录

下载链接：

https://huggingface.co/datasets/huzican/eval_game

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于游戏导航任务的多模态链式思维推理数据集。

创建时间：

2026-01-08

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Game Reasoning Dataset
托管地址: https://huggingface.co/datasets/huzican/eval_game
语言: 英语 (en)
数据规模: 小于1K (n<1K)
下载大小: 10179370 字节
数据集大小: 10179370 字节

任务与类别

任务类别:
- 视觉问答 (visual-question-answering)
- 图像到文本 (image-to-text)
标签:
- 多模态 (multimodal)
- 思维链 (chain-of-thought)
- 推理 (reasoning)
- 游戏 (game)

数据集描述

这是一个用于游戏导航任务的多模态思维链推理数据集。

数据结构

特征 (Features)

pid: 字符串类型，标识符。
question: 字符串类型，问题。
answer: 字符串类型，答案。
problem_image_0: 图像类型，问题图像。
resoning_thought_0: 字符串类型，推理思路0。
reasoning_image_0: 图像类型，推理图像0。
resoning_thought_1: 字符串类型，推理思路1。
task: 字符串类型，任务。
full_text_only_thought: 字符串类型，纯文本思路。

数据划分 (Splits)

划分名称: test
样本数量: 100
字节数: 10179370

使用方式

python from datasets import load_dataset dataset = load_dataset("huzican/eval_game")

搜集汇总

数据集介绍

构建方式

在游戏导航与多模态推理的研究领域，eval_game数据集通过精心设计的流程构建而成。该数据集聚焦于视觉问答任务，从游戏环境中采集了包含问题、答案及对应图像的数据样本。每个样本不仅提供问题与答案，还整合了多步推理过程中的思维链文本与中间视觉信息，形成了结构化的多模态序列。构建过程中注重数据多样性，确保覆盖游戏导航中的典型场景与挑战，为评估模型在复杂交互环境中的推理能力提供了坚实基础。

特点

eval_game数据集展现出鲜明的多模态与链式推理特征。其核心在于融合了文本与图像信息，每一条数据均包含初始问题图像、逐步推理的思维文本及对应的中间视觉输出，模拟了人类在游戏导航中逐步分析决策的过程。数据集规模紧凑但内容精炼，专注于游戏相关任务，强调推理的连贯性与可解释性。这种设计使得该数据集特别适用于测试模型在需要多步视觉理解和逻辑推演场景下的性能。

使用方法

利用eval_game数据集进行模型评估时，研究者可通过标准数据加载接口便捷地获取资源。数据集主要用于测试模型在视觉问答、图像到文本生成以及链式推理任务上的表现。典型的使用流程包括加载数据集、解析多模态字段（如问题图像、推理文本与图像序列），并设计评估指标以衡量模型生成答案与推理过程的准确性与逻辑性。该数据集为验证多模态大语言模型或具身智能体在游戏环境中的理解与规划能力提供了直接的基准平台。

背景与挑战

背景概述

随着人工智能在视觉与语言多模态推理领域的深入探索，eval_game数据集应运而生，旨在推动游戏导航任务中的复杂推理能力研究。该数据集由研究人员或团队构建，聚焦于结合视觉场景与文本指令的链式思维推理过程，其核心研究问题在于如何让模型在游戏环境中进行多步骤、多模态的决策与规划。通过整合问题、答案、图像及推理思维链，eval_game为评估模型在动态、交互式场景下的认知能力提供了重要基准，对促进具身智能与游戏AI的发展具有显著影响力。

当前挑战

eval_game数据集所针对的领域问题涉及视觉问答与游戏导航中的多模态推理，其挑战在于模型需同时处理图像序列与文本指令，进行连贯的因果推断与行动规划，这对模型的跨模态对齐与长期依赖建模能力提出了较高要求。在构建过程中，数据集面临收集高质量、多样化的游戏场景图像与对应思维链标注的困难，确保推理步骤的逻辑一致性与视觉关联性亦是一项复杂任务，同时需平衡数据规模与标注精细度以支持有效的模型评估。

常用场景

经典使用场景

在视觉语言推理领域，eval_game数据集为多模态思维链研究提供了经典范例。该数据集专注于游戏导航任务，通过结合问题文本、答案以及序列化的推理思维与对应图像，构建了从视觉感知到逻辑推演的完整流程。研究者利用这一结构，能够深入探索智能体在复杂游戏环境中如何逐步解析视觉信息、生成推理步骤并最终达成导航决策，从而评估模型在动态场景下的多步推理能力。

解决学术问题

eval_game数据集主要针对多模态推理中的连贯性与可解释性挑战。它通过提供带有图像序列的思维链标注，解决了传统视觉问答任务中推理过程黑箱化的问题，使模型能够学习并生成透明、结构化的推理路径。这一设计有助于推动视觉语言模型在复杂任务上的性能评估，特别是在需要多步逻辑与时空理解的游戏导航场景中，为衡量模型的深层认知能力提供了标准化基准。

衍生相关工作

围绕eval_game数据集，学术界已衍生出多项关注多模态思维链生成的经典研究。这些工作通常借鉴其序列化视觉推理框架，进一步探索如何增强模型在跨模态对齐、推理步骤的连贯性以及错误传播控制等方面的能力。部分研究扩展了数据集的适用领域，将其范式迁移至医疗诊断、机械操作指导等需要逐步视觉推理的场景，推动了可解释人工智能在多模态交互中的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集