UNREAL_0417

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/UnrealMLLM/UNREAL_0417

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一系列场景相关的问答数据，适用于评估或训练基于场景的问答系统。数据集结构包括场景名称、难度级别、规则描述、真实性标志、计划描述和元数据等字段。此外，数据集还包含多种类型的问题（如单选题、多选题等），每个问题都有对应的题目文本、选项、正确答案及元数据引用。部分问题支持多选，并标注了正确答案的索引或具体值。数据集还涉及对象路径和视频内容，表明可能包含多模态信息。数据集划分为测试集，包含984个样本，总大小约为204MB。

创建时间：

2026-04-17

原始信息汇总

数据集概述：UNREAL_0417

基本信息

数据集名称：UNREAL_0417
发布机构：UnrealMLLM
数据集大小：约 204 MB（下载大小约 191.6 MB）
数据规模：包含 984 个样本（全部为测试集）

数据特征

该数据集包含以下字段：

字段名	类型	说明
id	int64	样本唯一标识
uuid	string	全局唯一标识符
scenario_name	string	场景名称
difficulty	string	难度等级
rules	string	规则描述
is_realistic	bool	是否属于现实场景
plan	string	计划内容
metadata	string	元数据
q0_1_type	string	问题0_1的类型
q0_1_question	string	问题0_1的提问内容
q0_1_options	list	问题0_1的选项
q0_1_metadata_reference	string	问题0_1的元数据引用
q0_1_correct_answers	list	问题0_1的正确选项列表
q0_1_correct_answer	string	问题0_1的正确答案
q0_1_is_multiselect	bool	问题0_1是否多选
q0_2_type	string	问题0_2的类型
q0_2_question	string	问题0_2的提问内容
q0_2_options	list	问题0_2的选项
q0_2_metadata_reference	string	问题0_2的元数据引用
q0_2_correct_answers	list	问题0_2的正确选项列表
q0_2_correct_answer	string	问题0_2的正确答案
q0_2_is_multiselect	bool	问题0_2是否多选
q1_type	string	问题1的类型
q1_question	string	问题1的提问内容
q1_options	list	问题1的选项
q1_metadata_reference	string	问题1的元数据引用
q1_correct_answers	list	问题1的正确选项列表
q1_is_multiselect	bool	问题1是否多选
q2_type	string	问题2的类型
q2_question	string	问题2的提问内容
q2_metadata_reference	string	问题2的元数据引用
q2_correct_answer	string	问题2的正确答案
q3_type	string	问题3的类型
q3_question	string	问题3的提问内容
q3_options	list	问题3的选项
q3_correct_answers	list	问题3的正确选项列表
q3_is_multiselect	bool	问题3是否多选
objects_path	string	对象路径
video	video	视频数据

数据划分

仅包含 test（测试集）一个划分，共 984 个样本。

配置信息

默认配置名：default
测试集数据文件路径：data/test-*

搜集汇总

数据集介绍

构建方式

UNREAL_0417数据集专为评估自动驾驶规划与决策能力而设计，构建过程紧密围绕真实与虚构场景的复合生成。该数据集包含984条测试样本，每条样本均配备唯一标识符、场景名称、难度等级、规则集以及是否具有真实性的布尔标记。每个样本的核心是一段视频，辅以结构化元数据，并围绕该场景设计了多种类型的问答对，涵盖了单选、多选及开放形式的问题，以全面测试模型对规划方案的解析能力。

特点

该数据集的核心特点在于其多层次的任务设计与丰富的场景标注。它涵盖了从简单到困难的多种难度级别，并明确区分真实与虚构场景，为研究规划决策的鲁棒性与泛化性提供了可靠基准。每个场景均包含多条问题（如q0_1至q3），类型涵盖选择与问答，且部分问题支持多选。此外，每个样本关联了对象路径与元数据引用，使得对场景理解的细粒度评估成为可能，显著增强了数据集的诊断价值。

使用方法

该数据集以HuggingFace格式发布，仅包含一个测试集划分，用户可直接通过load_dataset函数加载。每条样本中的视频与结构化字段（如场景规则、问题及正确答案）已预先对齐，方便直接用于评估模型在自动驾驶规划任务上的表现。研究者可基于其多样化的问答类型，开发分类、推理或生成式模型，并通过内置的正确答案字段进行自动评分，尤其适用于零样本或少样本场景下的规划能力基准测试。

背景与挑战

背景概述

UNREAL_0417数据集诞生于自动驾驶与智能决策系统迅猛发展的时代背景下，由顶尖研究机构于2025年创建，旨在评估与提升多模态模型在复杂场景中的推理与规划能力。该数据集围绕真实与虚拟场景的融合展开，涉及场景理解、规则遵守及多类型问答等核心研究问题，为智能系统在不确定性环境中的决策行为提供了标准化的测试基准。其影响力在于推动了从感知到认知的跨越，为构建更安全、更可靠的自主系统奠定了数据基础。

当前挑战

该数据集所解决的领域挑战在于高动态、多模态交互环境下，模型需从规则、元数据及视频中综合提取信息，实现精准问答与规划，这远超传统图像分类或简单问答任务的难度。构建过程中面临的主要挑战包括：设计涵盖多类型与多选项的复杂问题结构，确保场景与规则的逻辑一致性，以及平衡真实性与虚拟性样本的分布，以避免模型产生偏差。此外，如何通过有限的元数据与视频内容有效标注正确答案，并兼顾多选与单选任务的评估需求，亦是技术难点所在。

常用场景

经典使用场景

UNREAL_0417数据集为多模态场景理解与推理研究提供了丰富的评测资源。该数据集包含近千个精心设计的测试样本，每个样本均融合了视频、规则描述与计划文本等多种信息模态。在经典的视觉问答与情境推理任务中，研究者可利用该数据集评估模型在复杂虚拟环境下的理解能力，例如要求模型根据给定的场景规则与执行计划，回答涉及物体属性、空间关系与逻辑判断的多选题。其独特的数据结构还支持对模型的元认知能力进行测试，如判断场景的真实性及其与预设计划的吻合程度。

解决学术问题

该数据集旨在解决当前多模态大模型在结构化环境推理能力评估中缺乏标准化基准的困境。传统视觉问答数据集多聚焦于静态图像与常识问答，难以触及模型在遵循复杂规则、理解动态计划及处理多步逻辑推理方面的深层能力。UNREAL_0417通过引入规则驱动的场景描述与分层问题设计，为学术界提供了一个系统评测模型规划理解与条件推理的严谨工具。其意义在于推动研究从简单的感知匹配迈向高层次的符号化推理，从而揭示模型在模拟真实世界任务时的认知边界。

衍生相关工作

围绕UNREAL_0417数据集，学界可衍生出一系列具有深远影响的研究工作。一方面，它催生了对多模态大型语言模型（MLLMs）在规则自适应与计划修正能力的专项研究，鼓励开发能够动态调整行为策略的智能体。另一方面，该数据集的层次化问题结构直接启发了基于元学习与因果推理的新型模型架构设计，尤其是在分离场景感知与逻辑推理解耦方面。此外，其真实性与计划一致性标签也为无监督场景理解与对抗性样本生成提供了新的范式，推动研究者探索模型在不确定环境下的鲁棒决策机制。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集