UNREAL_0428

Hugging Face2026-04-30 更新2026-05-01 收录

下载链接：

https://huggingface.co/datasets/UnrealMLLM/UNREAL_0428

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含137个测试样本，设计用于问答或推理任务。数据集结构包括多个字段，涵盖场景名称、难度级别、规则描述、现实性标志、计划描述以及元数据。此外，数据集包含四个问题字段（q0_1至q3），每个问题都有类型、问题文本、选项（如适用）、元数据参考、正确答案以及是否为多选的标志。数据集还包含对象路径和视频内容，表明其为多模态数据集。数据以测试集形式提供，总大小为26,921,467字节，下载大小为23,932,452字节。

创建时间：

2026-04-28

原始信息汇总

根据您提供的数据集详情页面README文件内容，以下是该数据集的概述：

数据集概述

数据集名称: UNREAL_0428
数据集地址: https://huggingface.co/datasets/UnrealMLLM/UNREAL_0428

数据集规模

项目	数值
下载大小	23,932,452 字节
数据集大小	26,921,467 字节
拆分	仅包含测试集 (test)
测试集样本数	137 条

数据集特征

数据集包含以下字段：

基础信息字段

id (int64): 唯一标识符
uuid (string): 通用唯一标识符
scenario_name (string): 场景名称
difficulty (string): 难度等级
rules (string): 规则描述
is_realistic (bool): 是否真实场景
plan (string): 计划描述
metadata (string): 元数据信息

问题相关字段

每个样本包含多个问题（q0_1, q0_2, q1, q2, q3），每个问题具有以下结构：

type (string): 问题类型
question (string): 问题内容
options (list of string 或 null): 选项列表
metadata_reference (string): 元数据引用
correct_answers (list of int64 或 null): 正确答案集合
correct_answer (string): 单一正确答案
is_multiselect (bool): 是否多选

多媒体字段

objects_path (string): 对象路径
video (video): 视频数据

数据集拆分

该数据集仅包含一个拆分：

test (测试集): 共137个样本，占用26,921,467字节

配置信息

默认配置名称: default
数据文件路径: data/test-* (匹配所有测试数据文件)

搜集汇总

数据集介绍

构建方式

UNREAL_0428数据集旨在评估大模型在非现实场景下的视觉推理与问答能力。其构建基于精心设计的多个非现实情境，每个情境包含一个独特的场景名称、难度等级、规则集以及是否属于现实场景的标识。对于每个场景，数据集不仅提供了底层规划（plan）与丰富的元数据描述，还生成了多组围绕视觉内容的问题，涵盖单选的q0_1、q0_2、q1至q3等不同问题类型，并附有选项、正确答案集合及多选标志。所有数据均与对应的视频文件（video）及物体路径（objects_path）相绑定，最终形成了包含137个测试样例的权威评估集合。

使用方法

研究者可直接加载该数据集，利用其test分片进行模型评估。具体而言，可依次提取每个样本的视频信息，结合场景规则与元数据，引导大语言模型或多模态模型回答q0_1至q3系列问题。建议将正确答案字段（如q0_1_correct_answer）作为评价模型输出是否匹配的基准，同时留意is_multiselect标志以正确处理多选场景。对于需要额外视觉信息的任务，可借助objects_path定位具体物体，或集成视频理解管线，从而全面衡量模型在非现实情境下结合视觉与文本的推理表现。

背景与挑战

背景概述

UNREAL_0428数据集由研究团队于2024年4月28日创建，旨在评估与提升多模态大模型在复杂场景理解与推理任务中的性能。该数据集聚焦于自动驾驶、仿真环境及人机交互等前沿领域，通过提供包含场景描述、规则、规划及多轮选择题的多样化样本，推动模型对非结构化、高动态真实世界的感知与逻辑推断能力。其核心研究问题在于弥合现有模型在合成数据与真实环境间的认知鸿沟，已成为多模态推理与具身智能基准测试的重要基石。

当前挑战

数据集面临的核心挑战在于构建过程需同时解决两大难题：一是如何设计兼具真实感与复杂度的场景规则（如视频中隐含的因果关系与时空约束），确保样本能有效测试模型对物理世界常识与逻辑链条的整合能力；二是数据标注中需避免多模态信息（视频、文本、元数据）间的语义歧义，并平衡问题难度分布以覆盖从简单识别到深层推理的认知层级。此外，领域问题本身的挑战在于现有模型易受场景中的无关干扰因素影响，难以在低样本条件下泛化至未知情境。

常用场景

经典使用场景

UNREAL_0428数据集专为评估和提升大语言模型在复杂、多步骤任务中的规划与推理能力而设计。其核心使用场景是作为基准测试，检验模型对非真实情境（is_realistic字段为假）下，包含详细规则与阶段性计划的任务理解与执行水平。研究者利用其中的多类型问题（如单选、多选及开放性问题）与对应正确答案，系统性地衡量模型在遵循约束、策略分解及动态决策方面的表现。

解决学术问题

该数据集针对性地解决了当前大语言模型在结构化环境适应性评估中缺乏标准化测试资源的问题。通过提供统一格式的规则-计划-问题三元组，它能够量化模型在逻辑一致性、规则意识及多步推理方面的能力边界。其意义在于为认知架构与常识推理研究提供了可复现的评估基准，推动了语言模型从单纯文本生成向具备战略规划能力的智能体演进的进程。

实际应用

在实际应用中，UNREAL_0428可用于开发具备强推理能力的智能助手，帮助其处理如任务编排、游戏策略制定及自动化流程管理等涉及明确规则与子目标分解的场景。例如，在企业级工作流自动化系统中，模型可依据内置规则与历史计划，生成并调整执行方案，从而提升运营效率与任务完成的准确性。

数据集最近研究