UnrealMLLM/UNREAL_0428
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/UnrealMLLM/UNREAL_0428
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: uuid
dtype: string
- name: scenario_name
dtype: string
- name: difficulty
dtype: string
- name: rules
dtype: string
- name: is_realistic
dtype: bool
- name: plan
dtype: string
- name: metadata
dtype: string
- name: q0_1_type
dtype: string
- name: q0_1_question
dtype: string
- name: q0_1_options
list: 'null'
- name: q0_1_metadata_reference
dtype: string
- name: q0_1_correct_answers
list: 'null'
- name: q0_1_correct_answer
dtype: string
- name: q0_1_is_multiselect
dtype: bool
- name: q0_2_type
dtype: string
- name: q0_2_question
dtype: string
- name: q0_2_options
list: string
- name: q0_2_metadata_reference
dtype: string
- name: q0_2_correct_answers
list: int64
- name: q0_2_correct_answer
dtype: string
- name: q0_2_is_multiselect
dtype: bool
- name: q1_type
dtype: string
- name: q1_question
dtype: string
- name: q1_options
list: string
- name: q1_metadata_reference
dtype: string
- name: q1_correct_answers
list: int64
- name: q1_is_multiselect
dtype: bool
- name: q2_type
dtype: string
- name: q2_question
dtype: string
- name: q2_metadata_reference
dtype: string
- name: q2_correct_answer
dtype: string
- name: q3_type
dtype: string
- name: q3_question
dtype: string
- name: q3_options
list: string
- name: q3_correct_answers
list: int64
- name: q3_is_multiselect
dtype: bool
- name: objects_path
dtype: string
- name: video
dtype: video
splits:
- name: test
num_bytes: 132809108
num_examples: 637
download_size: 122814354
dataset_size: 132809108
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
---
提供机构:
UnrealMLLM
原始信息汇总
基于您提供的数据集详情页HTML内容,以下是该数据集的详细概述:
数据集概述:UNREAL_0428
基本信息
- 数据集名称:UNREAL_0428
- 所有者:UnrealMLLM
- 许可证:SKIML 4
- 大小:< 1K
- 格式:parquet、optimized-parquet
数据模态与类型
- 模态:文本、视频
- 库支持:Datasets、pandas、Polars 等
数据规模与划分
- 子集:default(1个)
- 总行数:637 行
- 划分:test(测试集),共 637 行
数据列结构
该数据集包含丰富的结构化字段,主要分为以下类别:
| 类别 | 字段名称 | 数据类型及说明 |
|---|---|---|
| 标识信息 | id |
int64,唯一标识符(0-636) |
uuid |
string,长度36的UUID | |
| 场景信息 | scenario_name |
string,场景名称(长度27-76) |
difficulty |
string,难度等级(3个类别值) | |
rules |
string,规则描述(54个类别值) | |
is_realistic |
bool,是否为现实场景(2类) | |
plan |
string,计划/描述(长度1.86k-2.5k) | |
metadata |
string,元数据(长度1.54k-339k) | |
| 感知类问题(q0系列) | q0_1_type |
string,问题类型(1个值) |
q0_1_question |
string,问题内容(1个值) | |
q0_1_options |
list,选项列表 | |
q0_1_metadata_reference |
string,元数据引用(1个值) | |
q0_1_correct_answers |
list,正确答案列表 | |
q0_1_correct_answer |
string,正确答案(46个类别值) | |
q0_1_is_multiselect |
bool,是否多选 | |
q0_2_type |
string,问题类型(1个值) | |
q0_2_question |
string,问题内容(1个值) | |
q0_2_options |
list,选项列表(4个选项) | |
q0_2_metadata_reference |
string,元数据引用(1个值) | |
q0_2_correct_answers |
list,正确答案列表(1个) | |
q0_2_correct_answer |
string,正确答案(4个类别值) | |
q0_2_is_multiselect |
bool,是否多选 | |
| 规则识别问题(q1) | q1_type |
string,问题类型(1个值) |
q1_question |
string,问题内容(1个值) | |
q1_options |
list,选项列表(5个选项) | |
q1_metadata_reference |
string,元数据引用(长度251-313) | |
q1_correct_answers |
list,正确答案列表(1-3个) | |
q1_is_multiselect |
bool,是否多选 | |
| 规则描述问题(q2) | q2_type |
string,问题类型(1个值) |
q2_question |
string,问题内容(1个值) | |
q2_metadata_reference |
string,元数据引用(54个类别值) | |
q2_correct_answer |
string,正确答案(54个类别值) | |
| 预测类问题(q3) | q3_type |
string,问题类型(1个值) |
q3_question |
string,问题内容(1个值) | |
q3_options |
list,选项列表(5个选项) | |
q3_correct_answers |
list,正确答案列表(1个) | |
q3_is_multiselect |
bool,是否多选 | |
| 附加信息 | objects_path |
string,物体数据路径(长度55) |
video |
video,视频数据(10个) |
数据内容示例
数据包含物理模拟场景,例如“Freezing Collision Physics Simulation - 24 Unknown Objects”等,主要涉及:
- 场景难度:hard(困难)
- 物理规则:如
freeze_after_collision(碰撞后冻结) - 问题类型:感知(perception)、规则识别(rule_identification)、规则描述(rule_description)、预测视频选择(predictive_video_choice)
数据集用途
该数据集适用于评估模型在多物理规则模拟视频中的理解、推理和预测能力,涵盖对物体数量、运动方向、物理规则识别及后续行为预测等多维度任务。
搜集汇总
数据集介绍

构建方式
UNREAL_0428数据集专为评估智能体在非现实与复杂环境中执行计划的能力而设计,其构建过程融合了多维度挑战性要素。每个样本以独特的uuid标识,并关联具体场景名称(scenario_name)与难度等级(difficulty),通过规则(rules)界定任务边界。数据集的构建核心在于其分层式问题框架,围绕同一场景生成从二选一(q0_1)到复杂推理(q3)的渐进式题目,其中多项选择题(is_multiselect)模拟了真实决策中的模糊性。特别地,通过is_realistic字段区分现实与虚构场景,并辅以元数据(metadata)与视频(video)的多模态输入,形成对智能体感知与逻辑能力的双重考验。
使用方法
使用UNREAL_0428数据集时,研究者可将视频与规则描述作为模型输入,要求智能体基于计划(plan)内容回答三类问题:基础事实查询(q0系列)、条件推理(q1至q2)与多步决策(q3)。评估过程需解析correct_answers字段(字符串或索引列表)以支持精确匹配或模糊评分,对于多元选择问题可通过is_multiselect标记启用部分得分机制。数据集已按test单分割,包含637个样本,可直接加载至支持HuggingFace datasets库的框架。实践中可结合metadata字段中的结构化信息进行场景增强或人机协作评估,但需注意非现实场景可能导致模型产生预期之外的归纳偏差。
背景与挑战
背景概述
UNREAL_0428数据集由研究人员于近期构建,旨在探索在非现实与半现实场景下大型语言模型(LLM)的规划与推理能力。该数据集包含637个测试样本,每个样本均配备规则、计划、元数据及多项选择题,以评估模型在复杂情境中的理解与决策水平。通过引入“is_realistic”标识,研究团队试图揭示模型在处理虚构与现实交织场景时的性能差异。这一工作为理解LLM在高难度、低资源环境下的适应能力提供了重要基准,并推动了AI规划领域的评估范式向更多样化、更具挑战性的任务集合演进。
当前挑战
该数据集的核心挑战在于如何有效评估模型对非现实场景的深度理解与泛化能力。领域问题方面,现有LLM在面对规则冲突、逻辑悖论或语义模糊的虚构情境时,常出现因果推理断裂与一致性缺失,难以准确生成可执行的计划。构建过程中,设计者需精心构造兼具多样性、难度与内在逻辑的自洽场景,并确保问题类型与答案的准确性和无歧义性,同时避免数据泄露与简单模式匹配。此外,在多选题中平衡难度分布,防止模型依赖表面特征而非真正理解语义,也是一项持续的技术挑战。
常用场景
经典使用场景
在计算机视觉与自然语言处理交叉领域,UNREAL_0428数据集为多模态理解与推理任务提供了高质量的评测基准。该数据集包含637个精心设计的测试样本,每个样本融合了视频、结构化元数据及多类型选择题,要求模型在理解动态视觉场景的同时,依据规则和计划进行逻辑推理。其经典使用场景集中于评估智能体在非现实与现实主义混合环境中的规划与决策能力,尤其适用于检验视觉问答系统对复杂情境中多层次信息的整合能力。
解决学术问题
UNREAL_0428数据集系统性地解决了现有基准在动态场景推理与多元问题求解上的不足。传统数据集多聚焦于静态图像或简单问答,而该数据集通过引入包含规则、计划及难度分级的结构化场景,推动学术研究从单纯视觉感知向深度认知推理迈进。它有效支持了对模型鲁棒性、多步推理及多模态对齐能力的量化评估,为人工智能在复杂不确定环境中的智能决策研究提供了关键测试平台,显著促进了合成场景理解与智能规划领域的理论发展。
实际应用
在实际应用层面,UNREAL_0428数据集的价值体现在对智能交互系统与自动化决策模型的赋能上。例如,在虚拟现实游戏、机器人导航及仿真训练等需要实时理解复杂规则并做出响应的场景中,该数据集可作为评价智能体行为合理性的核心指标。此外,其在教育领域的自适应学习系统开发中也具备应用潜力,通过解析视频内容与问题关联,助力构建能够因材施教的智能辅导工具,从而提升人机协作的效率与安全性。
数据集最近研究
最新研究方向
UNREAL_0428数据集聚焦于多模态场景理解与复杂推理能力的系统化评估,其设计深度融合了现实与虚构场景的判别、多层次规则解析及因果规划推理等前沿维度。在当前大语言模型与具身智能快速发展的背景下,该数据集通过结构化元数据与多类型问题的编排,为评估模型在动态环境中的逻辑一致性、多步计划能力及常识真实性判断提供了标准化基准。其引入的‘真实性’标注与场景难度分级,直击当前AI系统在幻觉抑制与鲁棒决策方面的核心挑战,对推动通用推理智能体的可信赖部署具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



