test_0116_1

Hugging Face2026-01-17 更新2026-01-18 收录

下载链接：

https://huggingface.co/datasets/UnrealMLLM/test_0116_1

下载链接

链接失效反馈

官方服务：

资源简介：

UnrealMLLM测试数据集是一个包含物理模拟视频和问答对的数据集，用于评估多模态语言模型。数据集包括主模拟视频（output.mp4）和预测视频（output_prediction.mp4），每个视频对应一个物理场景名称、难度级别（简单、中等或困难）、应用的物理规则以及两个问题-答案对。

创建时间：

2026-01-17

原始信息汇总

数据集概述

基本信息

数据集名称: UnrealMLLM Test Dataset
托管地址: https://huggingface.co/datasets/UnrealMLLM/test_0116_1
许可证: apache-2.0
任务类别: video-text-to-text
主要语言: en (英语)

数据内容与结构

数据描述: 包含用于评估多模态语言模型的物理仿真视频及问答对。
数据配置: 默认配置 (config_name: default)。
数据文件:
- 分割: test
- 路径模式: test/*/metadata.jsonl

特征（Features）说明

数据集包含以下字段：

file_name: 主仿真视频 (output.mp4)，数据类型为视频。
prediction_file_name: 预测视频 (output_prediction.mp4)，数据类型为视频。
id: 字符串类型标识。
uuid: 字符串类型通用唯一标识符。
scenario_name: 物理场景的名称，字符串类型。
difficulty: 难度等级（easy, medium, or hard），字符串类型。
rules: 应用的物理规则，字符串类型。
plan: 字符串类型。
metadata: 字符串类型。
q1_type: 问题1的类型，字符串类型。
q1_question: 问题1的题干，字符串类型。
q1_options: 问题1的选项，字符串类型。
q1_correct_answers: 问题1的正确答案，字符串类型。
q2_type: 问题2的类型，字符串类型。
q2_question: 问题2的题干，字符串类型。
q2_options: 问题2的选项，字符串类型。
q2_correct_answers: 问题2的正确答案，字符串类型。

搜集汇总

数据集介绍

构建方式

在物理仿真与多模态语言模型评估领域，test_0116_1数据集通过精心设计的仿真场景构建而成。其核心基于Unreal引擎生成的高保真物理模拟视频，每个场景均伴随严谨定义的物理规则与难度分级。数据采集过程系统化地录制了主仿真视频与预测对比视频，并针对每个场景人工标注了两组结构化的问答对，涵盖了问题类型、题干、选项及正确答案，确保了数据在逻辑与内容上的一致性。

使用方法

使用该数据集时，研究者可将其应用于多模态语言模型的性能评测，特别是在视频文本到文本的任务范式中。典型流程包括加载视频与对应的元数据文件，提取视频特征并与文本问题结合，驱动模型生成预测答案。通过对比模型输出与标注的正确答案，能够量化模型在物理推理、场景理解及多模态对齐方面的能力。数据集支持标准化评估协议，便于在不同难度级别和物理规则下进行分层分析，推动模型在复杂物理场景中的进步。

背景与挑战

背景概述

在人工智能与计算物理交叉领域，多模态语言模型的评估需求日益凸显，test_0116_1数据集应运而生。该数据集由研究团队于近期构建，专注于通过物理仿真视频与问答对来系统评估模型在复杂动态场景中的理解与推理能力。其核心研究问题在于探索模型如何整合视觉序列与文本信息，以解决物理规律推断、事件预测等任务，对推动具身智能及仿真环境下的认知计算具有重要影响力。

当前挑战

该数据集旨在应对视频文本到文本转换领域的核心挑战，即模型需从动态视觉输入中提取时空特征，并关联自然语言问题进行精准推理。构建过程中，挑战主要体现在物理场景的多样化设计、仿真视频的真实性保障，以及问答对与视频内容的高质量对齐，这些因素共同增加了数据标注与一致性维护的复杂度。

常用场景

经典使用场景

在视频与文本多模态学习领域，test_0116_1数据集以其物理仿真视频与问答对的结构，为评估多模态语言模型提供了经典场景。该数据集通过模拟真实物理规则下的动态场景，要求模型结合视频内容与文本问题，进行推理与答案生成，常用于基准测试模型在复杂视觉语言理解任务中的性能。

解决学术问题

该数据集有效解决了多模态人工智能研究中，模型对物理世界动态过程理解不足的学术难题。通过提供结构化的问题与答案，它促进了模型在因果推理、事件预测及跨模态对齐方面的能力评估，为提升模型在真实场景中的逻辑性与准确性奠定了数据基础，推动了视觉语言交互研究向更深层次发展。

实际应用

在实际应用中，test_0116_1数据集可服务于智能教育系统，通过物理仿真视频辅助学生理解复杂概念；在机器人技术中，它帮助训练系统预测物体运动轨迹；同时，该数据集也为自动驾驶领域的场景理解与决策模拟提供了宝贵的测试资源，增强了AI系统在动态环境中的适应能力。

数据集最近研究