KTH_human_direction

Hugging Face2025-11-25 更新2025-11-26 收录

下载链接：

https://huggingface.co/datasets/KHUjongseo/KTH_human_direction

下载链接

链接失效反馈

官方服务：

资源简介：

MVBench是一个新颖的数据集，它通过将静态任务转换为动态任务，系统地生成需要各种时间能力的视频任务，从感知到认知。在任务定义的指导下，该数据集自动将公共视频注释转换为多项选择题形式，用于任务评估。这种独特的范式使得可以高效地创建MVBench，同时通过确保使用真实视频注释进行评估，避免了LLM评分的偏见，保证了评估的公平性。

创建时间：

2025-11-22

原始信息汇总

KTH Human Direction 数据集概述

基本信息

许可证: MIT
任务类别: 视觉问答、视频分类
模态: 视频、文本
语言: 英语
数据规模: 1K<n<10K

数据集配置

kthmcq: 数据文件位于 json/kthmcq.json
kthmcq_stationary: 数据文件位于 json/kthmcq_stationary.json

使用条款

禁止使用该数据集进行对人类受试者造成伤害的实验
视频版权归原始视频创作者或平台所有，仅限学术研究使用
使用前需仔细阅读相关协议以确保合规使用

技术特点

采用静态到动态的方法定义时间相关任务
自动将公共视频标注转换为多项选择问答进行任务评估
包含20个时间任务示例
保留原始视频（高分辨率、长时长等）及对应标注

评估方法

提供评估示例代码
探索有效的系统提示以改善时间推理能力
开发高效的答案提示用于选项提取

搜集汇总

数据集介绍

构建方式

在视频理解领域，KTH_human_direction数据集通过创新的静态到动态转换方法构建而成，该方法将静态任务重新定义为动态任务，从而系统性地生成涵盖从感知到认知的多种时间能力需求的视频任务。基于任务定义，研究团队自动将公开视频注释转化为多项选择题问答形式，用于任务评估，这一独特范式确保了数据集构建的高效性，同时通过真实视频注释避免了大型语言模型评分可能带来的偏差。

特点

该数据集包含20个精心设计的时间相关任务示例，覆盖了广泛的视频理解能力维度。其核心特点在于保留了原始视频的高分辨率、长时长等属性，并附带详细的注释信息如起始时间、结束时间及字幕等，为未来深入研究提供了丰富素材。数据集采用严格的访问控制机制，要求使用者承诺不进行危害人类受试者的实验，并明确视频版权归属于原始创作者或平台，仅限学术研究使用。

使用方法

使用者需遵循特定的评估流程，首先通过官方提供的代码库准备多模态大模型的评估环境。在预处理阶段，需注意部分原始视频解码可能较慢，但完整保留了视频的原始特性以支持深度分析。研究过程中可探索有效的系统提示策略以增强模型的时间推理能力，同时设计高效的答案提示机制用于选项提取。数据集提供两个配置版本，分别对应不同的数据文件，用户可根据具体研究需求选择适用配置。

背景与挑战

背景概述

视频理解作为多模态人工智能的核心领域，其发展长期受限于动态时序建模的复杂性。MVBench数据集由KTH团队于2023年创建，通过创新性地提出静态任务动态化方法，将20类传统视觉任务转化为时序推理任务。该数据集基于真实视频标注自动生成多选问答对，在保留原始视频高分辨率与完整时序信息的同时，构建起从感知到认知的完整能力评估体系，为视频大语言模型的时序推理能力提供了标准化评测基准。

当前挑战

在视频时序理解领域，模型需克服动态场景中时空特征提取的固有难题，包括长视频序列的语义连贯性保持、多模态信息对齐等核心问题。数据集构建过程中面临原始视频解码效率瓶颈，高分辨率长视频的处理对计算资源提出严峻挑战；同时需设计无偏见的提示工程策略，既要激发模型时序推理潜力，又要确保选项提取的公平性，避免引入大型语言模型的评分偏差。

常用场景

经典使用场景

在视频理解研究领域，KTH_human_direction数据集通过其精心设计的动态任务范式，为多模态大语言模型提供了关键评估基准。该数据集将静态视觉任务转化为动态视频问答，系统性地构建了涵盖感知到认知层面的时序推理任务。研究者可借助其自动生成的多选题机制，精准评估模型在人体运动方向识别、时空关系理解等核心能力上的表现，为视频智能分析奠定了标准化测试基础。

衍生相关工作

该数据集催生了系列视频理解领域的创新研究，其提出的多维度时序评估框架被MVBench等基准体系广泛采纳。基于该数据构建的评估方法启发了时序感知的提示工程研究，推动了如视频语言预训练、时序 grounding 等方向的发展。相关衍生工作进一步拓展了视频描述生成、跨模态检索等任务的边界，为构建具身智能系统中的场景理解模块提供了重要技术支撑。

数据集最近研究