Human Actions

Name: Human Actions
Creator: Ochanomizu University, Tokyo, Japan
Published: 2021-06-27 11:57:36
License: 暂无描述

arXiv2021-06-27 更新2024-06-21 收录

下载链接：

https://github.com/rikos3/HumanActions

下载链接

链接失效反馈

官方服务：

资源简介：

Human Actions数据集是由日本的Ochanomizu大学创建，专注于捕捉人类动作的动态表达，用于多模态逻辑推理。该数据集包含200个视频，总计1,942个动作标签，每个标签以⟨subject, predicate, object⟩的形式呈现，便于转化为逻辑语义表达。数据集的创建过程涉及视频选择和详细标注，旨在通过复杂的动作描述支持视频与文本间的复杂推理。该数据集的应用领域包括评估视频与复杂语义句子的多模态推理系统，特别是涉及否定和量化表达的情境。

The Human Actions Dataset was developed by Ochanomizu University in Japan, focusing on capturing dynamic expressions of human actions for multimodal logical reasoning. This dataset consists of 200 videos and a total of 1,942 action labels, each presented in the form of ⟨subject, predicate, object⟩ to facilitate conversion into logical semantic expressions. The dataset creation process involves video selection and detailed annotation, aiming to support complex cross-modal reasoning between videos and text through intricate action descriptions. Application scenarios of this dataset include evaluating multimodal reasoning systems for videos and complex semantic sentences, particularly in contexts involving negation and quantificational expressions.

提供机构：

Ochanomizu University, Tokyo, Japan

创建时间：

2021-06-27

搜集汇总

数据集介绍

构建方式

在视频与语言多模态推理研究领域，构建高质量数据集是推动复杂语义理解的关键。本数据集基于Charades测试集，精心筛选出200段包含多人互动的日常活动视频，以捕捉丰富的人际交互动态。通过聘请日语母语标注员，采用自由标注策略，对视频中的人类行为进行结构化描述，形成〈主体，谓词，客体〉三元组格式的动作标签，并精确记录起止时间。标注过程经过多轮合并与验证，由三名工作者共同审定，确保动作标签的准确性与一致性，最终构建出包含5,554个动作标签与1,942个独特动作类别的语料库。

特点

该数据集的核心特征在于其动作标签的语义深度与结构化表征。不同于传统视频数据集仅提供简单动词类别，本数据集收录了大量体现动态语义的谓词表达，如意图性短语“尝试进食”与体貌性短语“持续交谈”，这些表达能够精准刻画人类行为的意图与持续状态。三元组格式不仅直观描述视频内容，更能直接映射为一阶逻辑公式，为多模态逻辑推理系统提供可计算的语义基础。数据集中约65%的动作标签仅出现一次，展现了极高的表达多样性，尤其强化了视频特有的言语交流、意图态度及体貌变化等语义维度。

使用方法

该数据集主要服务于视频与文本间的复杂逻辑推理任务，特别是视觉-文本蕴含任务。研究者可利用三元组标签及其对应的一阶逻辑表示，构建或评估多模态推理模型。具体而言，可将视频场景转化为带有时序关系的逻辑结构，通过模型检查或定理证明方法，判断自然语言语句在视频语境下的真值。数据集的结构化标注支持对否定、量化及动态语义的精细推理，适用于测试系统对意图性、体貌性等高级语言现象的理解能力。此外，其丰富的动作类别也为视频内容分析、动作识别等计算机视觉任务提供了细粒度标注资源。

背景与挑战

背景概述

随着多模态理解任务在计算机视觉与自然语言处理领域的兴起，视频与文本的复杂推理成为研究热点。2021年，日本Ochanomizu大学、东京大学及庆应义塾大学的研究团队联合构建了Human Actions数据集，旨在支持涉及人类动态行为的视频-语言逻辑推理。该数据集包含200个视频、5,554个动作标签及1,942个以〈主体，谓词，客体〉形式标注的动作三元组，这些结构化表示可转化为一阶逻辑公式，用以处理包含否定与量化的复杂语义推理。该数据集专注于捕捉意图性与体态性表达，为评估视频与语义复杂句子之间的多模态推理系统提供了重要资源。

当前挑战

在视频-语言多模态推理领域，核心挑战在于如何准确建模动态人类行为中的意图与体态变化，例如区分“尝试穿上外套”与“穿上外套”等细微语义差异。现有数据集多关注静态图像或简单动作分类，难以支撑此类复杂逻辑推断。构建过程中，团队面临标注一致性难题，需将自由文本动作描述转化为结构化三元组，并确保跨场景的时间顺序与实体指代一致性。此外，视频中多人物交互与短时长限制增加了捕捉连续性体态表达的难度，导致数据集中体态性谓词比例较低。

常用场景

经典使用场景

在视频与语言多模态推理领域，Human Actions数据集为评估复杂逻辑推理系统提供了关键资源。该数据集通过结构化标注形式〈主体，谓词，客体〉，将人类动态行为转化为可计算的语义表示，特别适用于处理包含否定、量化及意图性表达的文本与视频间推理任务。其经典应用场景在于推动视觉-文本蕴含任务的研究，使模型能够判断在给定视频情境下自然语言陈述的真伪，从而深化对动态视觉内容与复杂语言表达之间关联的理解。

衍生相关工作

该数据集的推出催生了多模态逻辑推理领域的系列经典研究。以Suzuki等人提出的基于一阶逻辑的视觉-文本蕴含系统为基础，后续工作扩展了视频场景的时序逻辑表示方法，并与Action Genome等时空场景图数据集形成互补。相关研究进一步探索了意图性谓词在视频描述生成中的应用，以及跨语言场景下日语与英语多模态推理的迁移学习，为构建更鲁棒的视频-语言联合理解模型开辟了新的技术路径。

数据集最近研究