BEAR (Behaviors for Environment and Actions Recognition dataset)

Name: BEAR (Behaviors for Environment and Actions Recognition dataset)
Creator: 上海交通大学
Published: 2025-03-26 12:06:20
License: 暂无描述

arXiv2025-03-26 更新2025-03-28 收录

下载链接：

https://hu-cheng-yang.github.io/projects/ICME25 BEAR/

下载链接

链接失效反馈

官方服务：

资源简介：

BEAR数据集是一个面向细粒度行为识别的新视频数据集，由上海交通大学创建。该数据集专注于两个主要因素定义的行为：环境和动作。它包括两个细粒度行为协议，以及多个子协议作为不同场景。该数据集旨在提供一个公平和全面的细粒度视频行为数据集，通过控制行为的环境和动作这两个决定性因素，为行为识别领域提供严格的基准和精心制作的注释。

The BEAR Dataset is a novel video dataset for fine-grained behavior recognition, created by Shanghai Jiao Tong University. This dataset focuses on behaviors defined by two main factors: environment and action. It includes two fine-grained behavior protocols, as well as multiple sub-protocols representing different scenarios. The dataset aims to provide a fair and comprehensive fine-grained video behavior dataset, and by controlling the two decisive factors of behavior—environment and action, it offers rigorous benchmarks and meticulously crafted annotations for the field of behavior recognition.

提供机构：

上海交通大学

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

BEAR数据集的构建基于行为识别领域的两个核心要素——环境与动作，通过精心设计的协议控制这两个变量来创建细粒度行为样本。研究团队采用ConceptNet语义关系定义相似动作对，并在8种不同环境场景中采集视频数据，确保样本在动作相似性（FG-BSA）或环境相似性（FG-BSE）维度上形成精确对比。数据采集过程注重现实多样性，涵盖不同拍摄质量、尺度及视角，训练集与测试集严格采用独立视频以避免ID泄漏，最终构建包含9类行为、4组动作对的标准化评估体系。

特点

该数据集的核心特征体现在三维度创新：其一，首创双协议评估框架，通过FG-BSE协议控制环境变量研究动作识别，FG-BSA协议控制动作变量研究环境感知，形成行为识别的解耦分析范式；其二，构建语义驱动的细粒度行为对，如'跑步/踢足球'等4组动作对，通过ConceptNet确保动作相似性的语言学基础；其三，引入多模态评估维度，支持RGB、光流、骨骼、文本四种模态输入，其特别设计的异常检测（AD）和环境感知（EAW）子协议可量化分析各模态对环境/动作信息的捕获能力。

使用方法

使用BEAR数据集需遵循其层级化评估框架：在FG-BSE协议下，研究者可选择AD子协议进行二分类异常检测，或通过EAG/EAW子协议实现多类环境泛化/感知任务；FG-BSA协议则专注于动作相似性下的二分类挑战。实验需严格区分70%-30%的训练测试划分，评估指标涵盖EER、AUC及Top-1准确率等。对于多模态研究，建议参照论文设计的对比实验方案，如TSN的双流融合或VideoCLIP的层级提示策略，特别注意光学流场对交互环境的隐含表征特性。

背景与挑战

背景概述

BEAR（Behaviors for Environment and Actions Recognition dataset）是由上海交通大学的Chengyang Hu、Yuduo Chen和Lizhuang Ma等研究人员于2025年提出的视频细粒度行为识别数据集。该数据集旨在通过控制行为的两大核心要素——环境（Environment）和动作（Action），构建一个公平且全面的评估基准，以推动视频表征学习领域的发展。BEAR的提出弥补了以往细粒度行为数据集的不足，如仅控制部分信息（如环境或动作）导致评估不够全面。该数据集包含两个主要协议：相似环境下的细粒度行为（FG-BSE）和相似动作下的细粒度行为（FG-BSA），并通过多组实验探索了不同模态输入（如RGB、光流、骨骼和文本）在行为识别中对环境和动作信息的学习效果。BEAR的发布为行为识别研究提供了新的视角和工具，尤其在多模态学习和细粒度分析方面具有重要影响力。

当前挑战

BEAR数据集面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，BEAR旨在解决细粒度行为识别中的环境与动作分离问题，即如何区分在相似环境下的不同动作或相似动作在不同环境下的行为。这一问题的复杂性在于，模型需要同时关注环境和动作的细微差异，而传统方法往往仅侧重于其中一方。在构建过程中，研究人员需严格控制环境和动作变量，确保数据集的平衡性和代表性，同时还需处理真实场景中视频数据的多样性（如拍摄视角、光照条件等）。此外，多模态数据的融合与标注（如光流、骨骼和文本）也增加了数据集的构建难度。这些挑战使得BEAR在推动行为识别技术进步的同时，也为后续研究提供了新的方向。

常用场景

经典使用场景

BEAR数据集在细粒度行为识别领域具有重要应用价值，特别是在环境与动作因素控制下的行为分析场景中表现突出。该数据集通过精心设计的协议，如相似环境下的细粒度行为（FG-BSE）和相似动作下的细粒度行为（FG-BSA），为研究者提供了评估模型在复杂场景中区分细微行为差异的能力。其多模态输入设计（如RGB、光流场、人体骨骼）进一步拓展了行为特征学习的深度与广度，成为视频理解领域的重要基准。

解决学术问题

BEAR数据集有效解决了传统行为识别中因环境或动作单一相似性导致的评估偏差问题。通过同时控制环境和动作两个核心因素，该数据集为探索不同模态（如RGB、光流、文本）在行为识别中的信息贡献提供了标准化平台。其实验结果表明，光流场能同时捕捉动作和交互环境信息，而RGB模态更擅长环境特征提取，这些发现为多模态融合与特征解耦研究提供了理论依据，推动了细粒度行为识别领域的范式革新。

衍生相关工作

围绕BEAR数据集衍生的研究主要集中在多模态行为理解方向。基于其环境-动作解耦框架，后续工作开发了层级化提示学习（leveled prompts）等文本-视频对齐方法。数据集提出的评估协议启发了FineAction、EnvAction等新基准的构建，而其实验结论直接支撑了《Modality Matters》等理论分析论文。在技术层面，STGCN、PoseC3D等骨骼模型与VideoMAE的对比研究也因该数据集获得新的性能洞察。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集