BEAR
收藏arXiv2023-08-19 更新2024-07-30 收录
下载链接:
https://github.com/AndongDeng/BEAR
下载链接
链接失效反馈官方服务:
资源简介:
BEAR是一个包含18个视频数据集的集合,分为异常、手势、日常、体育和教学5个类别,覆盖了多样化的现实世界应用场景。
BEAR is a collection of 18 video datasets, divided into five categories: anomaly, gesture, daily, sports, and instructional, covering diverse real-world application scenarios.
创建时间:
2023-03-24
原始信息汇总
BEAR数据集概述
数据集介绍
BEAR是一个新的视频动作识别基准,包含18个视频数据集,分为5个类别(异常、手势、日常、体育和教学),涵盖多种现实应用场景。通过BEAR,研究人员可以全面评估6种常见的时空模型,这些模型通过监督和自监督学习预训练。BEAR旨在提供一个公平且具有挑战性的评估基准,以推动下一代时空学习模型的研究。
数据集统计
以下是BEAR中18个数据集的统计信息:
| 数据集 | 领域 | 类别数 | 片段数 | 平均长度(秒) | 每类训练数据(最小,最大) | 分割比例 | 视频来源 | 视频视角 |
|---|---|---|---|---|---|---|---|---|
| XD-Violence | 异常 | 5 | 4135 | 14.94 | (36, 2046) | 3.64:1 | 电影、体育、CCTV等 | 3rd, sur. |
| UCF Crime | 异常 | 12 | 600 | 132.51 | 38 | 3.17:1 | CCTV摄像头 | 3rd, sur. |
| MUVIM | 异常 | 2 | 1127 | 68.1 | (296, 604) | 3.96:1 | 自收集 | 3rd, sur. |
| WLASL100 | 手势 | 100 | 1375 | 1.23 | (7, 20) | 5.37:1 | 手语网站 | 3rd |
| Jester | 手势 | 27 | 133349 | 3 | (3216, 9592) | 8.02:1 | 自收集 | 3rd |
| UAV Human | 手势 | 155 | 22476 | 5 | (20, 114) | 2:1 | 自收集 | 3rd, dro. |
| CharadesEgo | 日常 | 157 | 42107 | 10.93 | (26, 1120) | 3.61:1 | YouTube | 1st |
| Toyota Smarthome | 日常 | 31 | 14262 | 1.78 | (23, 2312) | 1.63:1 | 自收集 | 3rd, sur. |
| Mini-HACS | 日常 | 200 | 10000 | 2 | 50 | 4:1 | YouTube | 1st, 3rd |
| MPII Cooking | 日常 | 67 | 3748 | 153.04 | (5, 217) | 4.69:1 | 自收集 | 3rd |
| Mini-Sports1M | 体育 | 487 | 24350 | 10 | 50 | 4:1 | YouTube | 3rd |
| FineGym99 | 体育 | 99 | 20389 | 1.65 | (33, 951) | 2.24:1 | 比赛视频 | 3rd |
| MOD20 | 体育 | 20 | 2324 | 7.4 | (73, 107) | 2.29:1 | YouTube和自收集 | 3rd, dro. |
| COIN | 教学 | 180 | 10426 | 37.01 | (10, 63) | 3.22:1 | YouTube | 1st, 3rd |
| MECCANO | 教学 | 61 | 7880 | 2.82 | (2, 1157) | 1.79:1 | 自收集 | 1st |
| INHARD | 教学 | 14 | 5303 | 1.36 | (27, 955) | 2.16:1 | 自收集 | 3rd |
| PETRAW | 教学 | 7 | 9727 | 2.16 | (122, 1262) | 1.5:1 | 自收集 | 1st |
| MISAW | 教学 | 20 | 1551 | 3.8 | (1, 316) | 2.38:1 | 自收集 | 1st |
数据集下载和预处理
数据集的下载和预处理流程在这里提供。部分BEAR数据集的HuggingFace链接如下:
预训练模型
提供了Kinetics-400预训练模型,包括监督和自监督预训练:
预训练模型可以从以下链接下载:
| 模型 | 监督(Top-1准确率) | 自监督(KNN评估) |
|---|---|---|
| TSN | 77.6 Dropbox | 43.1 Dropbox |
| TSM | 76.4 Dropbox | 43.2 Dropbox |
| I3D | 74.2 Dropbox | 51.3 Dropbox |
| NL | 73.9 Dropbox | 50.7 Dropbox |
| TimeSformer | 75.8 Dropbox | 50.3 Dropbox |
| VideoSwin | 77.6 Dropbox | 51.1 Dropbox |
基准测试
基于Kinetics400上的预训练模型,BEAR提供了四种评估范式:
标准微调
标准微调基于流行的视频理解工具箱MMAction2。具体训练步骤在这里提供。
监督预训练的微调结果如下:
| 数据集 | TSN | TSM | I3D | NL | TimeSformer | VideoSwin |
|---|---|---|---|---|---|---|
| XD-Violence | 85.54 | 82.96 | 79.93 | 79.91 | 82.51 | 82.40 |
| UCF-Crime | 35.42 | 42.36 | 31.94 | 34.03 | 36.11 | 34.72 |
| MUVIM | 79.30 | 100 | 97.80 | 98.68 | 94.71 | 100 |
| WLASL | 29.63 | 43.98 | 49.07 | 52.31 | 37.96 | 45.37 |
| Jester | 86.31 | 95.21 | 92.99 | 93.49 | 93.42 | 94.27 |
| UAV-Human | 27.89 | 38.84 | 33.49 | 33.03 | 28.93 | 38.66 |
| CharadesEGO | 8.26 | 8.11 | 6.13 | 6.42 | 8.58 | 8.55 |
| Toyota Smarthome | 74.73 | 82.22 | 79.51 | 76.86 | 69.21 | 79.88 |
| Mini-HACS | 84.69 | 80.87 | 77.74 | 79.51 | 79.81 | 84.94 |
搜集汇总
数据集介绍

构建方式
在视频动作识别领域,现有评估协议常因数据集同质化而难以全面衡量时空表征学习的泛化能力。为此,BEAR 基准通过系统整合 18 个视频数据集构建而成,涵盖异常、手势、日常、体育和教学五大类别。构建过程中,研究团队严格遵循数据多样性原则,从 YouTube、监控摄像头、无人机及自采视频等多源渠道收集样本,确保视角覆盖第一人称、第三人称、监控及无人机视角。每个数据集均被划分为训练集与测试集,并始终保持测试集在训练过程中不可见,以促进公平比较。此外,BEAR 还提供了自动化数据下载与格式化脚本,并依托 MMAction2 框架实现模型快速集成,显著降低了评估门槛。
特点
BEAR 基准的突出特点在于其广泛的数据多样性与贴近实际的应用导向。该基准不仅覆盖了五大动作类别,更在视频来源、拍摄视角和时长分布上呈现出显著异质性,例如平均剪辑时长从 1.23 秒到 153.04 秒不等,每类训练样本量亦存在巨大差异。这种多样性使 BEAR 能够全面检验模型在真实场景下的鲁棒性,尤其关注视角变化对性能的影响。此外,基准支持全样本微调、少样本微调、无监督域适应及零样本学习等多种评估设置,并提供了严格的测试集隔离机制与在线评估服务器,有力保障了评估过程的公正性与可复现性。
使用方法
BEAR 基准为时空表征学习提供了多维度的评估框架。研究者可基于预训练模型在 18 个数据集上进行标准微调,以探究模型在不同领域的泛化性能;通过少样本微调设置,能够评估模型在标注数据稀缺场景下的适应能力;无监督域适应任务则可用于检验模型在跨数据集或跨视角迁移中的有效性。此外,基准支持基于 CLIP 等视觉语言模型的零样本评估,为探索语言监督在动作识别中的潜力提供了平台。使用过程中,用户可通过官方代码库自动下载数据,并利用内置脚本便捷地进行模型训练与测试,所有评估均基于末次检查点以避免测试集过拟合。
背景与挑战
背景概述
BEAR(BEnchmark on video Action Recognition)是由中佛罗里达大学计算机视觉研究中心于2023年提出的视频动作识别基准数据集,旨在解决现有评估协议在时空表征学习中的局限性。该数据集汇集了18个视频数据集,涵盖异常、手势、日常、运动和教学五大类别,覆盖了从监控摄像头、无人机到自拍视角的多样化视频来源与视角。BEAR的核心研究问题在于提供一个统一且全面的评估框架,以深入探究时空表征模型在真实应用场景中的泛化能力,推动下一代视频理解模型的发展。
当前挑战
BEAR所解决的核心领域问题是视频动作识别中模型泛化能力的全面评估,其挑战在于现有基准往往局限于日常和运动类视频,导致模型在异常检测、手势识别等真实场景中表现不佳。构建过程中的挑战主要包括:1)数据多样性的整合,需协调来自YouTube、监控摄像头、自采集等不同来源的视频,并统一其标注格式与分割协议;2)评估设置的复杂性,需设计涵盖全样本微调、少样本学习、无监督域适应和零样本学习的多层次评估框架,以全面衡量模型在不同数据稀缺性和领域差异下的鲁棒性。
常用场景
经典使用场景
在视频动作识别领域,BEAR数据集作为综合性评估基准,其经典使用场景在于系统性地测评时空表征学习模型的泛化能力。该数据集汇聚了18个涵盖异常、手势、日常、体育和教学五大类别的视频数据集,通过标准微调、少样本微调、无监督域适应及零样本学习等多种评估设置,为研究者提供了一个统一且全面的测试平台。这种多维度评估机制使得BEAR能够深入揭示模型在不同数据分布、视角变化和数据稀缺情况下的表现,从而成为推动时空表征学习技术发展的核心工具。
解决学术问题
BEAR数据集有效解决了动作识别研究中长期存在的评估偏差问题。传统评估多局限于日常和体育类数据集,导致模型在真实场景如异常检测、工业巡检等领域的泛化能力未被充分检验。BEAR通过引入多样化的应用领域和显著的视角差异,系统性地探究了模型对域偏移的敏感性,特别是视角变化对迁移性能的严重影响。该数据集进一步澄清了二维CNN与Transformer架构在公平骨干网络下的性能对比,并揭示了自监督预训练在多样下游任务中仍显著落后于监督学习的现状,为构建更鲁棒的时空表征提供了关键见解。
衍生相关工作
BEAR数据集的建立催生了一系列围绕时空表征学习公平评估与模型鲁棒性提升的研究工作。其设计理念启发了对预训练数据多样性的深入探讨,例如结合Ego4D等第一视角数据集以缓解视角偏移问题。基于BEAR的评估发现,如二维CNN在强骨干网络下的竞争力、视角变化的关键影响等结论,直接推动了模型架构比较的公平性准则重建。同时,该数据集为少样本学习、无监督域适应及视觉-语言模型零样本评估等前沿方向提供了标准化的测试环境,促进了视频理解技术向更通用、更稳健的方向演进。
以上内容由遇见数据集搜集并总结生成



