FineAction

arXiv2025-09-30 收录

下载链接：

https://deeperaction.github.io/datasets/fineaction.html

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为FineAction，它融合了三个现有数据集（YouTube8M、Kinetics400和FCVID）的内容，并从互联网上搜集了更多视频，涵盖了广泛的内容类型。该数据集采用了三级从粗到细的标签层次结构，分别包含4、14和106个类别。在规模上，训练集包含8,440个视频和57,752个动作片段，验证集包含4,174个视频和24,236个动作片段。该数据集的任务是进行细粒度时间动作检测。

This dataset, named FineAction, integrates content from three existing datasets (YouTube8M, Kinetics400, and FCVID), and collects additional videos from the Internet, covering a wide range of content types. It adopts a three-level coarse-to-fine label hierarchy, which contains 4, 14, and 106 categories respectively. In terms of scale, the training set consists of 8,440 videos and 57,752 action clips, while the validation set contains 4,174 videos and 24,236 action clips. The task of this dataset is fine-grained temporal action detection.

搜集汇总

数据集介绍

构建方式

FineAction数据集的构建遵循了一套严谨的三阶段流程。首先，研究团队基于ActivityNet和Kinetics等现有基准的动作类别池，通过细致的筛选规则定义了全新的三级粒度分类体系，将106个细粒度动作类别归入4个顶级类别和14个中级类别，排除了粗粒度动作定义。其次，视频收集采用渐进式策略，先从YouTube8M、Kinetics400和FCVID等现有数据集中手动选取相关视频，对于实例数量不足200的类别，则通过关键词从YouTube爬取补充，并利用深度特征计算视频相似度以剔除重复。最后，开发了定制化的标注工具，配合详细的图像-文本标注指南，由专业标注员为每个视频中的动作实例标注起止时间与类别标签，并经过多轮专业检查确保标注质量。

特点

FineAction数据集在时序动作定位领域展现出独特的挑战与价值。其核心特点在于细粒度的动作类别定义，106个动作类别均具有清晰的时序边界，避免了粗粒度动作带来的边界模糊问题。数据集包含103K个时序实例，平均持续仅7.1秒，远短于ActivityNet的49.2秒和HACS Segment的33.2秒，其中0-2秒的短时实例多达66,890个。此外，每段视频平均包含6.17个动作实例，11.5%的时序片段具有多标签重叠标注，呈现出密集标注与共现动作的特性。这种长尾分布、短时密集、多标签重叠的特点，使得现有主流定位方法在该数据集上的性能显著低于其他基准，揭示了细粒度动作定位的核心挑战。

使用方法

FineAction数据集可用于时序动作定位与未修剪视频分类两项核心任务。研究者可将视频按官方划分为训练集（8,440个视频）、验证集（4,174个视频）和测试集（4,118个视频），利用提供的视频特征或原始视频进行模型训练与评估。对于时序动作定位任务，可采用BMN、DBG、G-TAD等主流方法，通过提取双流I3D特征并统一缩放至固定长度，在tIoU阈值[0.50:0.05:0.95]下计算mAP作为评估指标。研究团队还提出了一个基于多尺度Transformer颈部网络的基线方法，在FineAction上取得了13.17%的平均mAP。数据集通过请求方式发布，研究者需提交许可协议并承诺仅用于学术目的，可从指定网站获取原始视频、URL、标注文件和提取的特征。

背景与挑战

背景概述

时序动作定位（Temporal Action Localization, TAL）是视频理解领域一项基础且富有挑战性的任务，旨在从未经裁剪的视频中精准定位每个动作实例的起止时间。然而，现有主流基准数据集如ActivityNet和HACS Segment多采用粗粒度的动作类别定义，导致两个关键局限：一方面，粗粒度动作使模型过度依赖高层上下文信息而忽略原子动作细节；另一方面，模糊的时序边界标注不适用于精确的定位任务。为突破这一瓶颈，中国科学院深圳先进技术研究院、南京大学与上海人工智能实验室的研究团队于2021年共同构建了FineAction数据集。该数据集包含106个细粒度动作类别、17K段未裁剪视频及103K个时序实例，以密集标注、多标签重叠和丰富语义多样性为显著特征，为TAL研究开辟了全新方向。

当前挑战

FineAction数据集带来的核心挑战主要体现在三个方面。首先，细粒度动作类别呈长尾分布，模型需在区分背景与动作的基础上，进一步捕捉细微的运动模式差异，这对识别能力提出了极高要求。其次，密集标注的短时序实例（0-2秒占比超64%）与平均每段视频6.17个实例的高密度特性，使得精确界定时序边界变得异常困难，现有方法在短实例上的定位性能显著下降。最后，11.5%的时序片段存在多标签重叠（如守门与射门同时发生），要求模型具备并发动作分析与关系学习能力，而传统单标签设计方法难以应对此类复杂场景。

常用场景

经典使用场景

在视频理解领域，时序动作定位（Temporal Action Localization）是一项核心且富有挑战性的任务。然而，现有基准数据集如ActivityNet和HACS Segment多基于粗粒度动作类别构建，导致模型容易过度依赖高层上下文信息而忽略细粒度的原子动作细节。FineAction数据集应运而生，其专注于细粒度动作类别的精确定位，包含106个动作类别、超过10万个时序实例，平均实例时长仅7.1秒，且具有多标签、密集标注和动作共现等独特属性。该数据集最经典的使用场景是作为细粒度时序动作定位的标准化评测平台，研究者可在此基准上训练和评估模型对短时长、高密度、多标签动作实例的定位能力，尤其适用于需要精确捕捉动作起止边界的场景。

解决学术问题

FineAction数据集系统性地解决了现有基准在细粒度动作定位中的三大学术困境：其一，粗粒度动作类导致模型忽略原子动作细节，而FineAction通过定义三级层次化动作分类体系（4个顶级、14个中级、106个底层类别），迫使模型学习细微的运动模式而非背景上下文；其二，现有数据集缺乏对短时长实例的密集标注，FineAction中0-2秒的实例高达66,890个，远超ActivityNet的900个，从而挑战模型在极短时间窗口内的边界定位精度；其三，11.5%的时序片段存在多标签重叠，突破了传统单标签假设，推动模型发展并发动作分析与关系学习能力。该数据集的意义在于，它揭示了现有方法在细粒度场景下的性能瓶颈（如BMN在FineAction上的AUC仅19.19%，远低于ActivityNet的67.29%），为时序动作定位研究设立了更具挑战性的新标杆。

衍生相关工作

FineAction数据集的发布催生了一系列具有影响力的衍生工作。在方法层面，研究者提出了多尺度Transformer颈部网络（Multi-scale Transformer Neck）作为基线方案，通过下采样捕捉不同时间尺度的特征，在FineAction上实现了13.17%的mAP，相较于BMN的9.25%有显著提升。在理论分析层面，跨数据集迁移学习研究揭示了细粒度与粗粒度动作域之间的分布差异，使用ActivityNet预训练后在FineAction上微调导致AUC下降4.12个百分点，反之亦然。此外，针对短实例评估指标的不完善性，研究者提出了改进的IoUnew度量，通过惩罚边界偏移来更公平地评价细粒度定位性能。这些工作共同推动了时序动作定位领域从粗粒度向细粒度的范式转变，为视频理解研究开辟了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集