THUMOS15

Name: THUMOS15
Creator: 帕依提提
License: 暂无描述

帕依提提2024-03-04 收录

下载链接：

https://www.payititi.com/opendatasets/show-196.html

下载链接

链接失效反馈

官方服务：

资源简介：

Automatically recognizing and localizing a large number of action categories from videos in the wild of significant importance for video understanding and multimedia event detection. THUMOS workshop and challenge aims at exploring new challenges and approaches for large-scale action recognition with large number of classes from open source videos in a realistic setting. Most of the existing action recognition datasets are composed of videos that have been manually trimmed to bound the action of interest. This has been identified to be a considerable limitation as it poorly matches how action recognition is applied in practical settings. Therefore, THUMOS 2015 will conduct the challenge on temporally untrimmed videos. The participants may train their methods using trimmed clips but will be required to test their systems on untrimmed data A new forward-looking dataset containing over 430 hours of video data and 45 million frames (70% larger than THUMOS'14) with the following components is made available under this challenge: All videos are collected from YouTube, and will evaluate the success of the proposed methods based on their performance on the new THUMOS 2015 Dataset in two tasks: Participants may either submit a notebook paper that briefly describes their system, or a research paper detailing their approach. All of the submission results will be summarized during the workshop and included in the workshopconference proceedings. Additionally, the top performers will be invited to give oral presentations, with remaining entries encouraged to present their work in the poster session. For more details, please see the Evaluation Setup document or the released resources.

自动从真实世界视频中识别并定位大量动作类别，对于视频理解与多媒体事件检测具有重要意义。THUMOS研讨会与挑战赛旨在探索面向真实场景、基于开源视频的大规模多类别动作识别的全新挑战与解决方案。现有多数动作识别数据集均由人工剪辑、仅保留目标动作片段的视频构成，这一设计与动作识别的实际应用场景严重脱节，因而存在显著局限。因此，THUMOS 2015挑战赛将采用未做时序剪辑的视频作为测试数据：参赛选手可使用剪辑后的片段训练模型，但必须在未剪辑的数据集上测试其系统性能。本次挑战赛将推出一款前瞻性新数据集，该数据集包含超过430小时的视频数据与4500万帧画面（规模较THUMOS'14扩大70%），所有视频均采集自YouTube。本次挑战赛将通过两项任务，基于参赛方法在THUMOS 2015新数据集上的表现评估其方案优劣。参赛选手可提交两类论文：一是简要阐述系统方案的短文，二是详细介绍研究方法的完整研究论文。所有提交的结果将在研讨会期间汇总，并收录至研讨会会议论文集。此外，表现优异的选手将受邀进行口头汇报，其余参赛作品可申请在海报环节展示其研究成果。如需了解更多细节，请参阅评估方案文档或已发布的相关资源。

提供机构：

帕依提提

搜集汇总

数据集介绍

构建方式

THUMOS15数据集的构建基于对视频内容的细致标注，涵盖了20个动作类别。该数据集从多个公开视频库中筛选出高质量的视频片段，并通过人工标注的方式，确保每个动作实例的精确边界和类别标签。此外，数据集还包含了背景帧的标注，以增强模型对动作与非动作的区分能力。

特点

THUMOS15数据集以其丰富的动作类别和高精度的标注著称，特别适用于动作识别和时序动作检测任务。其特点在于不仅提供了动作实例的开始和结束时间，还包含了详细的背景信息，使得模型能够更好地理解动作的上下文。此外，数据集的多样性和复杂性使其成为评估算法性能的理想选择。

使用方法

THUMOS15数据集主要用于训练和评估动作识别及时序动作检测算法。研究者可以通过加载数据集中的视频片段和相应的标注文件，进行模型的训练和验证。在实际应用中，该数据集可用于开发和测试视频分析系统，以实现对复杂动作的自动识别和定位。

背景与挑战

背景概述

THUMOS15数据集是视频分析领域的一个重要基准，由Jiang Wang等人于2015年提出。该数据集旨在解决视频中的动作识别和定位问题，特别是在未修剪的视频中识别和定位特定动作。THUMOS15包含了来自20个不同类别的动作，涵盖了广泛的日常活动，如体育、家庭活动等。其独特之处在于包含了大量未修剪的视频片段，这为研究者提供了一个更具挑战性的环境来测试和改进动作识别算法。该数据集的发布极大地推动了视频分析技术的发展，尤其是在动作识别和时间定位方面，为后续研究提供了丰富的资源和基准。

当前挑战

THUMOS15数据集在构建过程中面临了多个挑战。首先，未修剪视频中的背景噪声和复杂场景使得动作识别变得困难。其次，视频片段的长度和多样性增加了时间定位的复杂性，要求算法能够在长时间跨度内准确识别和定位动作。此外，数据集中动作类别的多样性和不平衡性也对模型的泛化能力提出了高要求。最后，视频质量的差异和部分动作的低可见性进一步增加了数据处理的难度。这些挑战不仅考验了算法的鲁棒性和精确性，也为视频分析领域的研究提供了丰富的探索空间。

发展历史

创建时间与更新

THUMOS15数据集创建于2015年，由THUMOS挑战赛组织发布，旨在推动视频动作识别领域的发展。该数据集在2015年首次公开，至今未有官方更新记录。

重要里程碑

THUMOS15数据集的发布标志着视频动作识别领域的一个重要里程碑。它包含了20个动作类别的视频片段，共计2000多个未修剪的视频，其中200个用于验证，213个用于测试。这一数据集的引入极大地推动了基于未修剪视频的动作识别研究，为算法开发和性能评估提供了标准化的基准。

当前发展情况

THUMOS15数据集自发布以来，已成为视频动作识别研究中的重要资源。它不仅促进了多种先进算法的开发，如基于深度学习的动作识别模型，还为学术界和工业界提供了一个统一的评估平台。尽管近年来有新的数据集不断涌现，THUMOS15仍然因其丰富的数据量和多样的动作类别而保持其重要地位，继续在推动视频分析技术的发展中发挥关键作用。

发展历程

THUMOS15数据集首次发布，旨在推动视频动作识别领域的发展，包含20类动作的200个未修剪视频和1010个修剪视频。
2015年
THUMOS15数据集在多个国际会议和期刊上被广泛引用，成为视频动作识别研究的标准基准之一。
2016年
基于THUMOS15数据集的研究成果显著增加，推动了视频动作识别技术的进步，特别是在时序动作定位方面。
2017年
THUMOS15数据集被用于验证多种新型深度学习模型的有效性，进一步巩固了其在该领域的核心地位。
2018年
THUMOS15数据集的扩展和改进版本开始出现，研究人员开始探索如何更好地利用其丰富的视频数据进行更复杂的动作识别任务。
2019年
THUMOS15数据集的影响力持续扩大，被广泛应用于视频分析、行为识别和智能监控等多个领域。
2020年

常用场景

经典使用场景

在视频分析领域，THUMOS15数据集以其丰富的标注信息和多样的视频内容，成为动作识别和视频分类研究中的经典基准。研究者们利用该数据集进行深度学习模型的训练和评估，特别是在卷积神经网络（CNN）和循环神经网络（RNN）的结合应用中，THUMOS15展示了其在捕捉视频序列中复杂动作模式方面的强大能力。

衍生相关工作

基于THUMOS15数据集，研究者们开发了多种先进的动作识别模型，如Two-Stream CNNs和3D CNNs，这些模型在多个国际竞赛中取得了优异成绩。此外，THUMOS15还激发了关于视频时序建模和多任务学习的研究，推动了视频分析技术的整体进步。相关工作还包括对数据集的扩展和改进，以适应不断变化的研究需求和技术发展。

数据集最近研究