ActionAtlas v1.0

arXiv2024-10-08 更新2024-10-15 收录

下载链接：

http://arxiv.org/abs/2410.05774v1

下载链接

链接失效反馈

官方服务：

资源简介：

ActionAtlas v1.0是由华盛顿大学和艾伦人工智能研究所创建的一个多选视频问答基准，专注于体育领域的专业动作识别。该数据集包含934个视频，展示了56种体育中的580个独特动作，总共有1896个动作选项。数据集的视频平均时长为6.07秒，帧率为32.18帧每秒。创建过程中，研究团队利用GPT4的广泛领域知识编译动作列表，并通过YouTube爬取相关视频，结合自动过滤工具和多轮人工筛选确保数据质量。该数据集旨在测试多模态基础模型在识别复杂运动和细微差别方面的能力，适用于体育分析和动作识别等实际应用领域。

ActionAtlas v1.0 is a multiple-choice video question answering benchmark created by the University of Washington and the Allen Institute for Artificial Intelligence, focusing on professional action recognition in the sports domain. This dataset contains 934 videos that feature 580 distinct actions across 56 sports categories, with a total of 1,896 action options. The videos in the dataset have an average duration of 6.07 seconds and a frame rate of 32.18 frames per second. During the dataset creation process, the research team compiled the action list using the extensive domain knowledge of GPT-4, crawled relevant videos from YouTube, and combined automated filtering tools with multi-round manual screening to ensure data quality. This dataset is designed to evaluate the capability of multimodal foundation models in recognizing complex movements and subtle nuances, and is applicable to practical application fields such as sports analytics and action recognition.

提供机构：

华盛顿大学艾伦人工智能研究所

创建时间：

2024-10-08

搜集汇总

数据集介绍

构建方式

ActionAtlas v1.0的构建过程采用了创新性的管道方法。首先，通过GPT-4的广泛领域知识，编译了每个领域内的动作列表，并从YouTube上抓取相关视频。随后，利用多种自动过滤工具和技术，如精确和软词汇搜索以及CLIP过滤，进一步筛选搜索结果。此外，利用大型语言模型（LLMs）和语音转录技术，快速定位长视频中包含特定动作的片段。最后，通过众包工作者和作者的多轮手动过滤，确保数据集的高质量。

特点

ActionAtlas v1.0的主要特点在于其专注于复杂动作和细微运动的识别，这些动作在单帧中可能看起来相似，但在多帧中表现出显著差异。数据集涵盖了56种体育项目中的580个独特动作，总共有1896个动作选项。与大多数仅覆盖简单动作的视频问答基准不同，ActionAtlas强调了对模型在特定领域内识别细微差别的能力的严格测试。

使用方法

ActionAtlas v1.0的使用方法包括对视频进行均匀帧采样，并将这些帧与问题和选项一起输入模型。对于Gemini模型，尽管它们可以直接处理视频输入，但为了与其他模型保持一致，也采用了帧采样的方法。数据集的评估主要基于模型的输入帧数、视频压缩后的令牌数、平均推理浮点运算次数以及准确率等指标。通过这些方法，ActionAtlas能够全面评估模型在复杂动作识别任务中的表现。

背景与挑战

背景概述

ActionAtlas v1.0，由华盛顿大学RAIVN实验室与Allen Institute for AI联合开发，是一个专注于领域特定动作识别的多选视频问答基准。该数据集于2024年发布，旨在评估多模态基础模型在识别复杂动作中的有效性。ActionAtlas v1.0涵盖了56种体育项目中的580个独特动作，包含934个视频，总计1896个动作选项。其核心研究问题在于测试模型在特定领域内区分相似动作的能力，这对于视频理解领域具有重要意义，尤其是在需要高帧采样率以捕捉细微动作变化的场景中。

当前挑战

ActionAtlas v1.0面临的挑战主要集中在两个方面：一是解决领域特定动作识别中的细微差别问题，这要求模型具备高帧采样率和精确的动作跟踪能力；二是在数据集构建过程中，如何从海量视频数据中筛选出高质量的样本，这涉及复杂的自动过滤工具和多轮人工筛选。此外，当前最先进的模型如GPT-4o在ActionAtlas v1.0上的表现仍远未达到人类水平，表明在复杂动作识别方面仍存在显著的技术差距。

常用场景

经典使用场景

ActionAtlas v1.0 数据集的经典使用场景主要集中在多模态基础模型在特定领域动作识别中的评估。该数据集通过包含多种体育项目的短视频，配以多选题形式的问题，测试模型在特定时间上下文中识别细微动作的能力。这种设计使得模型不仅需要识别单帧中的动作，还需理解动作在多帧中的连续性和细微差异，从而评估其在复杂动作识别中的表现。

衍生相关工作

ActionAtlas v1.0 数据集的发布催生了一系列相关研究工作，特别是在视频理解和多模态模型领域。例如，有研究利用该数据集进行模型优化，提升其在复杂动作识别中的准确性。此外，还有研究探讨了如何通过增加帧采样率来改进模型的性能，以及如何利用语言模型生成更准确的描述来辅助动作识别。这些研究不仅扩展了数据集的应用范围，也推动了相关技术的发展。

数据集最近研究