five

ActionAtlas v1.0|体育分析数据集|动作识别数据集

收藏
arXiv2024-10-08 更新2024-10-15 收录
体育分析
动作识别
下载链接:
http://arxiv.org/abs/2410.05774v1
下载链接
链接失效反馈
资源简介:
ActionAtlas v1.0是由华盛顿大学和艾伦人工智能研究所创建的一个多选视频问答基准,专注于体育领域的专业动作识别。该数据集包含934个视频,展示了56种体育中的580个独特动作,总共有1896个动作选项。数据集的视频平均时长为6.07秒,帧率为32.18帧每秒。创建过程中,研究团队利用GPT4的广泛领域知识编译动作列表,并通过YouTube爬取相关视频,结合自动过滤工具和多轮人工筛选确保数据质量。该数据集旨在测试多模态基础模型在识别复杂运动和细微差别方面的能力,适用于体育分析和动作识别等实际应用领域。
提供机构:
华盛顿大学 艾伦人工智能研究所
创建时间:
2024-10-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
ActionAtlas v1.0的构建过程采用了创新性的管道方法。首先,通过GPT-4的广泛领域知识,编译了每个领域内的动作列表,并从YouTube上抓取相关视频。随后,利用多种自动过滤工具和技术,如精确和软词汇搜索以及CLIP过滤,进一步筛选搜索结果。此外,利用大型语言模型(LLMs)和语音转录技术,快速定位长视频中包含特定动作的片段。最后,通过众包工作者和作者的多轮手动过滤,确保数据集的高质量。
特点
ActionAtlas v1.0的主要特点在于其专注于复杂动作和细微运动的识别,这些动作在单帧中可能看起来相似,但在多帧中表现出显著差异。数据集涵盖了56种体育项目中的580个独特动作,总共有1896个动作选项。与大多数仅覆盖简单动作的视频问答基准不同,ActionAtlas强调了对模型在特定领域内识别细微差别的能力的严格测试。
使用方法
ActionAtlas v1.0的使用方法包括对视频进行均匀帧采样,并将这些帧与问题和选项一起输入模型。对于Gemini模型,尽管它们可以直接处理视频输入,但为了与其他模型保持一致,也采用了帧采样的方法。数据集的评估主要基于模型的输入帧数、视频压缩后的令牌数、平均推理浮点运算次数以及准确率等指标。通过这些方法,ActionAtlas能够全面评估模型在复杂动作识别任务中的表现。
背景与挑战
背景概述
ActionAtlas v1.0,由华盛顿大学RAIVN实验室与Allen Institute for AI联合开发,是一个专注于领域特定动作识别的多选视频问答基准。该数据集于2024年发布,旨在评估多模态基础模型在识别复杂动作中的有效性。ActionAtlas v1.0涵盖了56种体育项目中的580个独特动作,包含934个视频,总计1896个动作选项。其核心研究问题在于测试模型在特定领域内区分相似动作的能力,这对于视频理解领域具有重要意义,尤其是在需要高帧采样率以捕捉细微动作变化的场景中。
当前挑战
ActionAtlas v1.0面临的挑战主要集中在两个方面:一是解决领域特定动作识别中的细微差别问题,这要求模型具备高帧采样率和精确的动作跟踪能力;二是在数据集构建过程中,如何从海量视频数据中筛选出高质量的样本,这涉及复杂的自动过滤工具和多轮人工筛选。此外,当前最先进的模型如GPT-4o在ActionAtlas v1.0上的表现仍远未达到人类水平,表明在复杂动作识别方面仍存在显著的技术差距。
常用场景
经典使用场景
ActionAtlas v1.0 数据集的经典使用场景主要集中在多模态基础模型在特定领域动作识别中的评估。该数据集通过包含多种体育项目的短视频,配以多选题形式的问题,测试模型在特定时间上下文中识别细微动作的能力。这种设计使得模型不仅需要识别单帧中的动作,还需理解动作在多帧中的连续性和细微差异,从而评估其在复杂动作识别中的表现。
衍生相关工作
ActionAtlas v1.0 数据集的发布催生了一系列相关研究工作,特别是在视频理解和多模态模型领域。例如,有研究利用该数据集进行模型优化,提升其在复杂动作识别中的准确性。此外,还有研究探讨了如何通过增加帧采样率来改进模型的性能,以及如何利用语言模型生成更准确的描述来辅助动作识别。这些研究不仅扩展了数据集的应用范围,也推动了相关技术的发展。
数据集最近研究
最新研究方向
在动作识别领域,ActionAtlas v1.0数据集的最新研究方向主要集中在多模态基础模型在特定领域动作识别中的应用。该数据集通过多选视频问答的形式,评估模型在识别复杂运动和细微差异方面的能力。研究者们发现,现有的模型在处理高帧采样率的视频时表现更为出色,这表明高帧采样率对于准确识别ActionAtlas中的动作至关重要。此外,研究还探讨了如何利用大型语言模型(LLMs)和语音转录来快速定位长视频中包含特定动作的片段,以及如何通过多轮手动过滤确保数据集的高质量。这些研究不仅推动了视频语言模型的发展,也为实际应用中的动作识别提供了新的测试平台。
相关研究论文
  • 1
    ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition华盛顿大学 艾伦人工智能研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录