BoxingVI
收藏arXiv2025-11-21 更新2025-11-22 收录
下载链接:
https://github.com/Bikudebug/BoxingVI.git
下载链接
链接失效反馈官方服务:
资源简介:
BoxingVI是由印度理工学院团队构建的多模态拳击动作基准数据集,专门针对非约束环境下的拳击动作识别与定位研究。该数据集包含6,915个高质量拳击片段,涵盖六种精细拳法类别,数据源自20个公开YouTube训练视频,涉及18位不同体型的运动员。通过人工标注与AlphaPose姿态估计技术,对每个片段的起止时间和二维人体关键点进行精确标注,确保时空边界的一致性。本数据集主要应用于实时视觉动作识别、自动化教练系统与运动表现评估等领域,旨在解决实战环境中动态动作分析的技术挑战。
BoxingVI is a multimodal boxing action benchmark dataset developed by a team from the Indian Institute of Technology, specifically tailored for research on boxing action recognition and localization in unconstrained environments. This dataset comprises 6,915 high-quality boxing clips covering six fine-grained boxing strike categories, sourced from 20 publicly available YouTube training videos involving 18 athletes of varying physiques. The start and end timestamps as well as 2D human body keypoints of each clip are precisely annotated through manual annotation combined with AlphaPose pose estimation technology, ensuring the consistency of spatial-temporal boundaries. This dataset is mainly applied in fields including real-time visual action recognition, automated coaching systems and athletic performance evaluation, aiming to address the technical challenges of dynamic motion analysis in actual combat scenarios.
提供机构:
印度理工学院
创建时间:
2025-11-21
搜集汇总
数据集介绍

构建方式
在格斗运动计算机视觉分析蓬勃发展的背景下,BoxingVI数据集通过系统化流程构建而成。研究团队从20段公开YouTube拳击训练视频中提取了6,915个高质量拳击动作片段,涵盖18名运动员的六种标准拳法类型。每个片段均经过人工精细标注,明确划分动作起始与结束的时间边界,并采用AlphaPose算法提取二维人体关键点。通过基于质心位移的追踪方法,有效确保了目标运动员在动态场景中的连续识别,所有姿态数据经过尺寸归一化与时序填充处理,形成结构规整的多模态数据集合。
特点
该数据集显著特征体现在其真实场景多样性与标注精细度。视频素材源自非受控环境下的实战训练,覆盖不同体型运动员、多变摄像机视角及复杂光照条件,充分反映了实际应用场景的复杂性。六类拳法动作均配备精确到帧级的时间戳与二维骨骼关键点,同时提供原始RGB视频流与标准化姿态序列。相较于现有拳击数据集,其同时具备时空动作定位能力与细粒度分类维度,为模型在真实场景中的泛化性能验证提供了理想基准。
使用方法
该数据集支持多维度的计算机视觉任务验证。研究者可利用时序标注信息开发动作定位模型,通过姿态序列实现基于骨骼信息的动作识别,或结合视觉特征构建多模态分类系统。训练集与验证集按运动员身份严格划分,有效避免模型过拟合特定个体运动模式。数据集提供的标准化预处理流程可直接应用于深度学习框架,为实时拳技分析、自动化教练系统等应用提供可靠数据支撑,推动格斗运动分析技术向实用化迈进。
背景与挑战
背景概述
随着计算机视觉技术在体育分析领域的深入应用,格斗运动因其动态非结构化的动作特性成为研究热点。BoxingVI数据集由印度理工学院甘地纳加尔分校等机构于2025年联合发布,聚焦拳击动作的细粒度识别与定位问题。该数据集通过提取20段公开YouTube训练视频,构建了包含6,915个标注片段的多元样本库,涵盖六类标准拳法动作。其创新性在于同步提供时间边界标注与二维姿态关键点,为实时动作分析、自动化教练系统等应用奠定了数据基础,显著推动了无约束环境下视觉算法在竞技体育中的发展。
当前挑战
在动作识别领域,拳击动作的快速连续性、视觉相似拳法的区分度不足构成了核心研究难点。BoxingVI构建过程中面临三大挑战:动态场景下运动员跟踪易受遮挡干扰,需通过质心位移算法实现持续追踪;多源视频存在的相机抖动、光照变异要求标注时保持时空一致性;六类拳法动作的细微差异需依赖专家知识进行手动分段标注,确保每段剪辑包含完整的拳法执行周期。这些挑战共同凸显了真实场景下细粒度动作数据集构建的技术复杂性。
常用场景
经典使用场景
在拳击运动分析领域,BoxingVI数据集为计算机视觉技术提供了精准的动作识别基准。该数据集通过6915个精细标注的拳击动作片段,系统覆盖了直拳、勾拳、上勾拳等六类核心拳法,其多模态特性支持从视频帧序列到人体姿态关键点的全面分析。研究人员可基于此开展动作时序定位、拳法分类精度比较等关键任务,特别是在非约束环境下的实时识别算法验证中展现出独特价值。
解决学术问题
该数据集有效解决了传统传感器方法在拳击动作捕捉中的设备漂移、运动受限等瓶颈问题。通过提供精确的时间边界标注和二维姿态序列,为无约束场景下的细粒度动作分割建立了新标准。其涵盖的多样化运动风格与拍摄条件,显著提升了模型在真实场景中的泛化能力,推动了基于视觉的运动分析方法在计算资源受限环境下的实用化进程。
衍生相关工作
基于该数据集的特质,学术界已衍生出多个重要研究方向。在时序动作检测领域,研究者开发了融合姿态特征的双流网络架构;在跨模态学习方面,出现了结合视觉外观与骨骼序列的混合模型。这些工作不仅完善了拳击动作的语义理解体系,更推动了如BoxMAC等后续数据集的构建,形成了以细粒度动作为核心的研究范式。
以上内容由遇见数据集搜集并总结生成



