FitAug-1.2M
收藏FitAug-1.2M 数据集概述
数据集简介
FitAug-1.2M 是一个用于基于视觉语言模型(VLM)的健身指导的大规模图文增强数据集。该数据集旨在支持更可靠、更细粒度的 VLM 健身指导,其目标不仅是构建更大的健身数据集,更是通过高质量、基于专业知识的文本指导来丰富监督模态,以进行运动评估和指导。
构建目的
该数据集旨在解决当前 VLM 健身指导系统中的一个实际差距:许多模型可以生成流畅的反馈,但在对正确性敏感的运动理解和可操作的指导方面,仍然缺乏足够可靠、专家级的监督。它专注于提供专业运动指导,其注释描述了动作是否正确、为何不正确以及应如何纠正,而非通用的动作描述。
数据来源
数据集基于公开可用的健身和动作理解视觉资源构建。来源池包括与健身相关的数据集以及涵盖家庭、商业健身房和户外锻炼场景的公开在线视频材料。视觉内容具有视角、环境、用户外观和运动执行方面的多样性。所有面向任务的指导注释均根据统一的注释协议新创建。
注释流程
注释通过一个多阶段的专家指导流程进行,旨在确保专业质量和大规模覆盖。
- 认证教练根据领域特定的教学知识和专业运动标准对视觉数据进行注释,关注运动正确性、错误识别、原理分析和纠正反馈。
- 注释样本由另一位专家审核,以确保一致性、正确性和教学价值。只有通过专家审核的样本才被保留为种子监督数据。
- 基于已验证的专家注释,使用大语言模型以受控方式扩展文本监督。此扩展由专家设计的模板和结构化元数据指导,使生成的文本在保持语义多样性的同时,保留专业正确性。
数据集规模
最终数据集包含用于器械中心健身指导的大规模图文监督,包括专家验证的注释和扩展的文本指导。
- 图像序列:9,611 个精选图像序列。
- 专家编写模板:263 个专家编写的问题模板和 531 个专家编写的答案模板。
- 图文问答对:1,208,340 个人工审核的图文问答对。
- 覆盖范围:专注于四种代表性的器械中心练习(杠铃划船、卧推、深蹲、过头推举),涵盖 14 种场景类型和 34 种细粒度错误类型。
基准测试与评估
研究还构建了 FitGuid 基准,用于评估 VLM 在健身指导方面的表现,并引入了全面的评估框架。
5D 主观评估维度
- 激励鼓励(ME):模型是否提供支持性和激励性的指导语言。
- 计划设计(PD):模型是否给出合理且结构化的训练建议。
- 宏量营养素分配(MA):模型是否提供适当的营养相关指导。
- 设备识别(ER):模型是否正确理解运动设备和上下文。
- 运动评估(MAs):模型是否正确判断运动质量并提供有用的纠正指导。
运动评估的渐进能力隔离(PCI)
PCI 将运动评估分解为四个连续阶段:
- 运动识别(EI)
- 技术判断(TJ)
- 运动分析(MAn)
- 处方建议(PS)
基准测试结果表明,许多模型可以产生看似合理的解释或建议,但在正确性敏感的技术判断方面仍然弱得多。在基准测试中,MAs 维度得分持续远低于其他 5D 维度,而 PCI 进一步表明薄弱的技术判断(TJ) 是可靠 VLM 健身指导的主要瓶颈。
基准排行榜
基于 5D 框架和 PCI 运动分析,构建了 FitGuid 基准并评估了广泛的开源和闭源 VLM。排行榜包含在此存储库中,为用户提供模型选择的实用参考。
存储库内容
此存储库包含:
- 数据集及其设计目标的概述。
- 注释和评估流程的文档。
- 数据的公共子集。
- 基准测试相关材料和排行榜结果。
- 完整数据集发布的访问信息。
适用范围
FitAug-1.2M 专为 VLM 健身指导中的针对性模型改进而设计,特别是运动评估和专家风格的纠正反馈。它并非通用的动作识别数据集。
访问信息
此存储库提供数据集的公共子集和评估材料。仅部分评估数据在此发布。如需完整数据集、完整评估数据和完整的基准测试资源,请联系:sunzhe@nwpu.edu.cn
引用与许可
如果使用此数据集,请引用此存储库或在您的工作中注明 FitAug-1.2M 数据集。对应的论文目前正在审阅中,一旦公开可用将添加至此。 此存储库中发布的数据和评估材料仅用于非商业学术研究。详情请参阅 DATA_LICENSE.md。




