FitAug-1.2M

github2026-03-13 更新2026-03-14 收录

下载链接：

https://github.com/Xjging/FitAug-1.2M

下载链接

链接失效反馈

官方服务：

资源简介：

FitAug-1.2M是一个大规模的图像-文本增强数据集，旨在支持基于视觉语言模型（VLM）的更可靠和细粒度的健身指导。该数据集不仅构建了一个更大的健身数据集，还通过高质量、专业基础的文本指导丰富了监督模态，用于运动评估和指导。

FitAug-1.2M is a large-scale image-text augmentation dataset aimed at supporting more reliable and fine-grained fitness guidance based on Vision-Language Models (VLMs). This dataset not only constructs a larger-scale fitness dataset, but also enriches the supervision modality with high-quality, professionally grounded textual guidance for exercise evaluation and guidance.

创建时间：

2026-03-12

原始信息汇总

FitAug-1.2M 数据集概述

数据集简介

FitAug-1.2M 是一个用于基于视觉语言模型（VLM）的健身指导的大规模图文增强数据集。该数据集旨在支持更可靠、更细粒度的 VLM 健身指导，其目标不仅是构建更大的健身数据集，更是通过高质量、基于专业知识的文本指导来丰富监督模态，以进行运动评估和指导。

构建目的

该数据集旨在解决当前 VLM 健身指导系统中的一个实际差距：许多模型可以生成流畅的反馈，但在对正确性敏感的运动理解和可操作的指导方面，仍然缺乏足够可靠、专家级的监督。它专注于提供专业运动指导，其注释描述了动作是否正确、为何不正确以及应如何纠正，而非通用的动作描述。

数据来源

数据集基于公开可用的健身和动作理解视觉资源构建。来源池包括与健身相关的数据集以及涵盖家庭、商业健身房和户外锻炼场景的公开在线视频材料。视觉内容具有视角、环境、用户外观和运动执行方面的多样性。所有面向任务的指导注释均根据统一的注释协议新创建。

注释流程

注释通过一个多阶段的专家指导流程进行，旨在确保专业质量和大规模覆盖。

认证教练根据领域特定的教学知识和专业运动标准对视觉数据进行注释，关注运动正确性、错误识别、原理分析和纠正反馈。
注释样本由另一位专家审核，以确保一致性、正确性和教学价值。只有通过专家审核的样本才被保留为种子监督数据。
基于已验证的专家注释，使用大语言模型以受控方式扩展文本监督。此扩展由专家设计的模板和结构化元数据指导，使生成的文本在保持语义多样性的同时，保留专业正确性。

数据集规模

最终数据集包含用于器械中心健身指导的大规模图文监督，包括专家验证的注释和扩展的文本指导。

图像序列：9,611 个精选图像序列。
专家编写模板：263 个专家编写的问题模板和 531 个专家编写的答案模板。
图文问答对：1,208,340 个人工审核的图文问答对。
覆盖范围：专注于四种代表性的器械中心练习（杠铃划船、卧推、深蹲、过头推举），涵盖 14 种场景类型和 34 种细粒度错误类型。

基准测试与评估

研究还构建了 FitGuid 基准，用于评估 VLM 在健身指导方面的表现，并引入了全面的评估框架。

5D 主观评估维度

激励鼓励（ME）：模型是否提供支持性和激励性的指导语言。
计划设计（PD）：模型是否给出合理且结构化的训练建议。
宏量营养素分配（MA）：模型是否提供适当的营养相关指导。
设备识别（ER）：模型是否正确理解运动设备和上下文。
运动评估（MAs）：模型是否正确判断运动质量并提供有用的纠正指导。

运动评估的渐进能力隔离（PCI）

PCI 将运动评估分解为四个连续阶段：

运动识别（EI）
技术判断（TJ）
运动分析（MAn）
处方建议（PS）

基准测试结果表明，许多模型可以产生看似合理的解释或建议，但在正确性敏感的技术判断方面仍然弱得多。在基准测试中，MAs 维度得分持续远低于其他 5D 维度，而 PCI 进一步表明薄弱的技术判断（TJ） 是可靠 VLM 健身指导的主要瓶颈。

基准排行榜

基于 5D 框架和 PCI 运动分析，构建了 FitGuid 基准并评估了广泛的开源和闭源 VLM。排行榜包含在此存储库中，为用户提供模型选择的实用参考。

存储库内容

此存储库包含：

数据集及其设计目标的概述。
注释和评估流程的文档。
数据的公共子集。
基准测试相关材料和排行榜结果。
完整数据集发布的访问信息。

适用范围

FitAug-1.2M 专为 VLM 健身指导中的针对性模型改进而设计，特别是运动评估和专家风格的纠正反馈。它并非通用的动作识别数据集。

访问信息

此存储库提供数据集的公共子集和评估材料。仅部分评估数据在此发布。如需完整数据集、完整评估数据和完整的基准测试资源，请联系：sunzhe@nwpu.edu.cn

引用与许可

如果使用此数据集，请引用此存储库或在您的工作中注明 FitAug-1.2M 数据集。对应的论文目前正在审阅中，一旦公开可用将添加至此。此存储库中发布的数据和评估材料仅用于非商业学术研究。详情请参阅 DATA_LICENSE.md。

搜集汇总

数据集介绍

构建方式

在视觉语言模型赋能健身指导的背景下，FitAug-1.2M数据集的构建采用了严谨的多阶段专家引导流程。其视觉素材源自公开的健身相关数据集与在线视频资源，确保了场景、视角与执行方式的多样性。核心构建过程始于由认证教练依据专业运动标准进行的初始标注，聚焦于动作正确性判断、错误识别与纠正建议。随后，这些标注样本经过另一轮专家审核以保证质量与一致性。在此基础上，利用专家设计的模板与结构化元数据，通过大语言模型进行可控的文本扩展，从而在维持专业准确性的前提下，规模化地生成语义丰富的指导文本，最终形成逾120万条经过人工审核的图像-文本问答对。

特点

该数据集的核心特点在于其面向专业健身指导的深度监督信号。与通用动作识别数据集不同，它提供了专家导向的指导性标注，不仅描述动作本身，更深入剖析动作是否正确、错误原因以及具体纠正方法。数据集覆盖了杠铃划船、卧推、深蹲和过头推举四种代表性器械练习，并细分为14种场景类型与34种精细错误类型，具备高度的专业性与实用性。此外，数据集规模庞大，包含大量经过验证的问答对，并配备了专门设计的五维评估框架与渐进能力隔离协议，为模型在健身指导这一正确性敏感领域的性能诊断与提升提供了结构化基准。

使用方法

该数据集主要服务于基于视觉语言模型的健身指导系统的研发与评估。研究者可利用其大规模、高质量的图像-文本配对数据，对模型进行监督微调，以增强模型在动作评估、错误诊断和生成可执行纠正建议方面的专业能力。数据集附带的FitGuid基准与五维评估框架，可用于系统性地评测模型在激励鼓励、计划设计、营养建议、设备识别及动作评估等多维度的综合指导能力。特别是通过渐进能力隔离协议，开发者能够精准定位模型在动作评估流程中（如技术判断环节）的瓶颈，从而进行有针对性的模型改进。数据集提供的公开子集与评估材料可供初步探索，完整资源需遵循非商业学术研究许可联系获取。

背景与挑战

背景概述

随着视觉语言模型在智能健身指导领域的应用日益广泛，现有系统在生成流畅反馈的同时，往往缺乏对动作正确性进行专业级判断与纠正的能力。FitAug-1.2M数据集应运而生，旨在填补这一实践空白。该数据集由西北工业大学等研究机构构建，专注于为基于视觉语言模型的健身指导提供大规模、高质量的图像-文本监督数据。其核心研究问题在于提升模型在动作评估与纠正性反馈方面的可靠性与细粒度理解能力，通过引入专家驱动的标注流程与多维度评估框架，推动该领域向更专业、更实用的方向发展。

当前挑战

在健身指导这一特定领域，视觉语言模型面临的核心挑战在于准确理解并评估人体动作的正确性，这要求模型不仅识别动作类别，还需具备专业的运动力学知识以判断技术细节、分析错误原因并提供可行的纠正建议。现有模型在技术判断环节普遍表现薄弱，导致生成的指导缺乏可靠性与实操价值。在数据集构建过程中，挑战主要集中于如何确保标注的专业性与一致性。研究团队通过设计多阶段专家审核流程，并利用大语言模型在受控模板下进行文本扩展，以平衡标注质量与数据规模，但如何维持生成文本的语义多样性同时不偏离专业标准，仍需持续优化。

常用场景

经典使用场景

在视觉语言模型驱动的智能健身指导领域，FitAug-1.2M数据集被广泛用于训练和评估模型在专业运动分析与纠正反馈方面的能力。该数据集通过大规模、高质量的图像-文本对，为模型提供了针对杠铃划船、卧推、深蹲和过头推举等器械训练动作的精细监督。研究者通常利用其丰富的专家标注和结构化问答对，来构建能够理解运动正确性、识别错误类型并提供具体纠正建议的智能教练系统。

衍生相关工作

围绕FitAug-1.2M数据集，学术界衍生出了一系列专注于细粒度运动理解与评估的经典工作。其配套的FitGuid基准测试和五维评估框架已成为衡量视觉语言模型健身指导能力的标准工具。许多后续研究基于其PCI分析框架，深入探索模型在技术判断瓶颈上的改进方法，例如通过专家知识注入、多阶段训练或对抗性样本增强来提升模型的可靠性与安全性，推动了整个领域向更专业、更可信的方向发展。

数据集最近研究