bear7011/gemma-4-e4b-kinetics_4K_VATEX
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/bear7011/gemma-4-e4b-kinetics_4K_VATEX
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为Gemma 4 E4B视频动作识别任务设计的SFT训练数据集,结合了Kinetics-40K和VATEX数据集(经过重叠清理)。数据集包含40,000条来自Kinetics-40K的条目和4,373条来自VATEX的条目,后者通过GPT-4o-mini合成了描述。每条数据以多轮对话消息的形式存储,包含系统提示、用户视频和文本输入以及助手的文本回复。数据集未包含视频文件,需从原始来源下载。
SFT training dataset for Gemma 4 E4B video action recognition, combining Kinetics-40K and VATEX (overlap-cleaned). Contains 40,000 entries from Kinetics-40K and 4,373 entries from VATEX with descriptions synthesized via GPT-4o-mini. Each entry is structured as a multi-turn chat message with system prompts, user video/text inputs, and assistant text responses. Video files are not included and must be downloaded separately from the original source.
提供机构:
bear7011
搜集汇总
数据集介绍

构建方式
该数据集专为Gemma 4 E4B视频动作识别模型的监督微调(SFT)而构建,融合了Kinetics-40K与VATEX两大视频语料库。其中,Kinetics-40K部分从Kinetics-400的标注CSV文件直接转换而来,保留了原始的动作类别标签;VATEX部分则源自lmms-lab/VATEX(Kinetics-600子集),经由GPT-4o-mini对其英文描述进行合成与标签生成。为消除数据冗余,构建过程中剔除了与Kinetics-40K重复的105个片段,最终VATEX部分保留4,373条有效条目。每个样本均采用多轮对话结构,包含系统、用户和助手角色的消息,并辅以动作标签与任务类型等元信息,适配统一的SFT训练格式。
特点
该数据集的核心特色在于其双重来源的互补设计与精细化的重叠清洗策略。Kinetics-40K贡献了4万条源自权威Kinetics-400标注的动作识别样本,确保了基础动作类别的高质量覆盖;VATEX部分则通过引入视频描述任务扩展了数据的语义丰富性,其中绝大多数标签由GPT-4o-mini基于原始英文描述自动生成,仅有15个片段与Kinetics-400标签直接匹配。这种设计既保留了经典数据集的结构化标签优势,又融入了生成式模型带来的自然语言描述能力,使数据集适用于视频分类与视频文本生成两种任务。此外,所有样本均以多轮对话形式组织,便于直接用于大型语言模型的指令微调。
使用方法
使用本数据集时,需先独立下载VATEX视频文件并放置于指定路径下,以使JSON文件中的视频路径正确指向本地资源。数据集以JSON格式存储,每一条记录包含messages字段(多轮对话)、label字段(动作标签)及task_type等辅助信息。开发者可通过标准Python JSON解析库加载数据,并直接用于基于GemmaFT框架的SFT训练流程。模型目标为google/gemma-4-e4b-it,推荐采用第一阶段LoRA微调策略(秩r=16,缩放因子α=32),以实现高效的视频动作识别能力适配。数据集不内嵌视频文件,因此预训练前的视频数据准备是使用流程的关键前置步骤。
背景与挑战
背景概述
视频动作识别作为计算机视觉领域的一项核心任务,旨在从动态视觉序列中精准解析人类行为语义。该研究领域长期受限于大规模、高质量标注数据的匮乏,尤其是面向通用场景的多样化动作类别。gemma-4-e4b-kinetics_4K_VATEX数据集于近期由研究团队基于Google的Gemma 4 E4B模型微调需求而构建,整合了Kinetics-40K与VATEX两大权威视频资源。其中Kinetics-40K源自DeepMind发布的Kinetics-400数据集,提供约4万条带有标准动作标签的视频;VATEX则作为Kinetics-600的子集,经由GPT-4o-mini合成描述以增强语义丰富度。该数据集通过精细的重复剪辑去除和标签清洗,为视频动作识别与视频描述生成提供了统一的监督微调(SFT)训练范例,对推动多模态大模型在时序理解任务上的能力跃迁具有重要价值。
当前挑战
视频动作识别面临的核心领域挑战在于时空动态特征的复杂表征与长尾动作类别的分布不均衡。传统静态图像模型难以捕捉连续帧间的运动模式,而动作类别的细微差异(如“跑步”与“慢跑”)进一步增加了判别难度。在数据集构建过程中,主要挑战源自多源数据的异构整合与质量控制:Kinetics-40K与VATEX之间存在的105条重复视频需要精准去重,以避免训练偏差;VATEX中原本的英文描述需通过GPT-4o-mini转换为符合统一格式的简洁动作标签,但AI生成的标签可能存在语义模糊或噪点;此外,视频文件本身未包含在仓库中,使用者需自行下载并匹配路径,这对数据集的即用性构成了一定限制,要求二次处理与存储管理。
常用场景
经典使用场景
在视频理解与多模态学习的交叉领域中,gemma-4-e4b-kinetics_4K_VATEX数据集为视频动作识别任务提供了精细化的监督微调(SFT)训练素材。该数据集巧妙融合了Kinetics-40K与VATEX两大经典资源,经过重叠清洗与高质量描述生成,形成了结构化的多轮对话样本。每个条目均包含系统提示、用户视频查询与助手的自然语言动作描述,特别适用于训练大语言模型在观看视频后以简洁的句子精准概括主要可见动作。这种设计不仅契合了Gemma 4系列模型在多模态对齐与指令跟随方面的需求,亦为视频动作识别从传统的分类标签向开放式自然语言描述过渡提供了坚实的数据基础。
衍生相关工作
围绕gemma-4-e4b-kinetics_4K_VATEX数据集,已催生了一系列具有代表性的衍生工作。最直接的是GemmaFT训练框架的正式提出与开源,该框架专门针对Gemma 4 E4B模型进行视频动作识别的LoRA参数高效微调,展现了在有限资源下实现多模态对齐的潜力。在此基础上,研究者陆续探索了不同提示策略对视频描述生成质量的影响,以及跨数据集迁移学习时的域适应技术。一些工作进一步将SFT阶段扩展为两阶段训练,先在大规模视频描述数据上预训练再在本数据集上细调,显著提升了生成描述的流畅度与准确性。此外,该数据集也被用作视频指令跟随能力的评估基准之一,推动了视频理解领域从“识别”到“对话”的范式转变。
数据集最近研究
最新研究方向
当前视频动作识别领域正经历从传统分类标注向大规模多模态监督微调(SFT)范式的深刻转型,gemma-4-e4b-kinetics_4K_VATEX数据集的诞生恰逢其时,它巧妙融合了Kinetics-400的权威动作标签与VATEX的丰富自然语言描述,借助GPT-4o-mini进行跨模态语义合成与重叠清洗,构建出首个面向Gemma 4 E4B大模型的高质量视频描述训练资源。这一创新实践不仅打通了视频底层视觉特征与高层语言指代之间的表征鸿沟,更在低资源微调场景下验证了LoRA策略对视频理解任务的泛化效能,为未来视频基础模型在开放世界动作识别、细粒度事件描述以及人机交互反馈优化等前沿方向提供了可复现的数据基座与方法论启示。
以上内容由遇见数据集搜集并总结生成



