KS-Gen

Hugging Face2025-04-03 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/flateon/KS-Gen

下载链接

链接失效反馈

官方服务：

资源简介：

KS-Gen（也称为SkillVid）是一个针对野外人类技能关键步骤生成（KS-Gen）的基准数据集。该数据集旨在支持人类技能视频在关键步骤级别的生成，使研究人员能够开发出能够根据文本描述生成连贯技能演示序列的模型。数据集包含标注文件和视频数据，标注文件以parquet格式提供，包括训练集和测试集的注释，以及来自CrossTask、HT-Step和Kinetics-400数据集的额外注释。每个标注条目包括视频文件路径、关键步骤的起始和结束时间戳、文本描述、帧率、视频字幕、关键帧字幕、大型语言模型生成的字幕、唯一标识符、视频分辨率以及各种评分指标。

KS-Gen (also known as SkillVid) is a benchmark dataset for key step generation of real-world human skills. This dataset aims to support the generation of human skill videos at the key step level, enabling researchers to develop models that can generate coherent skill demonstration sequences based on text descriptions. The dataset includes annotation files and video data. The annotation files are provided in Parquet format, covering annotations for the training and test sets, as well as additional annotations from the CrossTask, HT-Step, and Kinetics-400 datasets. Each annotation entry includes the video file path, start and end timestamps of key steps, text descriptions, frame rate, video subtitles, key frame subtitles, subtitles generated by large language models, unique identifiers, video resolution, and various scoring metrics.

创建时间：

2025-03-31

搜集汇总

数据集介绍

构建方式

KS-Gen数据集作为人类关键步骤技能生成的基准数据集，其构建过程体现了多源数据融合的先进理念。该数据集整合了来自COIN、CrossTask、HT-Step及Kinetics-400等多个权威数据集的标注信息，通过精心设计的标注框架实现了跨数据集的知识迁移。研究人员采用标准化处理流程，将原始视频片段按关键步骤进行时间戳标注，并辅以多模态文本描述，包括人工编写的视频摘要、关键帧描述以及大语言模型生成的增强标注，最终形成结构化的parquet格式标注文件。

特点

该数据集最显著的特征在于其多层次、细粒度的标注体系。每个视频片段不仅包含精确到秒级的关键步骤时间边界，还配备了自然语言描述的步骤提示文本，以及从宏观视频概要到微观关键帧描述的全方位文本标注。特别值得注意的是，数据集引入了场景评分、运动评分等量化指标，为生成模型的性能评估提供了多维度的参考标准。这种融合视觉内容与语义信息的标注方式，为跨模态生成任务奠定了高质量的数据基础。

使用方法

使用KS-Gen数据集时，研究人员可通过pandas等工具直接读取parquet格式的标注文件，快速构建训练与测试数据管道。该数据集支持从文本到视频、图像到视频等多种生成任务的模型开发，特别适用于关键步骤级别的技能生成研究。实践应用中，建议结合原始视频数据进行端到端训练，通过解析prompt字段实现条件生成，并利用各类评分指标进行生成质量的量化评估。数据集提供的多源标注信息允许研究者进行消融实验，探究不同模态标注对生成效果的影响。

背景与挑战

背景概述

KS-Gen数据集作为关键步骤生成（Key-Step Generation）领域的重要基准数据集，由Wu Yilu等研究人员于2025年提出，旨在解决人类技能视频生成中的关键步骤序列化问题。该数据集整合了COIN、CrossTask、HT-Step及Kinetics-400等多个知名数据集的标注资源，通过多模态标注框架（包含时间戳、文本描述、质量评分等）支持从文本到视频、图像到视频的生成任务。其创新性体现在对技能演示视频的细粒度结构化表征，为计算机视觉与跨模态生成研究的交叉领域提供了标准化评估平台，显著推动了教育技术、虚拟助手等应用场景的发展。

当前挑战

KS-Gen数据集面临的挑战主要体现在两方面：在领域问题层面，技能视频的关键步骤生成需同时保证时序连贯性与动作准确性，模型需克服长程依赖建模和跨模态对齐的难题；在构建过程中，数据集整合了多源异构数据，需解决标注标准统一（如时间戳精度）、视频质量筛选（通过scene_score等指标）以及文本描述多样性控制（平衡人工标注与LLM生成内容）等技术挑战，这些因素直接影响生成模型的泛化能力评估。

常用场景

经典使用场景

在计算机视觉与多媒体生成领域，KS-Gen数据集为关键步骤生成任务提供了标准化基准。该数据集通过整合COIN、CrossTask等多个来源的标注视频，支持从文本描述生成连贯的人类技能演示序列。研究者可利用其丰富的时序标注和多模态提示，训练模型理解并生成烹饪、维修等复杂技能的关键步骤视频片段。

实际应用

在职业教育与远程指导场景中，KS-Gen支撑的生成系统可自动创建标准化技能教学视频。工业领域可应用于设备操作指导生成，医疗培训中能模拟手术步骤演示。其关键步骤生成能力尤其适合需要分解复杂流程的AR/VR教学应用，显著降低专业培训内容的制作成本。

衍生相关工作

基于KS-Gen的基准特性，已衍生出时序动作生成框架SkillNet与跨模态对齐模型StepGAN等经典工作。部分研究将其扩展至多语言技能生成场景，亦有工作结合扩散模型改进关键步骤的视觉保真度。这些成果持续推动着EMNLP、CVPR等顶会中技能生成方向的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集