Sthv2_500_3scope

Hugging Face2025-12-09 更新2025-12-10 收录

下载链接：

https://huggingface.co/datasets/RuLan03/Sthv2_500_3scope

下载链接

链接失效反馈

官方服务：

资源简介：

Something-Something V2 (SSV2)视频预测数据集子集是一个针对指令驱动型视频预测任务构建的高质量、小规模数据集。该子集从原始SSV2训练集中提取，包含三类动作：物体移动（move_object）、物体掉落（drop_object）和物体覆盖（cover_object）。每个任务类型包含400个训练视频和100个验证视频。输入序列由20张连续帧（128×128像素）组成，目标帧为第21帧，同时提供文本指令作为标签。数据集通过基于Template字段的精准筛选和冗余选取+定额控制的策略确保高质量和任务相关性。此外，通过优化视频帧提取过程，解决了.webm格式视频帧数报告不准确的问题，确保了数据的鲁棒性。最终数据集采用标准的ML目录结构，并包含metadata.json文件作为索引。

创建时间：

2025-11-30

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Something-Something V2 (SSV2) 视频预测数据集子集
来源: 从庞大的 Something-Something V2 训练集构建的子集
核心任务: 指令驱动型视频预测。给定一个包含20张连续帧的短序列和一个文本指令，预测序列的第21帧。

数据内容与结构

输入序列 (I_Input): 20张连续帧作为观测输入，索引为 F_01 到 F_20。
目标帧 (I_Target): 序列的第21帧作为模型预测的真值，索引为 F_21。
文本指令 (T): 视频的原始文本标签（来自SSV2的label字段）。
图像尺寸: 所有帧的尺寸均为 128 × 128。

子集构建策略

筛选方法: 优先利用template字段进行结构化匹配，而非传统的基于自由文本label字段的关键词匹配，以提高鲁棒性。
选定任务: 子集最终选取了三类动作：
1. move_object: 物体移动（推、拉、滑）。
2. drop_object: 物体掉落。
3. cover_object: 物体覆盖。
数据量控制: 采用冗余选取与定额控制策略。每个任务初步筛选550个合格视频（10%冗余），在帧提取阶段严格限制训练集为400个、验证集为100个。

数据集组织格式

根目录: dataset_root/
Train/Val 比例: 80% / 20%（即每个任务：400 Train, 100 Val）。
目录结构:

dataset_root/ ├── train/ │ ├── move_object/ │ │ └── [video_id]/ // 每个视频一个文件夹，内含00.jpg到20.jpg共21张图像 │ ├── drop_object/ │ └── cover_object/ ├── val/ // 结构同train └── metadata.json
元数据文件 (metadata.json):
- 包含所有训练和验证视频的索引信息。
- 每条记录格式为： json { "video_path": "train/move_object/video_78687", // 图像加载的相对路径 "instruction": "Pulling [something] from right to left", // 文本指令 "task_type": "move_object" // 任务类别 }

技术处理与优化

工程挑战: 处理.webm格式视频时，cv2.VideoCapture报告的帧数不准确，导致采样失败。
优化方案:
1. 可靠的帧数计数: 放弃CAP_PROP_FRAME_COUNT，通过逐帧读取获取视频实际可读取的总帧数（$N_{ ext{actual}}$）。
2. 安全居中采样: 基于$N_{ ext{actual}}$计算采样窗口起始索引，确保提取的21帧序列位于视频高潮区域且不溢出边界。

使用与复现

主要依赖库: opencv-python, tqdm, json, os, shutil, random。
复现步骤:
1. 准备原始20bn-something-something-v2视频文件夹和train.json。
2. 执行prepare_subsets.py脚本，筛选合格视频。
3. 执行final_data_preparer.py脚本，完成居中采样、尺寸缩放和最终目录构建。

搜集汇总

数据集介绍

构建方式

在视频预测研究领域，构建高质量的训练子集对于模型性能至关重要。Sthv2_500_3scope数据集从庞大的Something-Something V2训练集中蒸馏而来，采用基于template字段的结构化匹配策略，精准筛选出三类核心动作类别：物体移动、物体掉落和物体覆盖。为确保数据质量与数量平衡，该数据集通过冗余选取与定额控制机制，从原始视频中提取21帧连续序列，并利用实际帧数计数与安全居中采样方法，有效克服了视频格式带来的鲁棒性挑战，最终形成包含训练集与验证集的标准化结构。

特点

该数据集在指令驱动型视频预测任务中展现出鲜明的特色。其核心在于覆盖了物体位置变化、物理状态改变及重力作用三类典型动作，为模型学习提供了多样化的物理交互场景。数据集采用128×128分辨率的图像帧，确保了计算效率与视觉细节的平衡。metadata.json文件集成了视频路径、文本指令与任务类别等元数据，支持高效的模型加载与索引。整体设计注重任务相关性与数据纯净度，通过严格的筛选与采样流程，有效降低了原始数据中的噪声干扰。

使用方法

为便于研究与应用，该数据集提供了清晰的使用路径。用户可通过metadata.json文件快速访问训练与验证样本，其中包含视频相对路径、文本指令及任务类型信息。数据集目录结构遵循机器学习标准，按任务类别与数据划分组织图像帧，支持直接加载。复现过程依赖Python环境与opencv-python等库，通过执行预处理脚本即可完成从原始视频到标准化子集的转换。这种设计确保了数据集的易用性与可扩展性，为视频预测模型的训练与评估提供了可靠基础。

背景与挑战

背景概述

视频预测作为计算机视觉领域的前沿方向，旨在基于历史帧序列和语义指令生成未来帧，对理解动态场景与物理交互至关重要。Sthv2_500_3scope数据集源于2020年代初期，由研究团队基于大规模Something-Something V2数据集构建，专注于指令驱动型视频预测任务。该数据集通过精心筛选三类核心动作——物体移动、掉落与覆盖，构建了包含500个高质量视频的子集，旨在推动模型在复杂物理交互中的推理能力，为视频生成与场景理解研究提供了标准化基准。

当前挑战

在视频预测领域，模型需克服动态场景中物体运动轨迹、物理状态突变及指令语义对齐等多重挑战，Sthv2_500_3scope旨在解决指令驱动下帧序列生成的精确性与泛化性问题。数据集构建过程中，面临原始数据噪声大、动作类别泛化性差等难题，研究团队创新性地利用结构化模板字段进行精准筛选，并设计冗余控制策略确保数据平衡。此外，处理.webm格式视频时，帧数报告不准确导致采样失效，通过实际帧数计数与安全居中采样方案，提升了数据提取的鲁棒性与完整性。

常用场景

经典使用场景

在计算机视觉领域，视频预测任务旨在基于历史帧序列推断未来帧内容，这对于理解动态场景至关重要。Sthv2_500_3scope数据集作为Something-Something V2的精炼子集，专注于指令驱动型视频预测，其经典使用场景包括模型训练与评估。研究者利用该数据集输入20帧连续观测序列及文本指令，要求模型预测第21帧，从而模拟真实世界中物体移动、掉落或覆盖等物理交互过程。这种设置不仅测试模型对时空信息的建模能力，还强调其对自然语言指令的理解与执行，为视频生成与推理研究提供了标准化基准。

衍生相关工作

围绕Sthv2_500_3scope数据集，衍生出多项经典研究工作，主要集中在视频预测与多模态学习交叉领域。例如，基于该数据集的模型架构创新，如结合卷积神经网络与循环神经网络以捕获时空依赖性，或引入注意力机制强化指令与视觉特征的对齐。此外，研究者利用该数据集探索了生成对抗网络在视频帧合成中的应用，提升了预测帧的视觉真实感。这些工作不仅推动了视频预测技术的进步，还促进了自然语言处理与计算机视觉的融合，为后续更复杂的多模态任务奠定了理论基础。

数据集最近研究