MicroG-4M

Hugging Face2025-05-20 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/LEI-QI-233/MicroG-4M

下载链接

链接失效反馈

官方服务：

资源简介：

MicroG-4M数据集包含来自电影和真实场景的视频剪辑，每个视频剪辑长度为3秒，帧率为30fps，编码格式为H.264。数据集包含注释文件，其中标注了视频中人物的动作和边界框坐标。此外，还提供了标签映射文件，以及用于视觉问答和字幕生成的JSON文件。视频被分为电影和真实视频，分别存储在不同的文件夹中。每个视频剪辑都有对应的带有边界框注释的版本，用于手动检查和验证。

创建时间：

2025-05-16

原始信息汇总

MicroG-4M 数据集概述

数据集基本信息

许可证: CC-BY-4.0
GitHub 项目地址: https://github.com/LEI-QI-233/HAR-in-Space

数据集结构

1. 标注文件 (`annotation_files` 文件夹)

actions.csv
- 包含视频片段中所有标注的人物及其对应的动作ID。
- 列名:
  - video_id: 视频名称
  - movie_or_real: m 表示电影，r 表示真实视频
  - person_id: 对应标注的人物ID
  - action: 动作ID
bounding_boxes.csv
- 包含所有检测到的人物及其对应的边界框坐标（像素值）。
- 列名:
  - video_id: 视频名称
  - frame_id: 非连续编号，仅包含绘制边界框的帧
  - person_id
  - xmin, ymin, xmax, ymax: 边界框坐标

2. 标签映射 (`label_map` 文件夹)

label_map.pbtxt
- 标签映射的 pbtxt 格式文件，与 AVA 数据集的标签映射格式一致。
label_map.pdf
- 标签映射的 PDF 格式文件，便于查阅。

3. 视觉问答与字幕 (`vqa_and_captioning` 文件夹)

vqa_and_captioning.json
- 包含多个视频的信息，每条记录包括:
  - video_id: 视频ID
  - caption: 视频内容的简短描述
  - qa_pairs: 问题-答案对列表

4. 视频文件 (`videos.zip` 和 `videos_annotated.zip`)

视频基本信息
- 时长: 3秒
- 帧率: 30 fps
- 编码格式: H.264
文件夹结构
- movie: 来自电影的视频片段
  - [movie name]: 电影名称
    - [movie name]_[sequence number].mp4
- real: 来自YouTube的真实视频片段
  - [real video id]: YouTube视频ID
    - [real video id]_[sequence number].mp4
视频名称说明
- 示例:
  - AErpXJq67LM_000: YouTube视频ID AErpXJq67LM 的前3秒
  - Apollo13_101: 电影 Apollo13 的第303至306秒
videos_annotated.zip
- 内容与 videos.zip 相同，但包含标注的边界框和动作ID。

备注

所有视频片段与标注文件完全对应。
视频片段的序列号不连续，仅包含符合条件的片段。

搜集汇总

数据集介绍

构建方式

在微重力环境视频理解研究领域，MicroG-4M数据集通过系统化采集与标注流程构建而成。其视频素材来源于两类主要渠道：影视作品片段与真实太空任务录像，所有片段均统一处理为3秒时长、30帧率的标准化格式。标注体系采用多模态协同架构，通过动作识别文件记录人物行为标签，边界框坐标文件提供空间定位信息，视觉问答与描述文件则涵盖语义层面的注释内容，形成层次分明的立体化标注网络。

特点

该数据集在微重力动作识别领域展现出鲜明的多维特征。其核心优势在于融合了虚构影视与真实太空场景的双重数据源，既包含精心设计的表演动作，也涵盖真实失重环境下的自然行为模式。数据标注体系具备完整的时空关联性，每个动作实例均关联对应的视频片段、人物标识与空间坐标，同时配备专业标注的视觉问答对与场景描述文本。数据集提供原始视频与带标注可视化版本的双重呈现方式，并支持Parquet格式的高效读取，为多任务学习提供坚实基础。

使用方法

针对不同研究需求，该数据集提供灵活多样的使用路径。基于HuggingFace平台的Croissant加载机制可直接调用Parquet格式文件，实现高效数据读取与预处理。对于动作识别任务，研究者可结合动作标注文件与对应视频片段进行模型训练；视觉问答与描述生成任务则可通过专用JSON文件获取丰富的语义监督信号。数据集兼容AVA标准格式，便于现有算法的迁移应用，同时支持用户根据实际需求选择原始CSV或优化后的Parquet格式进行本地化处理。

背景与挑战

背景概述

MicroG-4M数据集由研究团队于2025年发布，聚焦于微重力环境下的人类行为识别与视频理解任务。该数据集整合了来自电影片段和真实太空录像的多样化视频素材，旨在推动计算机视觉在极端物理条件下的应用发展。通过提供精细的动作标注、边界框坐标及视觉问答对，它不仅支持多模态学习任务，还为太空探索中的人机交互研究奠定了数据基础，显著扩展了视频分析技术在特殊场景下的适应能力。

当前挑战

在构建过程中，数据集面临微重力场景下人体姿态变异性的标注难题，需精确捕捉非典型动作模式以区分相似行为。同时，真实太空录像与电影素材的异构性增加了数据清洗与对齐的复杂度，要求开发鲁棒的预处理流程。领域层面，该数据集致力于解决微重力环境中的细粒度动作分类挑战，其稀疏标注框架和时空不一致性问题对现有视频理解模型提出了更高的泛化要求。

常用场景

经典使用场景

在微重力环境下的计算机视觉研究中，MicroG-4M数据集为人类动作识别提供了关键支持。该数据集通过标注视频中人物的边界框与动作类别，构建了涵盖电影片段与真实太空录像的多元样本库，其标准化的3秒视频片段与连续帧标注机制，为时空动作检测模型提供了结构化训练基础。研究人员可基于动作标注文件与边界框坐标，开发能够识别微重力环境下人体姿态变化的深度神经网络，这类研究尤其关注失重状态对常规动作模式产生的形态学变异。

衍生相关工作

围绕该数据集衍生的经典工作包括多模态时空动作检测框架的优化。研究者通过结合边界框序列与动作标签，提出了适用于微重力场景的图卷积网络模型，显著提升了复杂姿态下的识别精度。另有工作基于其视觉问答数据，开发了面向太空视频的跨模态理解系统，将动作识别与自然语言推理相结合。这些成果进一步推动了《HAR-in-Space》开源项目的算法迭代，形成了以微重力行为分析为核心的技术生态。

数据集最近研究

MicroG-4M

MicroG-4M 数据集概述

数据集基本信息

数据集结构

1. 标注文件 (annotation_files 文件夹)

2. 标签映射 (label_map 文件夹)

3. 视觉问答与字幕 (vqa_and_captioning 文件夹)

4. 视频文件 (videos.zip 和 videos_annotated.zip)

备注

1. 标注文件 (`annotation_files` 文件夹)

2. 标签映射 (`label_map` 文件夹)

3. 视觉问答与字幕 (`vqa_and_captioning` 文件夹)

4. 视频文件 (`videos.zip` 和 `videos_annotated.zip`)