five

HuggingFaceM4/something_something_v2

收藏
Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceM4/something_something_v2
下载链接
链接失效反馈
官方服务:
资源简介:
Something-Something数据集(版本2)是一个包含220,847个标记视频片段的集合,展示了人类使用日常物品执行预定义的基本动作。该数据集旨在训练机器学习模型,以精细理解人类手势,如将某物放入某物、将某物倒置和用某物覆盖某物。数据集支持的任务是动作识别,目标是对视频中发生的动作进行分类。数据集的注释语言为英语,数据实例包括视频ID、视频文件、文本描述、标签和占位符。数据集分为训练集、验证集和测试集,分别包含168,913、24,777和27,157个样本。数据集的创建目的是通过视频预测任务来增强对物理世界的常识理解。数据集的来源是通过众包工人根据给定的标签收集视频。

The Something-Something Dataset (Version 2) is a collection of 220,847 annotated video clips that show humans performing predefined basic actions with everyday objects. This dataset aims to train machine learning models to achieve fine-grained understanding of human gestures, such as putting an object into another, inverting an object, and covering an object with another. The task supported by this dataset is action recognition, whose goal is to classify the actions occurring in a video. The annotation language of this dataset is English, and each data instance includes video ID, video file, text description, label, and placeholder. The dataset is split into training, validation, and test sets, containing 168,913, 24,777, and 27,157 samples respectively. The dataset was created to enhance common-sense understanding of the physical world via video prediction tasks. The dataset was compiled by collecting videos from crowdworkers based on given labels.
提供机构:
HuggingFaceM4
原始信息汇总

数据集概述

数据集名称

  • 名称: Something Something v2
  • 别名: Something-Something dataset (version 2)

数据集描述

  • 摘要: Something Something v2 是一个包含220,847个标记视频片段的数据集,这些视频展示了人类执行预定义的基本动作,使用日常物品。该数据集旨在训练机器学习模型,以理解精细的人类手势,如将某物放入某物中,将某物倒置,以及用某物覆盖某物。
  • 语言: 数据集的标注语言为英语。

数据集结构

  • 数据实例: 每个数据实例包含视频ID、视频文件、文本描述、标签和占位符。
  • 数据字段:
    • video_id: 视频的唯一标识符。
    • video: 视频文件对象。
    • placeholders: 视频中出现的对象列表。
    • text: 视频中发生的事件描述。
    • labels: 视频中的动作标签,范围从0到173。

数据集创建

  • 来源: 数据集为原创数据,由众包工作者提供视频和标签。
  • 标注过程: 标签先于视频收集,由AMT工作者完成。

数据集使用考虑

  • 社会影响: 该数据集对于动作识别预训练非常有用,因其包含多样化的动作。
  • 许可证: 数据集的许可证为QualComm定义的一页文档,使用前需详细阅读。

引用信息

bibtex @inproceedings{goyal2017something, title={The" something something" video database for learning and evaluating visual common sense}, author={Goyal, Raghav and Ebrahimi Kahou, Samira and Michalski, Vincent and Materzynska, Joanna and Westphal, Susanne and Kim, Heuna and Haenel, Valentin and Fruend, Ingo and Yianilos, Peter and Mueller-Freitag, Moritz and others}, booktitle={Proceedings of the IEEE international conference on computer vision}, pages={5842--5850}, year={2017} }

搜集汇总
数据集介绍
main_image_url
构建方式
Something-Something v2数据集的构建过程体现了对视频数据细粒度理解的追求。该数据集通过众包方式,首先由研究人员提供动作标签,随后由亚马逊土耳其机器人(AMT)工作者根据这些标签录制相应的视频片段。这种逆向的构建方式确保了视频内容与标签的高度一致性,避免了传统数据集中标签与内容不匹配的问题。数据集共包含220,847个视频片段,涵盖了174种不同的基本动作,旨在为机器学习模型提供丰富的训练素材。
使用方法
Something-Something v2数据集主要用于视频动作识别任务,特别是多标签分类任务。研究人员可以通过加载数据集中的视频片段及其对应的标签,训练和评估动作识别模型。数据集已划分为训练集、验证集和测试集,分别包含168,913、24,777和27,157个样本。使用该数据集时,建议结合其提供的文本描述和占位符信息,以提升模型对动作上下文的理解能力。
背景与挑战
背景概述
Something-Something v2数据集由Qualcomm等机构的研究团队于2017年创建,旨在通过视频数据推动机器学习模型对复杂场景和物理世界的深入理解。该数据集包含220,847个标注视频片段,涵盖了人类使用日常物品执行预定义基本动作的场景,如将某物放入某物、翻转某物等。其核心研究问题在于通过视频数据训练模型,使其能够理解细粒度的手势动作,进而提升视觉常识推理能力。该数据集在视频动作识别领域具有重要影响力,为模型提供了丰富的物理世界信息,弥补了静态图像数据在动态场景理解上的不足。
当前挑战
Something-Something v2数据集在构建和应用中面临多重挑战。首先,其核心任务是视频动作识别,要求模型能够从复杂的视频序列中提取并分类细粒度的动作,这对模型的时空建模能力提出了极高要求。其次,数据集的构建过程依赖于众包平台(如AMT)的标注,尽管确保了数据的多样性,但也引入了潜在的标注不一致性和噪声问题。此外,视频数据的采集和标注成本较高,且需要确保视频内容的多样性和代表性,这对数据集的规模和质量提出了双重挑战。最后,如何有效利用该数据集训练出具有泛化能力的模型,仍是当前研究中的一大难题。
常用场景
经典使用场景
Something-Something v2数据集在视频动作识别领域具有广泛的应用,特别是在细粒度动作分类任务中表现出色。该数据集通过提供大量标注视频片段,帮助研究人员训练和评估模型在复杂场景下的动作识别能力。其经典使用场景包括训练深度学习模型以识别和理解人类手势动作,如将某物放入某物、翻转某物等。
解决学术问题
该数据集解决了视频动作识别中的关键问题,即如何从视频中提取和理解细粒度的动作信息。通过提供丰富的标注数据,研究人员能够开发出更精确的模型,以识别和理解复杂的物理世界动作。这不仅推动了计算机视觉领域的发展,还为自然语言处理与视觉知识的结合提供了新的研究方向。
实际应用
在实际应用中,Something-Something v2数据集被广泛用于智能监控、人机交互和虚拟现实等领域。例如,在智能监控系统中,该数据集可以帮助识别异常行为;在人机交互中,它可以用于开发更自然的用户界面;在虚拟现实中,它可以增强虚拟环境的真实感。
数据集最近研究
最新研究方向
在视频理解领域,Something-Something v2数据集因其对人类日常手势的精细标注而备受关注。近年来,研究者们利用该数据集在动作识别任务中取得了显著进展,尤其是在多标签分类和细粒度动作理解方面。随着深度学习技术的不断演进,基于该数据集的模型不仅在动作分类精度上有所提升,还在视频内容的理解和推理能力上展现出更强的潜力。此外,该数据集还被广泛应用于跨模态学习研究,结合自然语言处理技术,推动视频与文本的深度融合,为智能视频分析和人机交互提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作