five

HuggingFaceM4/something_something_v2|视频内容分析数据集|机器学习数据集

收藏
hugging_face2022-10-20 更新2024-03-04 收录
视频内容分析
机器学习
下载链接:
https://hf-mirror.com/datasets/HuggingFaceM4/something_something_v2
下载链接
链接失效反馈
资源简介:
Something-Something数据集(版本2)是一个包含220,847个标记视频片段的集合,展示了人类使用日常物品执行预定义的基本动作。该数据集旨在训练机器学习模型,以精细理解人类手势,如将某物放入某物、将某物倒置和用某物覆盖某物。数据集支持的任务是动作识别,目标是对视频中发生的动作进行分类。数据集的注释语言为英语,数据实例包括视频ID、视频文件、文本描述、标签和占位符。数据集分为训练集、验证集和测试集,分别包含168,913、24,777和27,157个样本。数据集的创建目的是通过视频预测任务来增强对物理世界的常识理解。数据集的来源是通过众包工人根据给定的标签收集视频。
提供机构:
HuggingFaceM4
原始信息汇总

数据集概述

数据集名称

  • 名称: Something Something v2
  • 别名: Something-Something dataset (version 2)

数据集描述

  • 摘要: Something Something v2 是一个包含220,847个标记视频片段的数据集,这些视频展示了人类执行预定义的基本动作,使用日常物品。该数据集旨在训练机器学习模型,以理解精细的人类手势,如将某物放入某物中,将某物倒置,以及用某物覆盖某物。
  • 语言: 数据集的标注语言为英语。

数据集结构

  • 数据实例: 每个数据实例包含视频ID、视频文件、文本描述、标签和占位符。
  • 数据字段:
    • video_id: 视频的唯一标识符。
    • video: 视频文件对象。
    • placeholders: 视频中出现的对象列表。
    • text: 视频中发生的事件描述。
    • labels: 视频中的动作标签,范围从0到173。

数据集创建

  • 来源: 数据集为原创数据,由众包工作者提供视频和标签。
  • 标注过程: 标签先于视频收集,由AMT工作者完成。

数据集使用考虑

  • 社会影响: 该数据集对于动作识别预训练非常有用,因其包含多样化的动作。
  • 许可证: 数据集的许可证为QualComm定义的一页文档,使用前需详细阅读。

引用信息

bibtex @inproceedings{goyal2017something, title={The" something something" video database for learning and evaluating visual common sense}, author={Goyal, Raghav and Ebrahimi Kahou, Samira and Michalski, Vincent and Materzynska, Joanna and Westphal, Susanne and Kim, Heuna and Haenel, Valentin and Fruend, Ingo and Yianilos, Peter and Mueller-Freitag, Moritz and others}, booktitle={Proceedings of the IEEE international conference on computer vision}, pages={5842--5850}, year={2017} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Something-Something v2数据集的构建过程体现了对视频数据细粒度理解的追求。该数据集通过众包方式,首先由研究人员提供动作标签,随后由亚马逊土耳其机器人(AMT)工作者根据这些标签录制相应的视频片段。这种逆向的构建方式确保了视频内容与标签的高度一致性,避免了传统数据集中标签与内容不匹配的问题。数据集共包含220,847个视频片段,涵盖了174种不同的基本动作,旨在为机器学习模型提供丰富的训练素材。
使用方法
Something-Something v2数据集主要用于视频动作识别任务,特别是多标签分类任务。研究人员可以通过加载数据集中的视频片段及其对应的标签,训练和评估动作识别模型。数据集已划分为训练集、验证集和测试集,分别包含168,913、24,777和27,157个样本。使用该数据集时,建议结合其提供的文本描述和占位符信息,以提升模型对动作上下文的理解能力。
背景与挑战
背景概述
Something-Something v2数据集由Qualcomm等机构的研究团队于2017年创建,旨在通过视频数据推动机器学习模型对复杂场景和物理世界的深入理解。该数据集包含220,847个标注视频片段,涵盖了人类使用日常物品执行预定义基本动作的场景,如将某物放入某物、翻转某物等。其核心研究问题在于通过视频数据训练模型,使其能够理解细粒度的手势动作,进而提升视觉常识推理能力。该数据集在视频动作识别领域具有重要影响力,为模型提供了丰富的物理世界信息,弥补了静态图像数据在动态场景理解上的不足。
当前挑战
Something-Something v2数据集在构建和应用中面临多重挑战。首先,其核心任务是视频动作识别,要求模型能够从复杂的视频序列中提取并分类细粒度的动作,这对模型的时空建模能力提出了极高要求。其次,数据集的构建过程依赖于众包平台(如AMT)的标注,尽管确保了数据的多样性,但也引入了潜在的标注不一致性和噪声问题。此外,视频数据的采集和标注成本较高,且需要确保视频内容的多样性和代表性,这对数据集的规模和质量提出了双重挑战。最后,如何有效利用该数据集训练出具有泛化能力的模型,仍是当前研究中的一大难题。
常用场景
经典使用场景
Something-Something v2数据集在视频动作识别领域具有广泛的应用,特别是在细粒度动作分类任务中表现出色。该数据集通过提供大量标注视频片段,帮助研究人员训练和评估模型在复杂场景下的动作识别能力。其经典使用场景包括训练深度学习模型以识别和理解人类手势动作,如将某物放入某物、翻转某物等。
解决学术问题
该数据集解决了视频动作识别中的关键问题,即如何从视频中提取和理解细粒度的动作信息。通过提供丰富的标注数据,研究人员能够开发出更精确的模型,以识别和理解复杂的物理世界动作。这不仅推动了计算机视觉领域的发展,还为自然语言处理与视觉知识的结合提供了新的研究方向。
实际应用
在实际应用中,Something-Something v2数据集被广泛用于智能监控、人机交互和虚拟现实等领域。例如,在智能监控系统中,该数据集可以帮助识别异常行为;在人机交互中,它可以用于开发更自然的用户界面;在虚拟现实中,它可以增强虚拟环境的真实感。
数据集最近研究
最新研究方向
在视频理解领域,Something-Something v2数据集因其对人类日常手势的精细标注而备受关注。近年来,研究者们利用该数据集在动作识别任务中取得了显著进展,尤其是在多标签分类和细粒度动作理解方面。随着深度学习技术的不断演进,基于该数据集的模型不仅在动作分类精度上有所提升,还在视频内容的理解和推理能力上展现出更强的潜力。此外,该数据集还被广泛应用于跨模态学习研究,结合自然语言处理技术,推动视频与文本的深度融合,为智能视频分析和人机交互提供了新的研究方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

人民日报语料库

该数据集包含2023年5月至2024年4月期间人民日报的全部文章,以JSON格式保存,每篇文章包含URL、标题和内容。

github 收录

Set5

Set5数据集是一个包含5张图像的图像超分辨率测试数据集,包括'baby', 'bird', 'butterfly', 'head', 'woman',通常用于评估图像超分辨率模型的性能。

huggingface 收录

Global Volcanism Program (GVP)

该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。

volcano.si.edu 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

github 收录