HuggingFaceM4/something_something_v2|视频内容分析数据集|机器学习数据集

hugging_face2022-10-20 更新2024-03-04 收录

视频内容分析

机器学习

下载链接：

https://hf-mirror.com/datasets/HuggingFaceM4/something_something_v2

下载链接

链接失效反馈

资源简介：

Something-Something数据集（版本2）是一个包含220,847个标记视频片段的集合，展示了人类使用日常物品执行预定义的基本动作。该数据集旨在训练机器学习模型，以精细理解人类手势，如将某物放入某物、将某物倒置和用某物覆盖某物。数据集支持的任务是动作识别，目标是对视频中发生的动作进行分类。数据集的注释语言为英语，数据实例包括视频ID、视频文件、文本描述、标签和占位符。数据集分为训练集、验证集和测试集，分别包含168,913、24,777和27,157个样本。数据集的创建目的是通过视频预测任务来增强对物理世界的常识理解。数据集的来源是通过众包工人根据给定的标签收集视频。

提供机构：

HuggingFaceM4

原始信息汇总

数据集概述

数据集名称

名称: Something Something v2
别名: Something-Something dataset (version 2)

数据集描述

摘要: Something Something v2 是一个包含220,847个标记视频片段的数据集，这些视频展示了人类执行预定义的基本动作，使用日常物品。该数据集旨在训练机器学习模型，以理解精细的人类手势，如将某物放入某物中，将某物倒置，以及用某物覆盖某物。
语言: 数据集的标注语言为英语。

数据集结构

数据实例: 每个数据实例包含视频ID、视频文件、文本描述、标签和占位符。
数据字段:
- video_id: 视频的唯一标识符。
- video: 视频文件对象。
- placeholders: 视频中出现的对象列表。
- text: 视频中发生的事件描述。
- labels: 视频中的动作标签，范围从0到173。

数据集创建

来源: 数据集为原创数据，由众包工作者提供视频和标签。
标注过程: 标签先于视频收集，由AMT工作者完成。

数据集使用考虑

社会影响: 该数据集对于动作识别预训练非常有用，因其包含多样化的动作。
许可证: 数据集的许可证为QualComm定义的一页文档，使用前需详细阅读。

引用信息

bibtex @inproceedings{goyal2017something, title={The" something something" video database for learning and evaluating visual common sense}, author={Goyal, Raghav and Ebrahimi Kahou, Samira and Michalski, Vincent and Materzynska, Joanna and Westphal, Susanne and Kim, Heuna and Haenel, Valentin and Fruend, Ingo and Yianilos, Peter and Mueller-Freitag, Moritz and others}, booktitle={Proceedings of the IEEE international conference on computer vision}, pages={5842--5850}, year={2017} }

AI搜集汇总

数据集介绍

构建方式

Something-Something v2数据集的构建过程体现了对视频数据细粒度理解的追求。该数据集通过众包方式，首先由研究人员提供动作标签，随后由亚马逊土耳其机器人（AMT）工作者根据这些标签录制相应的视频片段。这种逆向的构建方式确保了视频内容与标签的高度一致性，避免了传统数据集中标签与内容不匹配的问题。数据集共包含220,847个视频片段，涵盖了174种不同的基本动作，旨在为机器学习模型提供丰富的训练素材。

使用方法

Something-Something v2数据集主要用于视频动作识别任务，特别是多标签分类任务。研究人员可以通过加载数据集中的视频片段及其对应的标签，训练和评估动作识别模型。数据集已划分为训练集、验证集和测试集，分别包含168,913、24,777和27,157个样本。使用该数据集时，建议结合其提供的文本描述和占位符信息，以提升模型对动作上下文的理解能力。

背景与挑战

背景概述

Something-Something v2数据集由Qualcomm等机构的研究团队于2017年创建，旨在通过视频数据推动机器学习模型对复杂场景和物理世界的深入理解。该数据集包含220,847个标注视频片段，涵盖了人类使用日常物品执行预定义基本动作的场景，如将某物放入某物、翻转某物等。其核心研究问题在于通过视频数据训练模型，使其能够理解细粒度的手势动作，进而提升视觉常识推理能力。该数据集在视频动作识别领域具有重要影响力，为模型提供了丰富的物理世界信息，弥补了静态图像数据在动态场景理解上的不足。

当前挑战

Something-Something v2数据集在构建和应用中面临多重挑战。首先，其核心任务是视频动作识别，要求模型能够从复杂的视频序列中提取并分类细粒度的动作，这对模型的时空建模能力提出了极高要求。其次，数据集的构建过程依赖于众包平台（如AMT）的标注，尽管确保了数据的多样性，但也引入了潜在的标注不一致性和噪声问题。此外，视频数据的采集和标注成本较高，且需要确保视频内容的多样性和代表性，这对数据集的规模和质量提出了双重挑战。最后，如何有效利用该数据集训练出具有泛化能力的模型，仍是当前研究中的一大难题。

常用场景

经典使用场景

Something-Something v2数据集在视频动作识别领域具有广泛的应用，特别是在细粒度动作分类任务中表现出色。该数据集通过提供大量标注视频片段，帮助研究人员训练和评估模型在复杂场景下的动作识别能力。其经典使用场景包括训练深度学习模型以识别和理解人类手势动作，如将某物放入某物、翻转某物等。

解决学术问题

该数据集解决了视频动作识别中的关键问题，即如何从视频中提取和理解细粒度的动作信息。通过提供丰富的标注数据，研究人员能够开发出更精确的模型，以识别和理解复杂的物理世界动作。这不仅推动了计算机视觉领域的发展，还为自然语言处理与视觉知识的结合提供了新的研究方向。

实际应用

在实际应用中，Something-Something v2数据集被广泛用于智能监控、人机交互和虚拟现实等领域。例如，在智能监控系统中，该数据集可以帮助识别异常行为；在人机交互中，它可以用于开发更自然的用户界面；在虚拟现实中，它可以增强虚拟环境的真实感。

数据集最近研究

最新研究方向

在视频理解领域，Something-Something v2数据集因其对人类日常手势的精细标注而备受关注。近年来，研究者们利用该数据集在动作识别任务中取得了显著进展，尤其是在多标签分类和细粒度动作理解方面。随着深度学习技术的不断演进，基于该数据集的模型不仅在动作分类精度上有所提升，还在视频内容的理解和推理能力上展现出更强的潜力。此外，该数据集还被广泛应用于跨模态学习研究，结合自然语言处理技术，推动视频与文本的深度融合，为智能视频分析和人机交互提供了新的研究方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

coin_001_sample

这是一个包含180张精心拍摄的钱币图像的数据集，每张图像都采用极简摄影技术，以展示货币的视觉和触觉特性。数据集中的图像以PNG格式存储，拥有512x512的分辨率和170 dpi的清晰度，每个图像都配有至少40个文本标签。

huggingface 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录