AViD

Name: AViD
Creator: 印第安纳大学
Published: 2020-11-03 23:10:44
License: 暂无描述

arXiv2020-11-03 更新2024-06-21 收录

下载链接：

https://github.com/piergiaj/AViD

下载链接

链接失效反馈

官方服务：

资源简介：

AViD数据集是由印第安纳大学创建的一个公共视频数据集，专注于动作识别领域。该数据集收集了来自全球多个国家的匿名视频，旨在为动作识别模型的训练和预训练提供多样化的数据资源。AViD数据集的特点在于其视频内容的全球多样性和对视频中人脸身份的隐私保护处理。数据集中的每个视频都拥有创意共享许可证，确保了数据的可重复使用性。AViD数据集的应用领域广泛，主要用于提高模型对不同文化和地区动作的理解能力，解决现有数据集在地理多样性上的不足。

The AViD dataset is a public video dataset created by Indiana University, focusing on the field of action recognition. It collects anonymized videos from multiple countries across the globe, aiming to provide diversified data resources for the training and pre-training of action recognition models. A distinctive feature of the AViD dataset is the global diversity of its video content and the privacy protection measures applied to facial identities within the videos. Every video in the dataset is licensed under a Creative Commons license, ensuring the reusability of the dataset. The AViD dataset has broad application scenarios, mainly used to enhance models' capacity to understand actions across diverse cultures and regions, thus addressing the deficiency of geographic diversity in existing datasets.

提供机构：

印第安纳大学

创建时间：

2020-07-11

搜集汇总

数据集介绍

构建方式

在视频动作识别领域，数据集的构建方式直接影响模型的泛化能力。AViD数据集的构建过程体现了对多样性和可重复性的高度重视。其构建始于动作类别的设计，整合了Kinetics、Charades和Moments in Time等现有数据集的类别，并移除了涉及面部的动作以确保隐私。随后，研究团队将动作类别翻译为22种语言，从Flickr、Instagram等多个具有知识共享许可的网站广泛采集视频，确保了视频来源的地理多样性。通过从原始视频中采样候选片段，并利用亚马逊众包平台进行人工标注，辅以I3D模型的预测建议，最终构建了包含约45万标注片段的静态数据集。所有视频均经过人脸模糊处理，以保护个人隐私，同时数据集提供了层次化的动作类别和弱标签注释，为多层次研究提供了丰富资源。

特点

AViD数据集在动作识别领域展现出若干独特优势，其核心特征在于地理多样性与隐私保护的结合。与以往偏向北美地区的视频数据集不同，AViD通过多语言查询和全球范围采集，实现了视频来源的均衡分布，覆盖了北美、拉丁美洲、欧洲、亚洲和非洲等多个区域，显著降低了地域偏差。数据集中的所有视频均经过人脸模糊处理，有效保护了个人身份信息，同时移除了依赖面部识别的动作类别，平衡了隐私与识别可行性。此外，AViD是一个静态数据集，所有视频均采用知识共享许可，确保了长期可访问性和研究可重复性。数据集包含887个动作类别，并提供了层次化结构和弱标签注释，支持从粗粒度到细粒度的动作分析，为模型训练和迁移学习提供了坚实基础。

使用方法

AViD数据集在视频动作识别研究中具有广泛的应用价值，其使用方法涵盖了模型训练、预训练和算法评估等多个方面。研究人员可将AViD直接用于动作识别模型的训练，利用其丰富的动作类别和地理多样性来提升模型的泛化能力。数据集的静态特性和易下载性确保了实验的可重复性，避免了因视频链接失效导致的数据不一致问题。在预训练场景中，AViD可作为大型视频模型的初始化数据源，实验表明其在HMDB-51和Charades等下游任务上的微调效果与或优于现有数据集。此外，数据集提供的弱标签和层次化结构支持弱监督学习和分层分类研究。对于注重隐私的研究机构，AViD的人脸模糊处理使其成为符合伦理要求的安全选择。用户还可利用其地理标签进行偏差分析，探索文化差异对动作识别的影响，推动更具包容性的算法发展。

背景与挑战

背景概述

视频动作识别作为计算机视觉领域的重要分支，其模型训练高度依赖于大规模标注数据集。然而，传统数据集如Kinetics等在视频来源上存在显著的地理偏差，多数视频集中于北美地区，导致模型难以泛化至全球多样化的文化场景。为应对这一挑战，印第安纳大学的AJ Piergiovanni与石溪大学的Michael S. Ryoo于近年联合创建了AViD数据集，其核心目标在于构建一个覆盖多国家、多文化的静态视频资源，以促进动作识别模型的公平训练与预测。该数据集通过采集来自Flickr、Instagram等多平台的创意共享许可视频，并实施人脸匿名化处理，不仅保障了隐私权，还确保了数据的可重复性与稳定性，为全球研究者提供了更为均衡的基准资源。

当前挑战

AViD数据集致力于解决动作识别领域因数据地理偏差导致的模型泛化能力不足问题，其挑战主要体现在两方面：在领域问题层面，需克服文化差异对动作定义与执行方式的影响，例如不同国家的问候手势各异，模型需从多样化样本中学习本质特征；在构建过程中，面临多语言查询、视频源分散与版权协调等复杂性，同时人脸匿名化处理虽保护了隐私，却排除了面部相关动作类别，限制了数据集的完整性。此外，确保视频地理分布的均衡性需精细设计采集策略，而静态数据集的维护亦要求长期稳定的存储与访问机制。

常用场景

经典使用场景

在视频行为识别领域，AViD数据集以其地理多样性和隐私保护特性，成为训练和预训练模型的经典资源。该数据集通过覆盖全球多个国家的视频样本，有效缓解了传统数据集因地域偏差导致的模型泛化能力不足问题。研究者常利用AViD进行跨文化行为模式的对比分析，例如不同国家的问候方式差异，从而提升模型对多样化场景的适应能力。

解决学术问题

AViD数据集主要解决了视频行为识别中因数据源单一导致的地域偏差问题。传统数据集如Kinetics多集中于北美地区，使得模型难以准确识别其他文化背景下的行为模式。AViD通过整合来自五大洲的匿名化视频，提供了更均衡的数据分布，显著提升了模型在全球范围内的泛化性能。此外，其静态特性和知识共享许可确保了研究的可重复性，为公平学术比较奠定了基础。

衍生相关工作

围绕AViD数据集已衍生出多项重要研究工作。例如，研究者利用其层级化动作标签体系开发了细粒度行为分类模型，通过弱标签学习机制探索了半监督视频理解方法。在时空建模方面，基于AViD的时序分析推动了SlowFast等双路径网络架构的优化。此外，该数据集还促进了跨域行为识别迁移学习框架的发展，为文化适应性视频分析提供了新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集