avset10m/avset10m

Name: avset10m/avset10m
Creator: avset10m
Published: 2024-06-12 11:26:03
License: 暂无描述

Hugging Face2024-06-12 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/avset10m/avset10m

下载链接

链接失效反馈

官方服务：

资源简介：

AVSET-10M数据集是一个综合性的音视频样本集合，旨在用于多媒体内容分析、音视频识别和机器学习研究。该数据集分为两个子集：AVSET-700K和AVSET-10M（不包括AVSET-700K）。AVSET-700K子集包含727,530个精心筛选自AudioSet的音视频对应样本，每个视频片段都附有手动标记的音频类别，确保了音视频样本的准确分类和相关性。AVSET-10M（不包括AVSET-700K）子集包含9,877,475个从庞大的Panda-70M数据集中筛选出的音视频对应样本，重点关注于单一事件的语义连贯视频片段，并包括从原始Panda70M数据集来源的文本描述，以及使用PANNs生成的音频类别的伪标签及其相应的置信度分数。每个视频片段都包含全面的元信息，如Youtube ID、开始时间、结束时间、音视频相似度（AVC）、声音分离标志和相关标签。

提供机构：

avset10m

原始信息汇总

AVSET-10M 数据集

概述

AVSET-10M 数据集是一个综合的音视频样本集合，专为多媒体内容分析、音视频识别和机器学习研究设计。该数据集分为两个不同的子集：AVSET-700K 和 AVSET-10M（不包括 AVSET-700K）。数据集提供了丰富的元信息，增强了其在多样研究应用中的实用性。

数据集组成

AVSET-10M 分为两个子集：

1. AVSET-700K

描述: 该子集包含 727,530 个经过精心筛选的音视频对应样本，来自 AudioSet。
特征:
- 每个视频片段都附有手动标注的音频类别。
- 确保音视频样本的准确分类和相关性。

2. AVSET-10M（不包括 AVSET-700K）

描述: 该子集包含 9,877,475 个音视频对应样本，筛选自庞大的 Panda-70M 数据集。
特征:
- 专注于语义一致的视频片段，集中于单一事件。
- 包含从原始 Panda70M 数据集提取的文本描述。
- 提供音频类别的伪标签及其对应的置信度分数，伪标签由 PANNs 生成。

数据集结构

AVSET-10M 数据集的目录结构如下：

AVSET-10M/ │ ├── AVSET-700K/ │ ├── unbalanced_train_segments_part00.json │ ├── ... │ └── unbalanced_train_segments_part40.json │ ├── AVSET-10M(excluding-700K)/ │ ├── split_000.json │ ├── ... │ └── split_399.json │ └── ontology.json

元信息

AVSET-10M 数据集中的每个视频片段都包含全面的元信息：

Youtube ID: 用于获取下载链接的 YoutubeID。
开始时间: 每个视频片段的具体开始时间。
结束时间: 每个视频片段的具体结束时间。
AVC: 衡量音频和视频组件之间的相似性。
声音分离标志: 指示是否需要对片段进行声音分离。"1" 表示需要声音分离。
标签: 与每个片段相关的文本描述或标签。

AVSET-10M（不包括 AVSET-700K）的额外细节

伪标签: 带有置信度分数的音频类别，用于辅助数据集的分区和分析。

搜集汇总

数据集介绍

构建方式

AVSET-10M数据集的构建采用了对AudioSet和Panda-70M两个大规模数据集进行筛选的方式，形成了两个子集：AVSET-700K与AVSET-10M（不包含AVSET-700K）。AVSET-700K子集通过精心挑选，确保了每个音频视觉样本的准确分类与相关性；而AVSET-10M子集则聚焦于单一事件的语义连贯视频片段，并利用PANNs模型为音频类别提供伪标签及置信度分数。

特点

该数据集的特点在于其丰富的元信息，包括每个视频片段的YouTube ID、起始时间、结束时间、音频视觉组件相似度测量值（AVC），以及是否需要声音分离的标志。此外，AVSET-10M（不包含AVSET-700K）的子集还提供了基于原始Panda70M数据集的文本描述和音频类别的伪标签，以便于数据集的划分与分析。

使用方法

用户可以通过访问数据集的目录结构来使用AVSET-10M，该结构包括两个子集的JSON文件，以及一个ontology.json文件。每个JSON文件包含了一系列视频片段的详细信息，用户可以根据需要下载对应的视频片段，并利用提供的元信息和伪标签进行多媒体内容分析、音频视觉识别以及机器学习研究。

背景与挑战

背景概述

AVSET-10M数据集是一项针对多媒体内容分析、音视频识别及机器学习研究的大型音视频样本集合。该数据集的构建旨在推动相关领域的研究进展，由两部分组成：AVSET-700K与AVSET-10M（不包含AVSET-700K）。AVSET-700K子集经过精心筛选，包含727,530个音视频对应样本，每个视频片段均配有手动标注的音频类别，确保了样本的准确分类和相关性。AVSET-10M子集则包括9,877,475个音视频对应样本，专注于单一事件的语义连贯视频片段，并包含来自原始Panda70M数据集的文本描述。该数据集由相关研究人员或机构在某个时间点创建，对音视频识别领域产生了显著影响，为研究者提供了丰富的元信息，增强了其在多样化研究应用中的效用。

当前挑战

该数据集在研究领域中面临的挑战主要包括：1）音视频样本的准确匹配和标注，这对于确保数据集的质量至关重要；2）数据集的规模巨大，带来的存储、处理和分析挑战；3）音视频识别领域中的多模态融合问题，如何有效结合音频和视觉信息以提升识别准确率；4）pseudo-label的生成与真实标签之间的偏差，可能影响模型的训练效果；5）遵循相关许可规定，确保数据集的合法合规使用。

常用场景

经典使用场景

在多媒体内容分析与音频视觉识别研究领域，AVSET-10M数据集以其丰富的音频视觉样本资源，成为学术探索的重要基石。该数据集的经典使用场景主要集中于对音频视觉对应关系的深度挖掘，以及对大规模样本进行机器学习模型的训练与验证，进而提升模型在音频视觉识别任务中的准确度和鲁棒性。

衍生相关工作

基于AVSET-10M数据集，学术界衍生出了一系列经典工作，包括但不限于音频视觉联合表征学习、跨模态信息融合技术以及伪标签技术在音频分类中的应用研究，这些工作进一步推动了多媒体分析领域的技术发展，并为相关应用场景提供了理论依据和技术支持。

数据集最近研究