Exgc/AVSET-10M

Name: Exgc/AVSET-10M
Creator: Exgc
Published: 2024-06-12 07:36:18
License: 暂无描述

Hugging Face2024-06-12 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/Exgc/AVSET-10M

下载链接

链接失效反馈

官方服务：

资源简介：

AVSET-10M数据集是一个用于多媒体内容分析、音频-视觉识别和机器学习研究的综合音频-视觉样本集合。它分为两个子集：AVSET-700K和AVSET-10M（不包括AVSET-700K）。AVSET-700K包含727,530个音频-视觉对应样本，每个视频片段都带有手动标记的音频类别。AVSET-10M（不包括AVSET-700K）包含9,877,475个音频-视觉对应样本，这些样本从Panda-70M数据集中筛选出来，并包括文本描述和伪标签。每个视频片段都包含YouTube ID、开始时间、结束时间、音频-视觉相似度（AVC）、声音分离标志和标签等元信息。

AVSET-10M is a comprehensive audio-visual sample collection designed for multimedia content analysis, audio-visual recognition and machine learning research. It comprises two subsets: AVSET-700K and AVSET-10M (excluding AVSET-700K). AVSET-700K contains 727,530 audio-visual paired samples, with each video clip annotated with manually labeled audio categories. AVSET-10M (excluding AVSET-700K) includes 9,877,475 audio-visual paired samples filtered from the Panda-70M dataset, which come with text descriptions and pseudo-labels. Each video clip contains metadata such as YouTube ID, start time, end time, audio-visual similarity (AVC), voice separation flag and category labels.

提供机构：

Exgc

原始信息汇总

AVSET-10M 数据集

概述

AVSET-10M 数据集是一个综合的音视频样本集合，专为多媒体内容分析、音视频识别和机器学习研究设计。该数据集分为两个不同的子集：AVSET-700K 和 AVSET-10M（不包括 AVSET-700K）。数据集提供了丰富的元信息，增强了其在多样研究应用中的实用性。

数据集组成

AVSET-10M 分为两个子集：

1. AVSET-700K

描述: 该子集包含 727,530 个经过精心筛选的音视频对应样本，来自 AudioSet。
特征:
- 每个视频片段都附有手动标记的音频类别。
- 确保音视频样本的准确分类和相关性。

2. AVSET-10M（不包括 AVSET-700K）

描述: 该子集包含 9,877,475 个音视频对应样本，来自 Panda-70M 数据集。
特征:
- 专注于语义一致的视频片段，集中于单一事件。
- 包含从原始 Panda70M 数据集提取的文本描述。
- 提供音频类别的伪标签及其对应的置信度分数，使用 PANNs 生成。

数据集结构

AVSET-10M 数据集的目录结构如下：

AVSET-10M/ │ ├── AVSET-700K/ │ ├── unbalanced_train_segments_part00.json │ ├── ... │ └── unbalanced_train_segments_part40.json │ ├── AVSET-10M(excluding-700K)/ │ ├── split_000.json │ ├── ... │ └── split_399.json │ └── ontology.json