five

Exgc/AVSET-10M

收藏
Hugging Face2024-06-12 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Exgc/AVSET-10M
下载链接
链接失效反馈
官方服务:
资源简介:
AVSET-10M数据集是一个用于多媒体内容分析、音频-视觉识别和机器学习研究的综合音频-视觉样本集合。它分为两个子集:AVSET-700K和AVSET-10M(不包括AVSET-700K)。AVSET-700K包含727,530个音频-视觉对应样本,每个视频片段都带有手动标记的音频类别。AVSET-10M(不包括AVSET-700K)包含9,877,475个音频-视觉对应样本,这些样本从Panda-70M数据集中筛选出来,并包括文本描述和伪标签。每个视频片段都包含YouTube ID、开始时间、结束时间、音频-视觉相似度(AVC)、声音分离标志和标签等元信息。

AVSET-10M is a comprehensive audio-visual sample collection designed for multimedia content analysis, audio-visual recognition and machine learning research. It comprises two subsets: AVSET-700K and AVSET-10M (excluding AVSET-700K). AVSET-700K contains 727,530 audio-visual paired samples, with each video clip annotated with manually labeled audio categories. AVSET-10M (excluding AVSET-700K) includes 9,877,475 audio-visual paired samples filtered from the Panda-70M dataset, which come with text descriptions and pseudo-labels. Each video clip contains metadata such as YouTube ID, start time, end time, audio-visual similarity (AVC), voice separation flag and category labels.
提供机构:
Exgc
原始信息汇总

AVSET-10M 数据集

概述

AVSET-10M 数据集是一个综合的音视频样本集合,专为多媒体内容分析、音视频识别和机器学习研究设计。该数据集分为两个不同的子集:AVSET-700K 和 AVSET-10M(不包括 AVSET-700K)。数据集提供了丰富的元信息,增强了其在多样研究应用中的实用性。

数据集组成

AVSET-10M 分为两个子集:

1. AVSET-700K

  • 描述: 该子集包含 727,530 个经过精心筛选的音视频对应样本,来自 AudioSet。
  • 特征:
    • 每个视频片段都附有手动标记的音频类别。
    • 确保音视频样本的准确分类和相关性。

2. AVSET-10M(不包括 AVSET-700K)

  • 描述: 该子集包含 9,877,475 个音视频对应样本,来自 Panda-70M 数据集。
  • 特征:
    • 专注于语义一致的视频片段,集中于单一事件。
    • 包含从原始 Panda70M 数据集提取的文本描述。
    • 提供音频类别的伪标签及其对应的置信度分数,使用 PANNs 生成。

数据集结构

AVSET-10M 数据集的目录结构如下:

AVSET-10M/ │ ├── AVSET-700K/ │ ├── unbalanced_train_segments_part00.json │ ├── ... │ └── unbalanced_train_segments_part40.json │ ├── AVSET-10M(excluding-700K)/ │ ├── split_000.json │ ├── ... │ └── split_399.json │ └── ontology.json

元信息

AVSET-10M 数据集中的每个视频片段都包含全面的元信息:

  • Youtube ID: 用于获取下载链接的 YoutubeID。
  • 开始时间: 每个视频片段的具体开始时间。
  • 结束时间: 每个视频片段的具体结束时间。
  • AVC: 衡量音频和视频组件之间的相似性。
  • 标志(声音分离): 指示是否需要对片段进行声音分离。"1" 表示需要声音分离。
  • 标签: 与每个片段相关的文本描述或标签。

AVSET-10M(不包括 AVSET-700K)的额外细节

  • 伪标签: 带有置信度分数的音频类别,用于辅助数据集的分区和分析。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
AVSET-10M数据集包含两个子集:AVSET-700K(727,530个样本,来自AudioSet)和AVSET-10M(9,877,475个样本,来自Panda-70M),提供音频-视觉对应样本、文本描述和伪标签,适用于多媒体研究和机器学习。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作