AudioSetCaps 音频字幕数据集

超神经2024-11-21 更新2024-12-14 收录

下载链接：

https://hyper.ai/cn/datasets/35925

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由西北工业大学、西安联丰声学技术有限公司、南洋理工大学、萨里大学 (University of Surrey) 和中国科学院声学研究所的研究人员于 2024 年发布的，相关论文成果为「AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models」，已被 NeurIPS 24 接受。

This dataset was released in 2024 by researchers from Northwestern Polytechnical University, Xi'an Lianfeng Acoustic Technology Co., Ltd., Nanyang Technological University, University of Surrey, and the Institute of Acoustics, Chinese Academy of Sciences. Its associated research paper titled "AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models" has been accepted by NeurIPS 24.

创建时间：

2024-11-18

搜集汇总

数据集介绍

背景与挑战

背景概述

AudioSetCaps是一个由西北工业大学等机构于2024年发布的音频字幕数据集，包含超过600万个10秒音频文件，每个音频都配有描述性标题和问答对。该数据集通过自动化管道从AudioSet、YouTube-8M和VGGSound等来源生成，旨在支持音频识别和分类任务。

以上内容由遇见数据集搜集并总结生成