TACOS

Name: TACOS
Creator: 奥地利约翰内斯开普勒大学计算感知研究所（CP-JKU）和LIT人工智能实验室
Published: 2025-05-12 22:30:39
License: 暂无描述

arXiv2025-05-12 更新2025-05-14 收录

下载链接：

https://zenodo.org/records/15379789

下载链接

链接失效反馈

官方服务：

资源简介：

TACOS数据集由奥地利约翰内斯开普勒大学计算感知研究所和LIT人工智能实验室创建，包含约12358个音频记录，每个音频记录都附有与特定时间段对应的单句自由文本描述。数据集由Freesound平台收集，旨在为语言-音频预训练模型提供更强的时序监督，以改善音频与文本描述的关联学习。数据集可用于预训练、零样本分类、音频检索、音频字幕和文本条件音频生成等多种任务。

The TACOS dataset was created by the Institute of Computational Perception at Johannes Kepler University Linz, Austria, and the LIT AI Lab. It comprises approximately 12,358 audio recordings, each paired with a single-sentence free-text description corresponding to a specific time segment within the respective audio clip. Collected from the Freesound platform, this dataset is designed to provide stronger temporal supervision for language-audio pretrained models, so as to enhance the associative learning between audio content and their matching text descriptions. The TACOS dataset supports a wide range of tasks, including pretraining, zero-shot classification, audio retrieval, audio captioning, and text-conditioned audio generation.

提供机构：

奥地利约翰内斯开普勒大学计算感知研究所（CP-JKU）和LIT人工智能实验室

创建时间：

2025-05-12

原始信息汇总

TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining

数据集概述

名称: TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining
发布日期: 2025年5月10日
版本: v1
许可: 开放获取
DOI: 10.5281/zenodo.15379789

创作者

Primus, Paul (Johannes Kepler University of Linz)
Schmid, Florian (Johannes Kepler University of Linz)
Widmer, Gerhard (Johannes Kepler University of Linz)

描述

内容: 包含12,358个音频记录，标注了47,748个时间对齐的音频字幕（即声音事件的文本描述及其对应的时间起点和终点）。
附加信息: 每个音频文件还配有一个弱字幕，这些字幕是使用OpenAI的gpt-4o-mini-2024-07-18自动生成的。
引用: 使用该数据集时，请引用相关论文（预印本可在arXiv获取）。

文件列表

annotations_strong.csv (4.1 MB) - 强标注字幕文件
annotations_weak.csv (1.3 MB) - 弱标注字幕文件
audio.zip (1.6 GB) - 音频文件集合
development_split.csv (112.8 kB) - 开发集分割文件
metadata.csv (8.1 MB) - 元数据文件
test_split.csv (21.8 kB) - 测试集分割文件

许可信息

音频和元数据: 源自FreeSound平台，受各自独立许可约束。
字幕: 使用CC BY 4.0许可，要求适当署名。

关键词

Machine Listening
Audio Captioning
Text-Audio Models
Dataset
Deep Learning

统计信息

总浏览量: 86
总下载量: 122
总数据量: 5.5 GB

引用格式

Primus, P., Schmid, F., & Widmer, G. (2025). TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining [Data set]. Zenodo. https://doi.org/10.5281/zenodo.15379789

搜集汇总

数据集介绍

构建方式

在音频信号处理领域，TACOS数据集的构建采用了多阶段精细化的方法。研究团队从Freesound平台通过API收集了19,230个音频片段，基于两级本体论（7个超类和59个子类）进行筛选，确保音频质量（32kHz采样率、16位深度、15-300秒时长）。通过人工标注与AI清洗相结合的方式，337名标注者在Label Studio平台上对15,642个音频文件进行时间对齐标注，生成47,748条强标注（平均每个音频3.57个区域）。标注后采用GPT-4模型进行语言规范化处理，消除语法错误和非听觉事件描述，并自动生成弱标注作为补充。

特点

TACOS数据集的核心价值体现在其时间对齐的强标注特性上。相较于传统全局标注数据集（如AudioCaps、Clotho），该数据集提供了精确到20ms时间分辨率的文本-音频对齐标注，覆盖12,358个音频文件（总计76.59小时）。其标注词汇量达5,952个独特单词，展现出比同类数据集更高的语义多样性。独特的双层标注体系（强标注+AI生成的弱标注）既支持帧级对比学习，也兼容传统CLAP式训练。数据分布显示，92.84%的音频时间段被标注覆盖，其中短时事件标注（<5秒）占比显著，这对捕捉瞬态声学事件具有特殊价值。

使用方法

该数据集专为时间敏感的音频-语言多模态任务设计。研究者可采用帧级对比学习策略，将RoBERTa文本编码器与ASiT音频编码器输出的时间序列嵌入进行对齐，通过公式(6)的帧级对比损失实现细粒度跨模态映射。具体应用时，建议先使用Clotho数据集进行弱标注预训练，再在TACOS上微调以提升时间对齐能力。评估阶段可通过计算文本描述与音频片段的余弦相似度序列，在AudioSet Strong基准上执行基于文本的声音事件检测。数据集的固定训练/测试划分（10,358/2,000）保持了本体论子类的分布一致性，确保评估结果的代表性。

背景与挑战

背景概述

TACOS（Temporally-aligned Audio CaptiOnS）数据集由奥地利约翰内斯开普勒大学计算感知研究所（CP-JKU）和LIT人工智能实验室的研究团队于2025年创建，旨在解决音频与文本对齐的细粒度监督问题。该数据集包含约12,000条来自Freesound平台的音频记录，每条记录均标注了与特定时间片段对应的单句自由文本描述。TACOS的推出填补了现有音频-文本数据集（如Clotho、AudioCaps）仅提供全局描述的空白，为音频语言预训练、零样本分类、音频检索等任务提供了更精确的时间对齐监督信号，推动了多模态音频语言模型的发展。

当前挑战

TACOS数据集面临的挑战主要体现在两方面：领域问题层面，现有音频-文本模型对事件时序关系不敏感，全局池化操作导致时间结构信息丢失，且缺乏表达复杂时序关系的训练数据；构建过程层面，需解决非听觉事件参考、语音转录、拼写错误等标注噪声的清洗问题，同时需平衡标注者语言偏差与听觉感知的一致性。此外，短时声音事件的精确标注（如平均3.57区域/音频）和跨标注者的时序对齐差异（如10%文件的多标注者校验）也增加了数据集的构建复杂度。

常用场景

经典使用场景

TACOS数据集在音频-语言多模态研究领域展现了其独特的价值，尤其在时间对齐的音频描述任务中表现突出。该数据集通过提供精确的时间标注文本描述，使得模型能够学习到音频信号与文本描述之间的细粒度对齐关系。这一特性使其成为音频检索、音频描述生成等任务的理想选择，特别是在需要理解音频中时间动态变化的场景中。

衍生相关工作

TACOS数据集已经催生了一系列创新性研究，特别是在时间敏感的音频-语言模型方面。基于该数据集，研究者们开发了多种帧级对比学习策略，显著提升了模型的时间对齐能力。这些工作不仅推动了音频检索技术的发展，还为音频生成、音频问答等衍生任务提供了新的研究思路。

数据集最近研究