FTAR

Hugging Face2025-11-13 更新2025-11-14 收录

下载链接：

https://huggingface.co/datasets/lysanderism/FTAR

下载链接

链接失效反馈

官方服务：

资源简介：

FTAR数据集是一个针对大型音频语言模型在时间定位和长音频理解任务上设计的数据集。它包含了四个子任务：密集音频字幕、时间音频定位、时间线语音摘要和开放音频时间问答。数据集采用FLAC和WAV格式的音频文件，以及JSON格式的元数据和标注信息。

创建时间：

2025-11-12

原始信息汇总

FTAR数据集概述

基本信息

数据集名称: FTAR
许可证: Apache-2.0
任务类别: 音频分类、自动语音识别、问答
语言: 英语
格式: JSON
模态: 音频、文本
规模: 1K-15K样本
配置: 默认配置，训练集路径为"train/*.json"

任务构成

1. 密集音频字幕生成

任务类型: 密集音频字幕生成
描述: 生成带有开始和结束时间的事件描述，格式为<开始>-<结束>, 描述
格式: FLAC文件与JSON字幕
分割: 训练集、测试集
许可证: Apache-2.0
样本数量: 110K
平均时长: 11.3秒

2. 时序音频定位

任务类型: 时序音频定位
描述: 基于描述性句子在音频中定位特定事件，输出对应的开始和结束时间
格式: WAV文件与JSON元数据
许可证: Apache-2.0
样本数量: 100K
平均时长: 9.8秒

3. 时间线语音摘要

任务类型: 时间线语音摘要
描述: 在时间线上浓缩口语内容，同时保留关键信息
许可证: CC BY 4.0
样本数量: 42-65K
平均时长: 81.7秒

4. 开放音频时序问答

任务类型: 开放TAQ
描述: 基于OpenAQA数据集构建的音频时序问答任务，包含计数、时长和时间序列的自由形式问答对
许可证: CC BY 4.0
样本数量: 15K
平均时长: 10秒

目录结构

Dataset/ ├── train/ │ ├── dense_audio_caption.json │ ├── temporal_audio_grounding.json │ ├── timeline_speech_summary_cnndaily.json │ ├── timeline_speech_summary_libri.json │ └── open_audio_TQA.json ├── test/ │ ├── dense_audio_caption.json │ ├── temporal_audio_grounding.json │ └── timeline_speech_summary.json

使用方式

python from datasets import load_dataset ds = load_dataset("lysanderism/FTAR")

引用格式

bibtex @article{, title={TimeAudio: Bridging Temporal Gaps in Large Audio-Language Models}, author={Hualei Wang, Yiming Li, Shuo Ma, Hong Liu, Xiangdong Wang }, journal={arXiv preprint arXiv:}, year={2025}, url={https://arxiv.org/abs/} }

搜集汇总

数据集介绍

构建方式

在音频语言模型研究领域，FTAR数据集通过整合多个权威音频资源构建而成，其核心方法涉及对现有数据集的系统化重组与标注转换。该数据集融合了AudioSet_SL、TACOS等六种来源的异构数据，采用统一的时间戳标注体系将原始音频转换为标准化格式。构建过程中严格遵循时间感知原则，通过绝对时间编码技术将声学特征与时间信息显式关联，并运用分段级令牌合并模块优化长音频处理效率。所有数据均经过16kHz采样率的重采样处理，确保多任务场景下的格式一致性。

特点

作为面向时序感知任务的专业数据集，FTAR展现出多维度特征优势。其核心特征体现在覆盖四大时序任务类型，包括密集音频描述、时序音频定位等专业化场景，样本规模达万级且平均时长分布跨越10秒至80秒区间。数据集采用FLAC与WAV双格式存储，既保证音频质量又兼顾处理效率。特别值得注意的是其细粒度时间标注体系，通过<起始-结束>的标准格式实现事件与时间轴的精确映射，为模型提供丰富的时序推理线索。多源数据融合策略更赋予数据集跨场景的泛化能力。

使用方法

基于HuggingFace生态体系，研究者可通过标准接口快速部署FTAR数据集。使用流程始于环境配置，通过调用load_dataset("lysanderism/FTAR")即可载入预处理的训练与测试分割。数据集按任务类型划分为五个独立JSON文件，分别对应不同的时序分析场景。在实际应用中，用户需根据目标任务选择相应数据子集，结合原始音频文件构建端到端的训练流水线。值得注意的是，使用过程中应当严格遵守各子数据集的许可协议要求，特别是CC-BY-4.0与Apache-2.0条款的合规性审查，确保学术研究的规范性。

背景与挑战

背景概述

随着大型音频语言模型在对话问答任务中展现出卓越的音频内容理解能力，其在时间感知方面的局限性逐渐凸显。FTAR数据集由研究团队于2025年提出，旨在解决模型在时间定位任务中的核心难题，包括时间戳表征不精确、长音频处理效率低下等问题。该数据集整合了AudioSet_SL、TACOS等权威音频资源，通过引入时间标记机制和分段编码策略，显著提升了模型对密集音频描述、时序 grounding 等细粒度任务的处理能力，为音频语言交叉研究提供了关键基础设施。

当前挑战

在音频语言模型领域，时间敏感任务的挑战主要体现在模型难以准确关联音频事件与时间坐标，导致时序定位误差累积。构建FTAR数据集时面临多重技术障碍：原始音频数据的时间标注粒度不一，需统一标准化处理；长音频片段存在信息冗余，需开发高效的令牌压缩算法；跨数据集整合时遭遇格式异构与许可协议兼容性问题，需通过数据清洗与重标注确保质量一致性。

常用场景

经典使用场景

在音频语言模型研究领域，FTAR数据集被广泛用于评估模型在时间感知任务中的表现。其经典应用场景包括密集音频描述生成，要求模型不仅识别音频事件，还需精确定位其起止时间点。这种任务设计模拟了真实世界中需要同时理解内容与时间维度的复杂场景，为模型的时间推理能力提供了标准化测试平台。

解决学术问题

该数据集有效解决了大音频语言模型中存在的时间感知薄弱与长音频理解受限两大核心问题。通过引入时间标记机制和绝对时间编码，显著提升了模型在时间定位任务中的精确度。同时其设计的片段级令牌合并模块有效缓解了长音频处理时的信息冗余，为细粒度音频理解任务建立了新的研究基准。

衍生相关工作

基于FTAR数据集衍生出多项经典研究工作，TimeAudio框架通过创新性时间标记机制推动了时序音频理解的发展。后续研究在此基础上拓展了多模态时序对齐方法，AudioTime等系统进一步优化了时间定位精度。这些工作共同构建了音频语言模型时间感知能力的研究体系，持续推动着细粒度音频理解技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集