five

lysanderism/FTAR

收藏
Hugging Face2025-11-17 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/lysanderism/FTAR
下载链接
链接失效反馈
官方服务:
资源简介:
FTAR数据集是一个针对大型音频语言模型中的时间定位和长音频理解问题的研究项目。该数据集整合了多个现有音频数据集,专注于时间任务,并包括以下四个任务:密集音频字幕、时间音频定位、时间线语音摘要和开放音频时间问答。数据集格式包括FLAC和WAV音频文件以及JSON标注文件,适用于音频分类、自动语音识别和问答等任务。

The FTAR dataset is a research initiative aimed at addressing the issues of temporal localization and long audio understanding in large audio-language models. This dataset consolidates multiple existing audio datasets, focusing on temporal tasks, and includes four tasks: dense audio captioning, temporal audio grounding, timeline speech summarization, and open audio temporal question answering. The dataset format includes FLAC and WAV audio files along with JSON annotation files, suitable for tasks such as audio classification, automatic speech recognition, and question answering.
提供机构:
lysanderism
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作