slseanwu/clotho-chatgpt-mixup-50K

Name: slseanwu/clotho-chatgpt-mixup-50K
Creator: slseanwu
Published: 2024-01-06 14:50:54
License: 暂无描述

Hugging Face2024-01-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/slseanwu/clotho-chatgpt-mixup-50K

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是对应于论文《Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation》第2.3节的产物。数据集的上游数据来源于Clotho V2数据集的开发集，用于预训练音频字幕生成模型。数据文件包含ChatGPT输入提示、选择的混合对、音频文件名、原始字幕和ChatGPT混合字幕等字段。

提供机构：

slseanwu

原始信息汇总

数据集概述

数据集来源

原始描述来源: Clotho V2 数据集的 development 部分。
数据集链接: Clotho V2 数据集

数据集用途

预训练模型: 用于预训练音频描述模型 beats-conformer-bart-audio-captioner。

数据格式

文件名: clotho_development_chatgpt_mixups.json
字段说明:
- "prompt": ChatGPT 输入提示
- "selected_pair": 用于混合的索引（在 Clotho development 部分）
- "audio_files": 对应的音频文件名（在 Clotho development 部分）
- "true_captions": 原始（混合前）描述
- "chatgpt_mixups": ChatGPT 混合后的描述

引用信息

论文标题: Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation
作者: Shih-Lun Wu, Xuankai Chang, Gordon Wichern, Jee-weon Jung, François Germain, Jonathan Le Roux, Shinji Watanabe
会议: Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP) 2024
BibTeX: bibtex @inproceedings{wu2024improving, title={Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation}, author={Wu, Shih-Lun and Chang, Xuankai and Wichern, Gordon and Jung, Jee-weon and Germain, Fran{c{c}}ois and Le Roux, Jonathan and Watanabe, Shinji}, booktitle={Proc. Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP)}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集