slseanwu/clotho-chatgpt-mixup-50K
收藏Hugging Face2024-01-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/slseanwu/clotho-chatgpt-mixup-50K
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是对应于论文《Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation》第2.3节的产物。数据集的上游数据来源于Clotho V2数据集的开发集,用于预训练音频字幕生成模型。数据文件包含ChatGPT输入提示、选择的混合对、音频文件名、原始字幕和ChatGPT混合字幕等字段。
该数据集是对应于论文《Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation》第2.3节的产物。数据集的上游数据来源于Clotho V2数据集的开发集,用于预训练音频字幕生成模型。数据文件包含ChatGPT输入提示、选择的混合对、音频文件名、原始字幕和ChatGPT混合字幕等字段。
提供机构:
slseanwu
原始信息汇总
数据集概述
数据集来源
- 原始描述来源: Clotho V2 数据集的
development部分。 - 数据集链接: Clotho V2 数据集
数据集用途
- 预训练模型: 用于预训练音频描述模型 beats-conformer-bart-audio-captioner。
数据格式
- 文件名:
clotho_development_chatgpt_mixups.json - 字段说明:
"prompt": ChatGPT 输入提示"selected_pair": 用于混合的索引(在 Clotho development 部分)"audio_files": 对应的音频文件名(在 Clotho development 部分)"true_captions": 原始(混合前)描述"chatgpt_mixups": ChatGPT 混合后的描述
引用信息
- 论文标题: Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation
- 作者: Shih-Lun Wu, Xuankai Chang, Gordon Wichern, Jee-weon Jung, François Germain, Jonathan Le Roux, Shinji Watanabe
- 会议: Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP) 2024
- BibTeX: bibtex @inproceedings{wu2024improving, title={Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation}, author={Wu, Shih-Lun and Chang, Xuankai and Wichern, Gordon and Jung, Jee-weon and Germain, Fran{c{c}}ois and Le Roux, Jonathan and Watanabe, Shinji}, booktitle={Proc. Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP)}, year={2024} }



