Flickr Audio Caption Corpus

Name: Flickr Audio Caption Corpus
Creator: OpenDataLab
Published: 2026-05-24 07:30:14
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Flickr_Audio_Caption_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Flickr 8k 音频字幕语料库包含 8,000 张自然图像的 40,000 条语音字幕。它于 2015 年收集，用于研究用于无监督语音模式发现的多模态学习方案。有关语料库的描述，请参见：D. Harwath 和 J. Glass，“Deep Multimodal Semantic Embeddings for Speech and Images”，2015 年 IEEE 自动语音识别和理解研讨会，第 237-244 页，美国亚利桑那州斯科茨代尔，12 月2015

提供机构：

OpenDataLab

创建时间：

2022-06-07

搜集汇总

数据集介绍