MINT

github2024-06-13 更新2024-06-14 收录

下载链接：

https://github.com/borisfrb/MINT

下载链接

链接失效反馈

官方服务：

资源简介：

MINT是一个多模态图像和叙事文本配音数据集，用于Foley音频内容规划和生成。数据集包括图像、叙事文本、音频标题和音频，组织方式为JSON文件，每行代表一个数据样本。

MINT is a multimodal image and narrative text dubbing dataset designed for Foley audio content planning and generation. The dataset comprises images, narrative texts, audio captions, and audio files, organized in JSON format with each line representing a data sample.

创建时间：

2024-06-06

原始信息汇总

MINT数据集概述

数据格式

MINT数据集包含图像、叙事文本、音频标题和音频。数据使用JSON文件组织，每行代表一个数据样本。音频文件可通过提供的youtube_id和audio_start_time使用yt-dlp工具获取，音频提取时长设定为10秒。图像数据通过JSON文件中的索引提供，实际图像可从Zenodo下载。

数据示例

json { "audiocaps_id": "97151", "youtube_id": "vfY_TJq7n_U", "audio_start_time": "130", "audio_caption": "Rustling occurs, ducks quack and water splashes, followed by an adult female and adult male speaking and duck calls being blown", "image": "97151.png", "narrative_text": "As I make my way along the winding path, I come across a loving couple, their gentle conversation a warm and intimate accompaniment to the natural soundscape. The adult females voice is soft and melodious, while the adult males is deep and soothing. Their words are lost in the distance, but the love and contentment in their tone is palpable. Suddenly, a duck call pierces the air, followed by a chorus of quacks and honks from the ducks in the water. The sounds blend together in perfect harmony, a beautiful tapestry of sound that envelops me in its serenity." }

图像数据

图像数据可从Zenodo获取，链接为https://zenodo.org/records/11606725。

许可证

MINT数据集根据CC BY-NC-SA-4.0许可证授权。

引用

如需引用此数据集，请使用以下格式：

@article{fu2024mint, title={MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation}, author={Ruibo Fu and Shuchen Shi and Hongming Guo and Tao Wang and Chunyu Qiang and Zhengqi Wen and Jianhua Tao and Xin Qi and Yi Lu and Xiaopeng Wang and Zhiyong Wang and Yukun Liu and Xuefei Liu and Shuai Zhang and Guanjun Li}, journal={arXiv preprint arXiv:2406.10591}, year={2024} }

搜集汇总

数据集介绍

构建方式

MINT数据集的构建融合了多模态数据，包括图像、叙事文本、音频描述和音频文件。数据通过JSON文件进行组织，每行代表一个数据样本。图像数据通过Zenodo平台获取，而音频文件则通过yt-dlp工具从YouTube下载，确保音频片段的时长为10秒。这种构建方式不仅确保了数据的多样性和完整性，还通过严格的版权合规措施，保护了原始内容创作者的权益。

使用方法

使用MINT数据集时，研究者可以通过提供的JSON文件访问图像和音频数据，并使用yt-dlp工具根据YouTube ID和音频起始时间获取音频文件。图像数据可从Zenodo链接下载。数据集的设计旨在支持多种研究应用，如音频内容规划和生成，以及多模态数据的联合分析。在使用过程中，需遵守CC BY-NC-SA-4.0许可协议，确保数据的学术和非商业用途。

背景与挑战

背景概述

MINT数据集，全称为Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation，由Ruibo Fu等研究人员于2024年创建。该数据集专注于多模态内容生成，结合图像、叙述文本、音频描述和音频数据，旨在为Foley音频内容规划与生成提供丰富的资源。MINT数据集的构建不仅填补了多模态数据集在音频内容生成领域的空白，还为相关研究提供了新的视角和方法，推动了多模态学习和生成技术的发展。

当前挑战

常用场景

经典使用场景

在多模态内容生成领域，MINT数据集以其独特的图像、叙述文本、音频标注和音频数据的组合，成为研究者们探索Foley音频内容规划与生成的理想资源。该数据集通过提供丰富的视觉和听觉信息，使得研究者能够深入分析和模拟现实场景中的声音效果，从而推动多模态内容生成技术的发展。

解决学术问题

MINT数据集在学术研究中解决了多模态内容生成中的关键问题，如音频与视觉信息的同步、音频内容的自动生成以及情感表达的准确捕捉。通过提供详细的音频标注和叙述文本，该数据集为研究者提供了丰富的实验材料，有助于推动音频内容生成技术的进步，并为多模态学习提供了新的研究方向。

实际应用

在实际应用中，MINT数据集为电影、游戏和虚拟现实等领域的音频内容生成提供了强大的支持。通过利用该数据集，开发者可以更精确地模拟和生成复杂的音频效果，从而提升用户体验。此外，该数据集还可用于训练智能语音助手，使其能够更好地理解和生成与视觉内容相匹配的音频信息。

数据集最近研究