V2MIDI
收藏V2MIDI 数据集
概述
V2MIDI 数据集将 40,000 个 MIDI 文件与 AI 生成的视频配对,以新的方式连接音乐和视觉艺术。它旨在帮助研究人员和艺术家探索如何使用 AI 同步音乐和视觉效果。这个数据集不仅仅是一组文件的集合——它是一个可能改变我们创作和体验视听内容的工具。
数据集描述
- 大小: 约 257GB
- 内容: 40,000 对 MIDI 文件和 MP4 视频
- 视频详情: 256x256 像素,16 秒长,每秒 24 帧
- 音乐焦点: 浩室音乐鼓模式
- 视觉多样性: 基于多样文本提示的 AI 生成视觉效果
数据集创建过程
我们通过以下关键步骤构建了 V2MIDI 数据集:
-
收集 MIDI 数据: 我们从大量的鼓和打击乐 MIDI 文件档案开始,专注于浩室音乐。我们根据节奏质量和它们与视觉效果匹配的可能性来挑选文件。
-
标准化 MIDI 文件: 我们对每个选定的 MIDI 文件进行处理,制作成 16 秒的序列。我们专注于五种主要的鼓声:底鼓、军鼓、闭合踩镲、开放踩镲和踏板踩镲。这有助于保持数据集的一致性。
-
链接音乐与视觉效果: 我们创建了一个系统,将 MIDI 事件转换为视觉效果的变化。例如,底鼓可能会在视觉效果中产生强度峰值,而踩镲可能会使事物旋转。这是我们同步音乐和视觉效果的核心。
-
创建视觉概念: 我们提出了 10,000 个文本提示,涵盖 100 个主题。我们使用 AI 来帮助生成想法,然后手工进行精炼。这为我们提供了广泛的视觉风格,适合电子音乐。
-
制作视频: 我们使用 MIDI 到视觉效果的系统和工具,如 Parseq、Deforum 和 Automatic1111(Stable Diffusion 网页界面)来为每个 MIDI 文件创建视频。
-
组织和检查: 最后,我们将每个视频与其 MIDI 文件配对并整齐地组织一切。我们仔细确保视觉效果与音乐匹配良好且看起来不错。
为什么它有用
V2MIDI 数据集的特殊之处在于它精确地将 MIDI 事件与视觉效果变化匹配。这开启了以下一些令人兴奋的可能性:
- 看到音乐: 训练 AI 实时创建与音乐匹配的视觉效果。
- 听到视觉效果: 探索 AI 是否仅通过观看视频就能“猜测”音乐。
- 新的创意工具: 开发应用程序,让音乐家可视化他们的音乐或让艺术家“听到”他们的视觉创作。
- 更好的现场表演: 创建与音乐完美同步的现场视觉效果。
灵活和可定制
我们构建了 V2MIDI 创建过程,使其具有灵活性。研究人员和艺术家可以:
- 调整 MIDI 文件的处理方式
- 改变音乐事件映射到视觉效果的方式
- 创建不同风格的视觉效果
- 实验视频设置,如分辨率和帧率
- 适应不同计算机设置的工作流程
这种灵活性意味着 V2MIDI 方法可以扩展到其他类型的音乐或视觉风格。
训练 AI 模型
V2MIDI 数据集最重要的方面之一是其训练 AI 模型的潜力。研究人员可以使用此数据集来开发模型,这些模型可以:
- 从视频内容预测音乐特征
- 创建连接音频和视觉领域的跨模态表示
- 开发更复杂的视听生成模型
数据集的大小和质量使其特别适合深度学习方法。
如何获取数据集
数据集相当大,因此我们将其分成 257 个部分,每个部分约 1GB。以下是如何重新组合它的方法:
- 下载所有部分(它们命名为
img2img_part_aa到img2img_part_jw) - 使用以下命令将它们组合在一起:
cat img2img_part_* > img2img-images_clean.tar - 解包:
tar -xvf img2img-images_clean.tar
确保您的计算机上有至少 257GB 的可用空间。
下一步是什么?
我们将 V2MIDI 数据集视为只是一个开始。未来的工作可能包括:
- 包含更多类型的音乐
- 处理更复杂的音乐结构
- 尝试从视频生成音乐(不仅仅是视频从音乐)
- 创建现场表演工具
感谢
没有创建原始 MIDI 档案的人和 Stable Diffusion、Deforum 和 AUTOMATIC1111 的开源社区,我们无法完成这个项目。
联系我们
如果您有任何问题或想了解更多关于 V2MIDI 数据集的信息,请通过以下邮箱与我们联系: research.obvious@gmail.com




