AnyMusic
收藏Musical Chain-of-Thoughts for Image Synthesis
概述
音乐驱动的图像合成旨在生成与音乐内容和情感相符的图像,但当前基于GAN的方法生成的图像模糊且乏味,而大规模图像合成模型如Stable Diffusion无法处理音乐输入。本工作引入了一种无需训练的方法,即Musical Chain-of-Thoughts (MCoT),通过LLM的强大链式思维推理能力,增强大规模图像合成模型生成与音乐相符的图像。
项目结构
Plain Text project/ │ ├── data/ # 数据集文件夹 │ ├── raw/ # 原始数据集 │ ├── processed/ # 处理后的数据集 │ ├── models/ # 模型架构和权重 │ ├── base_model.py # 基础模型实现 │ ├── custom_model.py # 自定义模型架构 │ ├── scripts/ # 训练和评估脚本 │ ├── train.py # 训练脚本 │ ├── evaluate.py # 模型评估脚本 │ ├── utils/ # 实用函数 │ ├── data_loader.py # 数据加载函数 │ ├── visualization.py # 可视化工具 │ ├── requirements.txt # Python依赖项 ├── README.md # 项目文档 ├── config.yaml # 项目配置 └── main.py # 主入口
数据集
Anymusic包含10,000首来自世界各地的知名歌曲,通过GPT推荐和手动收集。它包括多种流派、情感和内容。目前,20个样本条目已开源供参考。数据集可在xxbaidu.com访问。完整数据集将在论文发表后发布。




