AImoclips

Name: AImoclips
Creator: 韩国科学技术院（KAIST）, 首尔国立大学（SNU）
Published: 2025-09-04 15:41:31
License: 暂无描述

arXiv2025-09-04 更新2025-09-06 收录

下载链接：

https://github.com/HunRotation/HunRotation.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

AImoclips是一个评估文本到音乐（TTM）系统传达情感的能力的基准数据集。该数据集由991个音乐片段组成，由六种最先进的TTM系统生成，涵盖了从高唤醒到低唤醒、高愉悦到低愉悦四个象限的12种情感意图。111名参与者对这些片段的愉悦感和唤醒感进行了9点李克特量表评分。该数据集旨在帮助研究人员理解TTM系统在情感传达方面的特性和局限性，以促进未来情感对齐的TTM系统的发展。

AImoclips is a benchmark dataset for evaluating the emotion communication capabilities of text-to-music (TTM) systems. This dataset consists of 991 music clips generated by six state-of-the-art TTM systems, covering 12 emotional intentions across four quadrants ranging from high arousal to low arousal and from high valence to low valence. A total of 111 participants rated the valence and arousal of these clips using a 9-point Likert scale. This dataset aims to help researchers understand the characteristics and limitations of TTM systems in terms of emotional communication, so as to promote the development of future emotion-aligned TTM systems.

提供机构：

韩国科学技术院（KAIST）, 首尔国立大学（SNU）

创建时间：

2025-08-31

原始信息汇总

al-folio 数据集概述

数据集基本信息

名称：al-folio
类型：Jekyll 主题模板
用途：为学者设计的简单、简洁且响应式的网站主题

主要功能

亮色/暗色模式：自动检测用户偏好颜色方案，支持手动切换
简历（CV）生成：支持通过 JSON 或 YAML 文件生成简历内容
人员页面：可展示多人信息，包括简介和头像
出版物管理：自动从 BibTex 文献生成出版物页面
集合功能：支持新闻和项目等集合类型，可自定义集合
布局样式：提供多种页面和博客文章布局，包括 Distill 风格

技术特性

响应式设计：适配桌面和移动设备
代码和质量检查：集成代码质量检查工具
社交媒体预览：支持社交媒体分享预览
Atom 订阅：提供类似 RSS 的订阅功能
相关文章推荐：自动推荐相关文章

用户社区

学术个人主页：全球学者用于个人主页、博客和实验室页面
课程页面：用于课程、研讨会和会议网页
工作坊和会议：用于学术会议和工作坊网页

部署和维护

部署支持：提供 GitHub Actions 自动化部署
Docker 支持：提供 Docker 镜像方便部署
维护团队：由 4 名维护者负责更新

许可证

开源协议：MIT 许可证

相关资源

安装指南：详见 INSTALL.md 文件
定制指南：详见 CUSTOMIZE.md 文件
演示页面：https://alshedivat.github.io/al-folio/

搜集汇总

数据集介绍

构建方式

在情感计算与音乐信息检索的交叉领域，AImoclips数据集的构建遵循了严谨的多阶段流程。研究团队首先依据效价-唤醒度模型的四个象限，从经过心理学验证的情感词汇库中筛选出12个代表性情感意图词，确保每个象限包含三个高区分度的情感标签。随后采用六种前沿文本生成音乐系统（包括四种开源模型和两种商业模型），基于统一提示词格式生成超过1000段10秒纯音乐片段。所有音频均经过标准化后处理，排除人声干扰并截取信息密集段落，最终通过人类参与者对每段音乐进行效价与唤醒度的9点李克特量表评分，形成具有连续情感标注的大规模数据集。

特点

该数据集的核心特征体现在其多维度的情感表征体系与系统对比框架。覆盖效价-唤醒度平面四个象限的12种情感意图，为评估生成音乐的情感传递准确性提供了结构化基础。数据集包含991段经人类标注的音频样本，每段音乐均配备多参与者评分的平均效价与唤醒度值，形成连续的情感标注而非离散分类。独特之处在于同步收录开源与商业系统的生成结果，通过对比分析揭示不同架构模型的情感传递偏差，例如商业系统倾向于生成更高愉悦度的音乐，而开源模型则呈现相反趋势。高唤醒度情感的表达准确性普遍优于低唤醒度情感，这一发现为改进生成模型的情感控制提供了关键洞察。

使用方法

该数据集主要服务于文本生成音乐系统的情感传递效能评估与模型优化研究。研究者可借助其标注数据构建情感预测模型，通过机器学习方法分析音频特征与人类情感感知的映射关系。在生成模型训练方面，该数据集可作为强化学习的奖励信号或条件生成模型的微调数据，以提升音乐生成的情感一致性。评估者可计算生成音乐与目标情感在效价-唤醒度空间的偏差值，进行跨系统性能比较。此外，数据集支持音乐情感计算的基础研究，如探索不同音乐特征（音色、节奏、和声）与情感维度之间的关联机制，为开发更精确的情感控制生成算法提供实证基础。

背景与挑战

背景概述

AImoclips基准数据集由韩国科学技术院（KAIST）与首尔国立大学（SNU）联合研究团队于2025年构建，旨在系统评估文本到音乐生成（TTM）系统中情感传递的准确性。该数据集覆盖了价态-唤醒度空间中的四个象限，包含12种情感意图，通过六种前沿TTM模型生成了千余条音乐片段，并由111名参与者进行人工评分。其创新性在于首次将连续维度情感评估引入TTM领域，为音乐生成模型的情感可控性研究提供了重要数据基础，推动了人本音乐信息检索的发展。

当前挑战

该数据集核心挑战在于解决TTM系统情感传递的评估难题，包括模型生成音乐与目标情感意图的偏差量化、高唤醒度情感与低唤醒度情感的表达不对称性，以及商业模型与开源模型在情感渲染中的系统性差异。构建过程中需克服多模型输出标准化、人类评分一致性保障，以及跨文化情感感知差异等复杂性，同时需确保音频质量与标注可靠性之间的平衡。

常用场景

经典使用场景

在音乐信息检索与生成人工智能交叉领域，AImoclips数据集通过系统化评估文本到音乐生成模型的情感传递效能，为研究者提供了标准化的测试平台。该数据集覆盖了价态-唤醒度空间的四个象限，包含六种前沿模型生成的千余条音乐片段，并附有111名参与者基于9点李克特量表的情感评分，使得研究者能够量化分析不同模型在表达特定情绪时的偏差与一致性。

衍生相关工作

该数据集衍生了多项情感对齐生成技术的改进研究，例如基于人类评分数据训练的情感预测模型、针对价态-唤醒度偏差的生成模型微调方法，以及跨文化音乐情感感知的对比分析。相关经典工作包括Gao等人基于离散标签的情感传递评估框架，以及GlobalMood数据集推动的跨文化音乐情感分析研究，共同构成了情感计算与音乐生成交叉领域的方法论体系。

数据集最近研究