Annotated Song Lyrics Dataset
收藏arXiv2025-09-06 更新2025-11-24 收录
下载链接:
https://github.com/LLM-HITCS25S/LyricsEmotionAttribution
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是由霍隆理工学院的研究团队构建的,用于研究歌曲歌词的情感内容。数据集采用了平均意见得分(MOS)方法进行人工标注,汇集了多个人类评估者的注释,以确保可靠的地面真实标签。该数据集包含了对六种基本情绪的强度评分:快乐、悲伤、愤怒、恐惧、惊讶和厌恶。研究团队使用这个数据集对多个公开的大型语言模型(LLMs)进行了评估,包括零样本场景下的评估和针对多标签情感评分预测的BERT模型微调。该数据集有助于音乐信息检索、情感计算和人际交互等领域的研究,并为个性化音乐推荐系统、情感播放列表生成、心理健康干预和文化音乐研究等应用提供支持。
This dataset was constructed by a research team from Holon Institute of Technology for the study of emotional content in song lyrics. The dataset uses the Mean Opinion Score (MOS) method for manual annotation, aggregating annotations from multiple human evaluators to ensure reliable ground-truth labels. This dataset includes intensity scores for six basic emotions: happiness, sadness, anger, fear, surprise, and disgust. The research team employed this dataset to evaluate multiple publicly available Large Language Models (LLMs), including evaluations under zero-shot scenarios and fine-tuning of BERT models for multi-label emotional score prediction. This dataset contributes to research in fields such as music information retrieval, affective computing, and human interaction, and provides support for applications including personalized music recommendation systems, emotional playlist generation, mental health intervention, and cultural music research.
提供机构:
霍隆理工学院
创建时间:
2025-09-06
搜集汇总
数据集介绍

构建方式
在音乐情感计算领域,构建高质量标注数据集是解析歌词情感内涵的基础。该数据集采用均值意见评分法进行人工标注,由经验丰富的研究者组成评审委员会,针对每首流行歌曲歌词独立评估六种基本情感的强度,评分范围从0到5分。通过计算多位标注者评分的算术平均值,生成连续型情感强度真值标签,有效捕捉主观感知差异并保留情感表达的细腻层次。
特点
该数据集以埃克曼六种基本情感理论为框架,涵盖喜悦、悲伤、愤怒、恐惧、惊讶与厌恶的强度维度。其标注数据呈现连续分布特性,突破传统分类标签的局限,更能反映歌词中交织共存的复杂情感。数据分布显示喜悦情感均值最高而愤怒情感均值最低,且除说唱音乐与愤怒情感存在弱关联外,音乐流派与情感强度未呈现显著相关性。
使用方法
该数据集支持零样本学习与微调训练两种应用范式。研究者可直接使用原始歌词文本,通过精心设计的提示模板驱动大语言模型进行零样本情感强度预测;亦可基于该标注数据对BERT等预训练模型进行回归任务微调,构建专门的情感计算模型。数据集已公开提供,适用于音乐信息检索、情感计算及个性化推荐系统的开发与评估。
背景与挑战
背景概述
在音乐信息检索与情感计算领域,流行歌词的情感分析已成为关键研究方向。由以色列霍隆理工学院与阿菲卡工程学院联合构建的Annotated Song Lyrics Dataset,聚焦于歌词中多维情感的量化评估。该数据集采用埃克曼六种基本情绪框架,通过人工标注与平均意见得分方法,系统捕捉歌词中喜悦、悲伤等情感的连续强度分布。其核心研究目标在于突破传统情感分析的二元局限,为音乐推荐系统与心理健康干预等应用提供精准的数据支撑。
当前挑战
歌词情感分析面临双重挑战:在领域问题层面,抽象隐喻与文化语境导致情感标注存在高度主观性,传统分类模型难以捕捉多重情绪的共存与强度变化;在数据构建过程中,需通过多标注者共识机制平衡个体感知差异,而连续分数标注的复杂性进一步增加了标注成本与一致性维护难度。此外,跨体裁歌词的情感表达多样性对模型的泛化能力提出了更高要求。
常用场景
经典使用场景
在音乐信息检索领域,Annotated Song Lyrics Dataset为歌词情感分析提供了标准化评估基准。该数据集通过均值意见评分方法标注了六种基本情感的强度分数,成为验证大语言模型情感识别能力的理想平台。研究者利用该数据集系统比较了零样本学习与微调模型在歌词情感分析中的表现差异,为模型选择提供了实证依据。
实际应用
在现实应用中,该数据集支撑的歌词情感分析技术已广泛应用于个性化音乐推荐系统。通过精准识别歌词情感特征,音乐流媒体平台能够构建更具情感共鸣的播放列表。心理健康领域利用该技术开发情感调节工具,帮助用户通过音乐进行情绪管理。文化研究机构则借助数据分析揭示不同时代音乐作品的情感演变规律。
衍生相关工作
基于该数据集的研究催生了多项创新工作,包括Edmonds等人提出的多情感分类框架和Song等人开发的歌词情感动态建模方法。这些研究扩展了情感计算在音乐领域的应用边界,推动了跨域迁移学习技术在歌词分析中的实践。后续工作还探索了结合音频特征的多模态情感识别,为全面理解音乐情感表达开辟了新路径。
以上内容由遇见数据集搜集并总结生成



