sheacon/song_lyrics
收藏Hugging Face2023-04-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sheacon/song_lyrics
下载链接
链接失效反馈官方服务:
资源简介:
Creation Steps
- Downloaded [5 Million Song Dataset](https://www.kaggle.com/datasets/nikhilnayak123/5-million-song-lyrics-dataset) from Kaggle
- Selected quality artists, as defined by me
- Remove songs featuring any [profanity](https://github.com/surge-ai/profanity)
- Added normalized version of lyrics (used for GloVe embedding only)
- lower case, remove punctuation, remove stopwords, lemmatize)
- Computed four sets of embeddings using all-MiniLM-L12-v2, all-distilroberta-v1, text-embedding-ada-002, and average_word_embeddings_glove.840B.300d
数据集创建步骤
- 从Kaggle平台下载[500万首歌曲歌词数据集(5 Million Song Dataset)](https://www.kaggle.com/datasets/nikhilnayak123/5-million-song-lyrics-dataset)
- 按照自定义标准筛选优质艺术家
- 移除包含任何[冒犯性词汇(profanity)](https://github.com/surge-ai/profanity)的歌曲
- 新增歌词归一化版本(仅用于GloVe词嵌入),具体处理方式为小写转换、去除标点符号、移除停用词及词形还原
- 使用all-MiniLM-L12-v2、all-distilroberta-v1、text-embedding-ada-002以及average_word_embeddings_glove.840B.300d生成四组词嵌入向量
提供机构:
sheacon
原始信息汇总
数据集创建步骤
- 数据来源:从Kaggle下载了5 Million Song Dataset。
- 艺术家筛选:根据个人标准选择了高质量的艺术家。
- 内容净化:移除了包含profanity的歌曲。
- 歌词标准化:
- 转换为小写
- 移除标点符号
- 移除停用词
- 进行词形还原
- 嵌入计算:使用以下四种模型计算了歌词的嵌入:
- all-MiniLM-L12-v2
- all-distilroberta-v1
- text-embedding-ada-002
- average_word_embeddings_glove.840B.300d
搜集汇总
数据集介绍

构建方式
在音乐信息检索领域,歌词数据集为情感分析与风格建模提供了宝贵资源。该数据集源自Kaggle平台的五百万首歌曲歌词原始集合,通过人工筛选出符合质量标准的艺术家作品,并采用自动化流程剔除包含不雅词汇的歌曲条目。为提升文本表征的一致性,对歌词进行了标准化处理,包括转换为小写、去除标点符号、过滤停用词以及词形还原,最终生成了适用于不同嵌入模型的清洁文本版本。
特点
本数据集的核心价值体现在其多层次的语言表征体系。除了原始歌词文本外,还集成了四种异构嵌入向量:基于Transformer架构的all-MiniLM-L12-v2与all-distilroberta-v1模型捕捉深层语义特征,OpenAI的text-embedding-ada-002提供通用文本表征,而基于GloVe预训练词向量的平均池化结果则保留词汇级统计特性。这种多维度表征设计使得数据集能够同时支持传统机器学习方法与现代深度学习框架的对比研究。
使用方法
研究者可利用该数据集开展跨模态音乐分析任务。原始歌词字段适用于主题建模与风格演化研究,标准化版本专为词嵌入训练优化。四组预计算嵌入向量可直接加载至神经网络进行迁移学习,例如通过对比学习探索不同嵌入空间在情感分类任务中的性能差异。数据集的层次化结构允许研究人员根据计算资源与任务需求,灵活选择文本特征或预训练嵌入作为模型输入。
背景与挑战
背景概述
在数字音乐与自然语言处理交叉领域,歌词数据集为情感分析、风格生成及文化研究提供了关键语料。sheacon/song_lyrics数据集由独立研究者sheacon于近年构建,其核心目标在于整合高质量、无不当内容的英文歌词文本,并融合多模态嵌入表示,以支持音乐信息检索与歌词语义理解的前沿探索。该数据集通过对Kaggle上五百万歌曲数据集的筛选与净化,聚焦于艺术价值较高的创作者作品,不仅推动了计算音乐学的发展,也为语言模型在创意文本生成领域的应用奠定了数据基础。
当前挑战
该数据集首要挑战在于解决音乐歌词领域中的语义歧义与风格多样性问题,歌词常包含隐喻、口语化表达及文化特定指涉,使得传统文本分类与情感分析模型难以准确捕捉其深层含义。在构建过程中,研究者面临数据质量控制的难题,包括从海量原始数据中筛选具有艺术代表性的作品、有效识别并过滤不雅内容,以及通过词形还原与去除停用词等预处理步骤平衡文本信息保留与噪声消除,这些步骤对嵌入计算的一致性与下游任务性能具有直接影响。
常用场景
经典使用场景
在音乐信息检索与自然语言处理交叉领域,sheacon/song_lyrics数据集为歌词文本分析提供了高质量的语料基础。该数据集经过精心筛选,剔除了低质量艺术家作品和不当内容,并进行了标准化预处理,包括词形还原与停用词移除,使其特别适用于歌词情感分析、主题建模及风格迁移研究。研究者常利用其嵌入表示探索歌词的语义结构,揭示音乐创作中的语言模式与文化内涵。
实际应用
在产业实践中,sheacon/song_lyrics数据集可赋能智能音乐推荐系统与创作辅助工具。基于其清洗后的歌词及嵌入特征,开发者能够构建更精准的歌曲情感分类器或主题标签系统,提升流媒体平台的个性化推荐体验。同时,该数据集也为自动化歌词生成、音乐版权分析等应用提供了训练数据,助力音乐科技产品的创新与优化。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在歌词嵌入的跨模态应用与生成模型研究。例如,学者利用其GloVe与Transformer嵌入探索歌词-旋律对齐表征,促进了音乐信息检索任务的进展。此外,基于该数据集的去噪文本训练的序列生成模型,为后续歌词风格迁移、多语言歌词分析等研究提供了重要参考,推动了计算音乐学领域的深化发展。
以上内容由遇见数据集搜集并总结生成



