Synthetic Lyrics Dataset|歌词分析数据集|情感分析数据集

收藏

github2024-04-02 更新2024-05-31 收录

歌词分析

情感分析

下载链接：

https://github.com/TimKang13/lyric-dataset

下载链接

链接失效反馈

资源简介：

一个通过Genius API和网络爬虫获取歌词，并使用Mistral API进行主题、情绪、风格、语调和叙事标注的合成歌词数据集。

A synthetic lyrics dataset obtained through the Genius API and web scraping, annotated for themes, emotions, styles, tones, and narratives using the Mistral API.

创建时间：

2024-03-22

原始信息汇总

数据集概述

数据集名称

Synthetic Lyrics Dataset with Mistral 7B

数据收集方法

艺术家ID获取
歌曲URL获取
歌词网络爬取

数据标注

使用Mistral API结合Langchain进行主题、情绪、风格、语调和叙事的标注
标注示例：通过特定模板获取文本风格，要求回答简洁，仅用三个词，无需解释

数据集规模与成本

每条歌词标注约350个输入令牌
总计约14,700,000个令牌
总成本约为$4

数据集应用

微调语言模型以支持
- 歌曲分类
- 歌词生成
- 推荐系统

AI搜集汇总

数据集介绍

main_image_url

构建方式

Synthetic Lyrics Dataset的构建过程结合了Genius API的网络爬取技术与Mistral 7B的先进语言模型。首先，通过Genius API获取艺术家的ID和歌曲的URL，随后利用网络爬虫技术抓取歌词内容。接着，使用Mistral API与Langchain框架对歌词进行主题、情绪、风格、语调和叙事等多维度的标注，确保每个标注请求的输入令牌数稳定在350个左右，从而保证了数据标注的一致性和质量。

特点

该数据集的特点在于其全面而细致的歌词标注，涵盖了主题、情绪、风格、语调和叙事等多个维度，为研究者提供了丰富的分析视角。此外，数据集的构建过程中采用了Mistral 7B这一高效的语言模型，确保了标注的准确性和一致性。数据集中的14000首歌词经过精心处理，每首歌词的标注成本控制在极低的水平，展现了高效的经济性。

使用方法

Synthetic Lyrics Dataset适用于多种自然语言处理任务，包括歌曲分类、歌词生成和推荐系统的开发。研究者可以利用该数据集对大型语言模型进行微调，以提升模型在特定任务上的表现。此外，数据集中的多维标注信息为深入分析歌词内容提供了可能，有助于开发更加精准和个性化的音乐推荐算法。

背景与挑战

背景概述

Synthetic Lyrics Dataset是由研究人员利用Genius API和网络爬虫技术，结合Mistral 7B语言模型构建的一个合成歌词数据集。该数据集的核心研究问题在于通过自动化标注歌词的主题、情绪、风格、语调和叙事，以支持歌词生成、歌曲分类和推荐系统等任务。数据集创建于近期，主要研究人员通过Langchain框架与Mistral API进行交互，确保了标注过程的稳定性和格式一致性。这一数据集为音乐信息检索和自然语言处理领域提供了新的研究资源，尤其在歌词分析和生成任务中展现了其独特价值。

当前挑战

Synthetic Lyrics Dataset在构建过程中面临多重挑战。首先，歌词的多样性和复杂性使得自动化标注任务尤为困难，尤其是在风格和情绪等主观性较强的维度上，如何确保标注的准确性和一致性成为关键问题。其次，尽管Mistral 7B模型在生成稳定输出方面表现优异，但其高昂的API成本限制了数据集的扩展性，尤其是在处理大规模歌词数据时。此外，网络爬虫技术的使用也带来了数据质量和版权问题的挑战，如何合法获取并处理歌词数据仍需进一步探索。这些挑战不仅影响了数据集的构建效率，也对后续的应用研究提出了更高的要求。

常用场景

经典使用场景

Synthetic Lyrics Dataset在音乐信息检索和自然语言处理领域具有广泛的应用。该数据集通过结合Genius API和网络爬虫技术，获取了大量歌词数据，并利用Mistral 7B模型对歌词的主题、情绪、风格、语调和叙事进行了精细标注。这些标注数据为研究人员提供了丰富的资源，用于训练和优化歌词分类、生成和推荐系统等任务。

实际应用

在实际应用中，Synthetic Lyrics Dataset为音乐流媒体平台和音乐推荐系统提供了强大的支持。通过利用该数据集，平台能够更准确地理解用户的音乐偏好，从而提供个性化的推荐服务。此外，该数据集还可用于音乐创作辅助工具的开发，帮助音乐创作者生成符合特定风格和情感的歌词。

衍生相关工作

基于Synthetic Lyrics Dataset，研究人员已经开展了多项相关研究。例如，利用该数据集训练的模型在歌词生成任务中表现出色，能够生成符合特定风格和情感的歌词。此外，该数据集还被用于开发音乐推荐系统，通过分析歌词的语义和情感特征，实现更精准的音乐推荐。这些研究不仅推动了音乐信息检索领域的发展，也为自然语言处理技术的应用提供了新的思路。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

望诊影像数据集及诊断文本数据集

中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张，舌诊图片的内容部分为舌头（属口颌系统），面诊图片的内容部分包括了面和唇（属其他系统）、眼睛部分做了脱敏处理，目诊图片的内容部分为眼睛（属感觉系统）。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息；以及面诊图像的唇色、唇形、面神的标注信息；目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。

国家人口健康科学数据中心收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录