five

Kpop-lyric-datasets|韩国流行音乐数据集|文本挖掘数据集

收藏
github2023-12-03 更新2024-05-31 收录
韩国流行音乐
文本挖掘
下载链接:
https://github.com/EX3exp/Kpop-lyric-datasets
下载链接
链接失效反馈
资源简介:
包含25696首韩国流行歌曲的JSON格式数据集,数据来源于Melon的月度排行榜(2000年至2023年10月)。数据集提供了用于数据处理的Python函数,并强调了版权归属和使用限制。

A JSON-formatted dataset containing 25,696 Korean pop songs, sourced from Melon's monthly charts (from 2000 to October 2023). The dataset provides Python functions for data processing and emphasizes copyright attribution and usage restrictions.
创建时间:
2023-12-02
原始信息汇总

数据集概述

数据集名称

  • Kpop-lyric-datasets

数据集内容

  • 包含25696首K-pop歌曲的JSON格式数据,数据来源于Melons Monthly Chart Ranking 100 (2000 ~ 2023 Oct.)

数据集使用许可

  • 可用于研究目的,商业使用需与歌词作者、艺术家、作曲家等协商。

数据集结构

数据文件路径

  • melonmonthly-chartmelon-<year>melon-<year>-<month>melon-monthly_<year>-<month>_<chart rank>.json

数据字段详情

  • info: 包含歌曲的元数据,如年份、月份、排名、类型和来源网站。
  • song_id: 歌曲在Melon数据库中的ID。
  • song_name: 歌曲名称。
  • album: 专辑名称。
  • release_date: 歌曲发布日期。
  • artist: 艺术家名称。
  • genre: 歌曲类型。
  • lyric_writer: 歌词作者。
  • composer: 作曲家。
  • arranger: 编曲者。
  • lyrics: 歌词内容,包括行数和具体歌词。

数据集使用方法

获取数据

  • 获取2023年数据: 使用data_parser.get_dict(2023)函数将数据转换为字典。
  • 获取2010至2022年数据: 使用data_parser.get_df(2010, 2022)函数将数据转换为Pandas DataFrame。

数据集克隆

  • 通过git clone https://github.com/EX3exp/Kpop-lyric-datasets.git命令克隆数据集到本地工作区。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Kpop-lyric-datasets 数据集基于 Melon 月度排行榜(2000 年至 2023 年 10 月)的 25696 首 K-pop 歌曲构建而成。数据以 JSON 格式存储,涵盖了每首歌曲的元信息、歌词内容及相关创作人员信息。数据来源可靠,确保了数据的完整性和时效性。通过爬取和整理 Melon 平台公开的月度榜单数据,数据集为研究人员提供了丰富的 K-pop 音乐分析素材。
使用方法
使用该数据集时,用户可通过克隆 GitHub 仓库获取数据文件。数据集提供了 Python 工具函数 `data_parser`,支持按年份或时间范围提取数据,并转换为字典或 Pandas DataFrame 格式。例如,通过 `get_dict(2023)` 可获取 2023 年的全部数据,而 `get_df(2010, 2022)` 则可提取 2010 年至 2022 年的数据。数据文件路径结构清晰,便于用户根据需求快速定位和加载特定文件。
背景与挑战
背景概述
Kpop-lyric-datasets 是一个专注于韩国流行音乐(K-pop)歌词的数据集,涵盖了从2000年至2023年10月期间Melon月度排行榜前100名的25,696首歌曲。该数据集由GitHub用户EX3exp创建,旨在为研究人员提供丰富的K-pop歌词数据,以支持自然语言处理、情感分析、文化研究等领域的研究。数据集以JSON格式存储,包含了每首歌曲的元数据(如年份、月份、排名、歌曲ID、歌曲名称、专辑、发行日期、艺术家、流派等)以及完整的歌词内容。通过提供Python工具函数,数据集的使用更加便捷,能够快速转换为字典或Pandas DataFrame格式。该数据集的发布为K-pop音乐文化的量化研究提供了重要资源。
当前挑战
Kpop-lyric-datasets 在解决K-pop歌词分析领域问题时面临多重挑战。首先,歌词的多样性和复杂性使得情感分析、主题建模等任务变得困难,尤其是韩语歌词中蕴含的文化背景和隐喻需要深入理解。其次,数据集的构建过程中,版权问题是一个重要挑战。尽管数据集声明仅用于研究目的,但商业用途需与歌词作者、艺术家等协商,这限制了数据的广泛传播和应用。此外,数据来源的单一性(仅依赖Melon排行榜)可能导致数据偏差,无法全面反映K-pop音乐的全貌。最后,歌词的多语言混合(如韩语、英语等)增加了文本处理的难度,尤其是在跨语言情感分析和语义理解方面。
常用场景
经典使用场景
Kpop-lyric-datasets 数据集广泛应用于音乐信息检索、自然语言处理以及文化研究领域。研究者可以通过该数据集分析韩国流行音乐(K-pop)歌词的语言特征、情感表达以及文化内涵。此外,该数据集还为音乐推荐系统提供了丰富的歌词数据,帮助系统更好地理解用户偏好。
解决学术问题
该数据集解决了音乐信息检索中的歌词语义分析问题,为研究者提供了大量结构化的歌词数据,便于进行文本挖掘和情感分析。同时,它还为跨文化研究提供了宝贵的资源,帮助学者深入探讨K-pop在全球文化传播中的影响。
实际应用
在实际应用中,Kpop-lyric-datasets 被广泛用于音乐推荐系统的开发。通过分析歌词内容,系统能够更精准地推荐符合用户情感和偏好的歌曲。此外,该数据集还被用于音乐版权管理,帮助识别和保护原创歌词的版权。
数据集最近研究
最新研究方向
近年来,K-pop作为一种全球文化现象,其歌词内容的研究逐渐成为音乐信息检索和自然语言处理领域的热点。Kpop-lyric-datasets提供了2000年至2023年10月间Melon月榜前100名的K-pop歌曲歌词数据,涵盖了25696首歌曲的详细信息。这一数据集为研究者提供了丰富的文本资源,可用于分析K-pop歌词的语言特征、情感表达、文化传播以及跨语言翻译等方向。特别是在多语言处理和情感分析领域,该数据集的应用潜力巨大。通过对歌词的深入挖掘,研究者可以揭示K-pop在全球范围内的文化影响力及其与听众情感共鸣的机制。此外,结合音乐流派、艺术家信息等多维度数据,该数据集还可用于探索音乐风格演变与市场趋势之间的关系,为音乐产业提供数据驱动的决策支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录