five

网易云音乐数据集|音乐数据挖掘数据集|推荐系统数据集

收藏
github2024-06-03 更新2024-06-06 收录
音乐数据挖掘
推荐系统
下载链接:
https://github.com/LindiaC/music163-mining
下载链接
链接失效反馈
资源简介:
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

This dataset encompasses information on artists, songs, and playlists from the NetEase Cloud Music platform. The data was acquired through web scraping techniques and organized into CSV format, intended for use in music data mining and the construction of recommendation systems.
创建时间:
2024-05-27
原始信息汇总

数据集概述

数据获取

  • 网易云音乐数据挖掘:通过解析网页元素和使用API获取数据。
  • API使用:原Node.js版本API已停止维护,现使用Qt版本的API库。
  • 数据文件
    • singer.csv:包含所有华语男歌手、女歌手、组合的{id,姓名},约5700行。
    • song.csv:包含歌曲信息,格式为歌手id::歌曲名::歌手名::热度,约260000行。
    • MusicList_2024-05-28T02-23-05.csv:包含歌单信息,格式为AmountOfPlay,AuthorID,Collection,Comment,CreationDate,Forwarding,Labels,NumberOfSongs,SongListName,SongsListID,Url,约600行。
    • songlist.csv:处理后的歌单信息,格式为歌单名##标签##歌单id##收藏量
    • songlist2songs.txt:包含歌单及其对应歌曲信息,格式为歌单信息后跟歌曲信息,用 分隔。

数据处理

  • 获取所有歌手:使用getAllSinger.py文件,将结果写入singer.csv
  • 获取(大部分)歌曲:使用getSingerHotSong.py文件,将结果写入song.csv
  • 获取所有歌单:使用wyyMusic文件夹中的脚本,将结果写入MusicList_2024-05-28T02-23-05.csv,并进一步处理为songlist.csv
  • 按歌单列举歌曲:使用Songlist2Songs.py文件,将结果写入songlist2songs.txt

数据挖掘

  • 推荐系统:使用Music_Recommend_System.ipynb文件,可以查找与一个歌单最接近的10个歌单,以及根据歌曲推荐的10首歌。

用户界面

  • UI实现:使用Music_Recommend_UI.py文件,提供图形用户界面。
AI搜集汇总
数据集介绍
main_image_url
构建方式
网易云音乐数据集的构建过程始于对网易云音乐平台数据的系统性挖掘。首先,通过解析网页元素和利用API接口,获取了包括歌手、歌曲和歌单在内的多维度音乐数据。具体而言,数据集的构建包括以下几个关键步骤:首先,通过Python脚本`getAllSinger.py`获取所有华语歌手的ID和姓名,并存储于`singer.csv`文件中;接着,利用`getSingerHotSong.py`脚本,根据歌手ID获取其热门歌曲信息,并整理成`song.csv`文件;随后,通过`SonglistProcessor.py`处理歌单数据,提取关键信息并存储于`songlist.csv`;最后,使用`Songlist2Songs.py`脚本,将歌单与其包含的歌曲信息关联,生成`songlist2songs.txt`文件。这一系列步骤确保了数据的完整性和一致性,为后续的数据分析和挖掘奠定了坚实基础。
特点
网易云音乐数据集以其丰富的内容和多样的数据类型著称。该数据集不仅包含了大量的歌手和歌曲信息,还涵盖了歌单的详细数据,包括歌单名称、标签、ID以及收藏量等。此外,数据集中的歌曲信息还包括了歌曲名、歌手名和热度等关键字段,这些信息为音乐推荐系统、用户行为分析以及市场研究提供了宝贵的资源。值得一提的是,该数据集的构建过程中采用了多种数据获取和处理技术,确保了数据的准确性和时效性,使其在音乐领域的研究和应用中具有极高的价值。
使用方法
网易云音乐数据集的使用方法多样,适用于多种音乐相关的研究和应用场景。首先,数据集可以直接用于构建和训练音乐推荐系统,通过分析用户行为和音乐特征,提供个性化的音乐推荐服务。其次,研究人员可以利用该数据集进行用户行为分析,探索用户对不同类型音乐的偏好和消费习惯。此外,市场分析师可以借助数据集中的歌单和歌曲信息,进行音乐市场的趋势分析和预测。为了方便用户使用,数据集提供了详细的API接口和Python脚本,用户可以根据需要进行数据的提取和处理,进一步应用于自己的研究或项目中。
背景与挑战
背景概述
网易云音乐数据集,由[@LindiaC](https://github.com/LindiaC)、[@xp0123](https://github.com/xp0123)和[@syy-yoyo](https://github.com/syy-yoyo)于2024年共同创建,旨在为音乐推荐系统研究提供丰富的数据资源。该数据集涵盖了歌手信息、歌曲详情、歌单内容等多个维度,为研究者提供了深入分析音乐偏好和推荐算法的宝贵数据。其核心研究问题包括音乐数据的采集、处理与推荐系统的构建,对音乐推荐领域的研究具有重要推动作用。
当前挑战
网易云音乐数据集在构建过程中面临多重挑战。首先,数据获取方面,由于原Node.js版本API的停止维护,研究团队需寻找替代方案,增加了数据采集的复杂性。其次,数据处理方面,需将爬取的数据转换为便于分析的格式,确保数据的准确性和一致性。此外,推荐系统的构建需应对用户偏好多样性和数据稀疏性问题,确保推荐结果的精准性和实用性。
常用场景
经典使用场景
网易云音乐数据集在音乐推荐系统中展现了其经典应用场景。通过整合歌手、歌曲和歌单的详细信息,该数据集为研究人员和开发者提供了丰富的数据资源,用于构建和优化音乐推荐算法。例如,利用数据集中的歌曲热度、歌手ID和歌单标签,可以实现基于内容的推荐、协同过滤以及混合推荐等多种推荐策略,从而提升用户体验。
衍生相关工作
网易云音乐数据集的发布催生了一系列相关研究和工作。例如,基于该数据集,研究人员开发了多种音乐推荐算法,如基于内容的推荐、协同过滤和深度学习模型等。此外,数据集还被用于研究音乐情感分析、用户行为预测和音乐风格分类等领域。这些研究不仅推动了音乐推荐技术的发展,也为其他领域的推荐系统研究提供了参考和借鉴。
数据集最近研究
最新研究方向
在音乐推荐系统领域,网易云音乐数据集的最新研究方向主要集中在利用深度学习和自然语言处理技术提升推荐算法的准确性和个性化。研究者们通过构建复杂的神经网络模型,分析用户行为数据和音乐特征,以实现更精准的歌曲推荐。此外,结合用户生成内容(如歌单、评论等)进行情感分析和主题建模,进一步增强了推荐系统的智能化水平。这些研究不仅推动了音乐推荐技术的发展,也为其他领域的个性化推荐系统提供了宝贵的经验和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录