five

网易云音乐数据集|音乐数据挖掘数据集|推荐系统数据集

收藏
github2024-06-03 更新2024-06-06 收录
音乐数据挖掘
推荐系统
下载链接:
https://github.com/LindiaC/music163-mining
下载链接
链接失效反馈
资源简介:
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

This dataset encompasses information on artists, songs, and playlists from the NetEase Cloud Music platform. The data was acquired through web scraping techniques and organized into CSV format, intended for use in music data mining and the construction of recommendation systems.
创建时间:
2024-05-27
原始信息汇总

数据集概述

数据获取

  • 网易云音乐数据挖掘:通过解析网页元素和使用API获取数据。
  • API使用:原Node.js版本API已停止维护,现使用Qt版本的API库。
  • 数据文件
    • singer.csv:包含所有华语男歌手、女歌手、组合的{id,姓名},约5700行。
    • song.csv:包含歌曲信息,格式为歌手id::歌曲名::歌手名::热度,约260000行。
    • MusicList_2024-05-28T02-23-05.csv:包含歌单信息,格式为AmountOfPlay,AuthorID,Collection,Comment,CreationDate,Forwarding,Labels,NumberOfSongs,SongListName,SongsListID,Url,约600行。
    • songlist.csv:处理后的歌单信息,格式为歌单名##标签##歌单id##收藏量
    • songlist2songs.txt:包含歌单及其对应歌曲信息,格式为歌单信息后跟歌曲信息,用 分隔。

数据处理

  • 获取所有歌手:使用getAllSinger.py文件,将结果写入singer.csv
  • 获取(大部分)歌曲:使用getSingerHotSong.py文件,将结果写入song.csv
  • 获取所有歌单:使用wyyMusic文件夹中的脚本,将结果写入MusicList_2024-05-28T02-23-05.csv,并进一步处理为songlist.csv
  • 按歌单列举歌曲:使用Songlist2Songs.py文件,将结果写入songlist2songs.txt

数据挖掘

  • 推荐系统:使用Music_Recommend_System.ipynb文件,可以查找与一个歌单最接近的10个歌单,以及根据歌曲推荐的10首歌。

用户界面

  • UI实现:使用Music_Recommend_UI.py文件,提供图形用户界面。
AI搜集汇总
数据集介绍
main_image_url
构建方式
网易云音乐数据集的构建过程始于对网易云音乐平台数据的系统性挖掘。首先,通过解析网页元素和利用API接口,获取了包括歌手、歌曲和歌单在内的多维度音乐数据。具体而言,数据集的构建包括以下几个关键步骤:首先,通过Python脚本`getAllSinger.py`获取所有华语歌手的ID和姓名,并存储于`singer.csv`文件中;接着,利用`getSingerHotSong.py`脚本,根据歌手ID获取其热门歌曲信息,并整理成`song.csv`文件;随后,通过`SonglistProcessor.py`处理歌单数据,提取关键信息并存储于`songlist.csv`;最后,使用`Songlist2Songs.py`脚本,将歌单与其包含的歌曲信息关联,生成`songlist2songs.txt`文件。这一系列步骤确保了数据的完整性和一致性,为后续的数据分析和挖掘奠定了坚实基础。
特点
网易云音乐数据集以其丰富的内容和多样的数据类型著称。该数据集不仅包含了大量的歌手和歌曲信息,还涵盖了歌单的详细数据,包括歌单名称、标签、ID以及收藏量等。此外,数据集中的歌曲信息还包括了歌曲名、歌手名和热度等关键字段,这些信息为音乐推荐系统、用户行为分析以及市场研究提供了宝贵的资源。值得一提的是,该数据集的构建过程中采用了多种数据获取和处理技术,确保了数据的准确性和时效性,使其在音乐领域的研究和应用中具有极高的价值。
使用方法
网易云音乐数据集的使用方法多样,适用于多种音乐相关的研究和应用场景。首先,数据集可以直接用于构建和训练音乐推荐系统,通过分析用户行为和音乐特征,提供个性化的音乐推荐服务。其次,研究人员可以利用该数据集进行用户行为分析,探索用户对不同类型音乐的偏好和消费习惯。此外,市场分析师可以借助数据集中的歌单和歌曲信息,进行音乐市场的趋势分析和预测。为了方便用户使用,数据集提供了详细的API接口和Python脚本,用户可以根据需要进行数据的提取和处理,进一步应用于自己的研究或项目中。
背景与挑战
背景概述
网易云音乐数据集,由[@LindiaC](https://github.com/LindiaC)、[@xp0123](https://github.com/xp0123)和[@syy-yoyo](https://github.com/syy-yoyo)于2024年共同创建,旨在为音乐推荐系统研究提供丰富的数据资源。该数据集涵盖了歌手信息、歌曲详情、歌单内容等多个维度,为研究者提供了深入分析音乐偏好和推荐算法的宝贵数据。其核心研究问题包括音乐数据的采集、处理与推荐系统的构建,对音乐推荐领域的研究具有重要推动作用。
当前挑战
网易云音乐数据集在构建过程中面临多重挑战。首先,数据获取方面,由于原Node.js版本API的停止维护,研究团队需寻找替代方案,增加了数据采集的复杂性。其次,数据处理方面,需将爬取的数据转换为便于分析的格式,确保数据的准确性和一致性。此外,推荐系统的构建需应对用户偏好多样性和数据稀疏性问题,确保推荐结果的精准性和实用性。
常用场景
经典使用场景
网易云音乐数据集在音乐推荐系统中展现了其经典应用场景。通过整合歌手、歌曲和歌单的详细信息,该数据集为研究人员和开发者提供了丰富的数据资源,用于构建和优化音乐推荐算法。例如,利用数据集中的歌曲热度、歌手ID和歌单标签,可以实现基于内容的推荐、协同过滤以及混合推荐等多种推荐策略,从而提升用户体验。
衍生相关工作
网易云音乐数据集的发布催生了一系列相关研究和工作。例如,基于该数据集,研究人员开发了多种音乐推荐算法,如基于内容的推荐、协同过滤和深度学习模型等。此外,数据集还被用于研究音乐情感分析、用户行为预测和音乐风格分类等领域。这些研究不仅推动了音乐推荐技术的发展,也为其他领域的推荐系统研究提供了参考和借鉴。
数据集最近研究
最新研究方向
在音乐推荐系统领域,网易云音乐数据集的最新研究方向主要集中在利用深度学习和自然语言处理技术提升推荐算法的准确性和个性化。研究者们通过构建复杂的神经网络模型,分析用户行为数据和音乐特征,以实现更精准的歌曲推荐。此外,结合用户生成内容(如歌单、评论等)进行情感分析和主题建模,进一步增强了推荐系统的智能化水平。这些研究不仅推动了音乐推荐技术的发展,也为其他领域的个性化推荐系统提供了宝贵的经验和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

LogiQA

LogiQA 包含 8,678 个 QA 实例,涵盖多种类型的演绎推理。结果表明,最先进的神经模型的性能远远低于人类天花板。该数据集还可以作为在深度学习 NLP 设置下重新研究逻辑 AI 的基准。

OpenDataLab 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录