five

Ciao, Epinions, Douban, LastFM, NowPlaying, Xiami, Yahoo Music, 30 Music|推荐系统数据集|音乐推荐数据集

收藏
github2024-05-22 更新2024-05-31 收录
推荐系统
音乐推荐
下载链接:
https://github.com/Coder-Yu/DatasetCollection
下载链接
链接失效反馈
资源简介:
这些数据集主要用于推荐系统和社会推荐、音乐推荐等研究领域。每个数据集都提供了用户、项目、评分等基本元数据信息,以及用户上下文和链接类型等详细信息。

These datasets are primarily utilized in research areas such as recommendation systems, social recommendations, and music recommendations. Each dataset provides fundamental metadata information including users, items, and ratings, along with detailed information such as user context and link types.
创建时间:
2017-07-21
原始信息汇总

数据集概述

推荐系统

社交推荐
数据集 用户数 物品数 评分数量 评分范围 密度 用户上下文 链接数量 链接类型
Ciao 7,375 105,114 284,086 [1, 5] 0.0365% 7,375 111,781 Trust
Epinions 40,163 139,738 664,824 [1, 5] 0.0118% 49,289 487,183 Trust
Douban 2,848 39,586 894,887 [1, 5] 0.794% 2,848 35,770 Trust
LastFM 1,892 17,632 92,834 implicit 0.27% 1,892 25,434 Trust
音乐推荐
数据集 用户数 曲目数 艺术家数 专辑数 记录数 标签 用户档案 艺术家档案
NowPlaying 1,744 16,864 2,108 N/A 1,117,335 N/A N/A N/A
Xiami 4,271 290,312 33,316 95,003 1,301,486 Yes N/A N/A
Yahoo Music 1,800,000 136,000 many many 717,000,000 Yes N/A N/A
30 Music 45167 5023108 595049 217337 many Yes Yes N/A
论文推荐
数据集 用户数 论文数 反馈数 标签数 内容
CiteULike 7,947 25,975 134,860 52,946 full abstract

位置推荐

数据集 用户数 位置数 反馈数 关系 时间
Gowalla 18,737 32,510 1,278,274 Yes Yes

产品推荐

数据集 用户数 物品数 类别数 行为类型 时间
Taobao 987,994 4,162,024 9,439 5 Yes

垃圾邮件检测

社交网络
数据集 非垃圾邮件发送者 垃圾邮件发送者 简介
Twitter 1,295 355 第一列是用户类别(即,1表示非垃圾邮件发送者,2表示垃圾邮件发送者),后续列号从1到62表示用户特征。
YouTube 641 31 (推广者) 157(垃圾邮件发送者) 第一列是用户类别(即,1表示推广者,2表示垃圾邮件发送者,3表示合法用户),后续列号从1到60表示用户特征。
刷评检测
数据集 非垃圾邮件发送者 垃圾邮件发送者 简介
Amazon 3,118 1,937 列按此顺序:用户ID 物品ID 评分。在标签文件中:1: 垃圾邮件发送者 0: 非垃圾邮件发送者
Yelp 52,815 80,466 列按此顺序:用户_id 产品_id 评分 标签 日期。标签 -1: 垃圾邮件发送者 1: 非垃圾邮件发送者

网络欺凌检测

数据集 年份 标注方法 数据量 网络欺凌数量 网络欺凌比例
Formspring 2010 众包 3,915 369 9.43%
MySpace 2011 专家标注 2,088 434 20.79%
Ask.fm 2014
Instagram 2014 众包 1,954 567 29%
Vine 2015 众包 971 304 31.34%
BullyingV3.0 2015 标签算法 7,321 2,102 28.71%
WOW 2016 专家标注 16,975 137 0.81%
LOL 2016 专家标注 17,354 207 1.19%
Twitter 2017 众包 1,303 58 4.45%
Wikipedia 2017 众包 37,611 338 0.9%
Harassment-Corpus 2018 专家标注 24,189 3,119 12.89%
Hate and Abusive Speech 2018 众包 99,799 46,009 46.1%
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集集合涵盖了多个领域的推荐系统和社交网络分析数据集,包括社交推荐、音乐推荐、论文推荐、位置推荐、产品推荐以及垃圾邮件检测等。这些数据集的构建主要基于公开的在线平台数据,如社交媒体、音乐平台、电子商务网站等。数据收集过程涉及用户行为、评分、社交关系等多维度信息,确保数据的全面性和多样性。通过系统化的数据清洗和标注,确保数据质量,为后续的推荐算法和社交网络分析提供可靠的基础。
特点
这些数据集的显著特点在于其多维度和高密度特性。例如,社交推荐数据集不仅包含用户对物品的评分,还涵盖了用户间的信任关系,为研究社交影响下的推荐系统提供了丰富的上下文信息。音乐推荐数据集则包含了用户对音乐的播放记录、标签信息以及用户和艺术家档案,支持多层次的音乐推荐模型构建。此外,数据集的规模差异显著,从小规模的实验数据集到大规模的工业级数据集,满足不同研究需求。
使用方法
使用这些数据集时,首先需根据研究目标选择合适的数据集,并下载相应的数据文件。数据集通常以CSV或JSON格式提供,包含用户ID、物品ID、评分、社交关系等基本信息。研究者可以根据需要进行数据预处理,如缺失值填充、数据标准化等。随后,可以应用各种推荐算法或社交网络分析方法进行模型训练和验证。对于大规模数据集,建议采用分布式计算框架以提高处理效率。最终,通过模型评估指标如准确率、召回率等,验证模型的有效性。
背景与挑战
背景概述
在推荐系统领域,社交推荐和音乐推荐是两个关键的研究方向。Ciao、Epinions、Douban、LastFM、NowPlaying、Xiami、Yahoo Music和30 Music等数据集,由多个知名研究机构和学者共同创建,旨在解决用户与物品之间的推荐问题。这些数据集不仅涵盖了用户对物品的评分,还包括用户之间的社交关系,为研究社交推荐系统提供了丰富的数据支持。此外,音乐推荐数据集如NowPlaying和Xiami,通过捕捉用户的音乐收听行为,为个性化音乐推荐提供了宝贵的资源。这些数据集的创建和发布,极大地推动了推荐系统领域的发展,为研究人员提供了标准化的数据集,促进了算法的比较和优化。
当前挑战
尽管这些数据集在推荐系统研究中发挥了重要作用,但仍面临诸多挑战。首先,数据集的稀疏性问题仍然存在,尤其是在社交推荐中,用户与物品之间的交互数据相对稀少,导致模型训练困难。其次,数据集的多样性和规模差异较大,不同数据集的特征和规模差异可能导致算法在不同数据集上的表现不一致。此外,数据集的隐私和安全问题也不容忽视,如何在保护用户隐私的前提下,充分利用数据进行研究,是一个亟待解决的问题。最后,数据集的更新和维护也是一个挑战,随着时间的推移,用户行为和社交网络结构可能发生变化,如何及时更新数据集以反映这些变化,是保持数据集有效性的关键。
常用场景
经典使用场景
在推荐系统领域,该数据集被广泛应用于社交推荐和音乐推荐的研究中。例如,Ciao和Epinions数据集常用于研究社交网络中的信任关系对推荐系统的影响,通过分析用户间的信任链接来提升推荐准确性。而NowPlaying和Xiami数据集则主要用于音乐推荐系统,通过分析用户的听歌历史和社交行为,预测用户可能喜欢的音乐。
解决学术问题
该数据集解决了推荐系统中常见的冷启动问题和数据稀疏性问题。通过引入社交网络中的信任关系和用户行为数据,研究人员能够更准确地预测用户的偏好,从而提升推荐系统的性能。此外,音乐推荐数据集还解决了音乐领域中个性化推荐的问题,通过分析用户的听歌历史和社交行为,提供更符合用户口味的音乐推荐。
衍生相关工作
基于该数据集,研究人员开发了多种推荐算法和模型。例如,Tang等人提出了mTrust模型,通过分析社交网络中的多维度信任关系来提升推荐准确性。Wang等人则提出了基于元数据的音乐嵌入模型,用于音乐推荐系统。此外,Han等人提出了基于树结构的深度学习模型,用于解决推荐系统中的冷启动问题。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

ImageNet-1K(ILSVRC2012)

ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。

github 收录