Ciao, Epinions, Douban, LastFM, NowPlaying, Xiami, Yahoo Music, 30 Music
收藏github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/Coder-Yu/DatasetCollection
下载链接
链接失效反馈官方服务:
资源简介:
这些数据集主要用于推荐系统和社会推荐、音乐推荐等研究领域。每个数据集都提供了用户、项目、评分等基本元数据信息,以及用户上下文和链接类型等详细信息。
These datasets are primarily utilized in research areas such as recommendation systems, social recommendations, and music recommendations. Each dataset provides fundamental metadata information including users, items, and ratings, along with detailed information such as user context and link types.
创建时间:
2017-07-21
原始信息汇总
数据集概述
推荐系统
社交推荐
| 数据集 | 用户数 | 物品数 | 评分数量 | 评分范围 | 密度 | 用户上下文 | 链接数量 | 链接类型 |
|---|---|---|---|---|---|---|---|---|
| Ciao | 7,375 | 105,114 | 284,086 | [1, 5] | 0.0365% | 7,375 | 111,781 | Trust |
| Epinions | 40,163 | 139,738 | 664,824 | [1, 5] | 0.0118% | 49,289 | 487,183 | Trust |
| Douban | 2,848 | 39,586 | 894,887 | [1, 5] | 0.794% | 2,848 | 35,770 | Trust |
| LastFM | 1,892 | 17,632 | 92,834 | implicit | 0.27% | 1,892 | 25,434 | Trust |
音乐推荐
| 数据集 | 用户数 | 曲目数 | 艺术家数 | 专辑数 | 记录数 | 标签 | 用户档案 | 艺术家档案 |
|---|---|---|---|---|---|---|---|---|
| NowPlaying | 1,744 | 16,864 | 2,108 | N/A | 1,117,335 | N/A | N/A | N/A |
| Xiami | 4,271 | 290,312 | 33,316 | 95,003 | 1,301,486 | Yes | N/A | N/A |
| Yahoo Music | 1,800,000 | 136,000 | many | many | 717,000,000 | Yes | N/A | N/A |
| 30 Music | 45167 | 5023108 | 595049 | 217337 | many | Yes | Yes | N/A |
论文推荐
| 数据集 | 用户数 | 论文数 | 反馈数 | 标签数 | 内容 |
|---|---|---|---|---|---|
| CiteULike | 7,947 | 25,975 | 134,860 | 52,946 | full abstract |
位置推荐
| 数据集 | 用户数 | 位置数 | 反馈数 | 关系 | 时间 |
|---|---|---|---|---|---|
| Gowalla | 18,737 | 32,510 | 1,278,274 | Yes | Yes |
产品推荐
| 数据集 | 用户数 | 物品数 | 类别数 | 行为类型 | 时间 |
|---|---|---|---|---|---|
| Taobao | 987,994 | 4,162,024 | 9,439 | 5 | Yes |
垃圾邮件检测
社交网络
| 数据集 | 非垃圾邮件发送者 | 垃圾邮件发送者 | 简介 |
|---|---|---|---|
| 1,295 | 355 | 第一列是用户类别(即,1表示非垃圾邮件发送者,2表示垃圾邮件发送者),后续列号从1到62表示用户特征。 | |
| YouTube | 641 | 31 (推广者) 157(垃圾邮件发送者) | 第一列是用户类别(即,1表示推广者,2表示垃圾邮件发送者,3表示合法用户),后续列号从1到60表示用户特征。 |
刷评检测
| 数据集 | 非垃圾邮件发送者 | 垃圾邮件发送者 | 简介 |
|---|---|---|---|
| Amazon | 3,118 | 1,937 | 列按此顺序:用户ID 物品ID 评分。在标签文件中:1: 垃圾邮件发送者 0: 非垃圾邮件发送者 |
| Yelp | 52,815 | 80,466 | 列按此顺序:用户_id 产品_id 评分 标签 日期。标签 -1: 垃圾邮件发送者 1: 非垃圾邮件发送者 |
网络欺凌检测
| 数据集 | 年份 | 标注方法 | 数据量 | 网络欺凌数量 | 网络欺凌比例 |
|---|---|---|---|---|---|
| Formspring | 2010 | 众包 | 3,915 | 369 | 9.43% |
| MySpace | 2011 | 专家标注 | 2,088 | 434 | 20.79% |
| Ask.fm | 2014 | ||||
| 2014 | 众包 | 1,954 | 567 | 29% | |
| Vine | 2015 | 众包 | 971 | 304 | 31.34% |
| BullyingV3.0 | 2015 | 标签算法 | 7,321 | 2,102 | 28.71% |
| WOW | 2016 | 专家标注 | 16,975 | 137 | 0.81% |
| LOL | 2016 | 专家标注 | 17,354 | 207 | 1.19% |
| 2017 | 众包 | 1,303 | 58 | 4.45% | |
| Wikipedia | 2017 | 众包 | 37,611 | 338 | 0.9% |
| Harassment-Corpus | 2018 | 专家标注 | 24,189 | 3,119 | 12.89% |
| Hate and Abusive Speech | 2018 | 众包 | 99,799 | 46,009 | 46.1% |
搜集汇总
数据集介绍

构建方式
该数据集集合涵盖了多个领域的推荐系统和社交网络分析数据集,包括社交推荐、音乐推荐、论文推荐、位置推荐、产品推荐以及垃圾邮件检测等。这些数据集的构建主要基于公开的在线平台数据,如社交媒体、音乐平台、电子商务网站等。数据收集过程涉及用户行为、评分、社交关系等多维度信息,确保数据的全面性和多样性。通过系统化的数据清洗和标注,确保数据质量,为后续的推荐算法和社交网络分析提供可靠的基础。
特点
这些数据集的显著特点在于其多维度和高密度特性。例如,社交推荐数据集不仅包含用户对物品的评分,还涵盖了用户间的信任关系,为研究社交影响下的推荐系统提供了丰富的上下文信息。音乐推荐数据集则包含了用户对音乐的播放记录、标签信息以及用户和艺术家档案,支持多层次的音乐推荐模型构建。此外,数据集的规模差异显著,从小规模的实验数据集到大规模的工业级数据集,满足不同研究需求。
使用方法
使用这些数据集时,首先需根据研究目标选择合适的数据集,并下载相应的数据文件。数据集通常以CSV或JSON格式提供,包含用户ID、物品ID、评分、社交关系等基本信息。研究者可以根据需要进行数据预处理,如缺失值填充、数据标准化等。随后,可以应用各种推荐算法或社交网络分析方法进行模型训练和验证。对于大规模数据集,建议采用分布式计算框架以提高处理效率。最终,通过模型评估指标如准确率、召回率等,验证模型的有效性。
背景与挑战
背景概述
在推荐系统领域,社交推荐和音乐推荐是两个关键的研究方向。Ciao、Epinions、Douban、LastFM、NowPlaying、Xiami、Yahoo Music和30 Music等数据集,由多个知名研究机构和学者共同创建,旨在解决用户与物品之间的推荐问题。这些数据集不仅涵盖了用户对物品的评分,还包括用户之间的社交关系,为研究社交推荐系统提供了丰富的数据支持。此外,音乐推荐数据集如NowPlaying和Xiami,通过捕捉用户的音乐收听行为,为个性化音乐推荐提供了宝贵的资源。这些数据集的创建和发布,极大地推动了推荐系统领域的发展,为研究人员提供了标准化的数据集,促进了算法的比较和优化。
当前挑战
尽管这些数据集在推荐系统研究中发挥了重要作用,但仍面临诸多挑战。首先,数据集的稀疏性问题仍然存在,尤其是在社交推荐中,用户与物品之间的交互数据相对稀少,导致模型训练困难。其次,数据集的多样性和规模差异较大,不同数据集的特征和规模差异可能导致算法在不同数据集上的表现不一致。此外,数据集的隐私和安全问题也不容忽视,如何在保护用户隐私的前提下,充分利用数据进行研究,是一个亟待解决的问题。最后,数据集的更新和维护也是一个挑战,随着时间的推移,用户行为和社交网络结构可能发生变化,如何及时更新数据集以反映这些变化,是保持数据集有效性的关键。
常用场景
经典使用场景
在推荐系统领域,该数据集被广泛应用于社交推荐和音乐推荐的研究中。例如,Ciao和Epinions数据集常用于研究社交网络中的信任关系对推荐系统的影响,通过分析用户间的信任链接来提升推荐准确性。而NowPlaying和Xiami数据集则主要用于音乐推荐系统,通过分析用户的听歌历史和社交行为,预测用户可能喜欢的音乐。
解决学术问题
该数据集解决了推荐系统中常见的冷启动问题和数据稀疏性问题。通过引入社交网络中的信任关系和用户行为数据,研究人员能够更准确地预测用户的偏好,从而提升推荐系统的性能。此外,音乐推荐数据集还解决了音乐领域中个性化推荐的问题,通过分析用户的听歌历史和社交行为,提供更符合用户口味的音乐推荐。
衍生相关工作
基于该数据集,研究人员开发了多种推荐算法和模型。例如,Tang等人提出了mTrust模型,通过分析社交网络中的多维度信任关系来提升推荐准确性。Wang等人则提出了基于元数据的音乐嵌入模型,用于音乐推荐系统。此外,Han等人提出了基于树结构的深度学习模型,用于解决推荐系统中的冷启动问题。
以上内容由遇见数据集搜集并总结生成



