five

Ciao, Epinions, Douban, LastFM, NowPlaying, Xiami, Yahoo Music, 30 Music

收藏
github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/CQU-CSE/DatasetCollection
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据集主要用于推荐系统研究,包括社交推荐和音乐推荐等领域。每个数据集都提供了用户数、项目数、评分范围等基本元数据,以及用户上下文信息,如信任链接类型等。

These datasets are primarily utilized for research in recommendation systems, encompassing areas such as social recommendation and music recommendation. Each dataset provides fundamental metadata including the number of users, the number of items, the range of ratings, as well as user contextual information such as types of trust links.
创建时间:
2017-07-21
原始信息汇总

数据集概述

推荐系统数据集

  1. 社交推荐数据集

    • Ciao
      • 用户数: 7,375
      • 物品数: 105,114
      • 评分数: 284,086
      • 评分范围: [1, 5]
      • 密度: 0.0365%
      • 用户上下文: 7,375用户, 111,781信任链接
    • Epinions
      • 用户数: 40,163
      • 物品数: 139,738
      • 评分数: 664,824
      • 评分范围: [1, 5]
      • 密度: 0.0118%
      • 用户上下文: 49,289用户, 487,183信任链接
    • Douban
      • 用户数: 2,848
      • 物品数: 39,586
      • 评分数: 894,887
      • 评分范围: [1, 5]
      • 密度: 0.794%
      • 用户上下文: 2,848用户, 35,770信任链接
    • LastFM
      • 用户数: 1,892
      • 物品数: 17,632
      • 评分数: 92,834
      • 评分范围: 隐式
      • 密度: 0.27%
      • 用户上下文: 1,892用户, 25,434信任链接
  2. 音乐推荐数据集

    • NowPlaying
      • 用户数: 1,744
      • 曲目数: 16,864
      • 艺术家数: 2,108
      • 专辑数: N/A
      • 记录数: 1,117,335
      • 标签: N/A
      • 用户配置文件: N/A
      • 艺术家配置文件: N/A
    • Xiami
      • 用户数: 4,271
      • 曲目数: 290,312
      • 艺术家数: 33,316
      • 专辑数: 95,003
      • 记录数: 1,301,486
      • 标签: 是
      • 用户配置文件: N/A
      • 艺术家配置文件: N/A
    • Yahoo Music
      • 用户数: 1,800,000
      • 曲目数: 136,000
      • 艺术家数: 多
      • 专辑数: 多
      • 记录数: 717,000,000
      • 标签: 是
      • 用户配置文件: N/A
      • 艺术家配置文件: N/A
    • 30 Music
      • 用户数: 45167
      • 曲目数: 5023108
      • 艺术家数: 595049
      • 专辑数: 217337
      • 记录数: 多
      • 标签: 是
      • 用户配置文件: 是
      • 艺术家配置文件: N/A
  3. 论文推荐数据集

    • CiteULike
      • 用户数: 7,947
      • 论文数: 25,975
      • 反馈数: 134,860
      • 标签数: 52,946
      • 内容: 完整摘要
  4. 位置推荐数据集

    • Gowalla
      • 用户数: 18,737
      • 位置数: 32,510
      • 反馈数: 1,278,274
      • 关系: 是
      • 时间: 是
  5. 产品推荐数据集

    • Taobao
      • 用户数: 987,994
      • 物品数: 4,162,024
      • 类别数: 9,439
      • 行为类型: 5
      • 时间: 是

垃圾邮件检测数据集

  1. 社交网络数据集

    • Twitter
      • 非垃圾邮件用户: 1,295
      • 垃圾邮件用户: 355
    • YouTube
      • 非垃圾邮件用户: 641
      • 推广者: 31
      • 垃圾邮件用户: 157
  2. 虚假评价检测数据集

    • Amazon
      • 非垃圾邮件用户: 3,118
      • 垃圾邮件用户: 1,937
    • Yelp
      • 非垃圾邮件用户: 52,815
      • 垃圾邮件用户: 80,466

网络欺凌检测数据集

  1. Formspring

    • 年份: 2010
    • 注释方法: 众包
    • 数据量: 3,915
    • 网络欺凌数量: 369
    • 网络欺凌比例: 9.43%
  2. MySpace

    • 年份: 2011
    • 注释方法: 专家标记
    • 数据量: 2,088
    • 网络欺凌数量: 434
    • 网络欺凌比例: 20.79%
  3. Ask.fm

    • 年份: 2014
    • 注释方法: 未指定
    • 数据量: 未指定
    • 网络欺凌数量: 未指定
    • 网络欺凌比例: 未指定
  4. Instagram

    • 年份: 2014
    • 注释方法: 众包
    • 数据量: 1,954
    • 网络欺凌数量: 567
    • 网络欺凌比例: 29%
  5. Vine

    • 年份: 2015
    • 注释方法: 众包
    • 数据量: 971
    • 网络欺凌数量: 304
    • 网络欺凌比例: 31.34%
  6. BullyingV3.0

    • 年份: 2015
    • 注释方法: 标签算法
    • 数据量: 7,321
    • 网络欺凌数量: 2,102
    • 网络欺凌比例: 28.71%
  7. WOW

    • 年份: 2016
    • 注释方法: 专家标记
    • 数据量: 16,975
    • 网络欺凌数量: 137
    • 网络欺凌比例: 0.81%
  8. LOL

    • 年份: 2016
    • 注释方法: 专家标记
    • 数据量: 17,354
    • 网络欺凌数量: 207
    • 网络欺凌比例: 1.19%
  9. Twitter

    • 年份: 2017
    • 注释方法: 众包
    • 数据量: 1,303
    • 网络欺凌数量: 58
    • 网络欺凌比例: 4.45%
  10. Wikipedia

    • 年份: 2017
    • 注释方法: 众包
    • 数据量: 37,611
    • 网络欺凌数量: 338
    • 网络欺凌比例: 0.9%
  11. Harassment-Corpus

    • 年份: 2018
    • 注释方法: 专家标记
    • 数据量: 24,189
    • 网络欺凌数量: 3,119
    • 网络欺凌比例: 12.89%
  12. Hate and Abusive Speech

    • 年份: 2018
    • 注释方法: 众包
    • 数据量: 99,799
    • 网络欺凌数量: 46,009
    • 网络欺凌比例: 46.1%
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于多个社交推荐系统和音乐推荐系统的公开数据,通过整合不同平台(如Ciao、Epinions、Douban、LastFM、NowPlaying、Xiami、Yahoo Music、30 Music等)的用户评分和社交关系数据,形成了一个综合性的数据集。数据集的构建过程中,首先收集了各平台的基本元数据,包括用户数量、物品数量、评分数量及其评分尺度等,随后整合了用户上下文信息,如用户间的信任关系和链接类型。这一过程确保了数据集的多样性和完整性,为推荐系统的研究提供了丰富的数据支持。
特点
该数据集的主要特点在于其多样性和综合性。首先,数据集涵盖了多个不同领域的推荐系统数据,包括社交推荐和音乐推荐,这使得研究者可以在同一数据集上进行跨领域的推荐算法比较。其次,数据集包含了丰富的用户上下文信息,如用户间的信任关系和链接类型,这些信息对于构建基于社交网络的推荐模型至关重要。此外,数据集的规模较大,涉及的用户和物品数量众多,评分数据丰富,能够支持大规模推荐系统的训练和验证。
使用方法
该数据集适用于多种推荐系统的研究和开发,特别是基于社交网络和上下文信息的推荐算法。研究者可以通过该数据集进行用户行为分析、评分预测、社交推荐模型构建等任务。使用时,首先需要下载数据集并进行预处理,提取所需的用户评分和社交关系数据。随后,可以根据具体的研究目标选择合适的推荐算法进行模型训练和验证。数据集的多样性和丰富性为研究者提供了广阔的实验空间,有助于推动推荐系统领域的发展。
背景与挑战
背景概述
在推荐系统领域,社交推荐和音乐推荐是两个关键的研究方向。Ciao、Epinions、Douban、LastFM、NowPlaying、Xiami、Yahoo Music和30 Music等数据集,由Tang、Massa、Zhao等研究人员创建,旨在解决用户与物品之间的复杂关系问题。这些数据集不仅涵盖了用户对物品的评分,还包括用户之间的社交关系,如信任链接。通过这些数据集,研究人员能够深入探索如何在社交网络中有效推荐物品,从而提升用户体验。
当前挑战
这些数据集在构建过程中面临多重挑战。首先,数据稀疏性是一个主要问题,尤其是在用户评分较少的情况下,如何准确预测用户偏好成为一大挑战。其次,社交网络中的信任关系复杂多样,如何有效利用这些关系进行推荐也是一个难点。此外,不同数据集的规模和特性各异,如何在多样化的数据环境中保持推荐算法的稳定性和高效性,也是研究人员需要解决的问题。
常用场景
经典使用场景
在推荐系统领域,Ciao、Epinions、Douban等数据集的经典使用场景主要集中在社交推荐系统的构建与优化。这些数据集通过整合用户评分、社交关系以及信任网络,为研究人员提供了丰富的数据资源,以探索如何在社交网络中更有效地进行个性化推荐。例如,通过分析用户间的信任关系,可以提升推荐系统的准确性和用户满意度。
实际应用
在实际应用中,这些数据集被广泛用于电商平台、社交媒体和音乐推荐服务等领域。例如,电商平台可以利用用户间的信任关系来提升商品推荐的准确性,社交媒体则可以通过分析用户行为来优化内容推荐。此外,音乐推荐服务如LastFM和NowPlaying数据集,通过分析用户的听歌历史和社交互动,能够为用户提供更加个性化的音乐推荐体验。
衍生相关工作
基于这些数据集,研究人员开发了多种经典的推荐算法和模型,如基于信任的推荐系统(Trust-based Recommender Systems)和社交网络分析(Social Network Analysis)。这些工作不仅在学术界产生了深远影响,也在工业界得到了广泛应用。例如,Epinions数据集的研究成果被应用于多个在线推荐系统中,显著提升了用户体验和平台的商业价值。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务