Book Crossing

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/caserec/Datasets-for-Recommender-Systems

下载链接

链接失效反馈

官方服务：

资源简介：

BookCrossing (BX) 数据集由Cai-Nicolas收集，通过2004年8月至9月为期四周的爬虫活动从Book-Crossing社区获取。

BookCrossing（BX）数据集由Cai-Nicolas编纂，经四周的网络爬虫活动，自2004年8月至9月间从Book-Crossing社区中搜集而来。

创建时间：

2017-02-06

原始信息汇总

数据集概述

书籍

Book Crossing: 由Cai-Nicolas收集，包含2004年8月至9月期间从Book-Crossing社区爬取的数据。

约会

Dating Agency: 包含17,359,346个匿名评分，涉及168,791个个人资料，由135,359名LibimSeTi用户在2006年4月4日提供。

电子商务

Amazon: 包含142.8百万条产品评论和元数据，涵盖1996年5月至2014年7月。
Retailrocket recommender system dataset: 包含行为数据、商品属性和类别树描述，来自真实电子商务网站。

音乐

Amazon Music: 包含数字音乐的评论和元数据。
Yahoo Music: 代表Yahoo! Music社区对各种音乐艺术家的偏好。
LastFM (Implicit): 包含2000名Last.fm用户的社会网络、标签和音乐艺术家收听信息。
Million Song Dataset: 包含一百万当代流行音乐曲目的音频特征和元数据。

电影

MovieLens: GroupLens Research收集并提供的电影评分数据集。
Yahoo Movies: 包含来自Yahoo! Music服务的歌曲评分。
CiaoDVD: 2013年12月从dvd.ciao.co.uk网站爬取的DVD类别数据。
FilmTrust: 2011年6月从整个FilmTrust网站爬取的数据。
Netflix: 官方Netflix Prize竞赛使用的数据集。

游戏

Steam Video Games: 包含用户行为数据，如购买和游戏时长。

笑话

Jester: 包含73,496名用户对100个笑话的4.1百万连续评分。

食品

Chicago Entree: 包含用户与Entree Chicago餐厅推荐系统的交互记录。

动漫

Anime Recommendations Database: 包含73,516名用户对12,294部动漫的偏好数据。

Android应用

Myket Android Application Install Dataset: 包含694,121次应用安装交互，涉及10,000名用户和7,988个Android应用。

其他资源

更多数据集可在GroupLens、LibRec、Yahoo Research等网站找到。

搜集汇总

数据集介绍

构建方式

在推荐系统领域，Book Crossing数据集由Cai-Nicolas于2004年8月至9月期间，通过为期四周的爬虫活动，从Book-Crossing社区中收集而成。该数据集的构建旨在捕捉用户对书籍的评分和评论，从而为推荐系统研究提供丰富的用户行为数据。通过这一过程，数据集不仅包含了用户的评分信息，还涵盖了书籍的元数据，为研究者提供了多维度的分析基础。

特点

Book Crossing数据集的显著特点在于其广泛的用户参与度和详细的评分记录。该数据集包含了大量用户对书籍的评分，评分范围从低至高，提供了丰富的用户偏好信息。此外，数据集中的书籍元数据，如作者、出版年份和ISBN号，进一步增强了数据集的分析价值。这些特点使得Book Crossing数据集成为推荐系统研究中的重要资源，尤其适用于基于内容的推荐算法和协同过滤算法的实验。

使用方法

使用Book Crossing数据集时，研究者首先需下载数据集文件，并根据README文件中的指导进行数据预处理。数据集通常以CSV格式提供，包含用户ID、书籍ID、评分和时间戳等字段。研究者可以根据需要提取特定时间段或特定用户群体的数据，进行进一步的分析和建模。此外，数据集的开放性和详细性使其适用于多种推荐系统算法的实现和评估，为学术研究和实际应用提供了坚实的基础。

背景与挑战

背景概述

Book Crossing数据集由Cai-Nicolas于2004年8月至9月期间通过为期四周的爬虫活动从Book-Crossing社区收集而成。该数据集的核心研究问题在于探索和分析用户对书籍的评分和评论，以期为推荐系统提供高质量的数据支持。这一数据集的创建不仅丰富了推荐系统领域的研究资源，还为后续研究提供了宝贵的用户行为数据，从而推动了个性化推荐技术的发展。

当前挑战

Book Crossing数据集在构建过程中面临的主要挑战包括数据的真实性和多样性。首先，由于数据来源于社区用户的自愿评分和评论，数据的真实性可能受到用户主观因素的影响。其次，数据集的多样性问题在于如何确保涵盖不同类型和风格的书籍，以避免推荐系统的偏见。此外，数据集的规模和更新频率也是一大挑战，如何在有限的资源下保持数据的时效性和完整性，是该数据集未来需要解决的重要问题。

常用场景

经典使用场景

在推荐系统领域，Book Crossing数据集以其丰富的用户评分和书籍信息，成为研究个性化推荐算法的重要基石。该数据集记录了用户对书籍的评分，为研究人员提供了一个真实且多样化的数据环境，用于评估和优化推荐算法的准确性和效率。通过分析用户的历史评分，研究者可以开发出能够预测用户偏好的模型，从而实现更精准的书籍推荐。

衍生相关工作

基于Book Crossing数据集，研究者们开展了一系列经典工作。例如，协同过滤算法的研究者利用该数据集验证了基于用户和基于物品的推荐方法的有效性。此外，内容推荐技术的发展也受益于Book Crossing数据集，研究者通过分析书籍的元数据和用户评分，开发了更为精准的推荐模型。混合推荐系统的研究也得益于该数据集，通过结合多种推荐技术，实现了更高的推荐准确率。这些相关工作不仅丰富了推荐系统的理论基础，也为实际应用提供了强有力的支持。

数据集最近研究