CD-CARS datasets
收藏github2022-04-01 更新2024-05-31 收录
下载链接:
https://github.com/douglasveras/cd-cars-datasets
下载链接
链接失效反馈官方服务:
资源简介:
我们在这里提供了两个数据集。一个用于评估CD-CARS算法在两个更相关的领域(书籍和电视),另一个考虑两个不太相关的领域(书籍和音乐)。这些数据集是从[1]中改编和提取的,该文献包含不同亚马逊产品的评级(五星评级)、产品元数据和评论信息。除了这些数据外,我们还包含了关于三个情境维度(时间、地点和同伴)的上下文信息,分别从评级的日期、用户的静态地址(从他们在亚马逊的账户获得)和用户的评级评论中推断。
We present two datasets here. One is designed to evaluate the CD-CARS algorithm in two more related domains (books and television), while the other considers two less related domains (books and music). These datasets are adapted and extracted from [1], which contains ratings (five-star ratings), product metadata, and review information for various Amazon products. In addition to these data, we have included contextual information about three situational dimensions (time, location, and companion), inferred respectively from the date of the rating, the user's static address (obtained from their Amazon account), and the user's rating reviews.
创建时间:
2016-08-24
原始信息汇总
CD-CARS数据集概述
数据集描述
- 名称: CD-CARS数据集
- 用途: 用于评估CD-CARS算法,特别是在计算机科学博士论文中的应用。
- 数据集数量: 提供两个数据集。
- 数据集1: 用于评估两个相关领域(书籍和电视)的CD-CARS算法。
- 数据集2: 用于评估两个较少相关领域(书籍和音乐)的CD-CARS算法。
数据来源
- 数据集是从[1]中改编和提取的,该来源包含亚马逊产品的评分(五星制)、产品元数据和评论信息。
- 数据链接: 亚马逊元数据
数据内容
- 评分: 五星制评分。
- 产品元数据: 包括产品信息。
- 评论信息: 用户评论。
- 上下文信息: 包括三个上下文维度:
- 时间: 从评分日期推断。
- 地点: 从用户在亚马逊账户的静态地址获取。
- 同伴: 从用户评分评论中推断。
数据格式
- 每行数据格式: "用户 项目 评分 上下文(例如:c0 ={Sunday (1), Weekend (1), SAO_PAULO (1794), SAO_PAULO (235), Brazil (14), Unknown (-1), Unknown (-1), Unknown (-1)})"
引用信息
- 论文引用格式:
- @article{veras2019cd, title={CD-CARS: Cross-Domain Context-Aware Recommender Systems}, author={V{e}ras, Douglas and Prud{^e}ncio, Ricardo and Ferraz, Carlos}, journal={Expert Systems with Applications}, year={2019}, publisher={Elsevier} }
- Véras, D., Prudêncio, R., & Ferraz, C. (2019). CD-CARS: Cross-Domain Context-Aware Recommender Systems. Expert Systems with Applications.
搜集汇总
数据集介绍

构建方式
CD-CARS数据集构建于亚马逊产品数据的基础上,主要包含书籍、电视和音乐三个领域的用户评分、产品元数据及评论信息。数据来源于Leskovec等人提供的亚马逊产品数据集,并通过提取用户评分日期、静态地址及评论内容,进一步推断出时间、地点和同伴三个上下文维度。这些上下文信息被整合到数据集中,以支持跨领域上下文感知推荐系统的研究。
使用方法
CD-CARS数据集的使用方法较为直观,每行数据包含用户、物品、评分及上下文信息。研究人员可通过解析这些字段,构建跨领域上下文感知推荐模型。数据集适用于评估推荐算法在不同领域间的迁移能力,以及上下文信息对推荐效果的影响。使用该数据集时,需引用相关论文以尊重数据来源,并可通过邮件联系作者获取更多信息。
背景与挑战
背景概述
CD-CARS数据集由Douglas Véras等人在2019年创建,主要用于支持其博士论文研究,涉及计算机科学领域的跨域上下文感知推荐系统(CD-CARS)。该数据集基于亚马逊产品数据,包含用户评分、产品元数据及评论信息,并进一步引入了时间、地点和同伴三个上下文维度。这些数据来源于Leskovec等人关于病毒营销动态的研究,经过调整和扩展,形成了两个子数据集,分别用于评估在相关领域(书籍与电视)和较少相关领域(书籍与音乐)中的推荐算法性能。该数据集为跨域推荐系统的研究提供了重要的实验基础,推动了上下文感知推荐技术的发展。
当前挑战
CD-CARS数据集在解决跨域上下文感知推荐问题时面临多重挑战。首先,跨域推荐需要解决领域间数据分布差异问题,尤其是在领域相关性较低的情况下,如何有效迁移用户偏好信息成为关键。其次,上下文信息的引入增加了数据复杂性,如何准确建模时间、地点和同伴等上下文维度对推荐结果的影响,是算法设计中的难点。此外,数据构建过程中,上下文信息的推断依赖于用户评分日期、静态地址及评论内容,这些数据的稀疏性和噪声可能影响模型的鲁棒性。如何在数据稀疏和噪声干扰下提升推荐系统的性能,是该数据集应用中的核心挑战。
常用场景
经典使用场景
CD-CARS数据集主要用于跨领域上下文感知推荐系统(CD-CARS)的研究。该数据集通过提供书籍、电视和音乐等不同领域的用户评分、产品元数据及评论信息,结合时间、地点和同伴等上下文维度,为研究者提供了一个多维度、多领域的评估平台。特别是在跨领域推荐算法的性能评估中,CD-CARS数据集能够有效模拟真实场景中的用户行为,帮助研究者验证算法的鲁棒性和适应性。
解决学术问题
CD-CARS数据集解决了跨领域推荐系统中上下文信息整合的难题。传统推荐系统往往局限于单一领域,难以捕捉用户在不同情境下的偏好变化。该数据集通过引入时间、地点和同伴等上下文维度,为研究者提供了一个全面的实验平台,能够有效评估算法在不同上下文条件下的表现。这一创新不仅推动了跨领域推荐系统的发展,还为个性化推荐技术的优化提供了新的研究方向。
实际应用
在实际应用中,CD-CARS数据集为电子商务平台和流媒体服务提供了重要的参考价值。例如,亚马逊等电商平台可以利用该数据集优化跨品类推荐,提升用户在购买书籍、音乐或电子产品时的体验。同时,流媒体平台如Netflix或Spotify也可以借助该数据集,结合用户的时间、地点和社交情境,提供更加精准的内容推荐,从而提高用户满意度和平台粘性。
数据集最近研究
最新研究方向
在跨领域推荐系统(CD-CARS)的研究中,CD-CARS数据集为探索上下文感知推荐算法提供了重要支持。该数据集通过整合用户评分、产品元数据及评论信息,并结合时间、地点和同伴等上下文维度,为研究者提供了丰富的实验基础。近年来,随着个性化推荐需求的增长,跨领域推荐系统成为研究热点,尤其是在处理不同领域间的数据稀疏性和冷启动问题上,CD-CARS数据集的应用尤为突出。其独特的上下文信息设计为推荐算法的优化提供了新的视角,推动了推荐系统在复杂场景下的性能提升。该数据集的研究不仅为学术界提供了实验平台,也为工业界的实际应用提供了理论支持,具有重要的学术价值和实践意义。
以上内容由遇见数据集搜集并总结生成



