CURE4Rec

Name: CURE4Rec
Creator: 浙江大学, 索尼AI, 杭州电子科技大学
Published: 2024-08-27 00:21:50
License: 暂无描述

arXiv2024-08-27 更新2024-08-28 收录

下载链接：

https://github.com/xiye7lai/CURE4Rec

下载链接

链接失效反馈

官方服务：

资源简介：

CURE4Rec是由浙江大学、索尼AI和杭州电子科技大学联合创建的一个综合基准数据集，专门用于评估推荐系统中的机器遗忘技术。该数据集包含三个真实世界的数据集：ML-100K、ML-1M和ADM2，这些数据集经过预处理，转换为隐式反馈，并过滤了交互少于5次的用户和项目。数据集的创建旨在通过三种数据选择策略（核心数据、边缘数据和随机数据）来评估遗忘方法在四个方面（遗忘完整性、推荐效用、遗忘效率和推荐公平性）的表现。CURE4Rec的应用领域主要集中在推荐系统的隐私保护和用户数据遗忘，旨在解决推荐系统中历史数据包含敏感用户信息的问题。

CURE4Rec is a comprehensive benchmark dataset jointly created by Zhejiang University, Sony AI, and Hangzhou Dianzi University, specifically designed for evaluating machine forgetting techniques in recommendation systems. This dataset includes three real-world datasets: ML-100K, ML-1M, and ADM2. All of these datasets have been preprocessed, converted into implicit feedback, and filtered to eliminate users and items with fewer than 5 interactions. The dataset is constructed to evaluate the performance of forgetting methods across four dimensions: forgetting integrity, recommendation utility, forgetting efficiency, and recommendation fairness, via three data selection strategies: core data, edge data, and random data. The application scope of CURE4Rec mainly focuses on privacy preservation and user data forgetting in recommendation systems, aiming to solve the problem that historical data in recommendation systems may contain sensitive user information.

提供机构：

浙江大学, 索尼AI, 杭州电子科技大学

创建时间：

2024-08-27

搜集汇总

数据集介绍

构建方式

CURE4Rec数据集的构建旨在评估推荐系统中的机器遗忘（unlearning）方法。该数据集涵盖了四个主要方面：遗忘完整性、推荐效用、遗忘效率和推荐公平性。通过三种数据选择策略（核心数据、边缘数据和随机数据），CURE4Rec构建了多个数据集，以全面评估不同遗忘方法在这些方面的表现。具体构建过程中，研究者考虑了遗忘对推荐公平性和鲁棒性的深层影响，并设计了相应的评估指标和实验流程。

特点

CURE4Rec数据集的主要特点在于其全面性和深度性。它不仅评估了遗忘方法的基本性能，如遗忘完整性和效率，还深入探讨了遗忘对推荐系统公平性和鲁棒性的影响。此外，该数据集采用了多种数据选择策略，以测试遗忘方法在不同数据集上的鲁棒性。这些特点使得CURE4Rec成为评估推荐系统中机器遗忘方法的理想基准。

使用方法

使用CURE4Rec数据集时，研究者可以针对四个评估方面（遗忘完整性、推荐效用、遗忘效率和推荐公平性）进行实验。首先，研究者需要选择合适的推荐模型和遗忘方法。然后，通过三种数据选择策略（核心数据、边缘数据和随机数据）进行实验，以评估不同遗忘方法在这些策略下的表现。最后，研究者可以使用数据集提供的评估指标，如NDCG、HR和MIO准确性，来量化和比较不同方法的性能。

背景与挑战

背景概述

随着人工智能领域隐私问题的日益突出，监管机构已强制实施‘被遗忘权’，赋予个人从模型中撤回其数据的权利。机器遗忘作为一种潜在的解决方案，旨在实现模型中的选择性遗忘，特别是在推荐系统中，历史数据包含敏感的用户信息。尽管推荐系统遗忘技术取得了一些进展，但由于缺乏统一的评估框架和深层次影响的忽视，如公平性，全面评估遗忘方法仍然具有挑战性。为了解决这些差距，我们提出了CURE4Rec，这是首个用于推荐系统遗忘评估的综合基准。CURE4Rec涵盖了四个方面，即遗忘完整性、推荐效用、遗忘效率和推荐公平性，并在三种数据选择策略下进行评估，即核心数据、边缘数据和随机数据。

当前挑战

推荐系统遗忘面临的主要挑战包括：1) 缺乏统一的评估框架，现有的评估方法主要集中在遗忘完整性、遗忘效率及其对模型效用的影响，忽视了模型属性的深层次影响，如公平性；2) 构建过程中遇到的挑战，如不同遗忘集的选择可能导致模型性能的显著差异，以及如何确保遗忘过程不影响推荐系统的公平性和鲁棒性。此外，随着推荐系统中用户和交互数据的增加，提高遗忘效率也是一个重要的目标。

常用场景

经典使用场景

CURE4Rec 数据集的经典使用场景主要集中在推荐系统中的数据遗忘任务。随着隐私保护法规的日益严格，如 GDPR 和 CCPA，用户有权要求从模型中删除其个人数据。CURE4Rec 通过评估推荐系统在删除特定用户数据后的表现，涵盖了遗忘的完整性、推荐效用、遗忘效率和推荐公平性四个方面，为推荐系统的数据遗忘技术提供了全面的评估框架。

解决学术问题

CURE4Rec 数据集解决了推荐系统中数据遗忘技术的评估难题。传统的评估方法主要关注遗忘的完整性和效率，而忽略了遗忘对模型公平性和推荐效用的深远影响。CURE4Rec 通过引入推荐公平性评估，填补了这一研究空白，为学术界提供了新的研究方向，推动了推荐系统在隐私保护和公平性方面的进一步发展。

衍生相关工作

CURE4Rec 数据集的提出催生了一系列相关研究工作。例如，有研究基于 CURE4Rec 的评估框架，提出了新的推荐系统遗忘算法，旨在提高遗忘效率的同时保持推荐效用。此外，CURE4Rec 还启发了对推荐系统公平性的深入研究，推动了公平性评估指标的改进和扩展。这些衍生工作进一步丰富了推荐系统领域的研究内容，推动了该领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集