CTAR

Name: CTAR
Creator: 华为诺亚方舟实验室
Published: 2022-02-23 16:38:56
License: 暂无描述

arXiv2022-02-23 更新2024-06-21 收录

下载链接：

https://github.com/KID-22/CTAR

下载链接

链接失效反馈

官方服务：

资源简介：

CTAR数据集是由华为诺亚方舟实验室创建的半合成数据集，用于推荐系统中的因果推断研究。该数据集基于一个著名的电影评分网站收集的电影及其描述性标签和评分信息构建，包含9,715部电影、10,273个独特标签和75,460个评分。数据集通过引入因果图形模型和缺失机制，自动生成用户-物品评分及其对应的用户-物品标签，旨在提供用户为何评价物品的原因。CTAR数据集不仅限于推荐系统研究，还可用于其他研究任务，如因果推断和解释性推荐模型的开发。

The CTAR dataset is a semi-synthetic dataset created by Huawei Noah's Ark Lab for causal inference research in recommender systems. Constructed using movie information, descriptive tags and ratings collected from a well-known movie rating website, it contains 9,715 films, 10,273 unique tags and 75,460 ratings. By introducing causal graphical models and missing data mechanisms, the dataset automatically generates user-item ratings and their corresponding user-item tags, with the goal of uncovering the reasons behind users' rating behaviors. The CTAR dataset is not limited to recommender system research, and can also be applied to other research tasks such as causal inference and the development of explainable recommendation models.

提供机构：

华为诺亚方舟实验室

创建时间：

2022-02-23

搜集汇总

数据集介绍

构建方式

CTAR数据集的构建基于一个半合成数据生成框架，该框架利用因果图模型来描述实际推荐场景中的因果机制。具体而言，研究团队从知名电影评分网站收集了电影及其描述性标签和评分信息，并基于这些数据生成了用户-项目评分及其对应的用户-项目标签。通过这种方式，数据集不仅包含了用户对电影的评分，还提供了用户为何给出这些评分的具体原因（即选定的标签）。此外，数据集还报告了相关的描述性统计数据和基线结果，以展示其应用潜力。

特点

CTAR数据集的主要特点在于其半合成性质，结合了真实数据和模拟数据的优点。该数据集不仅包含了用户对电影的评分，还详细记录了用户选择这些评分的原因，即电影的描述性标签。这种设计使得数据集在因果推断和推荐系统的解释性研究中具有独特的优势。此外，数据集的生成框架具有高度的灵活性，可以根据需要添加更多的偏差类型，从而更好地模拟实际推荐系统中的复杂情况。

使用方法

CTAR数据集可用于多种研究任务，包括但不限于因果推断、推荐系统的解释性分析以及去偏学习。研究者可以利用该数据集来训练和验证因果推断模型，探索用户评分背后的真实原因。此外，数据集还可用于开发和评估新的推荐算法，特别是那些旨在提供更准确和可解释推荐结果的算法。通过分析用户-项目标签和评分之间的关系，研究者可以进一步优化推荐系统，提升其个性化和用户满意度。

背景与挑战

背景概述

在现代推荐系统中，准确推荐和可靠解释是两个关键问题。然而，大多数推荐基准仅关注用户-项目评分的预测，而忽略了评分背后的潜在原因。例如，广泛使用的Yahoo!R3数据集几乎没有关于用户电影评分原因的信息。为了更好地支持推荐系统中的因果推断和进一步解释，我们提出了一种新的半合成数据生成框架，其中使用带有缺失机制的因果图模型来描述实际推荐场景的因果机制。基于从著名电影评分网站收集的电影及其描述性标签和评分信息，我们构建了一个名为CTAR的半合成数据集。该数据集通过收集的数据和因果图自动生成用户-项目评分及其相应的用户-项目标签，提供了用户为何对项目进行评分的理由。

当前挑战

CTAR数据集面临的挑战主要集中在解决推荐系统中的因果推断问题和数据构建过程中的困难。首先，推荐系统中的因果推断需要处理用户-项目评分背后的潜在原因，而现有数据集如Yahoo!R3和Coat在这方面提供的支持有限。其次，构建过程中遇到的挑战包括用户调查的合规性问题和稀疏的用户响应，这大大阻碍了基于因果关系的推荐研究。此外，数据集的生成需要处理缺失数据问题，包括完全随机缺失（MCAR）、随机缺失（MAR）和非随机缺失（MNAR），这增加了数据处理的复杂性。

常用场景

经典使用场景

CTAR数据集的经典应用场景在于支持推荐系统中的因果推断研究。通过结合电影的描述性标签和评分信息，该数据集能够生成用户对电影的评分及其对应的因果标签，从而为研究用户偏好背后的因果机制提供了丰富的数据支持。这种半合成数据生成框架不仅模拟了实际推荐场景中的因果关系，还通过缺失机制的引入，使得数据更加贴近真实世界的情况。

衍生相关工作

CTAR数据集的发布催生了一系列相关研究工作，特别是在因果推断和推荐系统的交叉领域。例如，有研究者利用该数据集开发了新的因果嵌入方法，以提升推荐系统的性能。此外，CTAR数据集还被用于探索去偏学习和反事实评估方法，推动了推荐系统在理论和实践上的进一步发展。

数据集最近研究