DatasetsSplits

github2022-09-03 更新2024-05-31 收录

下载链接：

https://github.com/sisinflab/DatasetsSplits

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个公开可用数据集的分割集合，旨在使这些分割对所有人公开可用，并为了实验的可重复性。

This is a segmented collection of a publicly available dataset, designed to make these segments accessible to everyone and to ensure the reproducibility of experiments.

创建时间：

2018-01-05

原始信息汇总

数据集概述

数据集名称

DatasetsSplits

数据集目的

该数据集旨在提供公开可用数据集的分裂版本，以促进实验的可重复性，并支持时间感知推荐系统的离线评估。

数据集特点

时间感知分裂方法

采用固定时间戳分裂方法，以模拟在线真实场景。
选择一个代表测试用户在平台上等待推荐时刻的时间戳。
训练集包含用户的过去数据，测试集使用用户的未来数据进行性能评估。
设置两个约束条件：训练集至少包含15个评分，测试集至少包含5个评分。

引用信息

引用格式：

@inproceedings{Anelli2019Local, author = {Vito Walter Anelli and Tommaso Di Noia and Eugenio Di Sciascio and Azzurra Ragone and Joseph Trotta}, title = {Local Popularity and Time in top-N Recommendation}, booktitle = {Proceedings of the 41st European Conference on Information Retrieval, 14th - 18th April 2019, Cologne, Germany}, year = {2019} }

开发团队

开发者：Vito Walter Anelli 和 Joseph Trotta
工作单位：SisInf Lab
监督者：Tommaso Di Noia

搜集汇总

数据集介绍

构建方式

DatasetsSplits数据集的构建方法基于时间感知的推荐系统评估需求，采用了固定时间戳分割法。该方法通过选择一个特定的时间点来模拟在线推荐场景，将用户的历史行为数据作为训练集，而未来的行为数据则用于评估推荐系统的性能。为了确保评估的有效性，训练集至少包含15个评分，测试集至少包含5个评分，从而最大化参与评估的用户数量。

特点

DatasetsSplits数据集的特点在于其专注于时间感知的推荐系统评估，通过固定时间戳分割法，能够更真实地模拟在线推荐场景。数据集的设计考虑了用户行为的时序性，确保训练集和测试集的划分能够反映用户在不同时间点的行为变化。此外，数据集的构建方法具有高度的可重复性，为推荐系统的离线实验提供了可靠的基准。

使用方法

DatasetsSplits数据集的使用方法主要适用于时间感知推荐系统的离线评估。研究人员可以通过该数据集进行推荐算法的性能测试，特别是在模拟真实在线场景下的推荐效果。使用该数据集时，需遵循其固定的时间戳分割方法，确保训练集和测试集的划分符合时间序列的要求。此外，研究人员在发表相关研究时，需引用提供的参考文献，以保持学术规范。

背景与挑战

背景概述

DatasetsSplits数据集由Vito Walter Anelli和Joseph Trotta在Tommaso Di Noia的指导下于2019年开发，旨在为时间感知推荐系统的离线实验提供公开可用的数据集划分。该数据集的核心研究问题在于如何有效地模拟在线推荐场景，通过固定时间戳划分方法，确保训练集和测试集的划分尽可能接近真实场景。这一方法不仅提升了实验的可重复性，还为推荐系统领域的研究提供了重要的数据支持。该数据集的研究成果发表于2019年的欧洲信息检索会议（ECIR），对推荐系统领域的影响力显著。

当前挑战

DatasetsSplits数据集在构建过程中面临的主要挑战包括如何确保时间感知划分的合理性和有效性。传统的k折交叉验证或留出法在时间感知推荐系统中无法真实反映在线场景，因此需要采用固定时间戳划分方法。这一方法要求选择合适的时间戳，以最大化参与评估的用户数量，同时确保训练集和测试集分别包含至少15和5个评分。此外，数据集的构建还需考虑数据的稀疏性和用户行为的动态变化，这对算法的设计和实验结果的可靠性提出了更高的要求。

常用场景

经典使用场景

在推荐系统领域，DatasetsSplits数据集被广泛应用于时间感知推荐系统的离线评估场景。通过固定时间戳的分割方法，该数据集能够模拟用户在平台上的实时行为，从而为研究者提供一个接近真实在线环境的实验框架。这种分割方式特别适用于评估推荐系统在时间维度上的性能表现，确保训练集和测试集的划分能够反映用户行为的时间顺序。

解决学术问题

DatasetsSplits数据集解决了推荐系统研究中时间感知评估的难题。传统的k折交叉验证或留出法在时间敏感的推荐场景中往往无法准确反映系统的实际表现。通过引入固定时间戳分割方法，该数据集确保了训练集和测试集的划分能够模拟用户行为的时序性，从而为研究者提供了一个更加科学和可靠的评估框架。这一方法不仅提升了实验的可重复性，还为时间感知推荐系统的研究提供了重要的数据支持。

衍生相关工作

DatasetsSplits数据集衍生了一系列经典的研究工作，特别是在时间感知推荐系统领域。例如，Anelli等人在2019年发表的论文《Local Popularity and Time in top-N Recommendation》中，详细描述了该数据集的分割方法及其在推荐系统评估中的应用。此外，该数据集还被用于多项关于时间感知推荐算法的研究，推动了推荐系统领域在时间维度上的深入探索。这些研究不仅验证了数据集的有效性，还为后续的研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集