RecBaselines2023

Name: RecBaselines2023
Creator: 俄罗斯高等经济学院
Published: 2023-06-26 00:52:37
License: 暂无描述

arXiv2023-06-26 更新2024-06-21 收录

下载链接：

https://github.com/fotol1/recbaselines2023

下载链接

链接失效反馈

官方服务：

资源简介：

RecBaselines2023是一个为推荐模型选择基准的新开源数据集，由俄罗斯高等经济学院创建。该数据集包含903篇论文中使用的363个基准模型信息，涵盖了2010至2022年间发表的研究。数据集的创建过程涉及从Google Scholar收集引用信息，并进行预处理以确保数据的一致性和准确性。RecBaselines2023主要用于解决推荐系统研究中的基准选择问题，帮助研究人员和实践者从大量模型中选择合适的基准进行实验。

RecBaselines2023 is a novel open-source dataset for selecting baseline models for recommendation systems, created by the National Research University Higher School of Economics in Russia. This dataset contains information on 363 baseline models utilized across 903 academic papers, covering research published between 2010 and 2022. The development of the dataset involved collecting citation information from Google Scholar and performing preprocessing to ensure data consistency and accuracy. RecBaselines2023 is primarily intended to resolve the baseline selection issue in recommender system research, assisting researchers and practitioners in choosing suitable baselines from a vast pool of models for their experimental studies.

提供机构：

俄罗斯高等经济学院

创建时间：

2023-06-26

搜集汇总

数据集介绍

构建方式

在推荐系统研究领域，随着新算法层出不穷，选择恰当的基线模型成为评估工作的重要挑战。RecBaselines2023数据集的构建始于对三大推荐任务（传统Top-N、下一项推荐和下一篮推荐）中高引用基线模型的梳理，以此作为数据采集的起点。研究团队通过Google Scholar获取引用这些基线模型的文献，并手动筛选出包含实验验证的论文，最终收集了1009篇论文及其使用的2187个基线模型。经过预处理阶段，包括统一算法命名、剔除罕见基线及过滤基线数量过少的论文，数据集最终涵盖903篇论文与363个基线模型之间的5467次交互，形成稀疏但结构清晰的交互矩阵。

使用方法

RecBaselines2023数据集主要用于支持基线推荐系统的开发与评估。研究人员可将数据集视为标准的协同过滤问题，其中论文作为用户，基线模型作为物品，交互记录表示论文中使用的基线。通过划分训练集与测试集，可以评估不同推荐算法在预测未知基线方面的性能，例如使用Recall@K、NDCG@K等指标。此外，数据集支持归纳式推荐场景，当研究者已选定部分基线时，可利用协同过滤模型基于历史交互模式推荐补充基线，从而辅助构建更全面、合理的实验对比方案。

背景与挑战

背景概述

在推荐系统研究领域，随着新算法数量的激增，如何为实验选择恰当的基线模型已成为影响研究严谨性与可比性的核心问题。由俄罗斯国立高等经济大学的Veronika Ivanova、Marina Ananyeva等研究人员于2023年构建的RecBaselines2023数据集，旨在系统性地解决这一挑战。该数据集通过系统梳理2010年至2022年间发表的903篇学术论文，收录了363个推荐模型作为基线，构建了论文与基线模型之间的交互矩阵。其核心研究价值在于为推荐系统领域提供了一种数据驱动的基线选择方法论，有助于提升实验设计的标准化程度，并对促进该领域研究的可复现性与公平比较产生了深远影响。

当前挑战

RecBaselines2023数据集所应对的核心领域挑战，在于解决推荐系统研究中因基线选择不当而导致的模型性能评估偏差与结论失真问题。具体而言，该数据集旨在为研究人员提供一个客观、全面的基准，以辅助其从海量候选算法中筛选出最具代表性和可比性的基线模型，从而确保新提出模型的评估结果更具说服力。在数据集构建过程中，研究团队面临多重技术挑战：首先，需要从大量文献中手动提取并核实基线信息，工作量大且易出错；其次，同一算法在不同文献中可能存在多种命名变体，需要进行繁琐的归一化处理；最后，数据稀疏性问题突出，多数基线模型仅在少数论文中被使用，这要求构建者设计有效的过滤与预处理策略以提升数据质量与可用性。

常用场景

经典使用场景

在推荐系统研究领域，随着新算法层出不穷，学者们面临如何选择合适基线模型进行公平比较的挑战。RecBaselines2023数据集通过整理903篇论文中使用的363个基线模型及其交互记录，构建了一个典型的论文-模型交互图谱。该数据集最经典的使用场景是作为推荐系统基线选择任务的基准测试平台，研究人员可基于此数据集开发或评估协同过滤算法，以自动化方式为特定研究论文推荐最相关的基线模型集合，从而优化实验设计并提升研究效率。

解决学术问题

该数据集有效解决了推荐系统研究中基线选择缺乏标准化依据的核心学术问题。传统研究中，学者往往依赖个人经验或有限参考文献选择基线，可能导致比较偏差或结论失真。RecBaselines2023通过大规模实证数据揭示了不同任务场景下（如传统top-N、下一项推荐、下一篮子推荐）基线模型的使用规律与演变趋势，为量化评估基线选择合理性提供了数据基础。其意义在于建立了可复现的评估框架，推动领域从主观经验决策向数据驱动决策转变，对提升研究透明度和可复现性产生深远影响。

实际应用

在实际应用层面，该数据集可直接集成至学术写作辅助工具或实验设计平台中。例如，当研究人员在论文中已确定部分基线模型时，系统可基于数据集中历史交互模式，通过协同过滤算法自动补全推荐其他高相关性基线。这种应用不仅节省文献调研时间，还能避免因忽略重要基线导致的论文评审质疑。此外，期刊审稿人也可借助该数据集验证投稿论文中基线选择的完备性，为学术质量控制提供客观参考依据。

数据集最近研究