HotelRec

Name: HotelRec
Creator: HotelRec
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/diego999/hotelrec

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为HotelRec，包含了超过10万条带有五星评分的评论。其中，评分经过二值化处理，将阈值大于3.5的评分视为正面评论。该数据集规模庞大，超过10万条评论，旨在用于推荐和解释性能评估的任务。

This dataset, named HotelRec, is a large-scale collection of over 100,000 five-star rated reviews. The original ratings were binarized, with reviews scoring higher than 3.5 categorized as positive samples. This dataset is designed for recommendation and explainable performance evaluation tasks.

提供机构：

HotelRec

搜集汇总

数据集介绍

构建方式

在酒店推荐系统研究领域，数据稀疏性长期制约着传统协同过滤方法的有效应用。HotelRec数据集的构建依托于全球最大的在线旅游平台TripAdvisor，通过精心设计的网络爬虫技术系统性地收集了从2001年至2019年间的酒店评论数据。研究团队采用Selenium工具模拟人类浏览行为，以规避平台的反爬机制，通过并行计算在约100个计算核心上持续工作两个月，最终采集并清洗得到超过5000万条独立评论。该过程不仅记录了用户总体评分和文本评价，还完整保留了服务、清洁度、位置等八个维度的细粒度子评分，形成了覆盖2189万用户与36.5万酒店的立体化交互矩阵。

特点

作为酒店推荐领域规模空前的基准数据集，HotelRec最显著的特征在于其前所未有的数据体量与丰富的多维度信息结构。该数据集包含5026万条交互记录，较先前最大公开酒店数据集扩展了近60倍，同时成为单一领域内规模最大的带文本评论推荐数据集。数据呈现出典型的长尾分布特征，用户评论数量中位数仅为1，而酒店评论中位数达到41，体现了现实场景中极高的数据稀疏性（全数据集稀疏度达99.99937%）。尤为重要的是，71.3%的评论包含多维度子评分，这些细粒度评价与总体评分间存在0.46至0.83的显著相关性，为研究多维度推荐机制提供了独特的数据基础。

使用方法

该数据集为推荐系统研究提供了多维度的实验框架，研究者可基于其构建的5-core和20-core子集开展评分预测与个性化推荐两项核心任务。在评分预测方面，可采用隐因子模型结合主题建模的HFT方法，或基于卷积神经网络的TransNet系列模型，通过均方误差和均方根误差指标评估预测精度。对于个性化推荐任务，神经协同过滤框架展现出卓越性能，NeuMF模型通过融合广义矩阵分解与多层感知机，在命中率与归一化折损累计增益指标上显著优于传统协同过滤方法。数据集同时支持对文本评论进行情感分析与主题挖掘，为融合多模态信息的混合推荐算法开发创造了条件。

背景与挑战

背景概述

在推荐系统研究领域，随着深度学习模型的广泛应用，大规模高质量数据集成为推动算法性能提升的关键要素。HotelRec数据集由瑞士洛桑联邦理工学院人工智能实验室的Diego Antognini与Boi Faltings于2019年创建，旨在填补酒店推荐领域缺乏大规模公开数据集的空白。该数据集基于TripAdvisor平台，收录了约5000万条酒店评论，涵盖超过2100万用户和36万家酒店，成为当前酒店领域规模最大且包含文本评论的单一领域推荐数据集。其核心研究问题聚焦于如何利用海量多维度评论数据（包括总体评分、细粒度属性评分及文本内容）来应对酒店推荐中特有的数据稀疏性挑战，从而推动个性化推荐模型的发展。HotelRec的发布为学术界探索复杂用户-物品交互、多模态信息融合及跨领域迁移学习提供了重要基础，显著提升了酒店推荐研究的基准水平。

当前挑战

HotelRec数据集所针对的酒店推荐问题面临多重挑战。在领域层面，酒店消费具有体验周期长、评价维度多元（如服务、位置、清洁度等）的特点，导致用户偏好表达更为复杂，传统协同过滤方法因数据极端稀疏（稀疏度高达99.999%）而难以直接适用。同时，评分分布呈现高度偏态，正面评价居多，加剧了模型捕捉细微负面信号的难度。在数据集构建过程中，挑战主要源于大规模网络爬取的复杂性：TripAdvisor平台通过页面动态加载、弹窗干扰及反爬虫机制限制数据采集，需采用模拟人类行为的Selenium工具并设置操作间隔以规避封锁，这一过程耗时长达两个月且需协调上百计算核心。此外，评论中细粒度属性评分覆盖不均（如“商务服务”仅占1.69%），以及多语言文本处理的潜在需求，均为数据质量统一与后续模型泛化带来持续挑战。

常用场景

经典使用场景

在酒店推荐系统领域，HotelRec数据集凭借其超大规模和丰富的文本评论信息，成为评估深度推荐模型性能的经典基准。该数据集常被用于训练和测试神经协同过滤、矩阵分解以及融合文本特征的混合推荐算法，特别是在处理高稀疏性用户-物品交互场景时，能够有效验证模型对长尾用户和冷启动酒店的推荐能力。研究人员通过HotelRec的5-core和20-core子集，系统比较不同模型在评分预测和Top-K推荐任务上的表现，为酒店领域的个性化推荐研究提供了标准化评估框架。

实际应用

在实际应用层面，HotelRec数据集为在线旅游平台的智能推荐系统开发提供了关键数据资源。基于该数据集训练的模型可应用于TripAdvisor、Booking.com等平台的酒店个性化排序、相似酒店推荐以及评论情感分析等场景。通过挖掘用户评论中的细粒度属性评分（如服务、位置、清洁度），系统能够实现基于多维特征的精准匹配，提升用户预订体验和平台转化率。此外，数据集的时间跨度覆盖19年，支持对用户偏好演化趋势的长期追踪分析。

衍生相关工作

围绕HotelRec数据集衍生出多个经典研究方向，包括基于神经协同过滤的酒店推荐模型改进、融合评论文本与评分矩阵的多模态推荐算法，以及针对高稀疏数据的迁移学习框架。相关研究扩展了NeuMF、TransNet等模型在酒店领域的应用边界，并催生了面向细粒度属性分析的解耦推荐方法。这些工作不仅深化了对用户决策机制的理解，还推动了可解释推荐系统在旅游领域的发展，形成从数据构建到算法创新的完整研究链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集