HotelRec
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/diego999/hotelrec
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为HotelRec,包含了超过10万条带有五星评分的评论。其中,评分经过二值化处理,将阈值大于3.5的评分视为正面评论。该数据集规模庞大,超过10万条评论,旨在用于推荐和解释性能评估的任务。
This dataset, named HotelRec, is a large-scale collection of over 100,000 five-star rated reviews. The original ratings were binarized, with reviews scoring higher than 3.5 categorized as positive samples. This dataset is designed for recommendation and explainable performance evaluation tasks.
提供机构:
HotelRec
搜集汇总
数据集介绍

构建方式
在酒店推荐系统研究领域,数据稀疏性长期制约着传统协同过滤方法的有效应用。HotelRec数据集的构建依托于全球最大的在线旅游平台TripAdvisor,通过精心设计的网络爬虫技术系统性地收集了从2001年至2019年间的酒店评论数据。研究团队采用Selenium工具模拟人类浏览行为,以规避平台的反爬机制,通过并行计算在约100个计算核心上持续工作两个月,最终采集并清洗得到超过5000万条独立评论。该过程不仅记录了用户总体评分和文本评价,还完整保留了服务、清洁度、位置等八个维度的细粒度子评分,形成了覆盖2189万用户与36.5万酒店的立体化交互矩阵。
特点
作为酒店推荐领域规模空前的基准数据集,HotelRec最显著的特征在于其前所未有的数据体量与丰富的多维度信息结构。该数据集包含5026万条交互记录,较先前最大公开酒店数据集扩展了近60倍,同时成为单一领域内规模最大的带文本评论推荐数据集。数据呈现出典型的长尾分布特征,用户评论数量中位数仅为1,而酒店评论中位数达到41,体现了现实场景中极高的数据稀疏性(全数据集稀疏度达99.99937%)。尤为重要的是,71.3%的评论包含多维度子评分,这些细粒度评价与总体评分间存在0.46至0.83的显著相关性,为研究多维度推荐机制提供了独特的数据基础。
使用方法
该数据集为推荐系统研究提供了多维度的实验框架,研究者可基于其构建的5-core和20-core子集开展评分预测与个性化推荐两项核心任务。在评分预测方面,可采用隐因子模型结合主题建模的HFT方法,或基于卷积神经网络的TransNet系列模型,通过均方误差和均方根误差指标评估预测精度。对于个性化推荐任务,神经协同过滤框架展现出卓越性能,NeuMF模型通过融合广义矩阵分解与多层感知机,在命中率与归一化折损累计增益指标上显著优于传统协同过滤方法。数据集同时支持对文本评论进行情感分析与主题挖掘,为融合多模态信息的混合推荐算法开发创造了条件。
背景与挑战
背景概述
在推荐系统研究领域,随着深度学习模型的广泛应用,大规模高质量数据集成为推动算法性能提升的关键要素。HotelRec数据集由瑞士洛桑联邦理工学院人工智能实验室的Diego Antognini与Boi Faltings于2019年创建,旨在填补酒店推荐领域缺乏大规模公开数据集的空白。该数据集基于TripAdvisor平台,收录了约5000万条酒店评论,涵盖超过2100万用户和36万家酒店,成为当前酒店领域规模最大且包含文本评论的单一领域推荐数据集。其核心研究问题聚焦于如何利用海量多维度评论数据(包括总体评分、细粒度属性评分及文本内容)来应对酒店推荐中特有的数据稀疏性挑战,从而推动个性化推荐模型的发展。HotelRec的发布为学术界探索复杂用户-物品交互、多模态信息融合及跨领域迁移学习提供了重要基础,显著提升了酒店推荐研究的基准水平。
当前挑战
HotelRec数据集所针对的酒店推荐问题面临多重挑战。在领域层面,酒店消费具有体验周期长、评价维度多元(如服务、位置、清洁度等)的特点,导致用户偏好表达更为复杂,传统协同过滤方法因数据极端稀疏(稀疏度高达99.999%)而难以直接适用。同时,评分分布呈现高度偏态,正面评价居多,加剧了模型捕捉细微负面信号的难度。在数据集构建过程中,挑战主要源于大规模网络爬取的复杂性:TripAdvisor平台通过页面动态加载、弹窗干扰及反爬虫机制限制数据采集,需采用模拟人类行为的Selenium工具并设置操作间隔以规避封锁,这一过程耗时长达两个月且需协调上百计算核心。此外,评论中细粒度属性评分覆盖不均(如“商务服务”仅占1.69%),以及多语言文本处理的潜在需求,均为数据质量统一与后续模型泛化带来持续挑战。
常用场景
经典使用场景
在酒店推荐系统领域,HotelRec数据集凭借其超大规模和丰富的文本评论信息,成为评估深度推荐模型性能的经典基准。该数据集常被用于训练和测试神经协同过滤、矩阵分解以及融合文本特征的混合推荐算法,特别是在处理高稀疏性用户-物品交互场景时,能够有效验证模型对长尾用户和冷启动酒店的推荐能力。研究人员通过HotelRec的5-core和20-core子集,系统比较不同模型在评分预测和Top-K推荐任务上的表现,为酒店领域的个性化推荐研究提供了标准化评估框架。
实际应用
在实际应用层面,HotelRec数据集为在线旅游平台的智能推荐系统开发提供了关键数据资源。基于该数据集训练的模型可应用于TripAdvisor、Booking.com等平台的酒店个性化排序、相似酒店推荐以及评论情感分析等场景。通过挖掘用户评论中的细粒度属性评分(如服务、位置、清洁度),系统能够实现基于多维特征的精准匹配,提升用户预订体验和平台转化率。此外,数据集的时间跨度覆盖19年,支持对用户偏好演化趋势的长期追踪分析。
衍生相关工作
围绕HotelRec数据集衍生出多个经典研究方向,包括基于神经协同过滤的酒店推荐模型改进、融合评论文本与评分矩阵的多模态推荐算法,以及针对高稀疏数据的迁移学习框架。相关研究扩展了NeuMF、TransNet等模型在酒店领域的应用边界,并催生了面向细粒度属性分析的解耦推荐方法。这些工作不仅深化了对用户决策机制的理解,还推动了可解释推荐系统在旅游领域的发展,形成从数据构建到算法创新的完整研究链条。
以上内容由遇见数据集搜集并总结生成



