efainman/booking-reviews-dataset
收藏Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/efainman/booking-reviews-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Booking.com住宿评论数据集包含约160万条来自全球4万个住宿地点的用户生成评论。所有评论均为2023年发布的英文评论,并经过审核确保真实性且符合平台指南。数据集筛选了至少包含三个主题的评论,这些主题是基于Text2topic模型选择的。数据集的列包括评论标题、正面和负面评论部分、客人评分、有用投票数、客人类型、客人国家、预订的房间夜数、入住月份、住宿ID、住宿类型、住宿评分、住宿国家、住宿星级评分以及住宿位置信息(如海滩、滑雪场、市中心)。
The Booking.com Accommodation Review Dataset contains about 1.6M user-generated reviews from 40k accommodations worldwide. All reviews are in English and were published in 2023, passing a moderation process to ensure authenticity and compliance with platform guidelines. The dataset filters reviews that include at least 3 topics based on the Text2topic model. The columns include review title, positive and negative sections, guest score, helpful votes, guest type, guest country, room nights booked, check-in month, accommodation ID, accommodation type, accommodation score, accommodation country, accommodation star rating, and location details (beach, ski, city center).
提供机构:
efainman
原始信息汇总
Booking.com Accommodation Review Dataset
数据集概述
- 数据来源: Booking.com用户生成的评论数据集。
- 数据量: 包含约160万条评论,来自全球4万多个住宿设施。
- 语言: 所有评论均为英语,发布于2023年。
- 数据筛选: 所有评论均通过审核,确保真实性且符合平台指南。
- 隐私保护: 数据中不包含任何个人身份信息,且仅包含数万个住宿设施的数据。
- 评论筛选: 仅包含至少包含3个主题的评论,基于Text2topic模型筛选。
数据字段
| 字段名 | 描述 |
|---|---|
| review_title | 评论标题 |
| review_positive | 评论中的正面部分(喜欢) |
| review_negative | 评论中的负面部分(不喜欢) |
| guest_score | 客人的评分 |
| review_helpful_votes | 标记为有用的评论数量 |
| guest_type | 旅客类型(Solo traveller / Couple / Group / Family with children) |
| guest_country | 预订者的匿名国家 |
| room_nights | 预订的夜晚数 |
| month | 预订的入住月份 |
| accommodation_id | 匿名的住宿设施ID |
| accommodation_type | 住宿设施类型(如酒店、公寓、旅馆) |
| accommodation_score | 住宿设施的平均客人评分 |
| accommodation_country | 住宿设施所在国家 |
| accommodation_star_rating | 住宿设施的星级评分,通常由官方或第三方机构评定 |
| location_is_beach | 住宿设施是否位于海滩位置 |
| location_is_ski | 住宿设施是否位于滑雪位置 |
| location_is_city_center | 住宿设施是否位于市中心 |
许可
数据集发布于以下非商业许可下。
搜集汇总
数据集介绍

构建方式
在酒店预订与旅游服务领域,用户生成内容的分析对于提升个性化推荐至关重要。Booking.com住宿评论数据集的构建过程体现了严谨的数据筛选原则。该数据集源自2023年发布的英文评论,经过平台审核机制确保其真实性与合规性。为保护用户隐私,所有个人可识别信息均被移除;同时,为避免商业敏感数据泄露,仅纳入数万家住宿信息。核心筛选标准基于Text2topic模型,仅保留涵盖至少三个主题的评论,从而聚焦于信息丰富的内容。最终形成的训练集包含约160万条评论,覆盖全球四万家住宿场所,为旅游决策研究提供了高质量基础。
特点
该数据集在酒店评论分析领域展现出多维度结构化特征。每条评论均被划分为正面与负面部分,便于情感与主题的细致考察。数据集不仅包含用户评分、有用性投票及旅客类型等用户侧信息,还整合了住宿类型、星级评分、地理位置属性等住宿侧元数据。特别值得注意的是,其引入了基于地理特征的标签,如是否位于海滩、滑雪区或市中心,这为空间上下文分析提供了可能。匿名化的住宿与国家标识在保护隐私的同时,支持跨地域比较研究,整体结构兼顾了丰富性与安全性。
使用方法
在旅游信息检索与个性化推荐系统中,该数据集可支持多种分析任务。研究者可基于评论的正负面文本进行细粒度情感分析或主题建模,探索用户偏好与住宿属性间的关联。结合旅客类型、住宿类别及地理标签,可构建用户画像与情境感知的推荐模型。评分数据与有用性投票可用于研究评论质量与影响力。在使用时需遵循CC许可协议,注意其非商业用途限制。建议引用相关arXiv论文以尊重原创工作,并利用提供的丰富字段开展跨字段联合分析,以深入理解旅游决策行为。
背景与挑战
背景概述
在旅游推荐系统与自然语言处理领域,用户生成的住宿评论是理解消费者偏好和提升个性化服务的关键资源。2024年,由Reda Igebaria、Eran Fainman等研究人员发布的Booking.com住宿评论数据集,汇集了约160万条2023年的英文评论,覆盖全球4万家住宿设施。该数据集旨在通过对比学习方法优化个性化评论排序,从而增强旅行决策支持系统的效能,其核心研究问题聚焦于如何从海量异构评论中提取有效主题并实现精准的推荐排名,对信息检索和旅游技术领域产生了显著的推动作用。
当前挑战
该数据集致力于解决旅游推荐中个性化评论排序的挑战,包括如何从非结构化的文本中识别用户情感倾向、整合多维度特征如住宿类型和地理位置,以及平衡评论的丰富性与隐私保护。在构建过程中,研究人员面临数据清洗与筛选的复杂性,需通过严格的审核流程确保评论的真实性,同时应用Text2topic模型筛选至少包含三个主题的信息性评论,并匿名化处理用户和住宿信息以维护数据安全,这些步骤增加了数据集构建的技术难度与资源投入。
常用场景
经典使用场景
在旅游信息学与自然语言处理领域,Booking.com住宿评论数据集为研究者提供了丰富的用户生成内容。该数据集最经典的使用场景在于情感分析与主题建模,通过解析超过160万条包含正面与负面分段的评论,能够深入挖掘游客对住宿体验的多维度评价。这些标注清晰的文本与结构化元数据相结合,支持构建细粒度的情感分类模型,从而系统识别游客偏好与不满的核心动因。
解决学术问题
该数据集有效解决了旅游推荐系统中个性化排序与可信度评估的学术挑战。通过提供大规模、经过审核的真实评论,研究者能够探索对比学习等方法,以提升评论排名的个性化水平。其多字段结构允许分析游客类型、住宿属性与地理位置等因素对评价的影响,推动了跨领域研究如信息检索与计算社会科学的融合,为理解在线平台用户行为提供了实证基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在个性化推荐与文本分析方向。例如,原论文提出的对比学习框架用于增强旅行决策中的评论排名,成为后续研究的基准。此外,基于其多主题注释特性,学者们进一步探索了跨语言情感迁移、虚假评论检测等课题,推动了住宿评论数据在可信人工智能与旅游管理领域的创新应用。
以上内容由遇见数据集搜集并总结生成



