accommodation-reviews
收藏Hugging Face2024-07-14 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Booking-com/accommodation-reviews
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含约160万条来自全球4万多个住宿地点的用户生成评论。所有评论均为2023年发布的英文评论,并经过审核确保其真实性且不违反平台指南。为了保护用户隐私和商业敏感统计,数据集仅包含数万个住宿地点的信息。此外,数据集仅包含至少包含三个主题的信息性评论,这些主题是基于Text2topic模型选择的。数据集的列包括评论标题、正面和负面评论部分、客人评分、有用投票数、客人类型、客人国家、预订天数、入住月份、住宿ID、住宿类型、住宿评分、住宿国家、住宿星级评级以及住宿位置信息(如海滩、滑雪场、市中心)。
创建时间:
2024-07-11
原始信息汇总
Booking.com 住宿评论数据集
数据集概述
该数据集包含用户生成的 Booking.com 评论训练集,约 160 万条评论来自全球 4 万多家住宿。所有评论均由实际入住的客人撰写,且仅包含 2023 年发布的英文评论。评论经过审核,确保真实性且不违反平台指南。为保护用户隐私和商业敏感统计,数据集仅限于数万家住宿,并筛选出至少包含 3 个主题的评论。
数据集字段
以下表格描述了数据集中的字段:
| 列名 | 描述 |
|---|---|
| review_title | 评论标题 |
| review_positive | 评论中的正面(喜欢)部分 |
| review_negative | 评论中的负面(不喜欢)部分 |
| guest_score | 入住评分 |
| review_helpful_votes | 标记评论为有用的用户数 |
| guest_type | 旅客类型(单人/情侣/团体/家庭) |
| guest_country | 预订来源国(匿名) |
| room_nights | 预订的住宿晚数 |
| month | 预订的入住月份 |
| accommodation_id | 住宿匿名 ID |
| accommodation_type | 住宿类型(如酒店、公寓、旅馆) |
| accommodation_score | 住宿的总体平均客人评分 |
| accommodation_country | 住宿所在国家 |
| accommodation_star_rating | 住宿星级评级(通常由官方住宿评级机构或第三方提供) |
| location_is_beach | 住宿是否位于海滩位置 |
| location_is_ski | 住宿是否位于滑雪位置 |
| location_is_city_center | 住宿是否位于市中心 |
许可证
该数据集发布在以下非商业许可证下:Creative Commons Attribution-ShareAlike 4.0 International License
引用
请引用以下论文: @misc{igebaria2024enhancingtraveldecisionmakingcontrastive, title={Enhancing Travel Decision-Making: A Contrastive Learning Approach for Personalized Review Rankings in Accommodations}, author={Reda Igebaria and Eran Fainman and Sarai Mizrachi and Moran Beladev and Fengjun Wang}, year={2024}, eprint={2407.00787}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2407.00787}, }
搜集汇总
数据集介绍

构建方式
该数据集构建于2023年,涵盖了全球约4万家住宿设施的160万条用户生成的英文评论。所有评论均经过平台的审核流程,确保其真实性和合规性。为保护用户隐私,数据中未包含任何个人身份信息,同时为避免商业敏感信息泄露,数据集仅包含数万家住宿设施的信息。此外,基于Text2topic模型,仅筛选出包含至少三个主题的评论,以确保数据的丰富性和信息量。
特点
该数据集的特点在于其多样性和全面性。评论涵盖了多种住宿类型,如酒店、公寓和青年旅舍等,并且包含了用户对住宿的正面和负面评价。数据集还提供了详细的元数据,如用户评分、评论的有用性投票、旅客类型、预订时长、住宿位置等。这些信息为研究用户行为和住宿推荐系统提供了丰富的上下文。
使用方法
该数据集适用于多种自然语言处理和推荐系统的研究任务。研究人员可以利用评论的正面和负面部分进行情感分析,或结合用户评分和评论有用性投票进行个性化推荐算法的开发。此外,通过分析旅客类型、住宿位置等元数据,可以进一步探索用户偏好和住宿选择模式。数据集的使用需遵循非商业许可协议,并引用相关研究论文。
背景与挑战
背景概述
Booking.com Accommodation Review Dataset 是由Booking.com平台于2023年发布的一个用户生成评论数据集,旨在为旅游和住宿领域的自然语言处理研究提供支持。该数据集由Reda Igebaria等研究人员主导构建,收录了来自全球40,000多家住宿设施的约160万条英文评论。这些评论均经过平台审核,确保其真实性和合规性。数据集的核心研究问题在于如何通过用户评论提升旅行决策的个性化推荐效果,尤其是在住宿选择方面。该数据集为旅游推荐系统、情感分析以及文本分类等领域的研究提供了丰富的数据资源,具有重要的学术和应用价值。
当前挑战
该数据集在解决旅游推荐系统中的个性化决策问题时面临多重挑战。首先,用户评论的多样性和主观性使得情感分析和主题提取变得复杂,尤其是在处理多主题评论时,如何准确捕捉用户的情感倾向和关注点成为关键。其次,数据集的构建过程中,研究人员需要平衡数据隐私与信息丰富性之间的关系,既要确保用户和住宿设施的匿名性,又要保留足够的信息以支持有效的分析。此外,评论的文本长度和语言风格差异较大,如何设计高效的文本处理模型以应对这些变异性也是数据集应用中的一大挑战。
常用场景
经典使用场景
在旅游与酒店管理领域,Booking.com Accommodation Review Dataset 提供了一个丰富的用户生成评论资源,涵盖了全球40,000多家住宿设施的160万条评论。这些评论不仅包含了用户的正面和负面反馈,还详细记录了住宿类型、地理位置、评分等多维度信息。该数据集常用于情感分析、用户行为研究以及住宿推荐系统的开发,帮助研究者深入理解用户偏好与市场趋势。
实际应用
在实际应用中,Booking.com Accommodation Review Dataset 被广泛用于旅游平台和酒店管理系统的优化。例如,平台可以利用该数据集训练情感分析模型,自动识别用户评论中的积极与消极内容,从而快速响应客户需求。此外,住宿推荐系统通过分析用户历史评论和评分,能够精准推荐符合用户偏好的住宿选择,提升用户满意度和平台转化率。
衍生相关工作
基于该数据集,学术界和工业界衍生了一系列经典工作。例如,研究者利用该数据集开发了基于对比学习的个性化评论排序模型,显著提升了旅游决策的精准度。此外,结合深度学习技术,一些研究还探索了多模态评论分析,将文本与评分数据结合,进一步提高了情感分析的准确性。这些工作不仅推动了旅游领域的研究进展,也为实际应用提供了技术支撑。
以上内容由遇见数据集搜集并总结生成



