five

booking-reviews-dataset

收藏
Hugging Face2024-07-11 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/efainman/booking-reviews-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含约160万条来自全球4万多家住宿的预订网评论,所有评论均为2023年发布的英文评论,并经过了审核确保其真实性和合规性。数据集中的评论至少包含三个主题,这些主题是通过Text2topic模型筛选的。数据集的列包括评论标题、正面和负面评论部分、客人评分、有用投票数、客人类型、客人国家、预订夜数、入住月份、住宿ID、住宿类型、住宿评分、住宿国家、住宿星级评级以及住宿位置信息(如海滩、滑雪场、市中心)。
创建时间:
2024-07-11
原始信息汇总

Booking.com 住宿评论数据集

数据集概述

本数据集包含用户生成的 Booking.com 评论训练集,约 160 万条评论来自全球 4 万多家住宿设施。所有评论均由实际入住的客人撰写,并已通过审核流程确保其真实性且不违反平台指南。为保护用户隐私,数据中未包含任何个人身份信息;为保护商业敏感统计数据,数据集仅限于数万家住宿设施。此外,数据集仅包含基于 Text2topic 模型 筛选出的至少包含 3 个主题的信息性评论。

数据集字段描述

以下表格描述了数据集中的字段:

列名 描述
review_title 评论标题
review_positive 评论中的正面(“喜欢”)部分
review_negative 评论中的负面(“不喜欢”)部分
guest_score 入住评分
review_helpful_votes 标记为有用的用户数
guest_type 旅客类型:单人旅客(1 成人)/ 情侣(2 成人)/ 团体(>2 成人)/ 家庭(成人与儿童)
guest_country 预订来源的匿名国家
room_nights 预订的晚数
month 预订的入住月份
accommodation_id 匿名的住宿设施 ID
accommodation_type 住宿设施类型,如酒店、公寓、旅馆
accommodation_score 住宿设施的总体平均客人评分
accommodation_country 住宿设施所在国家
accommodation_star_rating 住宿设施的星级评分,通常由官方住宿评级机构或第三方提供
location_is_beach 住宿设施是否位于海滩位置
location_is_ski 住宿设施是否位于滑雪位置
location_is_city_center 住宿设施是否位于市中心

许可证

数据集发布在以下非商业 许可证 下。

引用

相关论文可在 arXiv 上找到。

搜集汇总
数据集介绍
main_image_url
构建方式
Booking.com Accommodation Review Dataset 的构建基于2023年发布的用户生成评论数据,涵盖了全球约40,000家住宿设施的160万条评论。所有评论均来自实际入住过的客人,并经过平台审核,确保其真实性和合规性。为保护用户隐私,数据中未包含任何个人身份信息,同时为避免商业敏感信息泄露,数据集仅包含数万家住宿设施的数据。此外,通过Text2topic模型筛选出至少包含3个主题的评论,确保数据的丰富性和信息量。
特点
该数据集的特点在于其多样性和结构化信息。评论内容分为正面和负面部分,便于情感分析和主题挖掘。数据集还包含丰富的元数据,如客人评分、住宿类型、地理位置、入住时长等,为多维度分析提供了基础。此外,评论的匿名化处理确保了数据的隐私安全性,而基于Text2topic模型的筛选则提升了数据的质量。这些特点使其成为研究旅游决策、情感分析和个性化推荐等领域的理想选择。
使用方法
使用该数据集时,研究者可基于评论的正面和负面部分进行情感分析,结合客人评分和住宿类型等元数据,探索用户偏好和住宿体验的影响因素。通过分析地理位置和入住时长等字段,可进一步研究旅游行为模式。此外,数据集的结构化信息支持机器学习模型的训练,如用于个性化推荐系统的开发。研究者需遵循非商业许可协议,并在引用时注明相关论文。
背景与挑战
背景概述
Booking.com Accommodation Review Dataset 是由Booking.com平台于2023年发布的用户生成评论数据集,旨在为旅游和住宿领域的自然语言处理研究提供支持。该数据集由Reda Igebaria等研究人员主导构建,包含了来自全球40,000多家住宿设施的约160万条英文评论。这些评论均经过平台审核,确保其真实性和合规性。数据集的核心研究问题在于如何通过用户评论提升个性化推荐系统的性能,特别是在住宿选择和旅行决策中的应用。该数据集为研究个性化推荐、情感分析和文本分类等任务提供了丰富的语料资源,对旅游领域的学术研究和商业应用具有重要影响。
当前挑战
Booking.com Accommodation Review Dataset 面临的挑战主要体现在两个方面。首先,在领域问题方面,如何从海量用户评论中提取有效信息以支持个性化推荐和决策优化是一个关键挑战。尽管数据集提供了丰富的评论内容,但评论的多样性和主观性使得情感分析和主题提取变得复杂。其次,在数据构建过程中,研究人员需要平衡数据隐私与信息丰富性之间的关系。例如,为了保护用户隐私,数据集删除了所有个人身份信息,并限制了住宿设施的数量,这可能影响数据的代表性和多样性。此外,数据集中仅包含通过Text2topic模型筛选的“信息丰富”评论,这一筛选标准可能导致部分有价值的信息被遗漏。
常用场景
经典使用场景
Booking.com Accommodation Review Dataset 数据集广泛应用于旅游和酒店管理领域的研究,特别是在用户生成内容(UGC)分析方面。研究者可以利用该数据集进行情感分析、主题建模以及用户行为预测等任务。通过分析用户的正面和负面评价,研究者能够深入理解用户对住宿体验的满意度及其影响因素。
解决学术问题
该数据集解决了旅游和酒店管理领域中的多个学术问题,如用户评价的情感极性分析、住宿推荐系统的优化以及用户偏好的个性化建模。通过提供大量真实的用户评价数据,研究者能够开发更精确的算法来预测用户满意度,并为酒店管理者提供改进服务的依据。此外,数据集中的多维度信息(如住宿类型、地理位置等)为跨领域研究提供了丰富的数据支持。
衍生相关工作
基于该数据集,研究者已经开展了多项经典工作,如基于对比学习的个性化评价排序算法研究(如 arXiv:2407.00787 中所述)。这些研究不仅提升了推荐系统的性能,还为旅游领域的个性化服务提供了新的思路。此外,该数据集还推动了情感分析和主题建模技术的发展,为后续的研究提供了重要的数据基础和方法参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作