Airbnb_open_data

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/Liori25/Airbnb_open_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了102,599条纽约市的Airbnb房源信息，共包含26个原始特征，涵盖房源属性、房东特征、可用性详情和评价指标。主要任务是基于价格、房型和地区组等特征预测每个房源的评分。

创建时间：

2025-11-13

原始信息汇总

Airbnb开放数据集概述

数据集基本信息

数据规模：包含102,599条纽约市Airbnb房源列表
地理位置：美国纽约市
特征数量：26个原始特征

特征分类

分类特征

room_type
neighbourhood_group
host_identity_verified
cancellation_policy
instant_bookable

数值特征

price
service_fee
review_rate_number
minimum_nights
number_of_reviews
availability_365

预测目标

任务类型：回归问题
目标变量：review_rate_number（评分范围1.0-5.0）
预测依据：基于价格、房间类型、所在区域等特征预测房源评分

数据清洗处理

删除列

标识符字段：host_id、host_name、name
地理位置字段：country_code、country
其他字段：cancellation_policy、house_rules、last_review、license

数据质量修复

修正neighbourhood_group拼写错误
处理稀有类别
填充缺失值
解决数据矛盾
基于id字段去重

异常值处理

minimum_nights：处理负值和超过365的异常值
number_of_reviews和reviews_per_month：保留重要异常点
calculated_host_listings_count：保留可能为"超级房东"的数据点

研究问题与发现

房间类型与评分关系

酒店房间5星评价比例最高
共享房间5星评价比例最低
房间类型对评分影响较弱

价格分布与评分关系

评分为0的房源价格中位数较低
新房源或未评分房源定价较低
获得评分后房源价格趋于稳定

区域对评分影响

曼哈顿5星评价数量最多
史泰登岛和皇后区5星评价比例最高
较小市场区域评分一致性更高

房东管理房源数量与评分关系

管理更多房源的房东平均评分更高
专业房东提供更一致的服务质量

总结

房间类型对评分影响较小
价格与评分无明显相关性
区域影响评分一致性
经验丰富的房东获得更高评分

搜集汇总

数据集介绍

构建方式

在共享经济研究领域，Airbnb开放数据集通过系统化采集纽约市102,599个房源信息构建而成。该数据集原始包含26个特征维度，涵盖房源属性、房东特征、预订详情与评价指标等多维度信息。构建过程中采用严谨的数据清洗流程，剔除标识性字段与冗余信息，修正地理名称拼写错误，处理缺失值与矛盾数据，并通过唯一标识符去除重复房源记录，确保数据质量符合研究标准。

特点

该数据集呈现出典型的多模态特征结构，既包含房间类型、社区分组、房东验证状态等分类变量，又整合了价格、服务费、评价分数等连续数值指标。特别值得注意的是，数据集保留了反映房源热度的自然离群值，如高评论数量的热门房源与多房源管理的专业房东数据，这些特征为研究共享经济中的用户行为模式提供了真实样本。数据分布展现出纽约市不同行政区的差异化市场特征，为区域经济研究提供了丰富的观察维度。

使用方法

研究者可基于该数据集开展回归分析任务，以评价分数为核心预测目标，探索房源特征与用户满意度之间的关联机制。在建模过程中，建议优先考虑房间类型、社区环境、价格策略等关键预测因子，同时注意处理数值特征的尺度差异与分类变量的编码转换。该数据集适用于机器学习模型的训练与验证，特别在推荐系统优化与服务质量预测等应用场景中具有显著价值，为共享经济平台的运营决策提供数据支撑。

背景与挑战

背景概述

Airbnb开放数据集作为共享经济领域的重要实证资源，由Lior Feinstein等研究人员于近年构建，聚焦纽约市102,599条房源数据。该数据集通过26维特征刻画房源属性、房东特征与运营指标，核心研究目标在于解析影响房源评分的关键因素。其价值在于为住宿服务质量评估、动态定价策略及平台生态优化提供了数据支撑，推动了旅游信息学与平台经济研究的交叉融合。

当前挑战

在解决住宿服务评分预测问题时，该数据集面临特征与评分关联性弱的本质挑战，例如房型对评分解释力有限、价格与评分缺乏线性关联。数据构建过程中需应对原始数据质量缺陷，包括行政区划名称拼写错误、数值字段异常值（如负值最小住宿天数）、以及零评论却存在评分的逻辑矛盾，同时需保留具有业务意义的极端值（如超高频评论房源）以维持数据代表性。

常用场景

经典使用场景

在共享经济与旅游服务研究领域，Airbnb_open_data数据集常被用于构建回归模型预测房源评分。通过整合价格、房间类型、地理位置及房东特征等多维变量，研究者能够深入探索影响用户满意度的关键因素，为平台优化服务提供数据支撑。

衍生相关工作

基于此数据集衍生的经典研究包括结合自然语言处理的评论情感分析模型，以及融合图神经网络构建房东-房源关系网络的可信度评估框架。这些工作进一步拓展了住宿服务预测的维度，催生了跨领域协同过滤推荐系统的创新实践。

数据集最近研究