Airbnb_open_data
收藏Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/Liori25/Airbnb_open_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了102,599条纽约市的Airbnb房源信息,共包含26个原始特征,涵盖房源属性、房东特征、可用性详情和评价指标。主要任务是基于价格、房型和地区组等特征预测每个房源的评分。
创建时间:
2025-11-13
原始信息汇总
Airbnb开放数据集概述
数据集基本信息
- 数据规模:包含102,599条纽约市Airbnb房源列表
- 地理位置:美国纽约市
- 特征数量:26个原始特征
特征分类
分类特征
- room_type
- neighbourhood_group
- host_identity_verified
- cancellation_policy
- instant_bookable
数值特征
- price
- service_fee
- review_rate_number
- minimum_nights
- number_of_reviews
- availability_365
预测目标
- 任务类型:回归问题
- 目标变量:review_rate_number(评分范围1.0-5.0)
- 预测依据:基于价格、房间类型、所在区域等特征预测房源评分
数据清洗处理
删除列
- 标识符字段:host_id、host_name、name
- 地理位置字段:country_code、country
- 其他字段:cancellation_policy、house_rules、last_review、license
数据质量修复
- 修正neighbourhood_group拼写错误
- 处理稀有类别
- 填充缺失值
- 解决数据矛盾
- 基于id字段去重
异常值处理
- minimum_nights:处理负值和超过365的异常值
- number_of_reviews和reviews_per_month:保留重要异常点
- calculated_host_listings_count:保留可能为"超级房东"的数据点
研究问题与发现
房间类型与评分关系
- 酒店房间5星评价比例最高
- 共享房间5星评价比例最低
- 房间类型对评分影响较弱
价格分布与评分关系
- 评分为0的房源价格中位数较低
- 新房源或未评分房源定价较低
- 获得评分后房源价格趋于稳定
区域对评分影响
- 曼哈顿5星评价数量最多
- 史泰登岛和皇后区5星评价比例最高
- 较小市场区域评分一致性更高
房东管理房源数量与评分关系
- 管理更多房源的房东平均评分更高
- 专业房东提供更一致的服务质量
总结
- 房间类型对评分影响较小
- 价格与评分无明显相关性
- 区域影响评分一致性
- 经验丰富的房东获得更高评分
搜集汇总
数据集介绍

构建方式
在共享经济研究领域,Airbnb开放数据集通过系统化采集纽约市102,599个房源信息构建而成。该数据集原始包含26个特征维度,涵盖房源属性、房东特征、预订详情与评价指标等多维度信息。构建过程中采用严谨的数据清洗流程,剔除标识性字段与冗余信息,修正地理名称拼写错误,处理缺失值与矛盾数据,并通过唯一标识符去除重复房源记录,确保数据质量符合研究标准。
特点
该数据集呈现出典型的多模态特征结构,既包含房间类型、社区分组、房东验证状态等分类变量,又整合了价格、服务费、评价分数等连续数值指标。特别值得注意的是,数据集保留了反映房源热度的自然离群值,如高评论数量的热门房源与多房源管理的专业房东数据,这些特征为研究共享经济中的用户行为模式提供了真实样本。数据分布展现出纽约市不同行政区的差异化市场特征,为区域经济研究提供了丰富的观察维度。
使用方法
研究者可基于该数据集开展回归分析任务,以评价分数为核心预测目标,探索房源特征与用户满意度之间的关联机制。在建模过程中,建议优先考虑房间类型、社区环境、价格策略等关键预测因子,同时注意处理数值特征的尺度差异与分类变量的编码转换。该数据集适用于机器学习模型的训练与验证,特别在推荐系统优化与服务质量预测等应用场景中具有显著价值,为共享经济平台的运营决策提供数据支撑。
背景与挑战
背景概述
Airbnb开放数据集作为共享经济领域的重要实证资源,由Lior Feinstein等研究人员于近年构建,聚焦纽约市102,599条房源数据。该数据集通过26维特征刻画房源属性、房东特征与运营指标,核心研究目标在于解析影响房源评分的关键因素。其价值在于为住宿服务质量评估、动态定价策略及平台生态优化提供了数据支撑,推动了旅游信息学与平台经济研究的交叉融合。
当前挑战
在解决住宿服务评分预测问题时,该数据集面临特征与评分关联性弱的本质挑战,例如房型对评分解释力有限、价格与评分缺乏线性关联。数据构建过程中需应对原始数据质量缺陷,包括行政区划名称拼写错误、数值字段异常值(如负值最小住宿天数)、以及零评论却存在评分的逻辑矛盾,同时需保留具有业务意义的极端值(如超高频评论房源)以维持数据代表性。
常用场景
经典使用场景
在共享经济与旅游服务研究领域,Airbnb_open_data数据集常被用于构建回归模型预测房源评分。通过整合价格、房间类型、地理位置及房东特征等多维变量,研究者能够深入探索影响用户满意度的关键因素,为平台优化服务提供数据支撑。
衍生相关工作
基于此数据集衍生的经典研究包括结合自然语言处理的评论情感分析模型,以及融合图神经网络构建房东-房源关系网络的可信度评估框架。这些工作进一步拓展了住宿服务预测的维度,催生了跨领域协同过滤推荐系统的创新实践。
数据集最近研究
最新研究方向
在共享经济与酒店管理交叉领域,Airbnb开放数据集正推动着住宿服务质量评估范式的革新。当前研究聚焦于利用机器学习模型预测房源评分,深入探索价格弹性、空间分布与房东专业度对客户满意度的非线性影响。随着零工经济规范化进程加速,该数据集已成为分析信任机制与服务质量关联性的关键载体,助力平台优化推荐算法并构建动态定价策略。其多维特征结构为研究住宿体验的隐性决定因素提供了实证基础,尤其在疫情后旅游业数字化转型背景下,这类数据驱动的洞察正重塑着短租市场的运营标准与监管框架。
以上内容由遇见数据集搜集并总结生成



