five

Inside Airbnb Australia

收藏
github2024-08-18 更新2024-08-19 收录
下载链接:
https://github.com/southern-cross-ai/Inside-Airbnb-Australia
下载链接
链接失效反馈
官方服务:
资源简介:
Inside Airbnb Australia数据集包含来自澳大利亚11个地区的详细房源和评论数据。每个地区都有独立的目录,包含CSV格式的房源和评论数据,记录频率约为每90天一次。

The Inside Airbnb Australia Dataset contains detailed accommodation listing and review data from 11 regions across Australia. Each region has its own separate directory containing listing and review data in CSV format, with a recording frequency of approximately once every 90 days.
创建时间:
2024-08-17
原始信息汇总

Inside Airbnb Australia 数据集概述

概览

关键词: 澳大利亚; Airbnb; 评论

数据来源

数据原始来源为 Inside Airbnb,并遵循 CC BY 4.0 许可协议。详细信息请参阅 Inside Airbnb 数据政策

本仓库仅存储澳大利亚的 listings.csv[.gz]reviews.csv[.gz] 数据。其他地区的数据请访问 获取数据

数据结构

InsideAirbnbAustralia 数据集包含来自澳大利亚以下11个地区的详细房源和评论数据:

  • 巴罗莎谷,南澳大利亚
  • 巴旺南海岸,维多利亚
  • 布里斯班,昆士兰
  • 墨尔本,维多利亚
  • 中北海岸,新南威尔士
  • 莫宁顿半岛,维多利亚
  • 北部河流,新南威尔士
  • 阳光海岸,昆士兰
  • 悉尼,新南威尔士
  • 塔斯马尼亚,塔斯马尼亚
  • 西澳大利亚,西澳大利亚

每个地区都有一个以其名称命名的单独目录,例如 melbournesunshine-coast

在每个地区的目录中,有两个子目录 gzcsv,其中 csv 包含从 gz 中对应的未压缩的 CSV 文件。

命名约定:

  • [location]_[date]_listings.csv[.gz] 包含来自 [location] 的详细 Airbnb 房源数据,每约90天记录一次;
  • [location]_[date]_reviews.csv[.gz] 包含来自 [location] 的详细 Airbnb 评论数据,每约90天记录一次。

注意,[date] 用于构建 URL 以检索和下载数据,并不一定代表数据的日期。

更多关于数据的信息,请参阅 获取数据 - Inside Airbnb

下载

建议通过 utils/download.ipynb 笔记本探索如何构建 URL 以请求和下载数据。

也可以使用 utils/download.py 在终端中直接下载数据。

bash $ python utils/download.py --help

usage: download.py [-h] [-s START_DATE] [-e END_DATE] -l LOCATIONS [LOCATIONS ...] [-r SAVE_ROOT]

Download Inside Airbnb data from Australia.

options: -h, --help Show all help messages. -s START_DATE, --start_date START_DATE Define the start date of the time range (YYY-MM-DD). Default date is set to the date when Airbnb launched in Australia. -e END_DATE, --end_date END_DATE Define the end date of the time range (YYYY-MM-DD). Default date is set to the current date, i.e., today. -l LOCATIONS [LOCATIONS ...], --locations LOCATIONS [LOCATIONS ...] Define the locations you want to download. The possible locations are: - sa/barossa-valley - vic/barwon-south-west-vic - qld/brisbane - vic/melbourne - nsw/mid-north-coast - vic/mornington-peninsula - nsw/northern-rivers - qld/sunshine-coast - nsw/sydney - tas/tasmania - wa/western-australia Use all to download from all locations. -r SAVE_ROOT, --save_root SAVE_ROOT The root path you want to save your data to. Default root path is Inside-Airbnb-Australia.

许可

本仓库遵循 MIT 许可协议。

搜集汇总
数据集介绍
main_image_url
构建方式
Inside Airbnb Australia数据集的构建基于从Inside Airbnb网站下载的原始数据,涵盖了澳大利亚11个主要地区的Airbnb房源和评论信息。每个地区的数据被分别存储在独立的目录中,包含两个子目录:`gz`和`csv`,分别存储压缩和解压缩后的CSV文件。数据命名遵循`[location]_[date]_listings.csv[.gz]`和`[location]_[date]_reviews.csv[.gz]`的格式,其中`[date]`用于构建数据下载的URL,并不一定代表数据的实际日期。数据每约90天更新一次,确保了信息的时效性和完整性。
特点
Inside Airbnb Australia数据集的显著特点在于其地域覆盖的广泛性和数据结构的细致性。该数据集不仅涵盖了澳大利亚多个主要城市和地区,如悉尼、墨尔本和布里斯班,还包含了偏远地区的数据,如Barossa Valley和Mornington Peninsula。此外,数据集提供了详细的房源信息和用户评论,为研究Airbnb对当地社区的影响提供了丰富的数据支持。
使用方法
使用Inside Airbnb Australia数据集时,用户可以通过`utils/download.ipynb`笔记本探索数据下载的详细过程,或直接使用`utils/download.py`脚本在终端中下载数据。脚本提供了灵活的参数设置,允许用户自定义下载的时间范围和地理位置。下载的数据默认存储在`Inside-Airbnb-Australia`目录下,用户可以根据需要调整存储路径。
背景与挑战
背景概述
Inside Airbnb Australia数据集是由Inside Airbnb项目提供的一个专注于澳大利亚Airbnb市场的数据集。该项目旨在通过数据和信息,帮助社区理解、决策和控制将住宅出租给游客的角色,从而推动社区的赋权。该数据集包含了澳大利亚11个主要地区的详细房源和评论数据,涵盖了从2014年Airbnb在澳大利亚启动以来的历史数据。通过这些数据,研究人员和政策制定者可以深入分析Airbnb对当地住宅社区的影响,从而为相关政策和市场策略提供依据。
当前挑战
Inside Airbnb Australia数据集在构建过程中面临多个挑战。首先,数据的时间跨度较大,从2014年至今,涵盖了Airbnb在澳大利亚的整个发展历程,这要求数据处理和分析方法必须具备高度的灵活性和适应性。其次,数据涉及多个地理位置,每个地区的数据结构和内容可能存在差异,这增加了数据整合和标准化的难度。此外,数据更新频率为每90天一次,如何在短时间内处理和分析大量数据,确保数据的实时性和准确性,也是一个重要的挑战。
常用场景
经典使用场景
Inside Airbnb Australia数据集的经典使用场景主要集中在对澳大利亚各地区Airbnb房源和评论数据的深入分析。研究者们利用该数据集进行市场趋势分析、价格预测、房源质量评估以及用户行为研究。通过对房源的详细信息和用户评论的情感分析,可以揭示不同地区Airbnb市场的动态变化,为政策制定者和投资者提供有价值的参考。
实际应用
在实际应用中,Inside Airbnb Australia数据集被广泛用于地方政府和非营利组织的政策制定。例如,通过分析Airbnb房源的分布和价格波动,地方政府可以制定更有效的税收政策和租赁法规,以平衡旅游经济发展与居民生活质量。此外,房地产投资者和旅游企业也利用该数据集进行市场调研,优化投资策略和营销方案。
衍生相关工作
基于Inside Airbnb Australia数据集,衍生了许多经典的研究工作。例如,有学者利用该数据集研究了Airbnb对城市住房市场的影响,发表了多篇高影响力的论文。此外,数据集还被用于开发新的机器学习模型,用于预测房源价格和用户评论的情感倾向。这些研究不仅丰富了学术界的知识库,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作