Weather-To-Eat-Or-Not-Dataset
收藏github2020-03-30 更新2024-05-31 收录
下载链接:
https://github.com/AkshayJk1995/Weather-To-Eat-Or-Not-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集整合了Yelp Fusion API和OpenWeatherMap API的数据,旨在为潜在的餐厅业主提供决策支持。数据集包含了美国四个城市(费城、旧金山、芝加哥和迈阿密)的餐厅信息,如坐标、电话号码、营业时间、地址、价格水平、评分和评论数量,以及天气数据如湿度、最高和最低温度、风速。数据集适用于分析天气对评论评分的影响、餐厅地理位置对评论的影响、同一地区竞争餐厅的比较以及不同城市居民的口味偏好等。
This dataset integrates data from the Yelp Fusion API and the OpenWeatherMap API, aiming to provide decision-making support for potential restaurant owners. The dataset includes restaurant information from four U.S. cities (Philadelphia, San Francisco, Chicago, and Miami), such as coordinates, phone numbers, business hours, addresses, price levels, ratings, and review counts, as well as weather data like humidity, maximum and minimum temperatures, and wind speed. The dataset is suitable for analyzing the impact of weather on review ratings, the influence of restaurant locations on reviews, comparisons of competing restaurants in the same area, and the taste preferences of residents in different cities.
创建时间:
2018-12-06
原始信息汇总
数据集概述
数据集名称
- Weather-To-Eat-Or-Not-Dataset
作者
- Devanshi Dholakia, Abeer Almahyawi, Akshay Jayakumar, Ou Stella Liang
更新日期
- 12/11/2018
数据集内容
- 城市范围:Philadelphia, San Francisco, Chicago, Miami
- 餐厅数据:坐标、电话号码、营业时间、地址、价格水平、评分、评论数量
- 天气数据:湿度、最低温度、最高温度、风速
数据集用途
- 分析天气对评论评分的影响
- 研究地理位置特征对餐厅评论的影响
- 比较同一区域内竞争餐厅
- 探索不同城市居民的口味偏好
数据集产品开发潜力
- 地理映射/热图显示“美食区”
- 咨询算法推荐理想的位置/价格范围/菜系类型
数据集处理
- 使用Yelp Fusion API和OpenWeatherMap API提取数据
- 数据处理包括从JSON文件中提取所需字段,并将数据整合为CSV格式
数据集挑战与未来工作
- 目前仅包含高评分餐厅,未来可能需要包括低评分餐厅以更全面分析
- 计划整合美国社区调查数据,以增加社会、住房、经济和人口统计数据
数据集技术细节
- Yelp Fusion API参数:
- 搜索词(term)
- 位置(location)
- 限制(limit)
- 排序方式(sort by)
- 偏移量(offset)
- OpenWeatherMap API参数:
- 日期ID(date_id)
- 天气主要信息(weather_main)
- 天气描述(weather_description)
- 温度(main_temp)
- 压力(main_pressure)
- 湿度(main_humidity)
- 最低温度(main_temp_min)
- 最高温度(main_temp_max)
- 能见度(visibility)
- 风速(wind_speed)
- 风向(wind_deg)
- 云量(clouds_all)
- 数据接收时间(dt)
- 日出时间(sys_sunrise)
- 日落时间(sys_sunset)
- 城市ID(id)
- 城市名称(name)
- 坐标(coord.lon, coord.lat)
数据集排除的属性
- 餐厅评论:
- 业务别名(business.alias)
- 业务图像URL(business.image_url)
- 业务位置(business.location)
- 业务电话(business.phone)
- 天气信息:
- 天气ID(weather.id)
- 天气图标(weather.icon)
- 基础站(base.stations)
- 系统类型、ID、消息(sys.type, sys.id, sys.message)
- 代码(cod)
搜集汇总
数据集介绍

构建方式
本数据集的构建采用了Yelp Fusion API与openweathermap.org API相结合的方式,以Philadelphia、San Francisco、Chicago和Miami四个城市为研究对象,提取了餐厅的地理位置、电话号码、营业时间、地址、价格水平、评分和评论数量等信息,同时收集了相应城市的湿度、温度、风速等天气数据。数据采集过程中,通过分批次查询并利用offset参数确保每个城市获取了1000家餐厅的数据,并将每日的查询结果分别存储,以保持数据的历史连贯性。
特点
该数据集的特点在于将餐厅的评论数据与天气数据相结合,为研究天气对餐厅评分及业务量的影响提供了可能。数据集覆盖了四个城市的餐厅信息,具备一定的地理多样性。此外,数据集通过每日的评论增长情况为餐厅提供了业务情报,有助于理解影响餐厅业务的多种因素。数据清洗过程中,排除了重复和不必要的信息,确保了数据的有效性和准确性。
使用方法
使用本数据集时,用户可根据需要获取特定地点和业务类型的餐厅评论和天气信息。Yelp API提供了多种搜索参数,包括搜索词、位置、结果数量、排序方式等,用户可根据具体研究需求进行调整。同时,数据集以CSV格式存储,便于进行数据分析和可视化。针对未来可能的数据扩展,该系统也具有较好的扩展性,只需保持文件命名的一致性即可。
背景与挑战
背景概述
Weather-To-Eat-Or-Not-Dataset是由Devanshi Dholakia、Abeer Almahyawi、Akshay Jayakumar和Ou Stella Liang于2018年创建的一项全国性餐厅数据集。该数据集利用Yelp Fusion API和其他数据源,收集了费城、旧金山、芝加哥和迈阿密四个城市的餐厅信息,包括坐标、电话号码、营业时间、地址、价格水平、评分和评论数量等属性。同时,研究团队还从openweathermap.org获取了湿度、最低温度、最高温度和风速等天气数据。该数据集旨在探讨天气对餐厅评分的影响,以及地理位置等特征对餐厅评论的影响,为潜在的餐饮业者提供决策支持。
当前挑战
在构建该数据集的过程中,研究人员面临了多个挑战。首先,数据集仅包含评分较高的餐厅,这可能限制了其在预测业务可行性方面的应用。其次,Yelp API的限制以不规律的方式实施,导致在获取数据时出现了不必要的复杂性。此外,数据集中可能存在来自同一城市的多个重复条目,这可能会造成混淆。未来,研究人员计划整合更多类型的业务以及美国社区调查数据,以丰富数据集的社会经济信息。然而,这一整合过程需要解决诸如地理编码和API查询限制等技术问题。
常用场景
经典使用场景
该数据集的经典使用场景在于为潜在的餐饮业者提供决策支持,通过结合Yelp上的餐厅评论与OpenWeatherMap的天气数据,分析不同城市的餐厅表现与天气条件之间的关系,从而帮助业者选择理想的地理位置、价格区间和菜系类型。
实际应用
实际应用中,该数据集可用于开发餐厅位置热力图、为餐饮业者提供咨询服务算法,以及为公众提供查找新地区餐厅的工具。它能够辅助业者进行市场分析,同时为公众健康机构、经济研究部门等提供数据支持。
衍生相关工作
基于该数据集,衍生出的相关工作可能包括更深入的餐厅业绩预测模型、城市餐饮市场细分研究,以及结合人口普查数据的综合分析,进一步探索餐厅业务与社区特征之间的关联。
以上内容由遇见数据集搜集并总结生成



