MongoDB/whatscooking.restaurants
收藏Hugging Face2024-06-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MongoDB/whatscooking.restaurants
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了关于各种餐厅的详细信息,包括其位置、菜系、评分和其他属性。每个记录代表一个餐厅,包含唯一标识符、地址、行政区、菜系、名称、餐厅ID、地理位置、星级评分、评论数量、属性、价格范围、户外座位、欢乐时光、外卖服务、是否允许携带宠物以及菜单和属性的嵌入表示。该数据集特别适用于食品和饮料行业分析、推荐系统和地理研究等应用。
该数据集提供了关于各种餐厅的详细信息,包括其位置、菜系、评分和其他属性。每个记录代表一个餐厅,包含唯一标识符、地址、行政区、菜系、名称、餐厅ID、地理位置、星级评分、评论数量、属性、价格范围、户外座位、欢乐时光、外卖服务、是否允许携带宠物以及菜单和属性的嵌入表示。该数据集特别适用于食品和饮料行业分析、推荐系统和地理研究等应用。
提供机构:
MongoDB
原始信息汇总
Whatscooking.restaurants 数据集概述
概览
该数据集提供了关于各种餐厅的详细信息,包括位置、菜系、评分和其他属性。它特别适用于食品和饮料行业分析、推荐系统和地理研究。
数据集结构
每个记录代表一个单独的餐厅,并包含以下字段:
_id: 餐厅记录的唯一标识符。address: 包含建筑编号、坐标、街道和邮编的对象。borough: 餐厅所在的行政区。cuisine: 餐厅提供的菜系类型。name: 餐厅的名称。restaurant_id: 餐厅的唯一ID。location: 餐厅的地理位置数据,格式为Point。stars: 餐厅的星级评分。review_count: 餐厅收到的评论数量。attributes: 餐厅的各种属性,如GoodForKids,RestaurantsDelivery,NoiseLevel等。PriceRange: 餐厅的价格范围。OutdoorSeating: 指示餐厅是否有户外座位。HappyHour: 指示餐厅是否提供欢乐时光。TakeOut: 指示餐厅是否提供外卖服务。DogsAllowed: 指示餐厅是否允许带狗。embedding: 表示菜单和属性的嵌入的数值列表。
字段详情
Address 对象
building: 建筑编号。coord: 包含经度和纬度的数组。street: 街道名称。zipcode: 邮政编码。
Location 对象
type: 地理位置数据的类型,通常为"Point"。coordinates: 包含经度和纬度的数组。
Attributes 对象
- 该对象包含多个布尔和字符串字段,表示餐厅的各种特性和服务,如
GoodForKids,RestaurantsDelivery,NoiseLevel等。
Embedding 字段
- 由 OpenAI
text-embedding-3-small生成,包含 256 个元素。该字段由浮点数数组组成,表示餐厅菜单和属性的组合嵌入,适用于相似性搜索和机器学习应用。
使用
该数据集可用于多种目的,包括但不限于:
- 分析不同行政区的餐厅趋势。
- 基于菜系、属性和位置开发推荐系统。
- 餐厅分布的地理空间分析。
注意事项
- 数据集按“原样”提供,仅供信息参考。
- 用户在使用嵌入数据时应考虑其应用的含义。
搜集汇总
数据集介绍

构建方式
在餐饮行业数据日益成为分析热点的背景下,Whatscooking.restaurants数据集通过系统化采集与结构化处理构建而成。该数据集整合了餐厅的多维度信息,每条记录均包含唯一标识符、详细地址、行政区划、菜系类型、名称及地理坐标等核心字段。构建过程中,特别引入了由OpenAI text-embedding-3-small模型生成的256维嵌入向量,该向量融合了菜单内容与属性特征,为后续的相似性检索与机器学习应用奠定了数据基础。数据以规范的JSON格式组织,确保了信息的完整性与可扩展性。
使用方法
针对餐饮趋势分析与智能系统开发,该数据集提供了灵活的应用途径。用户可通过HuggingFace的datasets库直接加载数据,并利用附带的Python脚本将数据批量导入MongoDB Atlas集群,以便进行高效的查询与聚合操作。在具体应用中,研究者可依据行政区划、菜系类型进行趋势统计,或基于嵌入向量构建餐厅相似度模型,实现个性化推荐。地理坐标字段则支持空间分布分析,如餐厅密度可视化或区位模式挖掘。数据中的多维度属性为交叉分析提供了可能,例如结合评分与价格研究消费者偏好。
背景与挑战
背景概述
在餐饮业数字化转型与智能推荐系统蓬勃发展的背景下,MongoDB/whatscooking.restaurants数据集应运而生,旨在为餐饮行业分析、地理空间研究及个性化推荐提供结构化数据支持。该数据集由MongoDB机构构建并发布,其核心研究问题聚焦于如何整合多维度的餐厅信息——包括地理位置、菜系类型、用户评分、服务属性及菜单文本嵌入——以支撑复杂的查询分析与机器学习应用。通过融合传统属性字段与由OpenAI text-embedding-3-small模型生成的语义嵌入向量,该数据集不仅促进了餐饮趋势的时空分析,也为构建基于深度内容的推荐系统奠定了数据基础,对餐饮信息学与商业智能领域产生了积极的推动作用。
当前挑战
该数据集致力于解决餐饮推荐与市场分析中的多维度信息融合挑战,其核心难题在于如何将离散的餐厅属性、空间坐标、文本化菜单与用户行为数据(如评分与评论数量)进行有效关联,以支持精准的相似性检索与趋势预测。在构建过程中,挑战主要体现在数据异构性的处理上:原始信息中既有结构化的数值与布尔字段,也有半结构化的属性对象与非结构化的菜单文本,需要设计统一的模式进行规范化整合。此外,生成高质量的语义嵌入向量要求对菜单与属性描述进行恰当的文本表示与向量化,确保嵌入空间能够准确反映餐厅间的语义相似性,这对数据清洗、特征工程与嵌入模型的选择提出了较高要求。
常用场景
经典使用场景
在餐饮业分析领域,该数据集常被用于构建智能推荐系统。通过整合餐厅的地理位置、菜系类型、用户评分及丰富属性特征,研究者能够训练机器学习模型,精准预测用户偏好,实现个性化餐厅推荐。这种应用不仅提升了用户体验,也为餐饮市场细分提供了数据支撑。
解决学术问题
该数据集有效解决了城市地理学与消费行为学中的关键问题,如餐厅空间分布规律、消费者选择偏好建模等。其嵌入向量与多维度属性支持复杂关联分析,助力学者揭示餐饮业态与社区特征间的内在联系,推动了城市商业生态研究的定量化发展。
实际应用
实际应用中,该数据集为餐饮企业选址、市场策略制定提供了决策依据。结合地理信息系统,可分析区域竞争格局与消费潜力;嵌入向量则赋能智能搜索平台,让用户通过自然语言描述快速匹配理想餐厅,显著提升了商业运营效率与服务质量。
数据集最近研究
最新研究方向
在餐饮业数据分析领域,Whatscooking.restaurants数据集凭借其丰富的餐厅属性与地理空间信息,正成为多模态推荐系统研究的热点。前沿探索聚焦于融合文本嵌入向量与空间坐标,构建智能化的个性化餐饮推荐模型,以精准匹配用户偏好与场景需求。该数据集亦支撑着城市商业地理学的深入分析,助力揭示餐饮业态分布与区域经济活力的内在关联,为智慧城市与商业决策提供数据驱动的洞察。
以上内容由遇见数据集搜集并总结生成



