CS329H_Project_business
收藏Hugging Face2025-11-22 更新2025-11-23 收录
下载链接:
https://huggingface.co/datasets/zetianli/CS329H_Project_business
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含有关企业的详细信息,如企业ID、名称、城市、州、星级等。还包括如是否接受保险、允许的年龄段、是否提供酒精饮料、氛围、是否允许自带酒水、是否提供寄存服务等一系列属性。此外,还包括样本评论和配置文件信息。数据集分为训练集,包含50,000个示例。
创建时间:
2025-11-17
原始信息汇总
CS329H_Project_business 数据集概述
数据集基本信息
- 数据集名称: CS329H_Project_business
- 数据量: 50,000 条样本
- 数据格式: 结构化数据
- 总大小: 109.72 MB
- 下载大小: 54.94 MB
数据特征结构
主要字段
- business_id: 字符串类型,商家唯一标识
- name: 字符串类型,商家名称
- city: 字符串类型,所在城市
- state: 字符串类型,所在州
- stars: 浮点数类型,星级评分
- categories: 字符串类型,商家分类
- sample_reviews: 字符串列表,样本评论
- profile: 字符串类型,商家简介
- index_level_0: 整型,索引级别
属性特征(attributes)
包含39个商家属性字段,均为字符串类型:
- 服务相关:AcceptsInsurance、Alcohol、BYOB、BYOBCorkage、Caters、Corkage
- 设施相关:BikeParking、BusinessParking、CoatCheck、HasTV、OutdoorSeating、WiFi
- 支付相关:BusinessAcceptsBitcoin、BusinessAcceptsCreditCards
- 餐饮相关:RestaurantsAttire、RestaurantsCounterService、RestaurantsDelivery、RestaurantsGoodForGroups、RestaurantsPriceRange2、RestaurantsReservations、RestaurantsTableService、RestaurantsTakeOut
- 环境相关:Ambience、BestNights、GoodForDancing、GoodForKids、GoodForMeal、HappyHour、Music、NoiseLevel
- 政策相关:AgesAllowed、ByAppointmentOnly、DietaryRestrictions、DogsAllowed、DriveThru、HairSpecializesIn、Open24Hours、Smoking、WheelchairAccessible
数据划分
- 训练集: 包含全部50,000条样本
- 文件路径: data/train-*
数据用途
适用于商业分析、推荐系统、文本挖掘等机器学习任务。
搜集汇总
数据集介绍

构建方式
在商业数据分析领域,CS329H_Project_business数据集通过系统化采集美国本土商业实体的多维度信息构建而成。该数据集整合了50,000个商业机构的核心数据,每个样本包含唯一商业标识、地理定位信息与星级评分等基础字段,并采用结构化方式记录从支付方式到服务特色的42项商业属性,形成完整的商业实体画像。数据采集过程注重实体属性的完整性与一致性,通过标准化字段确保不同商业类别的可比性。
特点
该数据集最显著的特征在于其精细化的属性分类体系,涵盖支付方式、餐饮服务、无障碍设施等商业运营的各个层面。每个商业实体不仅包含基础的地理位置和评分数据,还附带用户评论样本与商业简介文本,为多模态分析提供可能。数据结构采用分层设计,将核心信息与扩展属性分离,既保持数据完整性又便于针对性分析,特别适合研究商业特征与市场表现的关联性。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集进行商业智能分析,其标准化的数据格式兼容主流机器学习框架。在具体应用中,可基于商业属性字段构建推荐系统或客户细分模型,利用星级评分与用户评论开展情感分析,或结合地理信息进行区域商业生态研究。数据集的训练集划分明确,支持端到端的模型训练与验证流程,为商业决策支持系统提供可靠的数据基础。
背景与挑战
背景概述
随着商业智能与推荐系统研究的深入,CS329H_Project_business数据集应运而生,聚焦于商业实体多维度特征分析。该数据集由斯坦福大学CS329H课程团队构建,整合了商户基础信息、服务属性及用户评价等结构化数据,旨在探索商业特征与消费者行为间的复杂关联。其涵盖的50,000条商户记录包含地理位置、星级评分、支付方式、环境属性等丰富字段,为商业模式挖掘与区域经济研究提供了重要数据支撑。
当前挑战
该数据集需解决商户多标签分类与服务质量预测的核心难题,例如通过异构属性推断商户类型或根据历史数据预测星级评分。构建过程中面临多重挑战:原始商户描述文本需转化为结构化属性字段,涉及语义解析与标准化处理;用户生成内容存在表述不一致与信息缺失问题,例如非标准化的营业时间描述或矛盾的服务声明;此外,地理分布的稀疏性与类别不平衡可能影响模型泛化能力。
常用场景
经典使用场景
在商业智能与推荐系统领域,CS329H_Project_business数据集凭借其丰富的商户属性与用户评价数据,常被用于构建精准的商户推荐模型。研究者通过分析商户的地理位置、星级评分、服务属性及用户评论样本,能够训练出基于协同过滤或深度学习的推荐算法,为消费者提供个性化的商业服务选择建议。
解决学术问题
该数据集有效解决了商业数据分析中多维度特征建模的挑战,为研究商户竞争力、服务偏好与区域经济规律提供了实证基础。通过整合结构化属性与非结构化评论,学者能够深入探究消费者行为模式、服务质量评估标准以及商业生态的空间分布特征,推动了数据驱动的商业决策理论发展。
衍生相关工作
基于该数据集衍生的经典研究包括基于图神经网络的跨城市商业推荐系统、结合语义分析的商户竞争力评估框架,以及多任务学习驱动的服务缺陷检测模型。这些工作通过融合属性关联与文本特征,显著提升了商业智能应用的准确性与可解释性。
以上内容由遇见数据集搜集并总结生成



