CS329H_Project_user_profiles
收藏Hugging Face2025-11-22 更新2025-11-23 收录
下载链接:
https://huggingface.co/datasets/zetianli/CS329H_Project_user_profiles
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用户在Yelp平台上对商家的评价信息,其中包括用户ID、用户名、评价数量、注册时间、好友数量、获得的点赞数、有趣数、酷�数、粉丝数、平均星级、收到的各种赞美数量等用户信息。同时,每条评价还包含了评价的商家ID、类别、城市、评价日期、评价星级、评价文本、所在州以及商家的各种属性,如是否接受保险、适合的年龄段、是否提供酒水、氛围、是否允许自带酒水、是否提供预约服务等。数据集仅包含训练集部分,共有20000条评价数据。
创建时间:
2025-11-17
原始信息汇总
CS329H_Project_user_profiles 数据集概述
数据集基本信息
- 数据集名称: CS329H_Project_user_profiles
- 数据量: 20,000 个样本
- 训练集大小: 149,205,748 字节
- 下载大小: 53,699,777 字节
- 数据集存储大小: 149,205,748 字节
数据结构特征
主要特征字段
- 用户标识: user_id (字符串)
- 用户信息: name (字符串), yelping_since (字符串)
- 活跃度指标: review_count (整型), friend_num (整型), fans (整型)
- 评价指标: useful (整型), funny (整型), cool (整型)
- 评分信息: average_stars (浮点型)
- 个人资料: profile (字符串)
用户收到的赞美类型
- compliment_hot, compliment_more, compliment_profile, compliment_cute
- compliment_list, compliment_note, compliment_plain, compliment_cool
- compliment_funny, compliment_writer (均为整型)
评论数据(嵌套结构)
- 评论标识: business_id, review_id (字符串)
- 时空信息: city, state, date (字符串)
- 商家信息: name, categories (字符串)
- 评分数据: stars (浮点型), cool, funny, useful (整型)
- 评论内容: text (字符串)
商家属性(嵌套结构)
包含41个商家属性字段,涵盖:
- 服务设施: AcceptsInsurance, Alcohol, BikeParking, BusinessAcceptsCreditCards
- 餐饮服务: RestaurantsDelivery, RestaurantsTakeOut, RestaurantsReservations
- 环境特征: Ambience, NoiseLevel, OutdoorSeating, WiFi
- 便利设施: HasTV, WheelchairAccessible, GoodForKids
- 营业信息: Open24Hours, HappyHour, BYOB
数据配置
- 配置名称: default
- 数据文件路径: data/train-*
- 数据格式: 结构化数据,包含嵌套列表和结构体
搜集汇总
数据集介绍

构建方式
在用户画像研究领域,CS329H_Project_user_profiles数据集通过结构化方式整合了多维度用户行为数据。该数据集从在线平台采集了20000个用户样本,每个样本包含用户标识、基础属性、社交关系及历史评论等复合信息。构建过程中采用嵌套数据结构,将用户属性与对应的商业评论进行关联,形成完整的用户行为轨迹。数据字段经过标准化处理,确保各类数值型、文本型和分类变量的统一格式,为后续分析提供可靠基础。
特点
该数据集在用户画像建模方面展现出显著的多模态特征。核心特征涵盖用户社交影响力指标如好友数量与粉丝规模,互动行为维度包括实用、有趣、酷炫等评价反馈,以及长期活跃度相关的评论数量和平均评分。特别值得注意的是嵌套的评论数据结构,其中包含商业属性、服务类别、时空信息等47个细化字段,为用户行为模式分析提供了丰富的上下文信息。这种多层次的特征组织方式能够支持复杂的用户画像构建任务。
使用方法
针对用户画像分析的应用场景,该数据集可通过标准数据加载流程进行调用。研究人员可使用数据集标识符直接访问完整数据,利用内置的训练集分割开展模型训练。典型应用流程包括用户特征提取、社交影响力预测、评论行为模式挖掘等任务。数据中的结构化字段支持直接用于机器学习模型输入,而文本评论内容则适用于自然语言处理分析。通过整合用户基本属性与详细评论记录,可实现从微观行为到宏观画像的综合研究。
背景与挑战
背景概述
在社交网络分析与推荐系统研究领域,用户画像构建始终是提升个性化服务质量的核心环节。CS329H_Project_user_profiles数据集由斯坦福大学CS329H课程团队于2023年创建,聚焦于通过Yelp平台用户行为数据解析用户特征与偏好。该数据集整合了用户基础属性、社交关系网络及历史评论等多维度信息,为研究用户行为模式、影响力传播机制以及商家服务质量评估提供了结构化数据支撑,显著推动了社交数据挖掘与商业智能分析领域的交叉研究进展。
当前挑战
该数据集致力于解决用户画像建模中动态行为表征与多源信息融合的复杂性挑战,具体体现在用户社交影响力量化需兼顾显性指标与隐性交互特征,而评论情感分析需克服文本噪声与语境歧义问题。在构建过程中,数据采集面临时空跨度导致的用户行为不一致性,多模态字段整合需处理非结构化文本与结构化属性的对齐难题,同时隐私保护要求对原始数据进行脱敏处理时需平衡数据效用与匿名化程度。
常用场景
经典使用场景
在社交网络分析领域,CS329H_Project_user_profiles数据集通过整合用户档案与多维度交互数据,为研究者提供了探索用户行为模式的丰富素材。该数据集常被用于构建用户画像模型,结合评论数量、社交关系及情感反馈等特征,揭示用户活跃度与内容质量之间的关联性,成为推荐系统与社交影响力研究的基准数据源。
解决学术问题
该数据集有效解决了用户行为预测中的特征稀疏性问题,通过结构化存储用户历史交互与属性标签,支持社交网络中心性度量和影响力传播模型的验证。其多维评分数据为情感分析算法提供了标注依据,显著提升了用户偏好建模的准确性,推动了计算社会学与信息检索领域的交叉研究进展。
衍生相关工作
基于该数据集衍生的经典研究包括动态社交网络演化分析框架,通过“yelping_since”时间序列构建用户生命周期模型。多项工作利用“reviews”嵌套结构开发跨领域情感词典,结合商家属性预测用户消费倾向,催生了融合图神经网络与注意力机制的混合推荐系统创新方案。
以上内容由遇见数据集搜集并总结生成



