five

Yelp

收藏
arXiv2024-11-01 收录
下载链接:
https://www.yelp.com/dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了用户与六个不同产品类别的互动信息。为了提高数据质量,我们对互动次数少于5次的用户和产品进行了筛选。该数据集的任务是进行序列化的推荐。

This dataset comprises interaction records between users and six distinct product categories. To enhance data quality, we filtered out users and products with fewer than 5 interactions. The core task of this dataset is sequential recommendation.
提供机构:
Amazon
搜集汇总
数据集介绍
main_image_url
构建方式
Yelp数据集的构建基于用户在Yelp平台上的真实反馈和互动。该数据集涵盖了全球多个城市的餐厅、咖啡馆、酒吧等各类商业场所的评论和评分。数据收集过程包括用户提交的文本评论、星级评分、照片上传以及用户与商家之间的互动信息。通过自动化工具和人工审核相结合的方式,确保数据的准确性和完整性。
特点
Yelp数据集以其广泛的地理覆盖和多样化的用户反馈著称。该数据集不仅包含丰富的文本信息,还整合了用户上传的照片和视频,提供了多模态的数据分析可能性。此外,Yelp数据集的时间跨度较长,能够反映出用户消费习惯和市场趋势的动态变化。
使用方法
Yelp数据集可广泛应用于自然语言处理、情感分析、推荐系统等多个领域。研究者可以通过分析用户评论的文本内容,提取情感倾向和关键词汇,从而构建情感分析模型。同时,结合用户评分和地理位置信息,可以开发基于位置的推荐系统,提升用户体验。此外,数据集中的多模态数据也为图像识别和视频分析提供了丰富的素材。
背景与挑战
背景概述
Yelp数据集,由美国知名点评网站Yelp于2004年创建,主要研究人员包括Jeremy Stoppelman和Russel Simmons。该数据集的核心研究问题集中在用户生成内容的质量评估、商家推荐系统以及用户行为分析等领域。Yelp数据集的发布极大地推动了自然语言处理、机器学习和数据挖掘技术的发展,特别是在情感分析和推荐系统方面,为学术界和工业界提供了丰富的研究资源。
当前挑战
Yelp数据集在解决领域问题方面面临诸多挑战。首先,用户生成内容的多样性和噪声使得情感分析和评论质量评估变得复杂。其次,构建过程中,数据清洗和标注的准确性要求极高,以确保研究结果的可靠性。此外,随着用户和商家数量的增长,数据集的规模和动态变化也对存储和处理技术提出了更高的要求。
发展历史
创建时间与更新
Yelp数据集的创建始于2004年,由Yelp公司推出,旨在收集和分享用户对本地商业的评价和反馈。该数据集定期更新,以反映最新的用户评论和商业信息。
重要里程碑
Yelp数据集的重要里程碑包括2013年首次公开发布其数据集,供学术研究和数据分析使用,这一举措极大地推动了自然语言处理和机器学习领域的发展。2017年,Yelp进一步扩展其数据集,增加了图像和视频数据,丰富了数据多样性。此外,Yelp还与多个研究机构合作,举办数据科学竞赛,促进了数据集的应用和创新。
当前发展情况
当前,Yelp数据集已成为全球最大的本地商业评价数据集之一,广泛应用于自然语言处理、推荐系统和情感分析等领域。其丰富的用户生成内容和多模态数据为研究者提供了宝贵的资源,推动了相关技术的进步。Yelp数据集的持续更新和扩展,不仅提升了用户体验,也为学术界和工业界提供了持续的研究和应用价值。
发展历程
  • Yelp平台正式上线,开始为用户提供本地商业评论服务。
    2004年
  • Yelp首次公开发布其用户生成的评论数据集,标志着数据集的初步形成。
    2006年
  • Yelp数据集被广泛应用于学术研究和商业分析,成为自然语言处理和机器学习领域的重要资源。
    2011年
  • Yelp数据集首次包含超过100万条评论,数据规模显著扩大。
    2013年
  • Yelp数据集开始包含更多元化的数据类型,如用户社交关系和商业属性,丰富了数据集的内容。
    2015年
  • Yelp数据集被用于多个国际数据科学竞赛,进一步提升了其在学术界和工业界的影响力。
    2017年
  • Yelp数据集的更新频率增加,确保数据的新鲜度和时效性,满足不断变化的研究需求。
    2019年
  • Yelp数据集的开放性和透明度进一步提升,通过API接口提供更便捷的数据访问方式。
    2021年
常用场景
经典使用场景
在自然语言处理领域,Yelp数据集以其丰富的用户评论和商家信息而著称。该数据集常用于情感分析任务,研究者通过分析用户对餐厅、酒店等服务的评价,提取情感极性,从而构建情感分类模型。此外,Yelp数据集也被广泛应用于推荐系统研究,通过分析用户的历史评价和行为,预测用户对未评价商家的偏好,进而提供个性化推荐服务。
解决学术问题
Yelp数据集为学术界提供了宝贵的资源,解决了多个重要的研究问题。首先,它在情感分析领域推动了情感极性识别技术的发展,帮助研究者更好地理解用户情感表达。其次,在推荐系统研究中,Yelp数据集通过提供大量用户-商家交互数据,促进了协同过滤和基于内容的推荐算法的研究。这些研究不仅提升了推荐系统的准确性,还为个性化服务提供了理论支持。
衍生相关工作
Yelp数据集的广泛应用催生了众多相关研究工作。在情感分析领域,基于Yelp数据集的研究成果被用于开发更复杂的情感分析模型,如多层次情感分析和情感强度评估。在推荐系统领域,研究者利用Yelp数据集提出了多种改进的推荐算法,如结合社交网络信息的推荐系统和基于深度学习的推荐模型。这些衍生工作进一步推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作