Yelp reviews with atypical aspects and user profiles

Name: Yelp reviews with atypical aspects and user profiles
Creator: 北卡罗来纳大学夏洛特分校
Published: 2025-05-29 23:53:21
License: 暂无描述

arXiv2025-05-29 更新2025-05-31 收录

下载链接：

https://github.com/ramituncc49er/ATARS

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Yelp评论组成，这些评论被人工标注了非典型方面，以及一个人工生成的用户配置文件数据集，这些用户配置文件被众包标注了用户-方面效用值。数据集还包括一个自定义过程，用于动态选择上下文学习示例，以提高LLM对非典型性和效用的判断。该数据集旨在促进对推荐系统的研究，以实现更高的用户满意度。

This dataset comprises Yelp reviews manually annotated with atypical aspects, alongside a manually generated user profile dataset where user-aspect utility values are annotated via crowdsourcing. The dataset also features a customized procedure for dynamically selecting in-context learning examples to enhance LLMs' judgment of atypicality and utility. This dataset is intended to promote research on recommendation systems for achieving higher user satisfaction.

提供机构：

北卡罗来纳大学夏洛特分校

创建时间：

2025-05-29

原始信息汇总

ATARS数据集概述

数据集简介

名称：ATARS (Atypical Aspect-Based Recommender System for Serendipitous Recommendations)
类型：推荐系统数据集
用途：用于提供意外性推荐（Serendipitous Recommendations）

主要特点

基于非典型方面的推荐系统
专注于生成意外性推荐结果

应用场景

推荐系统研究
意外性推荐算法开发
个性化推荐场景

搜集汇总

数据集介绍

构建方式

该数据集通过半自动化方法从Yelp评论中筛选罕见词汇，并人工标注非典型方面构建而成。研究人员首先使用spaCy提取评论中的名词和动词词频，筛选低频词作为候选非典型词汇，随后人工阅读相关评论以确定真正的非典型方面。整个过程耗时耗力，平均每小时仅能标注2-3条餐厅评论。数据集包含三个领域（餐厅、酒店和美发沙龙）的评论，每个评论都进行了主次两层的非典型方面标注，并保持了典型评论与非典型评论的数量平衡。

特点

该数据集的核心特点是专注于捕捉商品类别中的非典型方面，这些方面与商品核心业务无关但可能带来惊喜体验。数据集采用提取式和抽象式双重标注方案：提取式标注聚焦于基础名词短语，而抽象式标注则生成概括性语句。特别地，氛围等次要非典型方面被单独标注。数据集覆盖三个服务领域，包含丰富的语义多样性，且通过人工筛选确保了非典型方面的高质量标注。此外，数据集还提供了开发集以评估标注者间一致性。

使用方法

该数据集主要用于开发基于非典型方面的推荐系统。研究人员可将其用于：1)训练和评估非典型方面提取模型；2)构建用户-方面效用预测系统；3)开发惊喜度和偶然性计算算法。使用时应将数据集按领域划分，注意主次标注层的区别。对于非典型方面提取任务，建议结合原始评论使用提取式标注，而抽象式标注可作为独立输入。在效用预测任务中，需配合用户画像数据使用。数据集中的开发集可用于评估模型性能与人工标注的一致性。

背景与挑战

背景概述

Yelp reviews with atypical aspects and user profiles数据集由北卡罗来纳大学夏洛特分校的Ramit Aditya、Razvan Bunescu、Smita Nannaware和Erfan Al-Hossami于2025年创建，旨在通过推荐具有非典型方面的物品来设计偶然性体验。该数据集的核心研究问题是解决推荐系统中的选择过载问题，通过提取用户评论中的非典型方面并结合用户兴趣，提升推荐系统的意外性和用户满意度。该数据集对推荐系统领域具有重要影响力，特别是在提升用户体验和探索非典型推荐方面。

当前挑战

该数据集面临的挑战包括：1) 领域问题的挑战：如何准确识别和提取评论中的非典型方面，这些方面通常稀少且难以捕捉；2) 构建过程中的挑战：手动标注非典型方面耗时且困难，需要处理大量评论以找到相关非典型方面。此外，生成多样化的用户配置文件以估计非典型方面的用户特定效用也是一个复杂任务，需要确保配置文件的自然性和多样性。

常用场景

经典使用场景

该数据集最经典的使用场景在于推荐系统的开发与评估，特别是在需要引入意外性和惊喜感的推荐任务中。通过分析Yelp评论中的非典型方面（atypical aspects）并结合用户兴趣档案，研究人员能够构建一种新型的推荐系统，该系统不仅考虑传统的评分和相关性，还注重推荐那些可能给用户带来意外惊喜的项目。这种推荐方式特别适用于餐饮、酒店和美发沙龙等领域，因为这些领域的用户往往在寻找独特体验而不仅仅是功能性服务。

实际应用

在实际应用场景中，该数据集可以用于开发各种商业推荐系统。例如，餐饮平台可以利用这些数据向用户推荐那些拥有独特装饰或特殊活动的餐厅；旅游网站可以推荐具有非典型设施的酒店；美发沙龙预约系统则可以突出那些提供额外艺术体验的沙龙。这些应用不仅能够提升用户体验，还能帮助商家突出其独特卖点，创造差异化竞争优势。

衍生相关工作

该数据集已经衍生出多个相关研究工作。基于这些数据，研究者开发了基于大型语言模型（LLM）的非典型方面提取方法，以及用户依赖性效用分类技术。此外，它还启发了关于跨会话推荐中意外性维持的研究，探索如何在不同推荐会话中保持用户的惊喜感。这些衍生工作不仅扩展了原始数据集的应用范围，也为推荐系统的多样性和个性化研究提供了新的方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集