five

tafseer-nayeem/review_helpfulness_prediction

收藏
Hugging Face2023-08-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tafseer-nayeem/review_helpfulness_prediction
下载链接
链接失效反馈
官方服务:
资源简介:
Review Helpfulness Prediction (RHP) Dataset是一个用于预测评论有用性的数据集,特别关注评论者的属性和评论日期。该数据集通过从TripAdvisor抓取评论构建,并过滤了没有有用投票的评论。数据集包含161,541条评论,分为训练集、验证集和测试集。每条评论包含评论者的属性(如发布的评论数量、获得的有用投票数、访问的城市数量等)、评论的相对年龄、评论文本以及评论的有用性评分。数据集仅包含英文评论,并受限于非商业研究目的,需遵循CC BY-NC-SA 4.0许可证。

Review Helpfulness Prediction (RHP) Dataset是一个用于预测评论有用性的数据集,特别关注评论者的属性和评论日期。该数据集通过从TripAdvisor抓取评论构建,并过滤了没有有用投票的评论。数据集包含161,541条评论,分为训练集、验证集和测试集。每条评论包含评论者的属性(如发布的评论数量、获得的有用投票数、访问的城市数量等)、评论的相对年龄、评论文本以及评论的有用性评分。数据集仅包含英文评论,并受限于非商业研究目的,需遵循CC BY-NC-SA 4.0许可证。
提供机构:
tafseer-nayeem
原始信息汇总

数据集概述

名称: Review Helpfulness Prediction (RHP) Dataset

语言: 英语

类别:

  • 文本分类
  • 人类中心NLP
  • 有用性预测
  • 用户评论分析

许可: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)

大小: 100K<n<1M

数据集描述

目标: 该数据集旨在通过整合评论者的属性和评论日期,预测评论的有用性,以解决现有方法仅关注评论文本而忽视评论者身份和评论时间的问题。

来源: 数据集通过抓取TripAdvisor网站上的评论构建。

数据集结构

数据实例: 每个实例包含以下字段:

  • user_review_posted: 评论者发布的评论数量
  • user_total_helpful_votes: 评论者累计获得的有用投票数
  • expertise: 平均每条评论获得的有用投票数的归一化值
  • user_cities_visited: 评论者访问的城市数量
  • review_days: 评论相对年龄的归一化值
  • helpful_class: 评论有用性的分类
  • review_text: 评论文本

数据分割: 数据集分为训练集、验证集和测试集,具体如下:

训练集 验证集 测试集
样本数 145,381 8,080 8,080

数据集创建

方法: 从TripAdvisor抓取225,664条评论,过滤掉无有用投票的评论,最终得到161,541条评论。使用对数尺度根据获得的投票数将评论分为五个区间,对应不同的有用性评分。

伦理考虑: 在数据抓取过程中考虑了伦理问题,确保数据获取的速度适当,避免可能的DDoS攻击。

限制: 数据集仅包含英语评论,排除了其他语言的评论,包括代码切换的评论。

使用许可

数据集内容仅限于非商业研究目的,受Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)约束。

引用信息

若使用此数据集,请引用相关论文:

@inproceedings{nayeem-rafiei-2023-role, title = "On the Role of Reviewer Expertise in Temporal Review Helpfulness Prediction", author = "Nayeem, Mir Tafseer and Rafiei, Davood", booktitle = "Findings of the Association for Computational Linguistics: EACL 2023", month = may, year = "2023", address = "Dubrovnik, Croatia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.findings-eacl.125", pages = "1684--1692", abstract = "Helpful reviews have been essential for the success of e-commerce services, as they help customers make quick purchase decisions and benefit the merchants in their sales. While many reviews are informative, others provide little value and may contain spam, excessive appraisal, or unexpected biases. With the large volume of reviews and their uneven quality, the problem of detecting helpful reviews has drawn much attention lately. Existing methods for identifying helpful reviews primarily focus on review text and ignore the two key factors of (1) who post the reviews and (2) when the reviews are posted. Moreover, the helpfulness votes suffer from scarcity for less popular products and recently submitted (a.k.a., cold-start) reviews. To address these challenges, we introduce a dataset and develop a model that integrates the reviewer{}s expertise, derived from the past review history of the reviewers, and the temporal dynamics of the reviews to automatically assess review helpfulness. We conduct experiments on our dataset to demonstrate the effectiveness of incorporating these factors and report improved results compared to several well-established baselines.", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作