five

ABSA-Retail-Corpus

收藏
arXiv2025-08-25 更新2025-08-28 收录
下载链接:
https://github.com/Responsible-NLP/ABSA-Retail-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
ABSA-Retail-Corpus是一个包含10,814条多语言顾客评论的零售数据集,覆盖实体零售商店,并标注了八个方面类别及其情感。该数据集通过手动标注,从Google Maps中抓取数据,涵盖了不同国家和语言,为实体零售商店的顾客评论提供了深入的见解。数据集的创建旨在解决传统情感分析无法提供特定方面情感的问题,为实体零售商店的顾客评论提供了深入的见解。

ABSA-Retail-Corpus is a retail dataset containing 10,814 multilingual customer reviews covering physical retail stores, with annotations for eight aspect categories and their corresponding sentiments. Scraped from Google Maps and manually annotated, the dataset spans multiple countries and languages, delivering in-depth insights into customer reviews of physical retail stores. It was created to address the gap where traditional sentiment analysis cannot provide aspect-specific sentiment, further offering valuable in-depth insights into such customer reviews.
提供机构:
特温特大学,马尔堡大学
创建时间:
2025-08-25
原始信息汇总

数据集概述

基本信息

  • 数据集名称:A Retail-Corpus for Aspect-Based Sentiment Analysis with Large Language Models
  • 数据规模:10,814条标注评论
  • 标注类型:方面级情感分析(Aspect-Based Sentiment Analysis, ABSA)
  • 语言:多语言(45种不同语言)
  • 来源:实体零售店的客户评论

数据详情

  • 评论数量:10,814条
  • 多方面评论比例:44.7%(4,838条评论包含多于一个方面)
  • 平均方面数:每条评论平均包含1.6个方面
  • 评论长度:平均121个字符,范围从1个字符(主要为表情符号)到3,735个字符
  • 覆盖国家:德国、法国、荷兰、意大利、西班牙、奥地利、比利时、葡萄牙、瑞士(按出现频率降序排列)

标注信息

  • 方面类别:8个方面类别
  • 情感标签:每个方面的情感极性

评估基准

  • 评估模型:GPT-4和LLaMA-3-70B
  • 准确率:两个模型均超过85%
  • 性能比较:GPT-4在所有相关指标上整体优于LLaMA-3

代码实现

  • GPT-4实现:使用Azure OpenAI的GPT-4模型进行ABSA,包含环境变量设置、令牌成本计算和少样本学习
  • LLaMA实现:使用LLaMA-3-70B模型进行ABSA,包含详细文档、逐步解释和少样本学习

引用信息

bibtex @inproceedings{silcenco2025retail-corpus, title = {A Retail-Corpus for Aspect-Based Sentiment Analysis with Large Language Models}, author = {Şilcenco, Oleg and Machado, Marcos R. and Ugulino, Wallace C. and Braun, Daniel}, year = {2025}, booktitle = {Proceedings of the 8th International Conference on Natural Language and Speech Processing (ICNLSP 2025)} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建过程依托Google Maps平台,通过Apify服务高效爬取了24,361条实体零售店的多语言用户评论。经过严格的数据清洗,剔除了仅含星级评分而无文本内容的条目,最终保留10,814条有效评论。采用人工标注方式,由领域专家依据文献调研和实务访谈确定的八个方面类别(产品、服务、品牌等)进行情感标注,并利用自定义标注工具提升效率与一致性,确保了数据的高质量与可靠性。
特点
ABSA-Retail-Corpus涵盖45种语言,源自九个欧洲国家的用户评论,具有显著的多样性与跨文化代表性。数据集包含16,994个精细标注的情感-方面对,其中44.7%的评论涉及多个方面,平均每条评论涵盖1.6个方面,体现了方面级情感分析的细粒度特性。服务与产品方面出现频率最高,而在线与退货方面则较为稀缺,反映了实体零售场景的反馈特点,为模型处理不平衡数据提供了挑战。
使用方法
该数据集适用于零样本或小样本学习的方面级情感分析任务,尤其适合评估大语言模型在跨语言与跨文化语境下的性能。使用者可通过结构化提示工程,如任务分解与少样本示例引导,指导模型识别具体方面并判断情感极性。实验表明,GPT-4与LLaMA-3在该数据集上均能达到85%以上的准确率,但需注意模型在品牌与商店等抽象方面的表现差异,建议结合精确率与召回率等指标进行综合评估。
背景与挑战
背景概述
ABSA-Retail-Corpus数据集由特温特大学与马尔堡大学的研究团队于2025年创建,专注于零售领域的细粒度情感分析。该数据集包含10,814条来自谷歌地图的多语言实体零售店评论,人工标注了产品、服务、品牌等八个方面及其情感极性。作为当前最大的多语言方面级情感分析数据集之一,它为零售业客户反馈的深度解析提供了重要资源,并推动了大型语言模型在跨语言情感分析中的应用研究。
当前挑战
该数据集需解决方面级情感分析中方面术语识别与情感极性判定的双重挑战,尤其需处理多语言文化差异、反讽表达及表情符号的语义解析。构建过程中面临标注一致性难题,例如通用类别(如“整体体验”)与具体类别(如“服务”)的边界模糊,以及低频率方面(如“在线服务”)的样本稀缺问题,这些均通过多轮专家标注与Krippendorff's Alpha系数验证(α=0.71)以保障数据质量。
常用场景
经典使用场景
在零售业情感分析领域,ABSA-Retail-Corpus数据集通过精细化的方面级标注机制,为研究者提供了多语言客户评论的深度分析平台。该数据集典型应用于大型语言模型在方面级情感分类任务中的性能评估,尤其在零样本学习场景下展现出色表现,成为验证模型跨语言理解能力和上下文感知能力的重要基准。
实际应用
零售企业可借助该数据集构建智能客户反馈分析系统,自动识别商品质量、服务态度等具体方面的用户情绪。实际部署中,系统能精准定位门店运营短板,例如通过“退货”方面的负面情感分析优化售后流程,或根据“价格”方面反馈动态调整营销策略,实现数据驱动的零售业务优化。
衍生相关工作
该数据集催生了多个基于LLM的方面情感分析创新研究,如结合提示工程的零样本分类框架和跨语言迁移学习方案。相关工作进一步拓展到零售知识图谱构建,将方面情感与商品属性关联,衍生出基于语义增强的客户洞察系统,为行业提供了可扩展的情感分析解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作