ASAP
收藏arXiv2021-04-30 更新2024-06-21 收录
下载链接:
https://github.com/Meituan-Dianping/asap
下载链接
链接失效反馈官方服务:
资源简介:
ASAP数据集是由中国的美团公司和大连理工大学共同创建的,包含46,730条来自中国领先O2O电子商务平台的真实餐厅评论。每条评论都附有5星评级,并根据18个预定义的方面类别手动标注了情感极性。该数据集旨在推动电子商务中的情感分析研究,特别是方面类别情感分析(ACSA)和评论评分预测(RP)。ASAP数据集的应用领域包括提升用户界面智能性,帮助商家监控菜品和服务质量,以及识别不可靠评论,从而增强商业智能。
The ASAP dataset was jointly developed by Meituan, a leading Chinese company, and Dalian University of Technology. It contains 46,730 real restaurant reviews from China's top Online-to-Offline (O2O) e-commerce platform. Each review is accompanied by a 5-star rating, and its sentiment polarity is manually annotated based on 18 predefined aspect categories. This dataset aims to promote research on sentiment analysis in e-commerce, particularly Aspect-Category Sentiment Analysis (ACSA) and Review Rating Prediction (RP). Application scenarios of the ASAP dataset include enhancing the intelligence of user interfaces, assisting merchants in monitoring the quality of dishes and services, and identifying unreliable reviews to boost business intelligence.
提供机构:
美团, 北京, 中国 2大连理工大学经济管理学院, 大连, 中国
创建时间:
2021-03-11
搜集汇总
数据集介绍

构建方式
在电子商务蓬勃发展的背景下,ASAP数据集的构建遵循了严谨的学术规范。该数据集从中国领先的在线到线下(O2O)电商平台采集了46,730条真实的餐厅用户评论。为确保数据质量与伦理,研究团队执行了多步预处理流程:首先移除用户隐私信息;随后过滤掉过短(少于50个中文字符)或过长(超过1000个中文字符)的评论;接着,剔除非中文字符占比超过70%的文本;最后,利用一个准确率达97%的BERT分类器识别并排除低质量内容(如广告文本)。每条评论均附带用户给出的五星级总体评分,并针对18个预定义的细粒度方面类别(如“食物#口味”、“环境#装修”)进行了人工情感极性标注(正面、中性、负面),标注过程经过多轮独立评审与专家仲裁以确保一致性。
特点
ASAP数据集在情感分析领域展现出若干显著特征。其规模庞大,包含近四万七千条评论,为数据密集型深度学习模型提供了充分支持。与常见的句子级数据集不同,ASAP是评论级数据集,平均每条评论包含约5.8个方面类别,文本长度更长,蕴含更丰富的方面信息与情感表达。该数据集独特地整合了细粒度的方面类别情感分析(ACSA)与粗粒度的评论评分预测(RP)任务,二者高度相关且互补,为联合建模研究创造了条件。此外,其标注的18个方面类别由5个粗粒度类别(如食物、服务)细化而来,更精准地反映了用户在餐厅领域的实际关注点,例如“环境#嘈杂情况”、“服务#排队时间”等,具有鲜明的领域针对性与实用性。
使用方法
ASAP数据集主要用于方面类别情感分析与评论评分预测的研究与评估。研究者可将数据集按既定划分(训练集36,850条、验证集与测试集各4,940条)用于模型训练与测试。对于ACSA任务,模型需根据评论文本,预测其在18个预定义方面类别上的情感极性(正面、中性或负面),评估指标常采用宏平均F1值(Macro-F1)与准确率(Accuracy)。对于RP任务,模型需根据评论文本预测其1至5星的总体评分,常用平均绝对误差(MAE)和准确率进行评估。数据集支持单任务研究,也特别适用于探索ACSA与RP的联合学习模型,例如通过共享BERT编码器并结合注意力机制,同时优化两个任务,以利用细粒度方面信息提升整体评分预测的精度,反之亦然。
背景与挑战
背景概述
在电子商务蓬勃发展的时代背景下,用户评论蕴含的情感极性成为商业智能分析的关键资源。美团研究团队于2021年提出了ASAP数据集,这是一个面向中文餐饮评论的大规模标注语料库,旨在同时支持细粒度的方面类别情感分析与粗粒度的整体评分预测两项核心任务。该数据集包含来自中国领先O2O平台的46,730条真实用户评论,每条评论不仅附带五星制总体评分,还针对18个预定义的精细方面类别进行了人工情感极性标注。ASAP的构建填补了中文领域缺乏大规模联合标注数据集的空白,为情感分析研究提供了从微观层面到宏观层面的完整语义理解框架,推动了多任务学习模型在真实商业场景中的应用探索。
当前挑战
ASAP数据集致力于解决方面类别情感分析与评分预测的联合建模挑战,其核心在于如何有效捕捉评论中分散的多方面情感信息,并准确推断其与整体评分之间的复杂映射关系。在构建过程中,研究团队面临多重挑战:首先,中文评论中情感表达的隐晦性与语境依赖性,使得方面类别的识别与情感极性标注需要处理大量隐含语义和时序情感漂移现象;其次,评论文本通常包含对多个方面的混合评价,需要设计精细的标注体系以区分18个精细类别中的冲突情感;再者,确保大规模人工标注的一致性需通过多轮交叉验证与专家仲裁机制,以应对标注者主观差异带来的噪声;最后,数据清洗环节需平衡评论长度、语言纯度与内容可靠性,通过预训练模型过滤低质量文本,保障数据集的信噪比与学术价值。
常用场景
经典使用场景
在电子商务情感分析领域,ASAP数据集为细粒度的方面类别情感分析与整体评分预测提供了经典的研究场景。该数据集源自中国领先的在线到线下餐饮平台,包含四万六千余条真实用户评论,每条评论不仅标注了18个预定义方面类别的情感极性,还附有用户给出的五星级整体评分。这种双重标注结构使得研究者能够在一个统一的框架下,同时探索方面级情感分类与整体评分预测这两个高度相关的任务,为理解用户评论中从细粒度到粗粒度的情感表达提供了丰富的实验材料。
实际应用
在实际应用层面,ASAP数据集直接服务于电子商务平台的智能用户界面与商业智能系统。基于该数据集训练的模型能够自动提取用户评论中对特定方面(如口味、服务、环境)的情感倾向,并生成聚合的情感标签框,帮助消费者快速定位关注的信息。同时,评分预测功能可用于检测不可靠评论,通过对比模型预测评分与用户实际评分,识别可能存在内容与评分不一致的虚假或低质量反馈,从而辅助平台与商家进行声誉管理与服务质量监控,提升在线评论生态的可信度与实用性。
衍生相关工作
围绕ASAP数据集,研究者们衍生出了一系列经典的联合建模工作。数据集论文本身提出的基于BERT的联合学习模型,通过共享编码器与注意力池化层,同时优化方面情感分类与评分预测损失,在两项任务上均超越了当时的先进基线。这一框架启发了后续研究对多任务学习、注意力机制以及预训练语言模型在细粒度情感分析中应用的深入探索。此外,数据集的发布也促进了中文领域方面情感分析模型的比较与评估,为后续研究提供了可靠的基准测试平台。
以上内容由遇见数据集搜集并总结生成



