five

ASAP

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/fosfrancesco/asap-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了12,978篇分级作文,这些作文是对8个不同作文题目的回应,题目涵盖了论证性、叙述性和基于资料的回应。此外,它是目前应用最广泛的作文评分数据集之一。该数据集的任务是用于自动作文评分。

This dataset comprises 12,978 graded essays, each serving as a response to one of eight distinct essay prompts. These prompts cover three core writing categories: argumentative, narrative, and source-based writing. Furthermore, it is one of the most widely adopted essay scoring datasets to date. This dataset is specifically designed for automated essay scoring (AES) tasks.
提供机构:
Kaggle
搜集汇总
数据集介绍
main_image_url
构建方式
在电子商务情感分析领域,ASAP数据集的构建体现了对数据质量与领域适应性的高度关注。该数据集从中国领先的在线到线下(O2O)电商平台收集了46,730条真实的餐厅评论,并进行了系统化处理。构建过程首先随机选取拥有超过50条评论的热门餐厅,随后执行多步预处理:移除用户隐私信息,过滤字符数不足50或超过1000的评论,排除非中文字符占比超过70%的文本,并利用基于BERT的分类器剔除低质量内容如广告文本。每条评论均附带用户给出的五星级总体评分,并针对18个预定义的细粒度方面类别(如“食物#口味”、“环境#装修”)进行人工情感极性标注(正面、中性、负面),标注过程经过三轮独立评审与专家仲裁以确保一致性。
使用方法
ASAP数据集适用于方面类别情感分析与评分预测的联合或独立研究。研究者可将数据集按既定划分(训练集36,850条、验证集与测试集各4,940条)用于模型训练与评估。对于方面类别情感分析任务,模型需针对每条评论预测其在18个预定义方面上的情感极性(正面、中性或负面),可利用数据集中提供的方面出现掩码向量聚焦于被提及的类别。评分预测任务则要求模型根据评论内容预测1至5星的总体评分。数据集支持多任务学习框架,例如通过共享编码器同时优化两个任务,以利用细粒度情感信息提升评分预测准确性,反之亦然。实验表明,基于BERT的联合学习模型在该数据集上取得了优异性能,注意力机制可视化进一步揭示了模型对方面相关词汇的聚焦能力。
背景与挑战
背景概述
在电子商务蓬勃发展的背景下,用户评论的情感分析成为挖掘商业智能的关键技术。ASAP数据集由美团的研究团队于2021年构建,旨在解决细粒度的方面类别情感分析与粗粒度的评论评分预测之间的联合建模问题。该数据集包含46,730条真实的中文餐厅评论,每条评论均标注了针对18个预定义方面类别的情感极性及整体星级评分。ASAP的发布填补了中文领域缺乏大规模、高质量联合标注数据集的空白,为情感分析研究提供了重要的实验基础,推动了方面级情感分析与评分预测任务的协同发展。
当前挑战
ASAP数据集面临的挑战主要体现在两个方面:在领域问题层面,方面类别情感分析需处理评论中多个方面类别的隐含情感表达,以及情感极性在时间或语境中的动态变化,而评分预测则需从细粒度情感中综合推断整体评分,两者存在语义粒度差异与一致性建模的难题。在构建过程中,数据收集需确保评论的真实性与多样性,同时人工标注面临方面类别定义的精细化调整、标注者间一致性维护,以及处理情感冲突、隐含表达等复杂案例的挑战,这些因素共同增加了数据集构建的复杂度与质量控制难度。
常用场景
经典使用场景
在情感分析领域,ASAP数据集为细粒度的方面类别情感分析(ACSA)与评论评分预测(RP)提供了联合研究的基准。该数据集包含来自中国O2O电商平台的46,730条真实餐厅评论,每条评论均标注了针对18个预定义方面类别的情感极性及5星制总体评分。其经典使用场景在于支持多任务学习模型的开发,通过同时优化ACSA和RP任务,探索方面级情感与总体评分之间的内在关联,从而提升模型在复杂语义理解上的性能。
解决学术问题
ASAP数据集解决了情感分析研究中方面类别情感分析与评论评分预测任务分离的局限性。传统数据集往往单独构建这两项任务,难以捕捉细粒度情感与总体评价之间的协同效应。ASAP通过提供大规模、高质量的中文评论数据,并标注方面级情感与总体评分,使得研究者能够深入探究多任务联合学习、跨任务知识迁移以及细粒度到粗粒度情感表示的建模问题,推动了情感分析领域向更集成、更实用的方向发展。
实际应用
在实际应用中,ASAP数据集为电商平台的智能用户界面和商业智能系统提供了关键支持。基于该数据集训练的模型能够自动提取评论中对食物口味、服务态度、价格水平等细粒度方面的情感倾向,并预测总体评分,从而帮助平台生成方面级情感摘要框,辅助用户快速决策。同时,通过检测评论内容与评分的一致性,系统可识别低可靠性评论,提升平台内容质量,优化商家服务跟踪与用户体验。
数据集最近研究
最新研究方向
在电子商务情感分析领域,ASAP数据集的推出为细粒度情感分析与评分预测的联合建模开辟了新的前沿方向。该数据集以其大规模、高质量的中文餐厅评论及精细的18个方面类别标注,显著推动了多任务学习框架的发展。当前研究热点聚焦于利用预训练语言模型(如BERT)的语义表征能力,构建端到端的联合学习模型,以同时优化方面类别情感分析与整体评分预测任务。这种联合建模方法不仅通过知识共享提升了模型在复杂评论场景下的理解精度,也为识别低可靠性评论、增强商业智能系统的可信度提供了关键技术支撑。ASAP的出现填补了中文领域高质量联合数据集的空白,其丰富的标注信息正驱动着更高效、更鲁棒的情感计算模型在真实电商场景中的落地与应用。
相关研究论文
  • 1
    ASAP: A Chinese Review Dataset Towards Aspect Category Sentiment Analysis and Rating Prediction美团, 北京, 中国 2大连理工大学经济管理学院, 大连, 中国 · 2021年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作