ASAP

Name: ASAP
Creator: Kaggle
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/fosfrancesco/asap-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了12,978篇分级作文，这些作文是对8个不同作文题目的回应，题目涵盖了论证性、叙述性和基于资料的回应。此外，它是目前应用最广泛的作文评分数据集之一。该数据集的任务是用于自动作文评分。

This dataset comprises 12,978 graded essays, each serving as a response to one of eight distinct essay prompts. These prompts cover three core writing categories: argumentative, narrative, and source-based writing. Furthermore, it is one of the most widely adopted essay scoring datasets to date. This dataset is specifically designed for automated essay scoring (AES) tasks.

提供机构：

Kaggle

搜集汇总

数据集介绍

构建方式

在电子商务情感分析领域，ASAP数据集的构建体现了对数据质量与领域适应性的高度关注。该数据集从中国领先的在线到线下（O2O）电商平台收集了46,730条真实的餐厅评论，并进行了系统化处理。构建过程首先随机选取拥有超过50条评论的热门餐厅，随后执行多步预处理：移除用户隐私信息，过滤字符数不足50或超过1000的评论，排除非中文字符占比超过70%的文本，并利用基于BERT的分类器剔除低质量内容如广告文本。每条评论均附带用户给出的五星级总体评分，并针对18个预定义的细粒度方面类别（如“食物#口味”、“环境#装修”）进行人工情感极性标注（正面、中性、负面），标注过程经过三轮独立评审与专家仲裁以确保一致性。

使用方法

ASAP数据集适用于方面类别情感分析与评分预测的联合或独立研究。研究者可将数据集按既定划分（训练集36,850条、验证集与测试集各4,940条）用于模型训练与评估。对于方面类别情感分析任务，模型需针对每条评论预测其在18个预定义方面上的情感极性（正面、中性或负面），可利用数据集中提供的方面出现掩码向量聚焦于被提及的类别。评分预测任务则要求模型根据评论内容预测1至5星的总体评分。数据集支持多任务学习框架，例如通过共享编码器同时优化两个任务，以利用细粒度情感信息提升评分预测准确性，反之亦然。实验表明，基于BERT的联合学习模型在该数据集上取得了优异性能，注意力机制可视化进一步揭示了模型对方面相关词汇的聚焦能力。

背景与挑战

背景概述

在电子商务蓬勃发展的背景下，用户评论的情感分析成为挖掘商业智能的关键技术。ASAP数据集由美团的研究团队于2021年构建，旨在解决细粒度的方面类别情感分析与粗粒度的评论评分预测之间的联合建模问题。该数据集包含46,730条真实的中文餐厅评论，每条评论均标注了针对18个预定义方面类别的情感极性及整体星级评分。ASAP的发布填补了中文领域缺乏大规模、高质量联合标注数据集的空白，为情感分析研究提供了重要的实验基础，推动了方面级情感分析与评分预测任务的协同发展。

当前挑战

ASAP数据集面临的挑战主要体现在两个方面：在领域问题层面，方面类别情感分析需处理评论中多个方面类别的隐含情感表达，以及情感极性在时间或语境中的动态变化，而评分预测则需从细粒度情感中综合推断整体评分，两者存在语义粒度差异与一致性建模的难题。在构建过程中，数据收集需确保评论的真实性与多样性，同时人工标注面临方面类别定义的精细化调整、标注者间一致性维护，以及处理情感冲突、隐含表达等复杂案例的挑战，这些因素共同增加了数据集构建的复杂度与质量控制难度。

常用场景

经典使用场景

在情感分析领域，ASAP数据集为细粒度的方面类别情感分析（ACSA）与评论评分预测（RP）提供了联合研究的基准。该数据集包含来自中国O2O电商平台的46,730条真实餐厅评论，每条评论均标注了针对18个预定义方面类别的情感极性及5星制总体评分。其经典使用场景在于支持多任务学习模型的开发，通过同时优化ACSA和RP任务，探索方面级情感与总体评分之间的内在关联，从而提升模型在复杂语义理解上的性能。

解决学术问题

ASAP数据集解决了情感分析研究中方面类别情感分析与评论评分预测任务分离的局限性。传统数据集往往单独构建这两项任务，难以捕捉细粒度情感与总体评价之间的协同效应。ASAP通过提供大规模、高质量的中文评论数据，并标注方面级情感与总体评分，使得研究者能够深入探究多任务联合学习、跨任务知识迁移以及细粒度到粗粒度情感表示的建模问题，推动了情感分析领域向更集成、更实用的方向发展。

实际应用

在实际应用中，ASAP数据集为电商平台的智能用户界面和商业智能系统提供了关键支持。基于该数据集训练的模型能够自动提取评论中对食物口味、服务态度、价格水平等细粒度方面的情感倾向，并预测总体评分，从而帮助平台生成方面级情感摘要框，辅助用户快速决策。同时，通过检测评论内容与评分的一致性，系统可识别低可靠性评论，提升平台内容质量，优化商家服务跟踪与用户体验。

数据集最近研究