five

Car-ASQP 和 Digital-ASQP

收藏
arXiv2023-11-03 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2311.01713v1
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建了两个大型中文ASQP数据集:Car-ASQP和Digital-ASQP,由数据故事公司在广州创建。这两个数据集分别从汽车和数码产品的在线评论中收集,包含超过10,000个样本,数据量是现有ASQP数据集的2.6至4.8倍。数据集的特点包括丰富的方面类别、每句话的词汇量更大以及更高的四元组密度。创建过程中,数据经过严格筛选和标注,确保高质量。这些数据集主要用于推动方面级情感分析技术的发展,特别是在多语言环境下的应用,以及探索其他ABSA任务如ACD、AOPE等。

This study constructs two large-scale Chinese ASQP datasets: Car-ASQP and Digital-ASQP, which were created by Data Story Company in Guangzhou. These two datasets are collected from online reviews of automobiles and digital products respectively, containing over 10,000 samples, with a data volume 2.6 to 4.8 times that of existing ASQP datasets. The datasets feature rich aspect categories, larger vocabulary per sentence, and higher quadruple density. During the creation process, the data underwent strict screening and annotation to ensure high quality. These datasets are primarily used to promote the development of aspect-level sentiment analysis technology, especially its applications in multilingual scenarios, as well as to explore other ABSA tasks such as ACD, AOPE, and so on.
提供机构:
数据故事,广州,中国
创建时间:
2023-11-03
搜集汇总
数据集介绍
main_image_url
构建方式
本研究构建了两个大规模中文ASQP数据集,分别为Car-ASQP和Digital-ASQP。数据集构建过程包括数据采集、数据清洗、数据标注和数据分析。数据采集自多个在线平台,包括论坛、新闻、电子商务平台、小红书和微博等,涵盖了汽车和数码两个类别。数据清洗过程包括过滤掉长度过短或过长的样本、过滤掉中文字符不足70%的样本以及过滤掉广告文本。数据标注过程由两位标注员独立进行,并经过严格的质量控制。数据分析表明,这两个数据集具有规模大、方面类别丰富、每句话词汇量多、四元组密度高等特点。
特点
Car-ASQP和Digital-ASQP数据集具有以下显著特点:规模大,每个数据集包含超过10,000个样本;方面类别丰富,涵盖了多个细粒度的方面类别;每句话词汇量多,有助于研究更复杂的ASQP任务;四元组密度高,为ASQP任务提供了更丰富的训练数据。
使用方法
Car-ASQP和Digital-ASQP数据集可用于ASQP任务的研究和模型训练。研究人员可以使用这些数据集来训练和评估ASQP模型,并探索ASQP任务的相关技术。数据集的使用方法包括数据加载、数据预处理、模型训练和模型评估等步骤。
背景与挑战
背景概述
Aspect sentiment quad prediction (ASQP) is a crucial subtask of aspect-level sentiment analysis (ABSA), aiming to extract four elements from a sentence: aspect category, aspect term, opinion term, and sentiment polarity. The Car-ASQP and Digital-ASQP datasets, curated by researchers from DataStory and the International Digital Economy Academy, address the limitations of existing ASQP datasets by offering significantly larger sample sizes (over 10,000 samples each) and higher quadruple density, enriching the aspect categories and providing more words per sentence. These datasets are particularly valuable for ABSA research due to their multilingual annotations and comprehensive coverage of ABSA subtasks, such as aspect term extraction, aspect category detection, and sentiment analysis.
当前挑战
The challenges associated with ASQP datasets, including Car-ASQP and Digital-ASQP, revolve around the technical complexity of the task and the limitations of current models. The primary challenge is the accurate extraction and classification of aspect-category-opinion-sentiment quadruples, which requires sophisticated natural language processing techniques. Additionally, the evaluation of Generative Pre-trained Transformer (GPT) series models on ASQP tasks reveals their limitations in zero-shot learning scenarios, particularly in distinguishing between aspect and opinion terms. This necessitates further exploration of prompt design and model improvements to enhance the performance of GPT models in ASQP tasks. Moreover, the challenge of handling implicit opinions remains significant, with generation-based methods showing more promise than pipeline-based methods.
常用场景
经典使用场景
Car-ASQP 和 Digital-ASQP 数据集主要用于中文方面级情感分析任务中的方面情感四元预测(ASQP)。该数据集包含大量样本,丰富的方面类别,以及高密度的四元组,为研究人员提供了丰富的数据资源,以探索和改进 ASQP 任务的技术。此外,该数据集还首次评估了 GPT 系列模型在 ASQP 任务上的性能,为自然语言处理领域的研究提供了新的思路。
实际应用
Car-ASQP 和 Digital-ASQP 数据集在实际应用中可用于产品或服务的情感分析,帮助企业和组织了解消费者对特定方面或特征的看法,从而改进产品或服务。此外,该数据集还可用于研究 GPT 系列模型在 ASQP 任务上的性能,为自然语言处理领域的研究提供新的思路。
衍生相关工作
Car-ASQP 和 Digital-ASQP 数据集的发布促进了 ASQP 任务的技术发展,并为多语言环境下 ASQP 任务的研究提供了可能。此外,该数据集的构建也为其他 ABSA 任务的研究提供了新的思路,如 ACD、AOPE、ASTE、TASD 等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作