SEACrowd/casa

Name: SEACrowd/casa
Creator: SEACrowd
Published: 2024-06-24 13:28:48
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/casa

下载链接

链接失效反馈

官方服务：

资源简介：

CASA是一个基于方面的情感分析数据集，包含大约一千条来自多个印度尼西亚在线汽车平台的汽车评论（Ilmania等，2018）。数据集涵盖了汽车质量的六个方面，并将任务定义为多标签分类任务，每个标签代表一个方面的情感，可能值为正面、负面和中性。数据集的语言为印度尼西亚语，支持的任务为基于方面的情感分析。

CASA is an aspect-based sentiment analysis dataset containing approximately one thousand car reviews collected from multiple Indonesian online automotive platforms (e.g., Ilmania, 2018). The dataset covers six aspects of automotive quality, and defines the task as a multi-label classification task, where each label represents the sentiment of the corresponding aspect, with possible values being positive, negative and neutral. The dataset is in Indonesian, and supports the aspect-based sentiment analysis task.

提供机构：

SEACrowd

原始信息汇总

数据集概述

数据集名称

CASA

数据集描述

CASA是一个基于方面的情感分析数据集，包含约一千条从多个印度尼西亚在线汽车平台收集的汽车评论（Ilmania et al., 2018）。该数据集涵盖了汽车质量的六个方面。任务被定义为多标签分类任务，每个标签代表一个方面的情感，有三种可能的值：正面、负面和中性。

语言

印度尼西亚语（ind）

支持的任务

基于方面的情感分析（Aspect Based Sentiment Analysis）

数据集版本

源版本：1.0.0
SEACrowd版本：2024.06.20

数据集许可证

CC-BY-SA 4.0

引用

如果您在使用Casa数据集，请引用以下内容：

@INPROCEEDINGS{8629181, author={Ilmania, Arfinda and Abdurrahman and Cahyawijaya, Samuel and Purwarianti, Ayu}, booktitle={2018 International Conference on Asian Language Processing (IALP)}, title={Aspect Detection and Sentiment Classification Using Deep Neural Network for Indonesian Aspect-Based Sentiment Analysis}, year={2018}, volume={}, number={}, pages={62-67}, doi={10.1109/IALP.2018.8629181} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在情感分析研究领域，针对特定领域的细粒度情感分析需求日益增长。CASA数据集的构建源于对印尼语汽车评论的深度挖掘，其构建过程体现了严谨的学术规范。该数据集从多个印尼在线汽车平台系统性地采集了约一千条汽车评论，并由研究者依据预设的六个汽车质量维度进行精细标注。每个评论样本均针对多个方面进行情感极性判断，最终构建成一个多标签分类任务的数据集，为后续的模型训练与评估提供了结构化基础。

特点

作为面向印尼语的细粒度情感分析资源，CASA数据集展现出鲜明的领域特性与任务导向性。其核心特点在于聚焦汽车评价领域，定义了涵盖性能、设计等六个关键方面的质量维度，并将每个维度的情感划分为积极、消极与中立三类。这种多标签分类框架能够捕捉同一评论中针对不同方面的复杂情感表达，从而更真实地反映用户评价的多面性，为模型理解细粒度语义提供了挑战与机遇。

使用方法

在自然语言处理实践中，高效便捷地加载与使用数据集是研究的关键环节。用户可通过标准的`datasets`库，调用`load_dataset`函数并指定数据集名称`SEACrowd/casa`来获取数据。此外，针对东南亚语言研究的`seacrowd`库提供了更专业的接口，支持以`seacrowd`模式加载，并能通过`available_config_names`函数查询可用配置。研究者可根据具体实验需求，选择合适的加载方式与配置，快速将数据集集成至下游任务流程中。

背景与挑战

背景概述

在自然语言处理领域，细粒度情感分析逐渐成为研究热点，特别是在多语言环境下，针对特定领域的文本情感挖掘需求日益增长。CASA数据集于2018年由印度尼西亚的研究团队（Ilmania等人）创建，旨在支持印度尼西亚语方面的基于方面的情感分析研究。该数据集聚焦于汽车评论领域，涵盖了汽车质量的六个核心方面，通过收集来自多个在线汽车平台的约一千条评论，构建了一个多标签分类任务，每个标签对应特定方面的三种情感极性：积极、消极和中性。这一工作不仅丰富了东南亚语言资源，还为跨语言情感分析模型的发展提供了重要基础，推动了相关领域在资源稀缺语言上的应用探索。

当前挑战

CASA数据集所解决的领域问题在于基于方面的情感分析，其挑战包括准确识别和分类文本中针对多个方面的细粒度情感，尤其是在印度尼西亚语这种形态丰富、资源相对匮乏的语言中，模型需要克服语义歧义和上下文依赖的复杂性。在构建过程中，研究人员面临数据收集的挑战，例如从多个在线平台整合评论时需处理非结构化文本、确保数据的一致性和代表性，以及人工标注过程中保持情感标签的准确性和跨方面的一致性。此外，数据集规模有限，可能影响模型的泛化能力，为后续研究带来了数据扩展和标注质量提升的难题。

常用场景

经典使用场景

在情感分析领域，CASA数据集以其聚焦于印尼语汽车评论的细粒度情感分析而著称。该数据集通过标注汽车质量的六个具体方面，为研究者提供了一个多标签分类任务的基准平台，使得模型能够同时识别多个方面的情感极性，包括积极、消极和中性。这种设计不仅促进了跨语言情感分析技术的发展，还为低资源语言环境下的自然语言处理研究提供了宝贵的实验数据。

解决学术问题

CASA数据集有效解决了印尼语在细粒度情感分析方面数据稀缺的学术难题。通过提供标注精细的汽车评论数据，它支持了多标签分类模型的训练与评估，推动了基于方面的情感分析（ABSA）方法在低资源语言中的创新。该数据集的存在，不仅丰富了东南亚语言处理的研究资源，还为跨语言情感迁移学习提供了实证基础，促进了自然语言处理技术的全球化发展。

衍生相关工作

围绕CASA数据集，已衍生出多项经典研究工作，例如Ilmania等人提出的基于深度神经网络的情感分类模型，该研究在2018年国际亚洲语言处理会议上发表，为印尼语ABSA任务奠定了基础。后续研究进一步探索了多任务学习、跨语言迁移以及预训练语言模型在该数据集上的应用，推动了东南亚语言处理技术的进步，并为SEACrowd等多语言数据枢纽的构建提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集