ABSADatasets

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/yangheng95/ABSADatasets

下载链接

链接失效反馈

官方服务：

资源简介：

用于方面级情感分析和文本分类的公共和社区共享数据集。

Public and community-shared datasets for aspect-level sentiment analysis and text classification.

创建时间：

2021-06-08

原始信息汇总

数据集概述

数据集用途

用于PyABSA框架的ABSA（Aspect-Based Sentiment Analysis）任务。

数据集格式

APC（Aspect Polarity Classification）数据集格式：{id}.{dataset name}.{type}.dat.apc
ATEPC（Aspect Term Extraction and Polarity Classification）数据集格式：{id}.{dataset name}.{type}.dat.atepc

数据集处理工具

独立浏览器工具：用于处理训练数据集，生成CSV、TXT和JSON文件。
PyABSA自动标注功能：实验性功能，用于自动构建APC和ATEPC数据集。

数据集增强

参考BoostTextAugmentation进行数据集增强。

数据集格式化

推荐格式化APC数据集，以便于PyABSA使用。
可选步骤：生成APC/ATEPC任务的推理数据集，转换APC数据集为ATEPC数据集，注册数据集到PyABSA。

数据集命名

推荐为数据集分配唯一ID，以避免潜在问题。

数据集示例

提供基于第三方标注的Yelp数据集的示例，位于datasets/apc_datasets/100.CustomDataset和datasets/atepc_datasets/100.CustomDataset。

数据集使用示例

python3 from pyabsa.functional import APCConfigManager from pyabsa.functional import Trainer from autocuda import auto_cuda

config = APCConfigManager.get_apc_config_english() dataset = 101.restaurant Trainer(config=config, dataset=dataset, checkpoint_save_mode=1, auto_device=auto_cuda())

数据集来源

多个来源，包括MAMS、SemEval系列、中文、Shampoo、MOOC、Twitter、Television & TShirt、Yelp等。

数据集贡献

鼓励用户分享自定义或公共数据集，通过处理数据并提交PR来贡献。

搜集汇总

数据集介绍

构建方式

在构建ABSADatasets时，研究者采用了一种多源数据整合的方法。首先，通过从多个公开数据集如MAMS、SemEval系列、Yelp等获取数据，确保了数据集的多样性和广泛性。随后，利用一个独立的基于浏览器的工具进行数据预处理，生成适用于经典情感分析的CSV文件、适用于PyABSA的TXT文件以及用于保存未完成工作的JSON文件。此外，通过PyABSA的实验性功能，研究者能够自动构建APC和ATEPC数据集，进一步简化了数据集的生成过程。

特点

ABSADatasets的一个显著特点是其高度模块化和可扩展性。数据集不仅涵盖了多种语言和领域，如英语、中文、阿拉伯语等，还支持多种任务类型，包括方面级情感分析（APC）和方面术语提取与极性分类（ATEPC）。此外，数据集的格式设计灵活，允许用户根据需要自定义数据集，并通过简单的文件命名规则确保数据集在PyABSA中的正确加载。这种设计不仅提高了数据集的实用性，也为研究者提供了极大的便利。

使用方法

使用ABSADatasets时，用户首先需要根据PyABSA的要求格式化数据集，确保文件命名符合规范，如使用{id}.{dataset name}.{type}.dat.apc或{id}.{dataset name}.{type}.dat.atepc格式。接着，用户可以通过PyABSA的API直接加载和训练数据集，例如使用APCConfigManager和Trainer类进行配置和训练。对于自定义数据集，用户可以通过PyABSA的实验性功能自动构建数据集，或通过BoostTextAugmentation进行数据增强。最后，用户可以将自定义数据集贡献到ABSADatasets，以便其他研究者共享和使用。

背景与挑战

背景概述

ABSADatasets是由Yang Heng等研究人员创建的，旨在支持PyABSA（Aspect-Based Sentiment Analysis）框架的数据集。该数据集的创建时间不详，但其主要研究人员和机构通过GitHub平台进行维护和更新。核心研究问题围绕基于方面的情感分析（ABSA），旨在从文本中提取和分析特定方面的情感倾向。ABSADatasets的引入极大地促进了情感分析领域的发展，为研究人员提供了丰富的数据资源，从而推动了相关算法的改进和应用。

当前挑战

ABSADatasets在构建过程中面临多项挑战。首先，数据集的标注工作复杂且耗时，需要专业的标注工具和方法来确保数据质量。其次，不同语言和文化背景下的情感表达差异巨大，如何统一和标准化这些数据是一个重要挑战。此外，数据集的多样性和覆盖范围也是一个难题，需要不断扩充和更新以适应新的研究需求。最后，数据集的格式和兼容性问题也需要解决，以确保其能够无缝集成到PyABSA框架中。

常用场景

经典使用场景

在自然语言处理领域，ABSADatasets 数据集主要用于情感分析中的方面级情感分析（Aspect-Based Sentiment Analysis, ABSA）。该数据集通过提供多领域的文本评论，帮助研究人员和开发者训练和验证情感分析模型。经典的使用场景包括：通过PyABSA工具自动构建和注释数据集，生成适用于APC（Aspect Polarity Classification）和ATEPC（Aspect Term Extraction and Polarity Classification）任务的训练和测试数据。

衍生相关工作

基于ABSADatasets 数据集，研究者们开发了多种情感分析模型和工具，如PyABSA框架，该框架支持自动数据集构建和注释，极大地简化了情感分析任务的实现过程。此外，该数据集还促进了多语言情感分析的研究，推动了跨语言情感模型的开发和应用。这些衍生工作不仅提升了情感分析的效率和准确性，也为相关领域的研究提供了丰富的资源和方法。

数据集最近研究