five

ABSADatasets

收藏
github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/yangheng95/ABSADatasets
下载链接
链接失效反馈
官方服务:
资源简介:
用于方面级情感分析和文本分类的公共和社区共享数据集。

Public and community-shared datasets for aspect-level sentiment analysis and text classification.
创建时间:
2021-06-08
原始信息汇总

数据集概述

数据集用途

  • 用于PyABSA框架的ABSA(Aspect-Based Sentiment Analysis)任务。

数据集格式

  • APC(Aspect Polarity Classification)数据集格式:{id}.{dataset name}.{type}.dat.apc
  • ATEPC(Aspect Term Extraction and Polarity Classification)数据集格式:{id}.{dataset name}.{type}.dat.atepc

数据集处理工具

  • 独立浏览器工具:用于处理训练数据集,生成CSV、TXT和JSON文件。
  • PyABSA自动标注功能:实验性功能,用于自动构建APC和ATEPC数据集。

数据集增强

数据集格式化

  • 推荐格式化APC数据集,以便于PyABSA使用。
  • 可选步骤:生成APC/ATEPC任务的推理数据集,转换APC数据集为ATEPC数据集,注册数据集到PyABSA。

数据集命名

  • 推荐为数据集分配唯一ID,以避免潜在问题。

数据集示例

  • 提供基于第三方标注的Yelp数据集的示例,位于datasets/apc_datasets/100.CustomDatasetdatasets/atepc_datasets/100.CustomDataset

数据集使用示例

python3 from pyabsa.functional import APCConfigManager from pyabsa.functional import Trainer from autocuda import auto_cuda

config = APCConfigManager.get_apc_config_english() dataset = 101.restaurant Trainer(config=config, dataset=dataset, checkpoint_save_mode=1, auto_device=auto_cuda())

数据集来源

  • 多个来源,包括MAMS、SemEval系列、中文、Shampoo、MOOC、Twitter、Television & TShirt、Yelp等。

数据集贡献

  • 鼓励用户分享自定义或公共数据集,通过处理数据并提交PR来贡献。
搜集汇总
数据集介绍
main_image_url
构建方式
在构建ABSADatasets时,研究者采用了一种多源数据整合的方法。首先,通过从多个公开数据集如MAMS、SemEval系列、Yelp等获取数据,确保了数据集的多样性和广泛性。随后,利用一个独立的基于浏览器的工具进行数据预处理,生成适用于经典情感分析的CSV文件、适用于PyABSA的TXT文件以及用于保存未完成工作的JSON文件。此外,通过PyABSA的实验性功能,研究者能够自动构建APC和ATEPC数据集,进一步简化了数据集的生成过程。
特点
ABSADatasets的一个显著特点是其高度模块化和可扩展性。数据集不仅涵盖了多种语言和领域,如英语、中文、阿拉伯语等,还支持多种任务类型,包括方面级情感分析(APC)和方面术语提取与极性分类(ATEPC)。此外,数据集的格式设计灵活,允许用户根据需要自定义数据集,并通过简单的文件命名规则确保数据集在PyABSA中的正确加载。这种设计不仅提高了数据集的实用性,也为研究者提供了极大的便利。
使用方法
使用ABSADatasets时,用户首先需要根据PyABSA的要求格式化数据集,确保文件命名符合规范,如使用{id}.{dataset name}.{type}.dat.apc或{id}.{dataset name}.{type}.dat.atepc格式。接着,用户可以通过PyABSA的API直接加载和训练数据集,例如使用APCConfigManager和Trainer类进行配置和训练。对于自定义数据集,用户可以通过PyABSA的实验性功能自动构建数据集,或通过BoostTextAugmentation进行数据增强。最后,用户可以将自定义数据集贡献到ABSADatasets,以便其他研究者共享和使用。
背景与挑战
背景概述
ABSADatasets是由Yang Heng等研究人员创建的,旨在支持PyABSA(Aspect-Based Sentiment Analysis)框架的数据集。该数据集的创建时间不详,但其主要研究人员和机构通过GitHub平台进行维护和更新。核心研究问题围绕基于方面的情感分析(ABSA),旨在从文本中提取和分析特定方面的情感倾向。ABSADatasets的引入极大地促进了情感分析领域的发展,为研究人员提供了丰富的数据资源,从而推动了相关算法的改进和应用。
当前挑战
ABSADatasets在构建过程中面临多项挑战。首先,数据集的标注工作复杂且耗时,需要专业的标注工具和方法来确保数据质量。其次,不同语言和文化背景下的情感表达差异巨大,如何统一和标准化这些数据是一个重要挑战。此外,数据集的多样性和覆盖范围也是一个难题,需要不断扩充和更新以适应新的研究需求。最后,数据集的格式和兼容性问题也需要解决,以确保其能够无缝集成到PyABSA框架中。
常用场景
经典使用场景
在自然语言处理领域,ABSADatasets 数据集主要用于情感分析中的方面级情感分析(Aspect-Based Sentiment Analysis, ABSA)。该数据集通过提供多领域的文本评论,帮助研究人员和开发者训练和验证情感分析模型。经典的使用场景包括:通过PyABSA工具自动构建和注释数据集,生成适用于APC(Aspect Polarity Classification)和ATEPC(Aspect Term Extraction and Polarity Classification)任务的训练和测试数据。
衍生相关工作
基于ABSADatasets 数据集,研究者们开发了多种情感分析模型和工具,如PyABSA框架,该框架支持自动数据集构建和注释,极大地简化了情感分析任务的实现过程。此外,该数据集还促进了多语言情感分析的研究,推动了跨语言情感模型的开发和应用。这些衍生工作不仅提升了情感分析的效率和准确性,也为相关领域的研究提供了丰富的资源和方法。
数据集最近研究
最新研究方向
在情感分析领域,ABSADatasets数据集的最新研究方向主要集中在自动化数据标注和数据增强技术的应用上。随着自然语言处理技术的进步,研究者们致力于开发高效的自动化工具,如PyABSA中的实验性功能,以自动构建APC和ATEPC数据集,从而减少人工标注的工作量。此外,数据增强技术的引入,如BoostTextAugmentation,进一步提升了数据集的质量和多样性,为情感分析模型的训练提供了更丰富的资源。这些技术的应用不仅提高了数据处理的效率,还推动了情感分析在多语言和多领域中的广泛应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作