five

M-ABSA

收藏
github2025-03-08 更新2025-02-26 收录
下载链接:
https://github.com/swaggy66/M-ABSA
下载链接
链接失效反馈
官方服务:
资源简介:
M-ABSA是一个适用于多语种情感分析任务的数据集,特别是基于方面的情感分析任务,包含三元组提取。

M-ABSA is a dataset tailored for multilingual sentiment analysis tasks, specifically aspect-based sentiment analysis (ABSA) tasks that involve triplet extraction.
创建时间:
2025-02-14
原始信息汇总

M-ABSA 数据集概述

数据集基本信息

  • 名称: M-ABSA (Multilingual Dataset for Aspect-Based Sentiment Analysis)
  • 任务类型: 多语言方面级情感分析 (Multilingual ABSA) 与三元组抽取 (Triplet Extraction)
  • 论文链接: arXiv:2502.11824

数据内容

  • 领域覆盖: 7个领域 python domains = ["coursera", "hotel", "laptop", "restaurant", "phone", "sight", "food"]

  • 语言覆盖: 21种语言 python langs = ["ar", "da", "de", "en", "es", "fr", "hi", "hr", "id", "ja", "ko", "nl", "pt", "ru", "sk", "sv", "sw", "th", "tr", "vi", "zh"]

  • 标注格式: 三元组结构 [aspect term, aspect category, sentiment polarity]

  • 数据分割: 训练集、验证集、测试集

  • 数据示例:

    This coffee brews up a nice medium roast with exotic floral and berry notes .####[[coffee, food quality, positive]]

实验设置

基线模型

  • 推荐环境:
    • transformers==4.0.0
    • sentencepiece==0.1.91
    • pytorch_lightning==0.8.1
  • 模型要求: 需下载mT5-base模型 (https://huggingface.co/google/mt5-base)
  • 任务参数:
    • tasd: 三元组抽取
    • uabsa: (方面词-情感极性)对抽取
  • 运行示例: bash python main.py --task tasd --dataset hotel --model_name_or_path mt5-base --paradigm extraction --n_gpu 0 --do_train --do_direct_eval --train_batch_size 16 --gradient_accumulation_steps 2 --eval_batch_size 16 --learning_rate 3e-4 --num_train_epochs 5

大语言模型评估

  • 支持模型: gemma, llama, mistral, qwen
  • 运行示例: bash python {model}_{task}.py --test_lang "en" --type "food"

引用格式

bibtex @misc{wu2025mabsa, title={M-ABSA: A Multilingual Dataset for Aspect-Based Sentiment Analysis}, author={Chengyan Wu and Bolei Ma and Yihong Liu and Zheyu Zhang and Ningyuan Deng and Yanshu Li and Baolan Chen and Yi Zhang and Barbara Plank and Yun Xue}, year={2025}, eprint={2502.11824}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.11824}, }

搜集汇总
数据集介绍
main_image_url
构建方式
M-ABSA数据集的构建采用多语言设计,涵盖7个领域,包括教育、住宿、电子产品等,并包含21种语言的语料。数据集的构建基于三元组抽取,即[方面术语、方面类别、情感极性],旨在为跨语言的方面情感分析任务提供高质量的训练资源。
特点
M-ABSA数据集的特点在于其跨语言和跨领域的广泛覆盖,提供了丰富的标注数据,能够支持多语言方面情感分析模型的训练与评估。数据集的标签设计为三元组形式,便于模型捕捉句子中的具体情感表达。此外,数据集按照训练集、验证集和测试集进行划分,有助于模型的迭代与优化。
使用方法
使用M-ABSA数据集时,用户需配置相应的环境,并安装指定的包版本。数据集的使用可以通过命令行工具快速启动基线模型的训练和评估。此外,用户可通过修改参数,在两种子任务(三元组抽取和方面-情感极性对抽取)上进行实验。针对大型语言模型,也提供了评估脚本,以探究模型在不同语言和类型上的表现。
背景与挑战
背景概述
M-ABSA数据集,全称为Multilingual Dataset for Aspect-Based Sentiment Analysis,是一个面向跨语言情感分析任务的数据集,由Chengyan Wu等人创建。该数据集的构建旨在推动多语言情感分析领域的研究,特别是在方面情感分析(ABSA)方面的应用。M-ABSA涵盖了7个不同领域的数据,包括教育、住宿、电子产品等,并包含21种语言的数据,使得该数据集在多语言处理领域具有重要的研究价值。自发布以来,M-ABSA数据集已成为多语言情感分析研究的基准数据集,对推动该领域的技术发展产生了显著影响。
当前挑战
M-ABSA数据集在构建和应用过程中面临的挑战主要包括:1)数据集的构建挑战,如跨语言数据的收集、标注一致性以及多语言之间的对齐问题;2)技术挑战,特别是在多语言模型训练、跨语言信息抽取以及情感极性判别等方面。此外,如何有效利用该数据集进行模型训练,以及如何评估模型在不同语言和领域上的性能,也是当前研究中的关键挑战。
常用场景
经典使用场景
M-ABSA数据集作为多语种方面情感分析任务的基准数据集,其经典使用场景主要在于训练与评估自然语言处理模型对多语言文本中方面词、方面类别以及情感极性的识别能力。该数据集通过提供七大门类的多语言标注数据,使得研究者在构建跨语言情感分析系统时,能够针对不同语言和领域进行有效的模型训练和评估。
实际应用
在实际应用中,M-ABSA数据集可被用于构建智能客服系统、产品评论分析工具以及多语言社交媒体监控平台,以实现对多语言文本中用户情感态度的精准识别,从而为企业提供市场趋势分析、品牌情感监控等服务,增强其在全球化竞争中的决策能力。
衍生相关工作
M-ABSA数据集的发布催生了众多相关研究工作,如跨语言情感分析模型的开发、多语言数据标注策略的研究以及基于此数据集的性能比较研究。这些衍生工作不仅丰富了多语言信息处理的理论体系,也为实际应用提供了多样化的解决方案,推动了该领域的快速发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作