five

M-ABSA|情感分析数据集|多语言处理数据集

收藏
github2025-03-08 更新2025-02-26 收录
情感分析
多语言处理
下载链接:
https://github.com/swaggy66/M-ABSA
下载链接
链接失效反馈
资源简介:
M-ABSA是一个适用于多语种情感分析任务的数据集,特别是基于方面的情感分析任务,包含三元组提取。
创建时间:
2025-02-14
原始信息汇总

M-ABSA 数据集概述

数据集基本信息

  • 名称: M-ABSA (Multilingual Dataset for Aspect-Based Sentiment Analysis)
  • 任务类型: 多语言方面级情感分析 (Multilingual ABSA) 与三元组抽取 (Triplet Extraction)
  • 论文链接: arXiv:2502.11824

数据内容

  • 领域覆盖: 7个领域 python domains = ["coursera", "hotel", "laptop", "restaurant", "phone", "sight", "food"]

  • 语言覆盖: 21种语言 python langs = ["ar", "da", "de", "en", "es", "fr", "hi", "hr", "id", "ja", "ko", "nl", "pt", "ru", "sk", "sv", "sw", "th", "tr", "vi", "zh"]

  • 标注格式: 三元组结构 [aspect term, aspect category, sentiment polarity]

  • 数据分割: 训练集、验证集、测试集

  • 数据示例:

    This coffee brews up a nice medium roast with exotic floral and berry notes .####[[coffee, food quality, positive]]

实验设置

基线模型

  • 推荐环境:
    • transformers==4.0.0
    • sentencepiece==0.1.91
    • pytorch_lightning==0.8.1
  • 模型要求: 需下载mT5-base模型 (https://huggingface.co/google/mt5-base)
  • 任务参数:
    • tasd: 三元组抽取
    • uabsa: (方面词-情感极性)对抽取
  • 运行示例: bash python main.py --task tasd --dataset hotel --model_name_or_path mt5-base --paradigm extraction --n_gpu 0 --do_train --do_direct_eval --train_batch_size 16 --gradient_accumulation_steps 2 --eval_batch_size 16 --learning_rate 3e-4 --num_train_epochs 5

大语言模型评估

  • 支持模型: gemma, llama, mistral, qwen
  • 运行示例: bash python {model}_{task}.py --test_lang "en" --type "food"

引用格式

bibtex @misc{wu2025mabsa, title={M-ABSA: A Multilingual Dataset for Aspect-Based Sentiment Analysis}, author={Chengyan Wu and Bolei Ma and Yihong Liu and Zheyu Zhang and Ningyuan Deng and Yanshu Li and Baolan Chen and Yi Zhang and Barbara Plank and Yun Xue}, year={2025}, eprint={2502.11824}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.11824}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
M-ABSA数据集的构建采用多语言设计,涵盖7个领域,包括教育、住宿、电子产品等,并包含21种语言的语料。数据集的构建基于三元组抽取,即[方面术语、方面类别、情感极性],旨在为跨语言的方面情感分析任务提供高质量的训练资源。
特点
M-ABSA数据集的特点在于其跨语言和跨领域的广泛覆盖,提供了丰富的标注数据,能够支持多语言方面情感分析模型的训练与评估。数据集的标签设计为三元组形式,便于模型捕捉句子中的具体情感表达。此外,数据集按照训练集、验证集和测试集进行划分,有助于模型的迭代与优化。
使用方法
使用M-ABSA数据集时,用户需配置相应的环境,并安装指定的包版本。数据集的使用可以通过命令行工具快速启动基线模型的训练和评估。此外,用户可通过修改参数,在两种子任务(三元组抽取和方面-情感极性对抽取)上进行实验。针对大型语言模型,也提供了评估脚本,以探究模型在不同语言和类型上的表现。
背景与挑战
背景概述
M-ABSA数据集,全称为Multilingual Dataset for Aspect-Based Sentiment Analysis,是一个面向跨语言情感分析任务的数据集,由Chengyan Wu等人创建。该数据集的构建旨在推动多语言情感分析领域的研究,特别是在方面情感分析(ABSA)方面的应用。M-ABSA涵盖了7个不同领域的数据,包括教育、住宿、电子产品等,并包含21种语言的数据,使得该数据集在多语言处理领域具有重要的研究价值。自发布以来,M-ABSA数据集已成为多语言情感分析研究的基准数据集,对推动该领域的技术发展产生了显著影响。
当前挑战
M-ABSA数据集在构建和应用过程中面临的挑战主要包括:1)数据集的构建挑战,如跨语言数据的收集、标注一致性以及多语言之间的对齐问题;2)技术挑战,特别是在多语言模型训练、跨语言信息抽取以及情感极性判别等方面。此外,如何有效利用该数据集进行模型训练,以及如何评估模型在不同语言和领域上的性能,也是当前研究中的关键挑战。
常用场景
经典使用场景
M-ABSA数据集作为多语种方面情感分析任务的基准数据集,其经典使用场景主要在于训练与评估自然语言处理模型对多语言文本中方面词、方面类别以及情感极性的识别能力。该数据集通过提供七大门类的多语言标注数据,使得研究者在构建跨语言情感分析系统时,能够针对不同语言和领域进行有效的模型训练和评估。
实际应用
在实际应用中,M-ABSA数据集可被用于构建智能客服系统、产品评论分析工具以及多语言社交媒体监控平台,以实现对多语言文本中用户情感态度的精准识别,从而为企业提供市场趋势分析、品牌情感监控等服务,增强其在全球化竞争中的决策能力。
衍生相关工作
M-ABSA数据集的发布催生了众多相关研究工作,如跨语言情感分析模型的开发、多语言数据标注策略的研究以及基于此数据集的性能比较研究。这些衍生工作不仅丰富了多语言信息处理的理论体系,也为实际应用提供了多样化的解决方案,推动了该领域的快速发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

btc

该数据集可能包含金融市场交易数据,具体包括时间戳、开盘价、最高价、最低价、收盘价和交易量等信息。数据集分为训练集,包含2465个样本,总大小为175324字节。

huggingface 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心 收录