five

M-ABSA|情感分析数据集|多语言处理数据集

收藏
github2025-03-08 更新2025-02-26 收录
情感分析
多语言处理
下载链接:
https://github.com/swaggy66/M-ABSA
下载链接
链接失效反馈
资源简介:
M-ABSA是一个适用于多语种情感分析任务的数据集,特别是基于方面的情感分析任务,包含三元组提取。
创建时间:
2025-02-14
原始信息汇总

M-ABSA 数据集概述

数据集基本信息

  • 名称: M-ABSA (Multilingual Dataset for Aspect-Based Sentiment Analysis)
  • 任务类型: 多语言方面级情感分析 (Multilingual ABSA) 与三元组抽取 (Triplet Extraction)
  • 论文链接: arXiv:2502.11824

数据内容

  • 领域覆盖: 7个领域 python domains = ["coursera", "hotel", "laptop", "restaurant", "phone", "sight", "food"]

  • 语言覆盖: 21种语言 python langs = ["ar", "da", "de", "en", "es", "fr", "hi", "hr", "id", "ja", "ko", "nl", "pt", "ru", "sk", "sv", "sw", "th", "tr", "vi", "zh"]

  • 标注格式: 三元组结构 [aspect term, aspect category, sentiment polarity]

  • 数据分割: 训练集、验证集、测试集

  • 数据示例:

    This coffee brews up a nice medium roast with exotic floral and berry notes .####[[coffee, food quality, positive]]

实验设置

基线模型

  • 推荐环境:
    • transformers==4.0.0
    • sentencepiece==0.1.91
    • pytorch_lightning==0.8.1
  • 模型要求: 需下载mT5-base模型 (https://huggingface.co/google/mt5-base)
  • 任务参数:
    • tasd: 三元组抽取
    • uabsa: (方面词-情感极性)对抽取
  • 运行示例: bash python main.py --task tasd --dataset hotel --model_name_or_path mt5-base --paradigm extraction --n_gpu 0 --do_train --do_direct_eval --train_batch_size 16 --gradient_accumulation_steps 2 --eval_batch_size 16 --learning_rate 3e-4 --num_train_epochs 5

大语言模型评估

  • 支持模型: gemma, llama, mistral, qwen
  • 运行示例: bash python {model}_{task}.py --test_lang "en" --type "food"

引用格式

bibtex @misc{wu2025mabsa, title={M-ABSA: A Multilingual Dataset for Aspect-Based Sentiment Analysis}, author={Chengyan Wu and Bolei Ma and Yihong Liu and Zheyu Zhang and Ningyuan Deng and Yanshu Li and Baolan Chen and Yi Zhang and Barbara Plank and Yun Xue}, year={2025}, eprint={2502.11824}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.11824}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
M-ABSA数据集的构建采用多语言设计,涵盖7个领域,包括教育、住宿、电子产品等,并包含21种语言的语料。数据集的构建基于三元组抽取,即[方面术语、方面类别、情感极性],旨在为跨语言的方面情感分析任务提供高质量的训练资源。
特点
M-ABSA数据集的特点在于其跨语言和跨领域的广泛覆盖,提供了丰富的标注数据,能够支持多语言方面情感分析模型的训练与评估。数据集的标签设计为三元组形式,便于模型捕捉句子中的具体情感表达。此外,数据集按照训练集、验证集和测试集进行划分,有助于模型的迭代与优化。
使用方法
使用M-ABSA数据集时,用户需配置相应的环境,并安装指定的包版本。数据集的使用可以通过命令行工具快速启动基线模型的训练和评估。此外,用户可通过修改参数,在两种子任务(三元组抽取和方面-情感极性对抽取)上进行实验。针对大型语言模型,也提供了评估脚本,以探究模型在不同语言和类型上的表现。
背景与挑战
背景概述
M-ABSA数据集,全称为Multilingual Dataset for Aspect-Based Sentiment Analysis,是一个面向跨语言情感分析任务的数据集,由Chengyan Wu等人创建。该数据集的构建旨在推动多语言情感分析领域的研究,特别是在方面情感分析(ABSA)方面的应用。M-ABSA涵盖了7个不同领域的数据,包括教育、住宿、电子产品等,并包含21种语言的数据,使得该数据集在多语言处理领域具有重要的研究价值。自发布以来,M-ABSA数据集已成为多语言情感分析研究的基准数据集,对推动该领域的技术发展产生了显著影响。
当前挑战
M-ABSA数据集在构建和应用过程中面临的挑战主要包括:1)数据集的构建挑战,如跨语言数据的收集、标注一致性以及多语言之间的对齐问题;2)技术挑战,特别是在多语言模型训练、跨语言信息抽取以及情感极性判别等方面。此外,如何有效利用该数据集进行模型训练,以及如何评估模型在不同语言和领域上的性能,也是当前研究中的关键挑战。
常用场景
经典使用场景
M-ABSA数据集作为多语种方面情感分析任务的基准数据集,其经典使用场景主要在于训练与评估自然语言处理模型对多语言文本中方面词、方面类别以及情感极性的识别能力。该数据集通过提供七大门类的多语言标注数据,使得研究者在构建跨语言情感分析系统时,能够针对不同语言和领域进行有效的模型训练和评估。
实际应用
在实际应用中,M-ABSA数据集可被用于构建智能客服系统、产品评论分析工具以及多语言社交媒体监控平台,以实现对多语言文本中用户情感态度的精准识别,从而为企业提供市场趋势分析、品牌情感监控等服务,增强其在全球化竞争中的决策能力。
衍生相关工作
M-ABSA数据集的发布催生了众多相关研究工作,如跨语言情感分析模型的开发、多语言数据标注策略的研究以及基于此数据集的性能比较研究。这些衍生工作不仅丰富了多语言信息处理的理论体系,也为实际应用提供了多样化的解决方案,推动了该领域的快速发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

O*NET

O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。

www.onetonline.org 收录

中国行政区划shp数据

   中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。   中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。

CnOpenData 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录