M-ABSA|情感分析数据集|多语言处理数据集
收藏M-ABSA 数据集概述
数据集基本信息
- 名称: M-ABSA (Multilingual Dataset for Aspect-Based Sentiment Analysis)
- 任务类型: 多语言方面级情感分析 (Multilingual ABSA) 与三元组抽取 (Triplet Extraction)
- 论文链接: arXiv:2502.11824
数据内容
-
领域覆盖: 7个领域 python domains = ["coursera", "hotel", "laptop", "restaurant", "phone", "sight", "food"]
-
语言覆盖: 21种语言 python langs = ["ar", "da", "de", "en", "es", "fr", "hi", "hr", "id", "ja", "ko", "nl", "pt", "ru", "sk", "sv", "sw", "th", "tr", "vi", "zh"]
-
标注格式: 三元组结构
[aspect term, aspect category, sentiment polarity]
-
数据分割: 训练集、验证集、测试集
-
数据示例:
This coffee brews up a nice medium roast with exotic floral and berry notes .####[[coffee, food quality, positive]]
实验设置
基线模型
- 推荐环境:
- transformers==4.0.0
- sentencepiece==0.1.91
- pytorch_lightning==0.8.1
- 模型要求: 需下载mT5-base模型 (https://huggingface.co/google/mt5-base)
- 任务参数:
tasd
: 三元组抽取uabsa
: (方面词-情感极性)对抽取
- 运行示例: bash python main.py --task tasd --dataset hotel --model_name_or_path mt5-base --paradigm extraction --n_gpu 0 --do_train --do_direct_eval --train_batch_size 16 --gradient_accumulation_steps 2 --eval_batch_size 16 --learning_rate 3e-4 --num_train_epochs 5
大语言模型评估
- 支持模型:
gemma
,llama
,mistral
,qwen
- 运行示例: bash python {model}_{task}.py --test_lang "en" --type "food"
引用格式
bibtex @misc{wu2025mabsa, title={M-ABSA: A Multilingual Dataset for Aspect-Based Sentiment Analysis}, author={Chengyan Wu and Bolei Ma and Yihong Liu and Zheyu Zhang and Ningyuan Deng and Yanshu Li and Baolan Chen and Yi Zhang and Barbara Plank and Yun Xue}, year={2025}, eprint={2502.11824}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.11824}, }

中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9
该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。
huggingface 收录
O*NET
O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。
www.onetonline.org 收录
中国行政区划shp数据
中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。 中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。
CnOpenData 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录