M-ABSA|情感分析数据集|多语言处理数据集
收藏M-ABSA 数据集概述
数据集基本信息
- 名称: M-ABSA (Multilingual Dataset for Aspect-Based Sentiment Analysis)
- 任务类型: 多语言方面级情感分析 (Multilingual ABSA) 与三元组抽取 (Triplet Extraction)
- 论文链接: arXiv:2502.11824
数据内容
-
领域覆盖: 7个领域 python domains = ["coursera", "hotel", "laptop", "restaurant", "phone", "sight", "food"]
-
语言覆盖: 21种语言 python langs = ["ar", "da", "de", "en", "es", "fr", "hi", "hr", "id", "ja", "ko", "nl", "pt", "ru", "sk", "sv", "sw", "th", "tr", "vi", "zh"]
-
标注格式: 三元组结构
[aspect term, aspect category, sentiment polarity]
-
数据分割: 训练集、验证集、测试集
-
数据示例:
This coffee brews up a nice medium roast with exotic floral and berry notes .####[[coffee, food quality, positive]]
实验设置
基线模型
- 推荐环境:
- transformers==4.0.0
- sentencepiece==0.1.91
- pytorch_lightning==0.8.1
- 模型要求: 需下载mT5-base模型 (https://huggingface.co/google/mt5-base)
- 任务参数:
tasd
: 三元组抽取uabsa
: (方面词-情感极性)对抽取
- 运行示例: bash python main.py --task tasd --dataset hotel --model_name_or_path mt5-base --paradigm extraction --n_gpu 0 --do_train --do_direct_eval --train_batch_size 16 --gradient_accumulation_steps 2 --eval_batch_size 16 --learning_rate 3e-4 --num_train_epochs 5
大语言模型评估
- 支持模型:
gemma
,llama
,mistral
,qwen
- 运行示例: bash python {model}_{task}.py --test_lang "en" --type "food"
引用格式
bibtex @misc{wu2025mabsa, title={M-ABSA: A Multilingual Dataset for Aspect-Based Sentiment Analysis}, author={Chengyan Wu and Bolei Ma and Yihong Liu and Zheyu Zhang and Ningyuan Deng and Yanshu Li and Baolan Chen and Yi Zhang and Barbara Plank and Yun Xue}, year={2025}, eprint={2502.11824}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.11824}, }

btc
该数据集可能包含金融市场交易数据,具体包括时间戳、开盘价、最高价、最低价、收盘价和交易量等信息。数据集分为训练集,包含2465个样本,总大小为175324字节。
huggingface 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)
CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。
国家青藏高原科学数据中心 收录