Dravidian-MTL-Benchmarking
收藏arXiv2021-08-09 更新2024-07-30 收录
下载链接:
https://github.com/SiddhanthHegde/Dravidian-MTL-Benchmarking
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Tamil, Malayalam, 和Kannada语言的代码混合YouTube评论,用于情感分析和攻击性语言识别的多任务学习研究。
This dataset comprises code-mixed YouTube comments in Tamil, Malayalam, and Kannada, and is intended for multi-task learning research on sentiment analysis and offensive language identification.
创建时间:
2021-08-09
原始信息汇总
Benchmarking MTL for Dravidian Languages
数据集概述
该数据集用于论文 "Benchmarking Multi-Task Learning for Sentiment Analysis and Offensive Language Identification in Under-Resourced Dravidian Languages"。数据集支持的Dravidian语言包括Kannada、Malayalam和Tamil。
数据集使用步骤
单任务模型
-
Character BERT, XLM 和 XLNet:
- 运行特定任务文件,找到字符串 read_csv。
- 更改数据集路径并终端运行程序。
-
其他BERT版本和XLMr:
- 进入BERT版本和XLMr文件夹,使用train_task1.py进行情感分类和攻击性语言检测。
- 找到字符串 read_csv,更改数据集路径并终端运行程序。
多任务模型
- Hard Parameter Sharing 和 Soft Parameter Sharing:
- 使用train.py文件,找到字符串 read_csv。
- 更改数据集路径并终端运行程序。
数据格式
对于自定义数据集,确保CSV文件包含列名 comment, sent, off。
引用信息
@article{Hande-etal-Multitask, title = "Benchmarking Multi-Task Learning for Sentiment Analysis and Offensive Language Identification in Under-Resourced Dravidian Languages", author = "Hande, Adeep and U Hegde, Siddhanth and Priyadharshini, Ruba and Ponnusamy, Rahul and Kumaresan, Prasanna Kumar and Thavareesan, Sajeetha and Chakravarthi, Bharathi Raja ", journal={Soft Computing}, publisher={Springer} }



