Dravidian-MTL-Benchmarking

arXiv2021-08-09 更新2024-07-30 收录

下载链接：

https://github.com/SiddhanthHegde/Dravidian-MTL-Benchmarking

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含Tamil, Malayalam, 和Kannada语言的代码混合YouTube评论，用于情感分析和攻击性语言识别的多任务学习研究。

This dataset comprises code-mixed YouTube comments in Tamil, Malayalam, and Kannada, and is intended for multi-task learning research on sentiment analysis and offensive language identification.

创建时间：

2021-08-09

原始信息汇总

Benchmarking MTL for Dravidian Languages

数据集概述

该数据集用于论文 "Benchmarking Multi-Task Learning for Sentiment Analysis and Offensive Language Identification in Under-Resourced Dravidian Languages"。数据集支持的Dravidian语言包括Kannada、Malayalam和Tamil。

数据集使用步骤

单任务模型

Character BERT, XLM 和 XLNet:
- 运行特定任务文件，找到字符串 read_csv。
- 更改数据集路径并终端运行程序。
其他BERT版本和XLMr:
- 进入BERT版本和XLMr文件夹，使用train_task1.py进行情感分类和攻击性语言检测。
- 找到字符串 read_csv，更改数据集路径并终端运行程序。

多任务模型

Hard Parameter Sharing 和 Soft Parameter Sharing:
- 使用train.py文件，找到字符串 read_csv。
- 更改数据集路径并终端运行程序。

数据格式

对于自定义数据集，确保CSV文件包含列名 comment, sent, off。

引用信息

@article{Hande-etal-Multitask, title = "Benchmarking Multi-Task Learning for Sentiment Analysis and Offensive Language Identification in Under-Resourced Dravidian Languages", author = "Hande, Adeep and U Hegde, Siddhanth and Priyadharshini, Ruba and Ponnusamy, Rahul and Kumaresan, Prasanna Kumar and Thavareesan, Sajeetha and Chakravarthi, Bharathi Raja ", journal={Soft Computing}, publisher={Springer} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集