five

Dravidian-MTL-Benchmarking

收藏
arXiv2021-08-09 更新2024-07-30 收录
下载链接:
https://github.com/SiddhanthHegde/Dravidian-MTL-Benchmarking
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Tamil, Malayalam, 和Kannada语言的代码混合YouTube评论,用于情感分析和攻击性语言识别的多任务学习研究。

This dataset comprises code-mixed YouTube comments in Tamil, Malayalam, and Kannada, and is intended for multi-task learning research on sentiment analysis and offensive language identification.
创建时间:
2021-08-09
原始信息汇总

Benchmarking MTL for Dravidian Languages

数据集概述

该数据集用于论文 "Benchmarking Multi-Task Learning for Sentiment Analysis and Offensive Language Identification in Under-Resourced Dravidian Languages"。数据集支持的Dravidian语言包括Kannada、Malayalam和Tamil。

数据集使用步骤

单任务模型

  1. Character BERT, XLM 和 XLNet:

    • 运行特定任务文件,找到字符串 read_csv。
    • 更改数据集路径并终端运行程序。
  2. 其他BERT版本和XLMr:

    • 进入BERT版本和XLMr文件夹,使用train_task1.py进行情感分类和攻击性语言检测。
    • 找到字符串 read_csv,更改数据集路径并终端运行程序。

多任务模型

  • Hard Parameter Sharing 和 Soft Parameter Sharing:
    • 使用train.py文件,找到字符串 read_csv。
    • 更改数据集路径并终端运行程序。

数据格式

对于自定义数据集,确保CSV文件包含列名 comment, sent, off。

引用信息

@article{Hande-etal-Multitask, title = "Benchmarking Multi-Task Learning for Sentiment Analysis and Offensive Language Identification in Under-Resourced Dravidian Languages", author = "Hande, Adeep and U Hegde, Siddhanth and Priyadharshini, Ruba and Ponnusamy, Rahul and Kumaresan, Prasanna Kumar and Thavareesan, Sajeetha and Chakravarthi, Bharathi Raja ", journal={Soft Computing}, publisher={Springer} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作