md-nishat-008/OffMix-3L
收藏OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for Offensive Language Identification
📝 Citation
当使用OffMix-3L数据集时,请引用以下内容:
bibtex @article{goswami2023offmix, title={OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for Offensive Language Identification}, author={Goswami, Dhiman and Raihan, Md Nishat and Mahmud, Antara and Anstasopoulos, Antonios and Zampieri, Marcos}, journal={arXiv preprint arXiv:2310.18387}, year={2023} }
📖 Introduction
代码混合是一种当两种或更多语言在文本或语音中混合时被广泛研究的语言现象。尽管观察到多种语言的代码混合非常常见,但大多数可用的数据集仅包含两种语言之间的代码混合。在本文中,我们介绍了OffMix-3L,一个包含Bangla、English和Hindi三种语言代码混合数据的情感分析新数据集。
📊 Dataset Details
我们介绍了OffMix-3L,一个包含Bangla-Hindi-English三种语言代码混合数据的新测试数据集,用于情感分析任务,包含1,001个实例。
我们仅将此数据集作为测试集呈现,由于任务的独特和专业化性质,此类数据非常难以收集,并且需要大量专业知识才能访问。尽管数据集的大小限制了训练目的,但它提供了高质量的测试环境,具有黄金标准的标签,可以作为该领域的基准。
📈 Dataset Statistics
| All | Bangla | English | Hindi | Other | |
|---|---|---|---|---|---|
| Tokens | 87,190 | 31,228 | 6,690 | 14,694 | 34,578 |
| Types | 18,787 | 7,714 | 1,135 | 1,413 | 8,645 |
| Max. in instance | 173 | 62 | 20 | 47 | 93 |
| Min. in instance | 41 | 4 | 3 | 2 | 8 |
| Avg | 87.10 | 31.20 | 6.68 | 14.68 | 34.54 |
| Std Dev | 20.58 | 8.60 | 3.05 | 5.74 | 10.98 |
OffMix-3L数据卡。"Avg"行表示平均令牌数及其在"Std Dev"行中的标准偏差。
📉 Results
| Models | F1 Score |
|---|---|
| BanglishBERT | 0.68 |
| BERT | 0.66 |
| mBERT | 0.63 |
| HingBERT | 0.60 |
| MuRIL | 0.60 |
| HateBERT | 0.60 |
| fBERT | 0.58 |
| roBERTa | 0.58 |
| XLM-R | 0.57 |
| DistilBERT | 0.57 |
| GPT 3.5 Turbo | 0.57 |
| BanglaBERT | 0.54 |
| IndicBERT | 0.55 |
| HindiBERT | 0.43 |
不同模型的加权F1分数:在合成数据上训练并在自然数据(OffMix-3L)上测试。



