five

md-nishat-008/OffMix-3L

收藏
Hugging Face2023-11-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/md-nishat-008/OffMix-3L
下载链接
链接失效反馈
官方服务:
资源简介:
OffMix-3L是一个新颖的三语言代码混合数据集,包含孟加拉语、英语和印地语,用于情感分析任务。该数据集包含1,001个实例,专门作为测试集使用,因为这种数据难以收集且需要专业知识。数据集提供了详细的统计信息,包括每种语言的词条、类型、最大和最小实例数、平均值和标准差。此外,还列出了不同模型在该数据集上的F1得分。
提供机构:
md-nishat-008
原始信息汇总

OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for Offensive Language Identification

📝 Citation

当使用OffMix-3L数据集时,请引用以下内容:

bibtex @article{goswami2023offmix, title={OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for Offensive Language Identification}, author={Goswami, Dhiman and Raihan, Md Nishat and Mahmud, Antara and Anstasopoulos, Antonios and Zampieri, Marcos}, journal={arXiv preprint arXiv:2310.18387}, year={2023} }

📖 Introduction

代码混合是一种当两种或更多语言在文本或语音中混合时被广泛研究的语言现象。尽管观察到多种语言的代码混合非常常见,但大多数可用的数据集仅包含两种语言之间的代码混合。在本文中,我们介绍了OffMix-3L,一个包含Bangla、English和Hindi三种语言代码混合数据的情感分析新数据集。

📊 Dataset Details

我们介绍了OffMix-3L,一个包含Bangla-Hindi-English三种语言代码混合数据的新测试数据集,用于情感分析任务,包含1,001个实例。

我们仅将此数据集作为测试集呈现,由于任务的独特和专业化性质,此类数据非常难以收集,并且需要大量专业知识才能访问。尽管数据集的大小限制了训练目的,但它提供了高质量的测试环境,具有黄金标准的标签,可以作为该领域的基准。

📈 Dataset Statistics

All Bangla English Hindi Other
Tokens 87,190 31,228 6,690 14,694 34,578
Types 18,787 7,714 1,135 1,413 8,645
Max. in instance 173 62 20 47 93
Min. in instance 41 4 3 2 8
Avg 87.10 31.20 6.68 14.68 34.54
Std Dev 20.58 8.60 3.05 5.74 10.98

OffMix-3L数据卡。"Avg"行表示平均令牌数及其在"Std Dev"行中的标准偏差。

📉 Results

Models F1 Score
BanglishBERT 0.68
BERT 0.66
mBERT 0.63
HingBERT 0.60
MuRIL 0.60
HateBERT 0.60
fBERT 0.58
roBERTa 0.58
XLM-R 0.57
DistilBERT 0.57
GPT 3.5 Turbo 0.57
BanglaBERT 0.54
IndicBERT 0.55
HindiBERT 0.43

不同模型的加权F1分数:在合成数据上训练并在自然数据(OffMix-3L)上测试。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作