five

md-nishat-008/SentMix-3L

收藏
Hugging Face2023-11-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/md-nishat-008/SentMix-3L
下载链接
链接失效反馈
官方服务:
资源简介:
SentMix-3L是一个用于情感分析的三语言(孟加拉语、英语和印地语)代码混合数据集。该数据集包含1,007个实例,专门作为测试集使用,因其独特性和专业性,数据收集和标注需要较高的专业知识。数据集提供了高质量的金标准标签,可作为该领域的基准。
提供机构:
md-nishat-008
原始信息汇总

SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment Analysis

📖 简介

SentMix-3L是一个针对情感分析的新型三语代码混合测试数据集,包含Bangla、English和Hindi三种语言的代码混合数据,共1,007个实例。该数据集仅作为测试集发布,因其任务的独特性和专业性,数据收集难度大,需要专业知识。

📊 数据集详情

SentMix-3L数据集包含1,007个实例,具有金标准标签,适用于情感分析任务。

📈 数据集统计

All Bangla English Hindi Other
Tokens 89494 32133 5998 15131 36232
Types 19686 8167 1073 1474 9092
Max. in instance 173 62 20 47 93
Min. in instance 41 4 3 2 8
Avg 88.87 31.91 5.96 15.03 35.98
Std Dev 19.19 8.39 2.94 5.81 9.70

Avg行表示平均token数及其标准偏差。

📉 结果

Models Weighted F1 Score
GPT 3.5 Turbo 0.62
XLM-R 0.59
BanglishBERT 0.56
mBERT 0.56
BERT 0.55
roBERTa 0.54
MuRIL 0.54
IndicBERT 0.53
DistilBERT 0.53
HindiBERT 0.48
HingBERT 0.47
BanglaBERT 0.47

不同模型的加权F1分数:在合成数据上训练,在自然数据上测试。

📝 引用

如使用该数据集,请引用我们的论文。

bibtex @article{raihan2023sentmix, title={SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment Analysis}, author={Raihan, Md Nishat and Goswami, Dhiman and Mahmud, Antara and Anstasopoulos, Antonios and Zampieri, Marcos}, journal={arXiv preprint arXiv:2310.18023}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作