md-nishat-008/SentMix-3L
收藏Hugging Face2023-11-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/md-nishat-008/SentMix-3L
下载链接
链接失效反馈官方服务:
资源简介:
SentMix-3L是一个用于情感分析的三语言(孟加拉语、英语和印地语)代码混合数据集。该数据集包含1,007个实例,专门作为测试集使用,因其独特性和专业性,数据收集和标注需要较高的专业知识。数据集提供了高质量的金标准标签,可作为该领域的基准。
提供机构:
md-nishat-008
原始信息汇总
SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment Analysis
📖 简介
SentMix-3L是一个针对情感分析的新型三语代码混合测试数据集,包含Bangla、English和Hindi三种语言的代码混合数据,共1,007个实例。该数据集仅作为测试集发布,因其任务的独特性和专业性,数据收集难度大,需要专业知识。
📊 数据集详情
SentMix-3L数据集包含1,007个实例,具有金标准标签,适用于情感分析任务。
📈 数据集统计
| All | Bangla | English | Hindi | Other | |
|---|---|---|---|---|---|
| Tokens | 89494 | 32133 | 5998 | 15131 | 36232 |
| Types | 19686 | 8167 | 1073 | 1474 | 9092 |
| Max. in instance | 173 | 62 | 20 | 47 | 93 |
| Min. in instance | 41 | 4 | 3 | 2 | 8 |
| Avg | 88.87 | 31.91 | 5.96 | 15.03 | 35.98 |
| Std Dev | 19.19 | 8.39 | 2.94 | 5.81 | 9.70 |
Avg行表示平均token数及其标准偏差。
📉 结果
| Models | Weighted F1 Score |
|---|---|
| GPT 3.5 Turbo | 0.62 |
| XLM-R | 0.59 |
| BanglishBERT | 0.56 |
| mBERT | 0.56 |
| BERT | 0.55 |
| roBERTa | 0.54 |
| MuRIL | 0.54 |
| IndicBERT | 0.53 |
| DistilBERT | 0.53 |
| HindiBERT | 0.48 |
| HingBERT | 0.47 |
| BanglaBERT | 0.47 |
不同模型的加权F1分数:在合成数据上训练,在自然数据上测试。
📝 引用
如使用该数据集,请引用我们的论文。
bibtex @article{raihan2023sentmix, title={SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment Analysis}, author={Raihan, Md Nishat and Goswami, Dhiman and Mahmud, Antara and Anstasopoulos, Antonios and Zampieri, Marcos}, journal={arXiv preprint arXiv:2310.18023}, year={2023} }



