ktoufiquee/NC-SentNoB
收藏Hugging Face2024-02-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ktoufiquee/NC-SentNoB
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于噪声识别的多标签数据集,主要用于情感分析中的噪声文本处理。数据集由4位孟加拉语母语者标注,标注的可信度为90%,Fleiss Kappa得分为0.69。数据集中定义了多种噪声类别,包括本地词、词语误用、上下文/词语缺失、错误顺序、混合语言、标点错误、空格错误、拼写错误、新造词等。数据集的统计信息显示了每个噪声类别的实例数量和每个实例的平均词数。
这是一个用于噪声识别的多标签数据集,主要用于情感分析中的噪声文本处理。数据集由4位孟加拉语母语者标注,标注的可信度为90%,Fleiss Kappa得分为0.69。数据集中定义了多种噪声类别,包括本地词、词语误用、上下文/词语缺失、错误顺序、混合语言、标点错误、空格错误、拼写错误、新造词等。数据集的统计信息显示了每个噪声类别的实例数量和每个实例的平均词数。
提供机构:
ktoufiquee
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-sa-4.0
- 标签:
- sentiment-analysis
- noise-identification
- noisy-text
- 数据规模: 10K<n<100K
- 语言: bn
- 任务类别: text-classification
数据集用途
该数据集用于论文《A Comparative Analysis of Noise Reduction Methods in Sentiment Analysis on Noisy Bangla Texts》中,旨在进行噪声识别。该论文已被2024年第9届噪声和用户生成文本研讨会(W-NUT)接受,该研讨会与EACL 2024共同举办。
数据标注
- 标注者: 4名母语为孟加拉语的标注者,可信度得分90%。
- Fleiss Kappa得分: 0.69
噪声类别定义
| 类型 | 定义 |
|---|---|
| Local Word | 任何地区性词汇,即使有拼写错误。 |
| Word Misuse | 错误使用词汇或不必要的词汇重复。 |
| Context/Word Missing | 信息不足或缺少词汇。 |
| Wrong Serial | 词汇顺序错误。 |
| Mixed Language | 其他语言的词汇。已融入孟加拉语的外来词汇不包括在内。 |
| Punctuation Error | 标点符号使用不当或缺失。未以“।”结尾的句子不包括在内。 |
| Spacing Error | 空格使用不当。 |
| Spelling Error | 未遵循孟加拉语学院词典拼写的词汇。 |
| Coined Word | 表情符号、符号表情、链接。 |
| Others | 不属于上述类别的噪声。 |
噪声类别统计
| 类别 | 实例数量 | 每实例词汇数 |
|---|---|---|
| Local Word | 2,084 (0.136%) | 16.05 |
| Word Misuse | 661 (0.043%) | 18.55 |
| Context/Word Missing | 550 (0.036%) | 13.19 |
| Wrong Serial | 69 (0.005%) | 15.30 |
| Mixed Language | 6,267 (0.410%) | 17.91 |
| Punctuation Error | 5,988 (0.391%) | 17.25 |
| Spacing Error | 2,456 (0.161%) | 18.78 |
| Spelling Error | 5,817 (0.380%) | 17.30 |
| Coined Words | 549 (0.036%) | 15.45 |
| Others | 1,263 (0.083%) | 16.52 |
引用
若使用该数据集,请引用以下论文:
@misc{elahi2024comparative, title={A Comparative Analysis of Noise Reduction Methods in Sentiment Analysis on Noisy Bangla Texts}, author={Kazi Toufique Elahi and Tasnuva Binte Rahman and Shakil Shahriar and Samir Sarker and Md. Tanvir Rouf Shawon and G. M. Shahariar}, year={2024}, eprint={2401.14360}, archivePrefix={arXiv}, primaryClass={cs.CL} }



