md-nishat-008/Code-Mixed-Offensive-Language-Detection-Dataset
收藏Hugging Face2023-10-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/md-nishat-008/Code-Mixed-Offensive-Language-Detection-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于检测冒犯性语言的数据集,包含10万条代码混合数据,涉及孟加拉语、英语和印地语。数据集的生成基于OLID和SOLID的标注模式,并使用了两种不同的代码混合方法。类别分布显示,训练集、开发集和测试集中非冒犯性和冒犯性数据的比例均为66.7%和33.3%。
提供机构:
md-nishat-008
原始信息汇总
Code-Mixed-Offensive-Language-Identification
数据集概述
该数据集用于攻击性语言检测任务,包含100,000条混合语言数据,涉及的语言为孟加拉语-英语-印地语。
数据集生成
数据集的标签分为非攻击性和攻击性两类。数据集生成过程中,从OLID和SOLID的标注模式中随机选择100,000个数据实例,并确保非攻击性和攻击性标签的实例数量相等。数据集的合成采用了两种方法:Krishnan等人的随机混合算法(2021)和Santy等人的r-CM方法(2021)。
类别分布
对于train.csv:
| 标签 | 数量 | 百分比 |
|---|---|---|
| NOT | 40018 | 66.70% |
| OFF | 19982 | 33.30% |
对于dev.csv:
| 标签 | 数量 | 百分比 |
|---|---|---|
| NOT | 13339 | 66.70% |
| OFF | 6661 | 33.30% |
对于test.csv:
| 标签 | 数量 | 百分比 |
|---|---|---|
| NOT | 13340 | 66.70% |
| OFF | 6660 | 33.30% |
引用
如果使用此数据集,请引用我们的论文:
bibtex @article{raihan2023mixed, title={Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi}, author={Raihan, Md Nishat and Goswami, Dhiman and Mahmud, Antara}, journal={arXiv preprint arXiv:2309.10272}, year={2023} }



