five

md-nishat-008/Code-Mixed-Offensive-Language-Detection-Dataset

收藏
Hugging Face2023-10-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/md-nishat-008/Code-Mixed-Offensive-Language-Detection-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于检测冒犯性语言的数据集,包含10万条代码混合数据,涉及孟加拉语、英语和印地语。数据集的生成基于OLID和SOLID的标注模式,并使用了两种不同的代码混合方法。类别分布显示,训练集、开发集和测试集中非冒犯性和冒犯性数据的比例均为66.7%和33.3%。
提供机构:
md-nishat-008
原始信息汇总

Code-Mixed-Offensive-Language-Identification

数据集概述

该数据集用于攻击性语言检测任务,包含100,000条混合语言数据,涉及的语言为孟加拉语-英语-印地语。

数据集生成

数据集的标签分为非攻击性和攻击性两类。数据集生成过程中,从OLID和SOLID的标注模式中随机选择100,000个数据实例,并确保非攻击性和攻击性标签的实例数量相等。数据集的合成采用了两种方法:Krishnan等人的随机混合算法(2021)和Santy等人的r-CM方法(2021)。

类别分布

对于train.csv:

标签 数量 百分比
NOT 40018 66.70%
OFF 19982 33.30%

对于dev.csv:

标签 数量 百分比
NOT 13339 66.70%
OFF 6661 33.30%

对于test.csv:

标签 数量 百分比
NOT 13340 66.70%
OFF 6660 33.30%

引用

如果使用此数据集,请引用我们的论文:

bibtex @article{raihan2023mixed, title={Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi}, author={Raihan, Md Nishat and Goswami, Dhiman and Mahmud, Antara}, journal={arXiv preprint arXiv:2309.10272}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作