Toygar/turkish-offensive-language-detection
收藏Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Toygar/turkish-offensive-language-detection
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是现有冒犯性语言研究的增强版本。现有研究存在高度不平衡的问题,解决这一问题成本过高。为此,我们提出了上下文数据挖掘方法进行数据集增强。该方法基本上防止我们检索随机推文并单独标记。我们可以直接访问几乎确切的仇恨相关推文并直接标记它们,无需进一步的人工交互,以解决标签不平衡问题。此外,合并了现有研究(可在参考文献部分找到)以创建更全面和鲁棒的土耳其冒犯性语言检测任务数据集。文件train.csv包含42,398条推文,test.csv包含8,851条推文,valid.csv包含1,756条标注推文。数据集结构为二进制,包含(0)非冒犯性和(1)冒犯性推文。
提供机构:
Toygar
原始信息汇总
数据集概述
基本信息
- 名称: Turkish Offensive Language Detection Dataset
- 语言: 土耳其语 (tr)
- 许可证: CC-BY-2.0
- 多语言性: 单语种
- 大小: 10K<n<100K
- 标签: offensive-language-classification
数据集结构
- 任务类别: 文本分类
- 任务与标签:
- 0: 非攻击性 - 推文不包含攻击或亵渎
- 1: 攻击性 - 推文包含攻击性语言或针对性的(隐晦或直接)攻击
- 数据分割:
类型 训练 测试 验证 0 (非攻击性) 22,589 4,436 1,402 1 (攻击性) 19,809 4,415 354
数据集内容
- 文件:
- train.csv: 包含42,398条标注推文
- test.csv: 包含8,851条标注推文
- valid.csv: 包含1,756条标注推文
数据集来源与增强
- 数据集是现有攻击性语言研究的增强版本,通过合并多个开源数据集(如offenseval2020_tr、turkish-hate-speech-dataset-2、5k-turkish-tweets-with-incivil-content)并应用上下文数据挖掘方法进行数据增强,以解决标签不平衡问题。



