Toygar/turkish-offensive-language-detection

Name: Toygar/turkish-offensive-language-detection
Creator: Toygar
Published: 2023-10-31 21:57:24
License: 暂无描述

Hugging Face2023-10-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Toygar/turkish-offensive-language-detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是现有冒犯性语言研究的增强版本。现有研究存在高度不平衡的问题，解决这一问题成本过高。为此，我们提出了上下文数据挖掘方法进行数据集增强。该方法基本上防止我们检索随机推文并单独标记。我们可以直接访问几乎确切的仇恨相关推文并直接标记它们，无需进一步的人工交互，以解决标签不平衡问题。此外，合并了现有研究（可在参考文献部分找到）以创建更全面和鲁棒的土耳其冒犯性语言检测任务数据集。文件train.csv包含42,398条推文，test.csv包含8,851条推文，valid.csv包含1,756条标注推文。数据集结构为二进制，包含（0）非冒犯性和（1）冒犯性推文。

提供机构：

Toygar

原始信息汇总

数据集概述

基本信息

名称: Turkish Offensive Language Detection Dataset
语言: 土耳其语 (tr)
许可证: CC-BY-2.0
多语言性: 单语种
大小: 10K<n<100K
标签: offensive-language-classification

数据集结构

任务类别: 文本分类
任务与标签:
- 0: 非攻击性 - 推文不包含攻击或亵渎
- 1: 攻击性 - 推文包含攻击性语言或针对性的（隐晦或直接）攻击
数据分割:

类型训练测试验证

0 (非攻击性) 22,589 4,436 1,402

1 (攻击性) 19,809 4,415 354

数据集内容

文件:
- train.csv: 包含42,398条标注推文
- test.csv: 包含8,851条标注推文
- valid.csv: 包含1,756条标注推文

数据集来源与增强

数据集是现有攻击性语言研究的增强版本，通过合并多个开源数据集（如offenseval2020_tr、turkish-hate-speech-dataset-2、5k-turkish-tweets-with-incivil-content）并应用上下文数据挖掘方法进行数据增强，以解决标签不平衡问题。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

类型	训练	测试	验证
0 (非攻击性)	22,589	4,436	1,402
1 (攻击性)	19,809	4,415	354