Overfit-GM/turkish-toxic-language

Name: Overfit-GM/turkish-toxic-language
Creator: Overfit-GM
Published: 2023-04-04 14:15:02
License: 暂无描述

Hugging Face2023-04-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Overfit-GM/turkish-toxic-language

下载链接

链接失效反馈

官方服务：

资源简介：

该文本数据集是一个土耳其语文本集合，用于检测有毒语言。数据集从多个现有的在线攻击性语言数据集中合并而来，共包含77,800个实例，每个实例被标记为有攻击性或无攻击性。为了确保数据集的完整性，使用了多个Transformer模型进行伪标签增强。数据集以CSV格式提供，并详细列出了合并数据集的来源。

提供机构：

Overfit-GM

原始信息汇总

Turkish Toxic Language Dataset

实例总数: 77,800
标签分布:
- 其他: 37,663
- 亵渎: 18,252
- 侮辱: 10,777
- 种族主义: 10,163
- 性别歧视: 945
- 攻击性实例: 40,137
- 非攻击性实例: 37,663
数据源分布:
- Jigsaw Multilingual Toxic Comments: 35,624
- Turkish Offensive Language Detection Dataset: 39,551
- Turkish Cyberbullying Dataset: 2,525

5,000+

优质数据集

54 个

任务类型

进入经典数据集