Overfit-GM/turkish-toxic-language
收藏Hugging Face2023-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Overfit-GM/turkish-toxic-language
下载链接
链接失效反馈官方服务:
资源简介:
该文本数据集是一个土耳其语文本集合,用于检测有毒语言。数据集从多个现有的在线攻击性语言数据集中合并而来,共包含77,800个实例,每个实例被标记为有攻击性或无攻击性。为了确保数据集的完整性,使用了多个Transformer模型进行伪标签增强。数据集以CSV格式提供,并详细列出了合并数据集的来源。
该文本数据集是一个土耳其语文本集合,用于检测有毒语言。数据集从多个现有的在线攻击性语言数据集中合并而来,共包含77,800个实例,每个实例被标记为有攻击性或无攻击性。为了确保数据集的完整性,使用了多个Transformer模型进行伪标签增强。数据集以CSV格式提供,并详细列出了合并数据集的来源。
提供机构:
Overfit-GM
原始信息汇总
Turkish Toxic Language Dataset
数据集概述
数据集总结
- 语言: 土耳其语
- 任务类别: 文本分类
- 许可证: Apache-2.0
- 数据集大小: 10K<n<100K
- 数据集名称: Turkish Toxic Language Dataset
- 数据集格式: CSV
数据集详细信息
-
实例总数: 77,800
-
标签分布:
- 其他: 37,663
- 亵渎: 18,252
- 侮辱: 10,777
- 种族主义: 10,163
- 性别歧视: 945
- 攻击性实例: 40,137
- 非攻击性实例: 37,663
-
数据源分布:
- Jigsaw Multilingual Toxic Comments: 35,624
- Turkish Offensive Language Detection Dataset: 39,551
- Turkish Cyberbullying Dataset: 2,525
数据集用途
- 用于土耳其语的攻击性语言检测。
- 通过多个转换器模型增强数据集,确保数据的完整性和全面性。



