five

Overfit-GM/turkish-toxic-language

收藏
Hugging Face2023-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Overfit-GM/turkish-toxic-language
下载链接
链接失效反馈
官方服务:
资源简介:
该文本数据集是一个土耳其语文本集合,用于检测有毒语言。数据集从多个现有的在线攻击性语言数据集中合并而来,共包含77,800个实例,每个实例被标记为有攻击性或无攻击性。为了确保数据集的完整性,使用了多个Transformer模型进行伪标签增强。数据集以CSV格式提供,并详细列出了合并数据集的来源。

该文本数据集是一个土耳其语文本集合,用于检测有毒语言。数据集从多个现有的在线攻击性语言数据集中合并而来,共包含77,800个实例,每个实例被标记为有攻击性或无攻击性。为了确保数据集的完整性,使用了多个Transformer模型进行伪标签增强。数据集以CSV格式提供,并详细列出了合并数据集的来源。
提供机构:
Overfit-GM
原始信息汇总

Turkish Toxic Language Dataset

数据集概述

数据集总结

  • 语言: 土耳其语
  • 任务类别: 文本分类
  • 许可证: Apache-2.0
  • 数据集大小: 10K<n<100K
  • 数据集名称: Turkish Toxic Language Dataset
  • 数据集格式: CSV

数据集详细信息

  • 实例总数: 77,800

  • 标签分布:

    • 其他: 37,663
    • 亵渎: 18,252
    • 侮辱: 10,777
    • 种族主义: 10,163
    • 性别歧视: 945
    • 攻击性实例: 40,137
    • 非攻击性实例: 37,663
  • 数据源分布:

    • Jigsaw Multilingual Toxic Comments: 35,624
    • Turkish Offensive Language Detection Dataset: 39,551
    • Turkish Cyberbullying Dataset: 2,525

数据集用途

  • 用于土耳其语的攻击性语言检测。
  • 通过多个转换器模型增强数据集,确保数据的完整性和全面性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作