five

Toygar/turkish-offensive-language-detection

收藏
Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Toygar/turkish-offensive-language-detection
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是现有冒犯性语言研究的增强版本。现有研究存在高度不平衡的问题,解决这一问题成本过高。为此,我们提出了上下文数据挖掘方法进行数据集增强。该方法基本上防止我们检索随机推文并单独标记。我们可以直接访问几乎确切的仇恨相关推文并直接标记它们,无需进一步的人工交互,以解决标签不平衡问题。此外,合并了现有研究(可在参考文献部分找到)以创建更全面和鲁棒的土耳其冒犯性语言检测任务数据集。文件train.csv包含42,398条推文,test.csv包含8,851条推文,valid.csv包含1,756条标注推文。数据集结构为二进制,包含(0)非冒犯性和(1)冒犯性推文。
提供机构:
Toygar
原始信息汇总

数据集概述

基本信息

  • 名称: Turkish Offensive Language Detection Dataset
  • 语言: 土耳其语 (tr)
  • 许可证: CC-BY-2.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 标签: offensive-language-classification

数据集结构

  • 任务类别: 文本分类
  • 任务与标签:
    • 0: 非攻击性 - 推文不包含攻击或亵渎
    • 1: 攻击性 - 推文包含攻击性语言或针对性的(隐晦或直接)攻击
  • 数据分割:
    类型 训练 测试 验证
    0 (非攻击性) 22,589 4,436 1,402
    1 (攻击性) 19,809 4,415 354

数据集内容

  • 文件:
    • train.csv: 包含42,398条标注推文
    • test.csv: 包含8,851条标注推文
    • valid.csv: 包含1,756条标注推文

数据集来源与增强

  • 数据集是现有攻击性语言研究的增强版本,通过合并多个开源数据集(如offenseval2020_tr、turkish-hate-speech-dataset-2、5k-turkish-tweets-with-incivil-content)并应用上下文数据挖掘方法进行数据增强,以解决标签不平衡问题。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作