five

coltekin/offenseval2020_tr

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/coltekin/offenseval2020_tr
下载链接
链接失效反馈
官方服务:
资源简介:
OffensEval-TR 2020数据集是一个用于土耳其语冒犯性语言分类任务的数据集,包含31,756条标注的推文。数据集分为训练集和测试集,训练集包含31,756条推文,测试集包含3,528条推文。每条推文都被标注为是否包含冒犯性语言(NOT表示不包含,OFF表示包含)。数据集的标注过程是分层的,首先判断推文是否可理解且为土耳其语,然后判断是否包含冒犯性语言,最后判断冒犯性语言是否针对特定目标。数据集的使用遵循Creative Commons Attribution License (CC-BY)许可。

The OffensEval-TR 2020 dataset is a benchmark dataset for Turkish offensive language classification, containing 31,756 annotated tweets. It is split into training and test sets, where the training set includes 31,756 tweets and the test set includes 3,528 tweets. Each tweet is labeled with a binary category to indicate whether it contains offensive language, with "NOT" representing non-offensive content and "OFF" representing offensive content. The annotation process follows a hierarchical workflow: first, verify if the tweet is comprehensible and written in Turkish; second, determine whether the tweet contains offensive language; finally, judge whether the offensive language targets a specific individual or group. The usage of this dataset complies with the Creative Commons Attribution License (CC-BY).
提供机构:
coltekin
原始信息汇总

数据集概述

  • 名称: OffensEval-TR 2020
  • 语言: 土耳其语
  • 许可证: CC-BY-2.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 源数据: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 无
  • 标签: 攻击性语言分类

数据集结构

数据实例

  • 格式: 二元数据集,包含非攻击性(NOT)和攻击性(OFF)推文。

数据字段

  • id: 整数类型,标识符
  • tweet: 字符串类型,推文内容
  • subtask_a: 分类标签,包含0: NOT(非攻击性)和1: OFF(攻击性)

数据分割

  • 训练集: 31756条记录,4260505字节
  • 测试集: 3528条记录,481300字节

数据集创建

源数据

  • 来源: 推特

注释

  • 注释过程: 采用层次化注释流程,包括判断推文是否为土耳其语、是否包含攻击性/不当语言、是否针对特定目标等步骤。

许可证信息

引用信息

@inproceedings{coltekin2020lrec, author = {c{C}"{o}ltekin, c{C}au{g}r{i}}, year = {2020}, title = {A Corpus of Turkish Offensive Language on Social Media}, booktitle = {Proceedings of The 12th Language Resources and Evaluation Conference}, pages = {6174--6184}, address = {Marseille, France}, url = {https://www.aclweb.org/anthology/2020.lrec-1.758}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作