poleval/poleval2019_cyberbullying

Name: poleval/poleval2019_cyberbullying
Creator: poleval
Published: 2024-01-18 11:13:15
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/poleval/poleval2019_cyberbullying

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - found language_creators: - found language: - pl license: - unknown multilinguality: - monolingual size_categories: - 10K<n<100K source_datasets: - original task_categories: - text-classification task_ids: - intent-classification pretty_name: Poleval 2019 cyberbullying dataset_info: - config_name: task01 features: - name: text dtype: string - name: label dtype: class_label: names: '0': '0' '1': '1' splits: - name: train num_bytes: 1104322 num_examples: 10041 - name: test num_bytes: 109681 num_examples: 1000 download_size: 410001 dataset_size: 1214003 - config_name: task02 features: - name: text dtype: string - name: label dtype: class_label: names: '0': '0' '1': '1' '2': '2' splits: - name: train num_bytes: 1104322 num_examples: 10041 - name: test num_bytes: 109681 num_examples: 1000 download_size: 410147 dataset_size: 1214003 --- # Dataset Card for Poleval 2019 cyberbullying ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** http://2019.poleval.pl/index.php/tasks/task6 - **Repository:** - **Paper:** - **Leaderboard:** - **Point of Contact:** ### Dataset Summary Task 6-1: Harmful vs non-harmful In this task, the participants are to distinguish between normal/non-harmful tweets (class: 0) and tweets that contain any kind of harmful information (class: 1). This includes cyberbullying, hate speech and related phenomena. The data for the task is available now and can be downloaded from the link provided below. Task 6-2: Type of harmfulness In this task, the participants shall distinguish between three classes of tweets: 0 (non-harmful), 1 (cyberbullying), 2 (hate-speech). There are various definitions of both cyberbullying and hate-speech, some of them even putting those two phenomena in the same group. The specific conditions on which we based our annotations for both cyberbullying and hate-speech, which have been worked out during ten years of research will be summarized in an introductory paper for the task, however, the main and definitive condition to distinguish the two is whether the harmful action is addressed towards a private person(s) (cyberbullying), or a public person/entity/large group (hate-speech). ### Supported Tasks and Leaderboards [More Information Needed] ### Languages Polish ## Dataset Structure ### Data Instances [More Information Needed] ### Data Fields - text: the provided tweet - label: for task 6-1 the label can be 0 (non-harmful) or 1 (harmful) for task 6-2 the label can be 0 (non-harmful), 1 (cyberbullying) or 2 (hate-speech) ### Data Splits Train and Test ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information [More Information Needed] ### Citation Information ``` @proceedings{ogr:kob:19:poleval, editor = {Maciej Ogrodniczuk and Łukasz Kobyliński}, title = {{Proceedings of the PolEval 2019 Workshop}}, year = {2019}, address = {Warsaw, Poland}, publisher = {Institute of Computer Science, Polish Academy of Sciences}, url = {http://2019.poleval.pl/files/poleval2019.pdf}, isbn = "978-83-63159-28-3"} } ``` ### Contributions Thanks to [@czabo](https://github.com/czabo) for adding this dataset.

annotations_creators: - 公开获取 language_creators: - 公开获取 language: - 波兰语 license: - 未知 multilinguality: - 单语言 size_categories: - 10000 < 样本数 < 100000 source_datasets: - 原生数据集 task_categories: - 文本分类 task_ids: - 意图分类 pretty_name: Poleval 2019 网络欺凌（cyberbullying） dataset_info: - config_name: task01 features: - name: text dtype: 字符串 - name: label dtype: class_label: names: '0': '0' '1': '1' splits: - name: train num_bytes: 1104322 num_examples: 10041 - name: test num_bytes: 109681 num_examples: 1000 download_size: 410001 dataset_size: 1214003 - config_name: task02 features: - name: text dtype: 字符串 - name: label dtype: class_label: names: '0': '0' '1': '1' '2': '2' splits: - name: train num_bytes: 1104322 num_examples: 10041 - name: test num_bytes: 109681 num_examples: 1000 download_size: 410147 dataset_size: 1214003 # Poleval 2019 网络欺凌数据集卡片 ## 目录 - [数据集描述](#数据集描述) - [数据集摘要](#数据集摘要) - [支持任务与评测榜单](#支持任务与评测榜单) - [语言](#语言) - [数据集结构](#数据集结构) - [数据实例](#数据实例) - [数据字段](#数据字段) - [数据划分](#数据划分) - [数据集构建](#数据集构建) - [构建初衷](#构建初衷) - [源数据](#源数据) - [标注信息](#标注信息) - [个人与敏感信息](#个人与敏感信息) - [数据集使用注意事项](#数据集使用注意事项) - [数据集的社会影响](#数据集的社会影响) - [偏差讨论](#偏差讨论) - [其他已知局限性](#其他已知局限性) - [附加信息](#附加信息) - [数据集维护者](#数据集维护者) - [许可信息](#许可信息) - [引用信息](#引用信息) - [贡献致谢](#贡献致谢) ## 数据集描述 - **主页**：http://2019.poleval.pl/index.php/tasks/task6 - **代码仓库**： - **相关论文**： - **评测榜单**： - **联系人**： ### 数据集摘要 #### 任务6-1：有害内容与无害内容二分类本任务要求参与者区分正常/无害推文（类别：0）与包含任意形式有害信息的推文（类别：1），其中有害信息涵盖网络欺凌（cyberbullying）、仇恨言论（hate speech）及相关不良现象。本任务数据集现已开放，可通过下方提供的链接下载。 #### 任务6-2：有害性类型分类本任务要求参与者对推文进行三分类：0（无害）、1（网络欺凌（cyberbullying））、2（仇恨言论（hate-speech））。目前针对网络欺凌与仇恨言论存在多种定义，部分定义甚至将二者归为同一类别。本次标注所依据的具体准则源自十年研究成果，将在本任务的介绍性论文中详细说明；但区分二者的核心判定标准为：有害行为的针对对象为私人个体（网络欺凌），还是公众人物/公共实体/大型群体（仇恨言论）。 ### 支持任务与评测榜单 [需补充更多信息] ### 语言波兰语 ## 数据集结构 ### 数据实例 [需补充更多信息] ### 数据字段 - `text`：输入的推文文本 - `label`： - 针对任务6-1，标签取值为0（无害）或1（有害） - 针对任务6-2，标签取值为0（无害）、1（网络欺凌）或2（仇恨言论） ### 数据划分训练集与测试集 ## 数据集构建 ### 构建初衷 [需补充更多信息] ### 源数据 #### 初始数据收集与标准化 [需补充更多信息] #### 源语言生产者身份 [需补充更多信息] ### 标注信息 #### 标注流程 [需补充更多信息] #### 标注者身份 [需补充更多信息] ### 个人与敏感信息 [需补充更多信息] ## 数据集使用注意事项 ### 数据集的社会影响 [需补充更多信息] ### 偏差讨论 [需补充更多信息] ### 其他已知局限性 [需补充更多信息] ## 附加信息 ### 数据集维护者 [需补充更多信息] ### 许可信息 [需补充更多信息] ### 引用信息 @proceedings{ogr:kob:19:poleval, editor = {Maciej Ogrodniczuk and Łukasz Kobyliński}, title = {{PolEval 2019 Workshop论文集}}, year = {2019}, address = {波兰华沙}, publisher = {波兰科学院计算机科学研究所}, url = {http://2019.poleval.pl/files/poleval2019.pdf}, isbn = "978-83-63159-28-3"} } ### 贡献致谢感谢[@czabo](https://github.com/czabo) 为本数据集的收录提供支持。

提供机构：

poleval

原始信息汇总

数据集卡片 for Poleval 2019 cyberbullying

数据集描述

数据集摘要

Task 6-1: 有害与非有害

在这个任务中，参与者需要区分正常/非有害的推文（类别：0）和包含任何有害信息的推文（类别：1）。这包括网络欺凌、仇恨言论及相关现象。

Task 6-2: 有害类型

在这个任务中，参与者需要区分三种类别的推文：0（非有害），1（网络欺凌），2（仇恨言论）。网络欺凌和仇恨言论有多种定义，有些甚至将这两种现象归为同一类。我们基于十年的研究总结出的网络欺凌和仇恨言论的具体条件将在任务的介绍性论文中进行总结，但区分这两者的主要和决定性条件是：有害行为是针对私人个体（网络欺凌），还是公众人物/实体/大型群体（仇恨言论）。

支持的任务和排行榜

[更多信息需要]

语言

波兰语

数据集结构

数据实例

[更多信息需要]

数据字段

text: 提供的推文
label: 对于任务6-1，标签可以是0（非有害）或1（有害）对于任务6-2，标签可以是0（非有害），1（网络欺凌）或2（仇恨言论）

数据分割

训练和测试

数据集创建

策划理由

[更多信息需要]

源数据

初始数据收集和规范化

[更多信息需要]

源语言生产者是谁？

[更多信息需要]

注释

注释过程

[更多信息需要]

注释者是谁？

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

@proceedings{ogr:kob:19:poleval, editor = {Maciej Ogrodniczuk and Łukasz Kobyliński}, title = {{Proceedings of the PolEval 2019 Workshop}}, year = {2019}, address = {Warsaw, Poland}, publisher = {Institute of Computer Science, Polish Academy of Sciences}, url = {http://2019.poleval.pl/files/poleval2019.pdf}, isbn = "978-83-63159-28-3"} }

贡献

感谢 @czabo 添加此数据集。

搜集汇总

数据集介绍

构建方式

在社交媒体内容分析领域，Poleval 2019 cyberbullying 数据集源自波兰语推文，专为网络有害信息检测而设计。该数据集通过精心筛选原始推文构建，涵盖正常内容与有害信息两大类别，其中有害信息进一步细分为网络欺凌和仇恨言论。构建过程中，标注工作基于长达十年的研究成果，依据明确的定义区分网络欺凌与仇恨言论：网络欺凌针对私人个体，而仇恨言论则指向公众人物、实体或大型群体。数据集包含训练集与测试集，分别拥有10041条和1000条样本，确保了模型训练与评估的完整性。

特点

该数据集以波兰语单语形式呈现，规模适中，介于一万至十万条样本之间，专注于文本分类任务，特别是意图分类中的有害信息识别。其核心特点在于双任务架构：任务一区分有害与非有害推文，任务二进一步将有害内容分类为网络欺凌或仇恨言论。这种分层设计不仅提升了数据集的实用性，还反映了网络有害行为的复杂性。数据字段简洁明了，仅包含文本和标签，便于研究人员快速集成到机器学习流程中，同时支持对社交媒体中语言暴力的深入探索。

使用方法

在自然语言处理应用中，该数据集适用于训练和评估波兰语有害文本检测模型。用户可通过HuggingFace平台直接下载，数据集提供两个配置：task01用于二分类任务，task02用于三分类任务。使用时，首先加载数据集并选择相应配置，随后利用文本字段作为输入特征，标签字段作为监督信号。研究人员可基于训练集开发分类算法，并在测试集上验证性能，以推动网络内容安全技术的进步。数据集的结构化分割确保了实验的可重复性，同时其聚焦于波兰语的特点，为多语言有害信息检测研究提供了宝贵资源。

背景与挑战

背景概述

随着社交媒体平台的普及，网络欺凌与仇恨言论等有害内容检测成为自然语言处理领域的重要研究方向。Poleval 2019 cyberbullying数据集由波兰学术界于2019年创建，作为PolEval 2019评测任务的核心组成部分，旨在推动波兰语文本有害信息识别技术的研究。该数据集聚焦于推特文本，通过精细标注区分无害内容、网络欺凌及仇恨言论，为构建自动化内容审核系统提供了关键数据支持，对提升在线环境健康度具有显著影响力。

当前挑战

该数据集致力于解决社交媒体有害内容自动检测的挑战，尤其在波兰语语境下，模型需准确捕捉网络欺凌与仇恨言论的细微语义差异及文化特定表达。构建过程中，标注工作面临定义模糊性难题，例如网络欺凌与仇恨言论的界限划分依赖主观判断，且推特文本的噪声特性如缩写、俚语及非正式语法进一步增加了标注一致性与数据质量的保障难度。

常用场景

经典使用场景

在社交媒体内容安全分析领域，Poleval 2019 cyberbullying 数据集为波兰语文本分类任务提供了关键资源。该数据集通过标注推文中的有害内容，支持构建高效的自动化检测模型。研究者通常利用其训练集和测试集，开发能够区分正常文本与包含网络欺凌或仇恨言论的文本的分类器，从而为社交媒体平台的内容审核提供技术支持。

实际应用

在实际应用中，该数据集为波兰语社交媒体平台的内容安全系统开发提供了核心训练数据。基于此数据集构建的模型可集成到自动化审核流程中，实时识别并过滤用户生成内容中的欺凌与仇恨言论，减轻人工审核负担。此外，它也被用于教育或研究机构开发数字公民素养工具，帮助公众识别和应对网络有害行为。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，包括在PolEval 2019竞赛中参赛团队提出的各类分类模型，如基于传统机器学习与深度学习的混合方法。后续研究进一步探索了跨语言迁移学习，将其与英语、德语等资源丰富的有害内容数据集结合，以提升小语种检测性能。这些工作推动了多语言NLP模型在内容安全领域的应用与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集