community-datasets/hate_speech_pl

Name: community-datasets/hate_speech_pl
Creator: community-datasets
Published: 2024-06-25 13:59:42
License: 暂无描述

Hugging Face2024-06-25 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/hate_speech_pl

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为HateSpeechPl，主要用于分析波兰语中的仇恨言论识别。数据集来源于波兰的公共论坛，包含了针对少数群体的各种类型和程度的冒犯性语言。数据集最初以MySQL表的形式提供，后转换为CSV格式以便于使用。数据集支持的任务包括文本分类和情感分析，涉及的主题包括讽刺/挖苦、少数群体描述和话题分类等。数据集的结构包括多个字段，如文本ID、注释者ID、少数群体ID、负面情绪、行动号召、知识来源、讽刺/挖苦、话题、文本内容和评分等。数据集未进行原始分割，且不包含任何个人或敏感信息。

This dataset, named HateSpeechPl, is primarily designed for hate speech recognition analysis in the Polish language. It originates from Polish public forums and contains offensive language of various types and severity levels targeting minority groups. Initially provided in the form of MySQL tables, the dataset was later converted to CSV format for easier usage. Supported tasks include text classification and sentiment analysis, with covered topics such as sarcasm, minority group descriptions, topic classification, and others. The dataset structure includes multiple fields, such as text ID, annotator ID, minority group ID, negative sentiment, call to action, knowledge source, sarcasm, topic, text content, and rating, among others. The dataset has not been originally split, and does not contain any personal or sensitive information.

提供机构：

community-datasets

原始信息汇总

数据集概述

数据集描述

数据集名称: HateSpeechPl
语言: 波兰语
许可证: CC-BY-NC-SA-3.0
多语言性: 单语种
数据集大小: 10K<n<100K
源数据: 原始数据
任务类别: 文本分类
任务ID: 文本评分、多类别分类、多标签分类、情感分类、情感评分、主题分类

数据结构

数据实例

json { "id": 1, "text_id": 121713, "annotator_id": 1, "minority_id": 72, "negative_emotions": false, "call_to_action": false, "source_of_knowledge": 2, "irony_sarcasm": false, "topic": 18, "text": " <font color="blue"> Niemiec</font> mówi co innego", "rating": 0 }

数据字段

id: 唯一标识符
text_id: 文本标识符，用于区分不同注释者对同一文本的评分
annotator_id: 注释者的标识符
minority_id: 文本中描述的少数群体的内部标识符
negative_emotions: 布尔值，表示文本中是否存在负面情绪
call_to_action: 布尔值，表示文本是否号召观众采取行动
source_of_knowledge: 分类变量，描述帖子评分的知识来源（0, 1 或 2）
irony_sarcasm: 布尔值，表示文本中是否存在讽刺或挖苦
topic: 文本主题的内部标识符
text: 帖子文本内容
rating: 整数值，从0到4，值越高表示文本内容越负面

数据分割

数据集未进行原始分割。

数据集创建

数据来源

数据集从公共论坛收集。

个人和敏感信息

数据集不包含任何个人或敏感信息。

使用数据的注意事项

数据集的社会影响

使用数据集的主要有益成果是自动识别仇恨言论。

偏见讨论

数据集仅包含负面帖子，可能无法全面代表整个语言。

其他已知限制

数据集仅供研究目的使用。请检查数据集许可证以获取更多信息。

附加信息

数据集创建者

数据集由Marek Troszyński和Aleksander Wawer创建。

许可证信息

数据集根据CC-BY-NC-SA许可证发布。

引用信息

plaintext @article{troszynski2017czy, title={Czy komputer rozpozna hejtera? Wykorzystanie uczenia maszynowego (ML) w jako{s}ciowej analizie danych}, author={Troszy{ }ski, Marek and Wawer, Aleksandra}, journal={Przegl{k{a}}d Socjologii Jako{s}ciowej}, volume={13}, number={2}, pages={62--80}, year={2017}, publisher={Uniwersytet {L}{o}dzki, Wydzia{l} Ekonomiczno-Socjologiczny, Katedra Socjologii~…} }

贡献

感谢@kacperlukawski添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集