community-datasets/hate_speech_pl
收藏数据集概述
数据集描述
- 数据集名称: HateSpeechPl
- 语言: 波兰语
- 许可证: CC-BY-NC-SA-3.0
- 多语言性: 单语种
- 数据集大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 文本分类
- 任务ID: 文本评分、多类别分类、多标签分类、情感分类、情感评分、主题分类
数据结构
数据实例
json { "id": 1, "text_id": 121713, "annotator_id": 1, "minority_id": 72, "negative_emotions": false, "call_to_action": false, "source_of_knowledge": 2, "irony_sarcasm": false, "topic": 18, "text": " <font color="blue"> Niemiec</font> mówi co innego", "rating": 0 }
数据字段
id: 唯一标识符text_id: 文本标识符,用于区分不同注释者对同一文本的评分annotator_id: 注释者的标识符minority_id: 文本中描述的少数群体的内部标识符negative_emotions: 布尔值,表示文本中是否存在负面情绪call_to_action: 布尔值,表示文本是否号召观众采取行动source_of_knowledge: 分类变量,描述帖子评分的知识来源(0, 1 或 2)irony_sarcasm: 布尔值,表示文本中是否存在讽刺或挖苦topic: 文本主题的内部标识符text: 帖子文本内容rating: 整数值,从0到4,值越高表示文本内容越负面
数据分割
数据集未进行原始分割。
数据集创建
数据来源
数据集从公共论坛收集。
个人和敏感信息
数据集不包含任何个人或敏感信息。
使用数据的注意事项
数据集的社会影响
使用数据集的主要有益成果是自动识别仇恨言论。
偏见讨论
数据集仅包含负面帖子,可能无法全面代表整个语言。
其他已知限制
数据集仅供研究目的使用。请检查数据集许可证以获取更多信息。
附加信息
数据集创建者
数据集由Marek Troszyński和Aleksander Wawer创建。
许可证信息
数据集根据CC-BY-NC-SA许可证发布。
引用信息
plaintext @article{troszynski2017czy, title={Czy komputer rozpozna hejtera? Wykorzystanie uczenia maszynowego (ML) w jako{s}ciowej analizie danych}, author={Troszy{ }ski, Marek and Wawer, Aleksandra}, journal={Przegl{k{a}}d Socjologii Jako{s}ciowej}, volume={13}, number={2}, pages={62--80}, year={2017}, publisher={Uniwersytet {L}{o}dzki, Wydzia{l} Ekonomiczno-Socjologiczny, Katedra Socjologii~…} }
贡献
感谢@kacperlukawski添加此数据集。



