ProvocationProbe
收藏arXiv2024-10-26 更新2024-10-29 收录
下载链接:
http://arxiv.org/abs/2410.19687v1
下载链接
链接失效反馈官方服务:
资源简介:
ProvocationProbe是一个旨在探索引发仇恨言论与一般仇恨言论区别的数据集,由印度理工学院鲁尔分校、莱布尼茨社会科学研究所和塔尔图大学共同创建。该数据集包含约27,000条从Twitter收集的推文,涵盖了九个全球争议事件,涉及种族、政治和宗教等多个主题。数据集的创建过程包括从Twitter收集数据、使用Google Perspective API进行预处理和手动标注。该数据集主要用于研究引发仇恨言论的特征及其与非引发仇恨言论的区别,旨在帮助识别和缓解在线仇恨言论的传播。
ProvocationProbe is a dataset dedicated to exploring the distinction between provocative hate speech and general hate speech, jointly created by Indian Institute of Technology Roorkee, Leibniz Institute for Social Sciences, and University of Tartu. This dataset contains approximately 27,000 tweets collected from Twitter, covering nine globally controversial events involving multiple themes such as race, politics, and religion. The dataset's construction process includes data collection from Twitter, preprocessing using Google Perspective API, and manual annotation. It is primarily utilized to study the characteristics of provocative hate speech and its differences from non-provocative hate speech, with the goal of aiding the identification and mitigation of the spread of online hate speech.
提供机构:
印度理工学院鲁尔分校, 莱布尼茨社会科学研究所, 塔尔图大学
创建时间:
2024-10-26
搜集汇总
数据集介绍

构建方式
ProvocationProbe数据集的构建始于对Twitter上约二十万条推文的收集,这些推文涵盖了九个全球性的争议事件。这些争议事件跨越了种族、政治和宗教等多个主题。在收集数据后,研究团队利用Google Perspective API对每条推文进行了毒性评分,并设定了一个阈值以筛选出潜在的仇恨言论。最终,经过筛选和标注,数据集包含了约3.8万条推文,分为非仇恨言论、煽动性仇恨言论和非煽动性仇恨言论三类。标注过程由两名非英语母语但具备丰富英语教育背景的标注者完成,确保了对推文内容的准确理解和分类。
特点
ProvocationProbe数据集的显著特点在于其专注于煽动性仇恨言论,这一类别在以往的仇恨言论研究中较少被关注。数据集通过详细的标注和分类,揭示了煽动性仇恨言论与一般仇恨言论之间的差异,特别是针对特定身份的攻击和煽动性言论的特征。此外,数据集还包含了多个全球性争议事件的推文,提供了丰富的上下文信息,有助于深入理解仇恨言论的生成机制和社会影响。
使用方法
ProvocationProbe数据集适用于多种自然语言处理任务,特别是仇恨言论检测和分类。研究者可以利用该数据集训练和评估模型,以区分煽动性仇恨言论与非煽动性仇恨言论,或进一步分析仇恨言论的生成原因和目标群体。数据集的分类标签和详细的标注指南为模型的训练提供了坚实的基础,同时,数据集中的争议事件背景信息也为研究者提供了深入分析仇恨言论社会影响的宝贵资源。
背景与挑战
背景概述
在数字社交媒体领域,仇恨言论检测已成为平台在维护安全在线环境的同时平衡言论自由的重要挑战。近年来,随着在线仇恨言论的增加,相关研究也在不断增多,旨在识别和刻画这种有害内容。ProvocationProbe数据集由印度理工学院Ropar分校、GESIS - Leibniz社会科学研究所和塔尔图大学共同创建,专注于探索引发仇恨言论与一般仇恨言论之间的区别。该数据集收集了约两万条来自Twitter的推文,涵盖九个全球争议事件,涉及种族、政治和宗教等多个主题。通过详细标注和分析,研究人员旨在揭示引发仇恨言论的特征,如针对身份的攻击和仇恨的原因,从而为理解和应对在线仇恨言论提供新的视角。
当前挑战
ProvocationProbe数据集面临的挑战主要集中在两个方面。首先,仇恨言论的定义和分类本身就是一个复杂的问题,尤其是在区分引发仇恨言论与一般仇恨言论时,需要精确的标注和细致的分析。其次,数据集的构建过程中,如何确保标注的一致性和准确性也是一个重大挑战。由于仇恨言论的多样性和隐晦性,标注者需要具备高度的专业素养和敏感性,以避免偏见和误判。此外,数据集的多样性和代表性也是一个需要关注的问题,确保涵盖不同文化和语言背景的仇恨言论,以便于跨文化的研究和应用。
常用场景
经典使用场景
ProvocationProbe数据集的经典使用场景在于其对煽动性仇恨言论的深入分析。该数据集通过收集和标注来自Twitter的二十万条推文,涵盖九个全球性争议事件,旨在区分煽动性仇恨言论与一般仇恨言论。研究者利用此数据集进行自然语言处理(NLP)技术的应用,以识别和分类煽动性仇恨言论,从而为社交媒体平台提供有效的仇恨言论检测工具。
衍生相关工作
ProvocationProbe数据集的发布催生了一系列相关研究工作。例如,研究者利用该数据集开发了新的机器学习模型,以提高仇恨言论检测的准确性。同时,该数据集也激发了对多语言环境下仇恨言论检测的研究兴趣,推动了跨文化仇恨言论分析的发展。此外,基于ProvocationProbe的研究还扩展到了社交媒体用户行为分析,探讨了仇恨言论对用户心理和社会行为的影响。
数据集最近研究
最新研究方向
在社交媒体领域,仇恨言论的检测一直是平台在维护言论自由与营造安全网络环境之间寻求平衡的重要挑战。近年来,针对在线仇恨言论的研究日益增多,其中ProvocationProbe数据集的引入,为区分煽动性仇恨言论与一般仇恨言论提供了新的视角。该数据集通过收集和分析全球九大争议事件中的推文,深入探讨了煽动性仇恨言论的特征,如针对特定身份的攻击和仇恨的原因。这一研究不仅有助于提升在线仇恨言论检测的准确性,还为理解仇恨言论的生成机制及其背后的动机提供了宝贵的数据支持。通过分析n-grams和手动搜索相关推文,研究者揭示了不同争议事件中仇恨言论的目标和动机,从而为制定更有效的仇恨言论干预策略提供了科学依据。
相关研究论文
- 1ProvocationProbe: Instigating Hate Speech Dataset from Twitter印度理工学院鲁尔分校, 莱布尼茨社会科学研究所, 塔尔图大学 · 2024年
以上内容由遇见数据集搜集并总结生成



