five

ProvocationProbe|仇恨言论数据集|社交媒体分析数据集

收藏
arXiv2024-10-26 更新2024-10-29 收录
仇恨言论
社交媒体分析
下载链接:
http://arxiv.org/abs/2410.19687v1
下载链接
链接失效反馈
资源简介:
ProvocationProbe是一个旨在探索引发仇恨言论与一般仇恨言论区别的数据集,由印度理工学院鲁尔分校、莱布尼茨社会科学研究所和塔尔图大学共同创建。该数据集包含约27,000条从Twitter收集的推文,涵盖了九个全球争议事件,涉及种族、政治和宗教等多个主题。数据集的创建过程包括从Twitter收集数据、使用Google Perspective API进行预处理和手动标注。该数据集主要用于研究引发仇恨言论的特征及其与非引发仇恨言论的区别,旨在帮助识别和缓解在线仇恨言论的传播。
提供机构:
印度理工学院鲁尔分校, 莱布尼茨社会科学研究所, 塔尔图大学
创建时间:
2024-10-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
ProvocationProbe数据集的构建始于对Twitter上约二十万条推文的收集,这些推文涵盖了九个全球性的争议事件。这些争议事件跨越了种族、政治和宗教等多个主题。在收集数据后,研究团队利用Google Perspective API对每条推文进行了毒性评分,并设定了一个阈值以筛选出潜在的仇恨言论。最终,经过筛选和标注,数据集包含了约3.8万条推文,分为非仇恨言论、煽动性仇恨言论和非煽动性仇恨言论三类。标注过程由两名非英语母语但具备丰富英语教育背景的标注者完成,确保了对推文内容的准确理解和分类。
特点
ProvocationProbe数据集的显著特点在于其专注于煽动性仇恨言论,这一类别在以往的仇恨言论研究中较少被关注。数据集通过详细的标注和分类,揭示了煽动性仇恨言论与一般仇恨言论之间的差异,特别是针对特定身份的攻击和煽动性言论的特征。此外,数据集还包含了多个全球性争议事件的推文,提供了丰富的上下文信息,有助于深入理解仇恨言论的生成机制和社会影响。
使用方法
ProvocationProbe数据集适用于多种自然语言处理任务,特别是仇恨言论检测和分类。研究者可以利用该数据集训练和评估模型,以区分煽动性仇恨言论与非煽动性仇恨言论,或进一步分析仇恨言论的生成原因和目标群体。数据集的分类标签和详细的标注指南为模型的训练提供了坚实的基础,同时,数据集中的争议事件背景信息也为研究者提供了深入分析仇恨言论社会影响的宝贵资源。
背景与挑战
背景概述
在数字社交媒体领域,仇恨言论检测已成为平台在维护安全在线环境的同时平衡言论自由的重要挑战。近年来,随着在线仇恨言论的增加,相关研究也在不断增多,旨在识别和刻画这种有害内容。ProvocationProbe数据集由印度理工学院Ropar分校、GESIS - Leibniz社会科学研究所和塔尔图大学共同创建,专注于探索引发仇恨言论与一般仇恨言论之间的区别。该数据集收集了约两万条来自Twitter的推文,涵盖九个全球争议事件,涉及种族、政治和宗教等多个主题。通过详细标注和分析,研究人员旨在揭示引发仇恨言论的特征,如针对身份的攻击和仇恨的原因,从而为理解和应对在线仇恨言论提供新的视角。
当前挑战
ProvocationProbe数据集面临的挑战主要集中在两个方面。首先,仇恨言论的定义和分类本身就是一个复杂的问题,尤其是在区分引发仇恨言论与一般仇恨言论时,需要精确的标注和细致的分析。其次,数据集的构建过程中,如何确保标注的一致性和准确性也是一个重大挑战。由于仇恨言论的多样性和隐晦性,标注者需要具备高度的专业素养和敏感性,以避免偏见和误判。此外,数据集的多样性和代表性也是一个需要关注的问题,确保涵盖不同文化和语言背景的仇恨言论,以便于跨文化的研究和应用。
常用场景
经典使用场景
ProvocationProbe数据集的经典使用场景在于其对煽动性仇恨言论的深入分析。该数据集通过收集和标注来自Twitter的二十万条推文,涵盖九个全球性争议事件,旨在区分煽动性仇恨言论与一般仇恨言论。研究者利用此数据集进行自然语言处理(NLP)技术的应用,以识别和分类煽动性仇恨言论,从而为社交媒体平台提供有效的仇恨言论检测工具。
衍生相关工作
ProvocationProbe数据集的发布催生了一系列相关研究工作。例如,研究者利用该数据集开发了新的机器学习模型,以提高仇恨言论检测的准确性。同时,该数据集也激发了对多语言环境下仇恨言论检测的研究兴趣,推动了跨文化仇恨言论分析的发展。此外,基于ProvocationProbe的研究还扩展到了社交媒体用户行为分析,探讨了仇恨言论对用户心理和社会行为的影响。
数据集最近研究
最新研究方向
在社交媒体领域,仇恨言论的检测一直是平台在维护言论自由与营造安全网络环境之间寻求平衡的重要挑战。近年来,针对在线仇恨言论的研究日益增多,其中ProvocationProbe数据集的引入,为区分煽动性仇恨言论与一般仇恨言论提供了新的视角。该数据集通过收集和分析全球九大争议事件中的推文,深入探讨了煽动性仇恨言论的特征,如针对特定身份的攻击和仇恨的原因。这一研究不仅有助于提升在线仇恨言论检测的准确性,还为理解仇恨言论的生成机制及其背后的动机提供了宝贵的数据支持。通过分析n-grams和手动搜索相关推文,研究者揭示了不同争议事件中仇恨言论的目标和动机,从而为制定更有效的仇恨言论干预策略提供了科学依据。
相关研究论文
  • 1
    ProvocationProbe: Instigating Hate Speech Dataset from Twitter印度理工学院鲁尔分校, 莱布尼茨社会科学研究所, 塔尔图大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录