five

ISCA-IUB/AntisemitismOnTwitter

收藏
Hugging Face2023-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ISCA-IUB/AntisemitismOnTwitter
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了6941条推文,涵盖了2019年1月至2021年12月期间关于犹太人、以色列和反犹太主义的广泛话题。数据集通过一个注释门户进行标注,标注内容包括文本、图像、视频和链接,并根据IHRA定义将推文标记为反犹太主义或非反犹太主义。数据集的结构包括推文ID、用户名、推文文本、创建日期、偏见标签和关键词。数据集的创建过程详细描述了注释流程和注释者的背景。此外,README还提到了数据集的社会影响和使用的注意事项。

This dataset contains 6,941 tweets covering a wide range of topics related to Jewish people, Israel, and antisemitism during the period from January 2019 to December 2021. The dataset was annotated via an annotation portal, where the annotation covers text, images, videos, and links, and tweets were labeled as antisemitic or non-antisemitic in accordance with the IHRA definition. The structure of the dataset includes tweet ID, username, tweet text, creation date, bias label, and keywords. The dataset creation process details the annotation workflow and the background of the annotators. In addition, the README document mentions the social impact of the dataset and the precautions for its use.
提供机构:
ISCA-IUB
原始信息汇总

数据集卡片:Twitter/X上的反犹太主义数据集

数据集描述

数据集概述

ISCA项目通过使用标注门户网站编译了此数据集,用于标记推文为反犹太主义或非反犹太主义,以及其他标签。请注意,标注是基于实时数据进行的,包括图像和上下文,如线程。原始数据来源于annotationportal.com。

语言

英语

数据集结构

  • TweetID: 表示推文ID。
  • Username: 表示发布推文的用户的用户名。
  • Text: 表示推文的完整文本(未经预处理)。
  • CreateDate: 表示推文的创建日期。
  • Biased: 表示我们的标注是否将推文标记为反犹太主义或非反犹太主义。
  • Keyword: 表示查询中使用的关键词。关键词可以出现在文本中,包括提及的名称或用户名。

数据集创建

该数据集包含6,941条推文,涵盖了2019年1月至2021年12月期间关于犹太人、以色列和反犹太主义的广泛话题。数据集是从这一时期具有相关关键词的代表性样本中抽取的。其中1,250条推文(18%)符合IHRA定义的反犹太主义信息。

标注

标注过程

我们考虑了推文的文本、图像、视频和链接,在其“自然”上下文中进行标注,包括线程。我们使用基于IHRA定义的详细标注指南,该定义已被30多个政府和国际组织认可和推荐,并经常用于监测和记录反犹太主义事件。我们将定义分为12个段落,每个段落涉及不同形式的反犹太主义和刻板印象。我们创建了一个在线标注工具(https://annotationportal.com),以使标注更简单、更一致,并减少错误,包括在记录标注过程中。该门户显示推文和一个可点击的标注表单,自动保存每个标注,包括标注每条推文所花费的时间。

标注者

所有标注者都熟悉该定义,并接受了测试样本的培训。他们至少参加过一门关于反犹太主义的学术课程或进行过反犹太主义研究。我们视他们为专家标注者。八位不同宗教和性别的专家标注者对18个样本进行了标注,每个样本由两位标注者在交替配置中进行标注。

使用数据集的考虑因素

数据集的社会影响

自动仇恨言论检测的主要挑战之一是缺乏涵盖广泛偏见和非偏见信息的、一致标注的数据集。我们提出了一种标注程序,解决了标注数据集的一些常见弱点。我们专注于Twitter上的反犹太主义言论,创建了一个包含6,941条推文的标注数据集,涵盖了2019年1月至2021年12月期间关于犹太人、以色列和反犹太主义的广泛话题,通过抽取具有相关关键词的代表性样本来实现。我们的标注过程旨在严格应用一个常用的反犹太主义定义,迫使标注者指定定义的哪一部分适用,并允许他们在逐案基础上个人不同意该定义。标注那些指出反犹太主义、报告反犹太主义或与反犹太主义相关的推文(如大屠杀),但本身并非反犹太主义的推文,可以帮助减少自动检测中的误报。

附加信息

数据集策展人

Gunther Jikeli, Sameer Karali, Daniel Miehling, 和 Katharina Soemer

引用信息

Jikeli, Gunther, Sameer Karali, Daniel Miehling, 和 Katharina Soemer (2023): Antisemitic Messages? A Guide to High-Quality Annotation and a Labeled Dataset of Tweets. https://arxiv.org/abs/2304.14599

搜集汇总
数据集介绍
构建方式
在社交媒体内容分析领域,构建高质量标注数据集对于识别偏见言论至关重要。该数据集通过专业标注门户系统,采集了2019年1月至2021年12月期间与犹太人、以色列及反犹太主义话题相关的6941条推文。标注过程严格遵循国际大屠杀纪念联盟(IHRA)定义,将反犹太主义表述细分为12类典型模式,并由经过专业训练的标注者在实时环境中综合评估文本、图像、线程上下文等多模态信息,最终通过分层抽样与关键词检索相结合的策略形成代表性样本。
特点
本数据集的核心特征体现在其标注体系的专业性与多维覆盖性。数据不仅包含推文基础元数据,更依托IHRA国际标准构建了四级置信度标注体系(确信反犹太/可能反犹太/可能非反犹太/确信非反犹太),其中反犹太主义标注比例达18%。特别值得关注的是标注过程保留了推文的动态语境特征,包括完整对话线程、多媒体附件及社交互动痕迹,这种立体化标注方式为研究网络仇恨言论的隐性表达机制提供了独特视角。
使用方法
研究者可基于该数据集开展多维度社会计算研究。在技术应用层面,6941条经专家标注的推文适用于训练细粒度仇恨言论检测模型,其四级置信标签支持概率化分类任务设计。使用时应通过推文ID调用原始社交平台数据以还原完整语境,同时可利用关键词字段进行话题演化分析。需特别注意标注指南中关于非仇恨讨论(如大屠杀纪念内容)的区分标注,这为降低自动化检测误报率提供了重要参照框架。
背景与挑战
背景概述
在数字时代,社交媒体平台如X(原Twitter)已成为公共话语的重要场域,同时也滋生了仇恨言论的传播。针对这一现象,ISCA-IUB/AntisemitismOnTwitter数据集应运而生,由印第安纳大学布卢明顿分校的Gunther Jikeli等学者于2023年创建。该数据集聚焦于反犹太主义言论的自动检测,核心研究问题在于如何精准识别并分类英语推文中的仇恨内容,其基于国际大屠杀纪念联盟(IHRA)的定义,通过专家标注构建了涵盖2019年至2021年的6,941条推文样本,其中18%被标记为反犹太主义。这一工作为计算社会科学和自然语言处理领域提供了关键资源,推动了仇恨言论监测技术的进步,并促进了跨学科对话。
当前挑战
该数据集面临的挑战主要体现在两个层面:在领域问题方面,反犹太主义言论的检测涉及复杂的语义和语境分析,包括识别隐晦的比喻、历史引用以及图像等多模态内容,这要求模型具备深层的文化和社会理解能力,以避免误判或漏检。在构建过程中,标注工作面临显著困难,例如需要依据IHRA定义进行细致划分,并确保专家标注者经过严格培训以保持一致性;同时,处理实时推文数据时,需考虑线程、回复和多媒体上下文,这增加了标注的复杂性和时间成本。此外,平衡数据代表性并减少自动化检测中的误报率,也是持续的技术难点。
常用场景
经典使用场景
在社交媒体内容分析领域,ISCA-IUB/AntisemitismOnTwitter数据集为研究网络仇恨言论提供了关键资源。该数据集通过标注推文为反犹太主义或非反犹太主义,支持自然语言处理模型训练,以识别和分类在线文本中的偏见内容。其基于国际大屠杀纪念联盟定义的结构化标注流程,确保了数据的一致性和可靠性,常用于开发自动化检测系统,以监控社交媒体平台上的有害言论。
解决学术问题
该数据集解决了仇恨言论检测研究中数据标注不一致和范围有限的常见问题。通过提供覆盖广泛主题的标注推文,它帮助学者探索反犹太主义言论的多样表现形式,并减少自动化检测中的误报。基于专家标注和严格定义的应用,数据集促进了跨学科研究,如计算社会科学和数字伦理学,为理解网络偏见传播机制提供了实证基础。
衍生相关工作
基于该数据集,衍生出多项经典研究工作,包括开发基于深度学习的仇恨言论分类模型,如使用BERT等预训练语言模型进行细粒度情感分析。相关研究还扩展至跨文化比较,探索反犹太主义言论在不同语言和地区的差异。这些工作不仅推动了计算方法的创新,还促进了与社会科学理论的融合,为网络内容治理提供了更全面的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作