ISCA-IUB/AntisemitismOnTwitter|反犹太主义数据集|社交媒体分析数据集
收藏数据集卡片:Twitter/X上的反犹太主义数据集
数据集描述
数据集概述
ISCA项目通过使用标注门户网站编译了此数据集,用于标记推文为反犹太主义或非反犹太主义,以及其他标签。请注意,标注是基于实时数据进行的,包括图像和上下文,如线程。原始数据来源于annotationportal.com。
语言
英语
数据集结构
- TweetID: 表示推文ID。
- Username: 表示发布推文的用户的用户名。
- Text: 表示推文的完整文本(未经预处理)。
- CreateDate: 表示推文的创建日期。
- Biased: 表示我们的标注是否将推文标记为反犹太主义或非反犹太主义。
- Keyword: 表示查询中使用的关键词。关键词可以出现在文本中,包括提及的名称或用户名。
数据集创建
该数据集包含6,941条推文,涵盖了2019年1月至2021年12月期间关于犹太人、以色列和反犹太主义的广泛话题。数据集是从这一时期具有相关关键词的代表性样本中抽取的。其中1,250条推文(18%)符合IHRA定义的反犹太主义信息。
标注
标注过程
我们考虑了推文的文本、图像、视频和链接,在其“自然”上下文中进行标注,包括线程。我们使用基于IHRA定义的详细标注指南,该定义已被30多个政府和国际组织认可和推荐,并经常用于监测和记录反犹太主义事件。我们将定义分为12个段落,每个段落涉及不同形式的反犹太主义和刻板印象。我们创建了一个在线标注工具(https://annotationportal.com),以使标注更简单、更一致,并减少错误,包括在记录标注过程中。该门户显示推文和一个可点击的标注表单,自动保存每个标注,包括标注每条推文所花费的时间。
标注者
所有标注者都熟悉该定义,并接受了测试样本的培训。他们至少参加过一门关于反犹太主义的学术课程或进行过反犹太主义研究。我们视他们为专家标注者。八位不同宗教和性别的专家标注者对18个样本进行了标注,每个样本由两位标注者在交替配置中进行标注。
使用数据集的考虑因素
数据集的社会影响
自动仇恨言论检测的主要挑战之一是缺乏涵盖广泛偏见和非偏见信息的、一致标注的数据集。我们提出了一种标注程序,解决了标注数据集的一些常见弱点。我们专注于Twitter上的反犹太主义言论,创建了一个包含6,941条推文的标注数据集,涵盖了2019年1月至2021年12月期间关于犹太人、以色列和反犹太主义的广泛话题,通过抽取具有相关关键词的代表性样本来实现。我们的标注过程旨在严格应用一个常用的反犹太主义定义,迫使标注者指定定义的哪一部分适用,并允许他们在逐案基础上个人不同意该定义。标注那些指出反犹太主义、报告反犹太主义或与反犹太主义相关的推文(如大屠杀),但本身并非反犹太主义的推文,可以帮助减少自动检测中的误报。
附加信息
数据集策展人
Gunther Jikeli, Sameer Karali, Daniel Miehling, 和 Katharina Soemer
引用信息
Jikeli, Gunther, Sameer Karali, Daniel Miehling, 和 Katharina Soemer (2023): Antisemitic Messages? A Guide to High-Quality Annotation and a Labeled Dataset of Tweets. https://arxiv.org/abs/2304.14599
钻孔成像测井解译数据(2021-2022年)
利用测井设备实时获取的雄安新区D19,D21,D22,冀中坳陷地区JZ01,JZ04钻孔的测井数据,并由Techlog软件 WBI井眼成像解释模块解译的裂缝原始数据
国家地球系统科学数据中心 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
CACD
跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。
OpenDataLab 收录
波士顿房价数据集
波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。
阿里云天池 收录
Chinese-Poetry-Corpus
本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。
github 收录