DRAX (Direct and Reported Aporophobia on X)

Name: DRAX (Direct and Reported Aporophobia on X)
Creator: 联合国大学澳门研究所, 加拿大国家研究委员会, 加拿大渥太华大学
Published: 2025-04-18 00:53:14
License: 暂无描述

arXiv2025-04-18 更新2025-04-19 收录

下载链接：

https://svkir.com/projects/aporophobia-data.html

下载链接

链接失效反馈

官方服务：

资源简介：

DRAX数据集是由联合国大学澳门研究所、加拿大国家研究委员会和加拿大渥太华大学合作创建的，包含来自世界五个地区的1,816条英文推文。该数据集专注于标注直接表达对贫困人群的偏见（直接歧视）和报道或批评他人对贫困人群的偏见或行为的推文（报道歧视）。数据集旨在帮助研究和缓解社交媒体上对贫困人群的偏见，推动相关政策和干预措施的发展。

The DRAX Dataset was collaboratively created by the United Nations University Institute in Macau, the National Research Council Canada, and the University of Ottawa. It contains 1,816 English tweets collected from five regions across the globe. This dataset focuses on annotating two categories of tweets: those that directly express prejudice against people living in poverty (direct discrimination), and those that report on or criticize others' prejudice or discriminatory behaviors towards people living in poverty (reported discrimination). The dataset aims to facilitate research into and mitigation of prejudice against people living in poverty on social media, and promote the development of relevant policies and intervention measures.

提供机构：

联合国大学澳门研究所, 加拿大国家研究委员会, 加拿大渥太华大学

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

DRAX数据集的构建采用了创新的多阶段方法，首先通过Twitter API收集包含贫困相关关键词的英文推文，覆盖北美、欧洲等五大地理区域。研究团队采用无监督主题建模技术（BERTopic）从142个自动识别主题中筛选出15个与贫困歧视高度相关的主题，并通过区域均衡抽样策略确保数据多样性。最终由三位具有跨文化背景的标注者按照严格定义的'直接歧视'、'转述歧视'和'无歧视'三类标准完成1,816条推文的人工标注，标注过程得到非营利组织的专业指导，Cohen's kappa系数达到0.57。

特点

该数据集具有三个显著特征：地域覆盖广泛性，包含北美、非洲等五大区域的社交媒体话语；标注体系创新性，首次区分直接表达与转述的贫困歧视，并建立包含言语攻击、制度歧视等五级严重程度的分类体系；内容代表性，涵盖将贫困与犯罪、成瘾等负面刻板印象关联的典型话语模式，其中35%北美推文呈现直接歧视，而欧洲推文更多反映结构性歧视现象。

使用方法

研究者可通过分层抽样方式按地理区域或主题分类使用DRAX数据集，适用于三类主要场景：作为基准数据集训练RoBERTa等模型进行贫困歧视自动检测（当前最佳F1值64%）；通过主题对比分析揭示不同地区的歧视话语模式差异；结合所附分类体系开展细粒度研究，如制度性歧视与个体偏见的交叉分析。使用需注意Twitter用户群体的代表性局限，建议配合问卷调查等传统方法进行结论验证。

背景与挑战

背景概述

DRAX (Direct and Reported Aporophobia on X) 数据集由联合国大学澳门研究所、加拿大国家研究委员会和渥太华大学的研究团队于2025年联合创建，旨在通过自然语言处理技术识别和分析社交媒体上针对贫困人群的歧视性言论。该数据集包含来自全球五个地区的1,816条英文推文，标注了直接表达和间接报道的贫困歧视内容。作为首个专注于贫困歧视（aporophobia）的数据资源，DRAX填补了社会偏见研究领域的空白，为政策制定和贫困缓解策略提供了重要依据。其创新性体现在结合认知科学、歧视哲学等多学科理论构建分类体系，并通过无监督主题建模优化数据采样方法。

当前挑战

DRAX数据集面临双重挑战：在领域问题层面，贫困歧视具有隐蔽性和文化依赖性，需区分直接表达与客观报道，且常与种族、移民等议题交织，增加了自动识别的复杂性；在构建过程中，研究者需克服数据稀疏性（仅0.3%推文含歧视内容），通过主题建模解决随机采样效率低下问题。标注过程涉及跨文化语境理解，三名标注者的初始标注一致性仅71%，需通过多轮专家讨论解决歧义。此外，地理分布不均衡（北美数据占26%而非洲仅1%）可能影响模型泛化能力，需采用区域过采样策略平衡数据代表性。

常用场景

经典使用场景

DRAX数据集在社会科学和计算语言学领域具有广泛的应用价值，尤其在研究针对贫困人群的社会偏见（aporophobia）方面。该数据集通过标注社交媒体上的直接和间接aporophobia表达，为研究者提供了一个标准化的工具，用于分析不同地区和文化背景下对贫困人群的歧视性言论。数据集的使用场景包括但不限于社会心理学研究、政策制定支持以及自然语言处理模型的训练与评估。

衍生相关工作

DRAX数据集衍生了一系列相关研究，包括基于其标注体系开发的自动分类模型、跨文化偏见比较研究以及多模态（文本与图像结合）aporophobia检测方法。经典工作还包括利用该数据集训练的RoBERTa和BERTweet模型，这些模型在毒性语言检测任务中表现出色。此外，数据集还启发了对偏见加剧机制（如aporophobia与种族歧视的交互作用）的深入研究。

数据集最近研究