REACT

Name: REACT
Creator: 信息与语言处理中心，慕尼黑大学，慕尼黑机器学习中心，比勒费尔德大学语言学系
Published: 2024-12-06 19:00:05
License: 暂无描述

arXiv2024-12-06 更新2024-12-10 收录

下载链接：

http://arxiv.org/abs/2412.04942v1

下载链接

链接失效反馈

官方服务：

资源简介：

REACT数据集是由慕尼黑大学和比勒费尔德大学联合创建的高质量、文化特定的仇恨言论检测数据集，涵盖七个不同的目标群体和八种低资源语言。数据集内容包括正向、中性、仇恨三种极性的句子，并区分是否包含亵渎语言，总数据量约为12800条。数据集的创建过程包括通过提示收集数据，并由熟悉目标语言和仇恨言论细微差别的数据收集者进行整理。REACT数据集主要应用于低资源语言环境下的仇恨言论检测，旨在为边缘化社区提供隐私保护的工具，以过滤网络上的仇恨言论。

提供机构：

信息与语言处理中心，慕尼黑大学，慕尼黑机器学习中心，比勒费尔德大学语言学系

创建时间：

2024-12-06

搜集汇总

数据集介绍

构建方式

REACT数据集通过精心设计的提示驱动数据收集流程构建，旨在捕捉边缘化社区在低资源语言环境中的仇恨言论。数据收集由精通目标语言并熟悉特定文化背景下仇恨言论细微差别的数据收集者执行。数据集涵盖了七个不同的目标群体和八种低资源语言，每个数据集根据情感极性（积极、中性、仇恨）和是否包含亵渎语言分为六个类别。数据来源包括社交媒体平台、本地在线论坛、新闻文章及其评论部分，部分数据通过AI工具生成并经过人工审查以确保其真实性和准确性。

特点

REACT数据集的显著特点在于其文化特异性和上下文敏感性，确保了数据能够准确反映边缘化社区的实际体验。数据集涵盖了多种低资源语言，且每个数据集在不同类别中保持了平衡的分布，尽管某些语言和类别的句子数量较少。此外，数据集通过交叉注释确保了数据质量，并通过去除个人身份信息来保护用户隐私。

使用方法

REACT数据集可用于训练和评估仇恨言论检测模型，特别是在低资源语言和边缘化社区的背景下。数据集支持联邦学习（FL）方法，允许在用户设备上本地训练模型，从而保护用户隐私。研究者可以使用该数据集进行零样本和少样本学习实验，评估模型在不同目标群体和语言中的表现。此外，数据集还可用于探索个性化联邦学习策略，以满足特定目标群体的需求。

背景与挑战

背景概述

REACT数据集由慕尼黑大学语言与信息处理中心（Center for Information and Language Processing, LMU Munich）和慕尼黑机器学习中心（Munich Center for Machine Learning, MCML）的研究人员于2024年发布，旨在解决边缘化社区在低资源语言环境下的仇恨言论检测问题。该数据集涵盖了七种不同的目标群体和八种低资源语言，通过经验丰富的数据收集者精心构建，确保了数据的文化特异性和高质量。REACT数据集的发布不仅填补了低资源语言环境下仇恨言论检测的空白，还为隐私保护的联邦学习（Federated Learning, FL）提供了实验基础，推动了跨文化、跨语言的仇恨言论检测研究。

当前挑战

REACT数据集在构建过程中面临多重挑战。首先，仇恨言论的复杂性和主观性使得数据标注变得极为困难，不同文化背景下的仇恨言论表现形式各异，导致数据收集和标注的一致性问题。其次，低资源语言的数据稀缺性使得模型训练面临数据不足的困境，尤其是在少样本学习（few-shot learning）场景下，模型的泛化能力受到限制。此外，联邦学习在处理异构数据（non-iid data）时，容易出现模型收敛缓慢的问题，尤其是在客户端数据高度异质化的情境下。最后，如何在保护用户隐私的同时，确保模型的个性化适应性，也是该数据集面临的重要挑战。

常用场景

经典使用场景

REACT数据集的经典使用场景主要集中在低资源语言环境下的仇恨言论检测。该数据集通过收集多种语言和文化背景下的仇恨言论样本，为机器学习模型提供了丰富的训练数据。其核心应用场景包括在社交媒体平台上自动过滤仇恨言论，保护边缘化群体免受网络仇恨言论的侵害。此外，REACT数据集还支持少样本学习（few-shot learning），使得在数据稀缺的情况下仍能训练出有效的仇恨言论检测模型。

衍生相关工作

REACT数据集的发布催生了一系列相关研究工作，特别是在联邦学习和个性化学习领域。研究者们基于REACT数据集探索了如何在保护用户隐私的前提下，通过联邦学习进行仇恨言论检测。此外，REACT还启发了对少样本学习、多语言模型和跨文化仇恨言论检测的研究。这些工作不仅推动了仇恨言论检测技术的发展，还为其他领域的隐私保护机器学习应用提供了新的思路。

数据集最近研究