PANDA – Paired Anti-hate Narratives Dataset from Asia

Name: PANDA – Paired Anti-hate Narratives Dataset from Asia
Creator: 佛罗里达大学, Lingua
Published: 2025-01-05 03:36:35
License: 暂无描述

arXiv2025-01-05 更新2025-01-08 收录

下载链接：

https://github.com/michaelbennieUFL/PANDA

下载链接

链接失效反馈

官方服务：

资源简介：

PANDA数据集是首个专注于中文反仇恨言论的语料库，由佛罗里达大学和Lingua的研究团队创建。该数据集包含2974条仇恨言论与反仇恨言论的配对数据，旨在解决中文社交媒体中仇恨言论的对抗问题。数据来源包括多个开源中文仇恨言论数据集，如COLD、SWSR和CHSD。通过使用LLM-as-a-Judge和模拟退火算法生成反仇恨言论，并经过人工验证，确保数据的质量和上下文相关性。该数据集为中文反仇恨言论的生成和评估提供了重要资源，适用于自然语言处理领域的研究和应用。

PANDA Dataset is the first corpus focused on Chinese anti-hate speech, created by research teams from the University of Florida and Lingua. This dataset contains 2,974 paired instances of hate speech and anti-hate speech, aiming to address the adversarial problem of hate speech on Chinese social media. Its data sources cover multiple open-source Chinese hate speech datasets, including COLD, SWSR and CHSD. Anti-hate speech were generated using the LLM-as-a-Judge framework and simulated annealing algorithm, and underwent manual verification to ensure data quality and contextual relevance. This dataset provides an important resource for the generation and evaluation of Chinese anti-hate speech, applicable to both research and practical applications in the field of natural language processing.

提供机构：

佛罗里达大学, Lingua

创建时间：

2025-01-01

搜集汇总

数据集介绍

构建方式

PANDA数据集的构建采用了创新的方法，结合了LLM-as-a-Judge（大语言模型作为评判者）的机制、模拟退火算法、零样本生成技术以及轮询算法。首先，从现有的开源中文仇恨言论数据集中筛选出潜在的仇恨言论实例，随后通过大语言模型生成对应的反仇恨言论。生成的反仇恨言论经过模拟退火算法优化，并通过轮询算法进行筛选，最终由人工进行质量验证和上下文相关性检查。这一过程确保了生成的反仇恨言论在语言和文化上的准确性，并为中文反仇恨言论研究提供了首个成对的数据集。

使用方法

PANDA数据集的使用方法多样，适用于多种自然语言处理任务。首先，研究人员可以利用该数据集进行反仇恨言论生成的模型训练和评估，特别是针对中文语境下的生成任务。其次，数据集可以用于研究反仇恨言论的有效性，通过分析不同策略的反仇恨言论在对抗仇恨言论中的表现。此外，数据集还可用于跨语言研究，帮助理解不同文化背景下反仇恨言论的差异。使用该数据集时，建议结合人工评估，以确保生成的反仇恨言论在文化和语言上的准确性。

背景与挑战

背景概述

PANDA（Paired Anti-hate Narratives Dataset from Asia）是由佛罗里达大学的研究团队于2025年创建的首个专注于中文反仇恨言论的数据集。该数据集的诞生填补了东亚地区，尤其是中文语境下反仇恨言论研究的空白。随着社交媒体上仇恨言论的泛滥，传统的言论审查方法引发了关于言论自由的争议，反仇恨言论作为一种替代策略逐渐受到关注。PANDA数据集通过引入LLM-as-a-Judge的方法，结合模拟退火算法和人工验证，生成了高质量的中文反仇恨言论对。该数据集不仅为中文反仇恨言论的生成与评估提供了重要资源，还为非欧洲中心语言的仇恨言论研究开辟了新路径。

当前挑战

PANDA数据集在构建过程中面临多重挑战。首先，中文仇恨言论的识别与标注存在显著困难，尤其是在面对隐晦的网络用语和地域性语言差异时，标注者需要具备深厚的语言和文化知识。其次，现有的中文仇恨言论数据集质量参差不齐，许多数据存在误标问题，导致数据集构建过程中需要大量的人工干预。此外，LLM-as-a-Judge的评估方法在中文语境下表现出一定的局限性，尤其是在评估人类编辑的反仇恨言论时，模型倾向于优先选择AI生成的表面化回应，而非更具深度和逻辑性的反仇恨言论。这些挑战凸显了在中文语境下构建高质量反仇恨言论数据集的复杂性与必要性。

常用场景

经典使用场景

PANDA数据集在自然语言处理领域中被广泛应用于中文反仇恨言论生成的研究。该数据集通过提供成对的仇恨言论与反仇恨言论，为研究人员提供了一个标准化的基准，用于开发和评估自动生成反仇恨言论的模型。特别是在中文语境下，PANDA填补了现有数据集的空白，使得研究者能够更深入地探讨如何通过语言模型生成有效的反仇恨言论。

解决学术问题

PANDA数据集解决了中文反仇恨言论研究中数据稀缺的问题。传统上，中文反仇恨言论的研究受限于缺乏高质量、标注准确的数据集。PANDA通过引入LLM-as-a-Judge的方法，结合模拟退火算法和人工验证，生成了首个中文反仇恨言论数据集。这不仅为中文反仇恨言论的生成提供了数据支持，还为评估反仇恨言论的质量和有效性提供了新的标准。

实际应用

在实际应用中，PANDA数据集可以用于社交媒体平台的自动反仇恨言论生成系统。通过训练基于该数据集的模型，平台可以自动识别仇恨言论并生成相应的反仇恨言论，从而在不删除内容的情况下，有效减少仇恨言论的负面影响。此外，该数据集还可用于教育领域，帮助用户理解如何通过语言对抗仇恨言论，促进更健康的在线讨论环境。

数据集最近研究