PANDA – Paired Anti-hate Narratives Dataset from Asia

github2025-01-05 更新2025-01-06 收录

下载链接：

https://github.com/michaelbennieUFL/PANDA

下载链接

链接失效反馈

官方服务：

资源简介：

PANDA是第一个中文仇恨言论和反言论配对的数据集，提供了785条仇恨言论与反言论的配对数据。数据集包含来自多个开源中文仇恨言论数据集的内容，并结合了新生成的反言论。数据集主要用于自然语言处理研究，如仇恨言论检测、反言论生成、内容审核和社会影响分析。

PANDA is the first Chinese dataset for paired hate speech and counter-speech, which includes 785 pairs of hate speech and their corresponding counter-speech. The dataset integrates content from multiple open-source Chinese hate speech datasets, alongside newly generated counter-speech samples. It is primarily designed for natural language processing (NLP) research tasks such as hate speech detection, counter-speech generation, content moderation, and social impact analysis.

创建时间：

2025-01-04

原始信息汇总

PANDA – Paired Anti-hate Narratives Dataset from Asia

数据集概述

总行数：785
语言：简体中文（部分情况下包含中英混用）
仇恨言论来源：
- COLD (Zhang et al., 2020)
- SWSR (Li et al., 2021)
- CHSD (Wu et al., 2022)

这些来源被选中是因为它们的开源可用性以及对各种仇恨/冒犯场景的覆盖，如性别歧视、种族歧视、地域偏见、反LGBTQ和一般冒犯内容。

数据集结构

数据集以单个CSV文件panda_dataset.csv提供，包含以下列：

列名	描述
`hatespeech`	被评估为仇恨或问题内容的输入文本。
`hateScore`	反言论：-1；中性或模糊：0；仇恨言论：1
`userEnteredResponse`	人类编写或选择的回应，针对`hatespeech`内容。
`generatedResponse1`	第一个AI生成的回应。
`generatedResponse2`	第二个AI生成的回应。
`generatedResponse3`	第三个AI生成的回应。
`generatedResponse4`	第四个AI生成的回应。

生成的回应1-4按JudgeLM评分排序，generatedResponse1是JudgeLM最偏好的AI回应，generatedResponse4是最不偏好的。userEnteredResponse由人类从头编写、编辑或直接复制自AI回应。

数据集创建过程

数据收集：从上述开源中文数据集中汇总仇恨/冒犯性帖子。
预过滤：应用基于LLM的评分来隔离可能是仇恨言论的文本，并根据长度和预测的毒性进行细化。
反言论生成：使用模拟退火方法，通过多个LLM为每个仇恨言论实例生成4个不同的反言论回应。
循环排名：专门的LLM-as-a-Judge（JudgeLM）以成对循环方式对这些反言论回应进行评分，并保留最终排名。
人工标注：人工评审员从4个候选中选择最佳反言论，可选地修改以提高准确性和流畅性，并标注每个最终对。

使用场景

仇恨言论检测研究：训练或微调分类模型以检测中文中的特定仇恨内容。
反言论建模：微调或评估生成模型，以生成中文中的上下文敏感反言论。
行为/社会研究：研究不同反言论策略在缓解在线仇恨内容方面的有效性。
提示工程：研究如何通过提示引导LLM生成更具同理心或说服力的回应。

许可证

PANDA采用MIT许可证发布。只要遵循LICENSE文件中的规定，您可以在研究和商业领域自由使用该数据。

引用

如果您在研究中使用或引用PANDA，请引用我们的预印本： bibtex @misc{bennie2025pandapairedantihate, title={PANDA -- Paired Anti-hate Narratives Dataset from Asia: Using an LLM-as-a-Judge to Create the First Chinese Counterspeech Dataset}, author={Michael Bennie and Demi Zhang and Bushi Xiao and Jing Cao and Chryseis Xinyi Liu and Jian Meng and Alayo Tripp}, year={2025}, eprint={2501.00697}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.00697}, }

搜集汇总

数据集介绍

构建方式

PANDA数据集的构建过程体现了多层次的精细处理。首先，研究者从多个开源的中文仇恨言论数据集中收集了仇恨性言论，并利用大型语言模型（LLM）进行预筛选，以确保数据的相关性和质量。接着，通过模拟退火算法结合多个LLM生成四种不同的反仇恨言论响应。随后，采用专门的LLM-as-a-Judge（JudgeLM）对这些响应进行成对评分，并通过循环赛制确定最终排名。最后，人类评审员从四种候选响应中选择最佳的反仇恨言论，并进行必要的修订和标注，以确保数据的准确性和流畅性。

特点

PANDA数据集作为首个中文反仇恨言论数据集，具有显著的特点。它不仅包含了从多个开源数据集中精选的仇恨言论，还提供了由AI生成和人类编辑的反仇恨言论响应。数据集中的每一对仇恨言论和反仇恨言论都经过多层次的筛选和评分，确保了数据的高质量和多样性。此外，数据集还包含了丰富的上下文注释，涵盖了性别歧视、种族歧视、地域偏见、反LGBTQ等多种仇恨言论场景，为研究者提供了广泛的研究素材。

使用方法

PANDA数据集的使用方法多样，适用于多个研究领域。研究者可以利用该数据集进行仇恨言论检测模型的训练和优化，提升模型在中文语境下的识别能力。此外，数据集还可用于反仇恨言论生成模型的微调和评估，帮助开发出更具说服力和同理心的反仇恨言论生成系统。同时，该数据集也为行为和社会学研究提供了宝贵的资源，研究者可以分析不同反仇恨言论策略的有效性。最后，数据集还可用于提示工程研究，探索如何通过提示引导LLM生成更具针对性的反仇恨言论。

背景与挑战

背景概述

PANDA数据集是由佛罗里达大学的研究团队于2025年创建的，旨在填补中文反仇恨言论研究领域的空白。作为首个中文反仇恨言论数据集，PANDA不仅整合了多个开源中文仇恨言论数据集，还通过大语言模型（LLM）生成了与之对应的反仇恨言论。该数据集的核心研究问题在于如何有效检测和生成中文环境下的仇恨言论及其反制言论，从而为自然语言处理（NLP）领域中的仇恨言论检测、反制言论生成、内容审核以及社会影响分析提供支持。PANDA的发布为中文语境下的仇恨言论研究提供了宝贵的资源，推动了相关领域的技术进步和社会影响研究。

当前挑战

PANDA数据集在构建过程中面临多重挑战。首先，中文仇恨言论的多样性和复杂性使得数据收集和标注变得尤为困难，尤其是在区分仇恨言论与其他负面言论时存在主观性。其次，尽管采用了多轮大语言模型生成和人工审核的流程，生成的反制言论仍可能存在边缘案例或模糊性，难以完全覆盖所有情境。此外，数据集中的仇恨言论内容具有潜在的敏感性，如何在研究过程中确保数据的伦理使用和隐私保护也是一个重要挑战。这些挑战不仅影响了数据集的构建质量，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

PANDA数据集在自然语言处理领域中的经典使用场景主要集中在仇恨言论检测与反言论生成的研究中。通过对中文仇恨言论及其对应的反言论进行配对，该数据集为研究人员提供了一个独特的资源，用于训练和评估模型在识别和生成反言论方面的能力。特别是在中文语境下，PANDA填补了公开资源的空白，为语言模型在复杂社会语言环境中的应用提供了重要支持。

实际应用

在实际应用中，PANDA数据集被广泛用于社交媒体平台的内容审核与用户行为研究。通过训练基于该数据集的模型，平台能够更有效地识别和过滤仇恨言论，同时生成适当的反言论以缓解网络暴力。此外，该数据集还为行为和社会学研究提供了数据支持，帮助分析不同反言论策略在减少网络仇恨内容方面的效果。

衍生相关工作

PANDA数据集衍生了一系列相关研究，特别是在中文仇恨言论检测与反言论生成领域。基于该数据集的研究工作包括开发更精确的仇恨言论分类模型、优化反言论生成算法，以及探索语言模型在生成具有同理心的反言论方面的潜力。这些研究不仅推动了中文自然语言处理技术的发展，还为全球范围内的仇恨言论治理提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集