PANDA – Paired Anti-hate Narratives Dataset from Asia
收藏arXiv2025-01-01 更新2025-01-07 收录
下载链接:
http://arxiv.org/abs/2501.00697v1
下载链接
链接失效反馈官方服务:
资源简介:
PANDA数据集是首个专注于亚洲地区中文仇恨言论的反言论数据集,由佛罗里达大学和Lingua的研究团队创建。该数据集包含2974条仇恨言论与反言论的配对数据,旨在通过自动化生成反言论来应对中文社交媒体上的仇恨言论问题。数据来源于多个公开的中文仇恨言论数据集,经过预处理和人工验证,确保数据的质量和上下文相关性。数据集的应用领域包括自然语言处理、反言论生成与评估研究,旨在为中文社交媒体上的仇恨言论提供有效的应对策略。
The PANDA Dataset is the first anti-hate speech dataset targeting Chinese hate speech within the Asian region, created by research teams from the University of Florida and Lingua. It contains 2,974 paired instances of hate speech and counter-speech, designed to address the problem of hate speech on Chinese social media through automated counter-speech generation. The dataset is sourced from multiple publicly available Chinese hate speech datasets, and has undergone preprocessing and manual verification to ensure data quality and contextual relevance. Its application areas include natural language processing (NLP), counter-speech generation and evaluation research, with the goal of providing effective countermeasures against hate speech on Chinese social media.
提供机构:
佛罗里达大学, Lingua
创建时间:
2025-01-01
搜集汇总
数据集介绍

构建方式
PANDA数据集的构建采用了创新的LLM-as-Judge方法,结合模拟退火算法、零样本生成和轮询算法,生成针对中文仇恨言论的反驳语料。首先,从公开的中文仇恨言论数据集中筛选出26,420条仇恨言论实例,随后通过LLM生成反驳语料,并经过人工验证以确保质量和上下文相关性。最终,数据集包含2,974对仇恨言论与反驳语料的配对,确保每条反驳语料都与特定的仇恨言论实例直接关联。
特点
PANDA数据集是首个专注于中文仇恨言论的反驳语料库,填补了东亚语言反驳语料研究的空白。其独特之处在于采用了配对结构,每条反驳语料都与特定的仇恨言论实例直接关联,便于进行精确的上下文分析。此外,数据集涵盖了多种文化背景下的仇恨言论模式,并提供了详细的标注方案,适应了中文文化和语言的特殊性。
使用方法
PANDA数据集可用于训练和评估自动生成反驳语料的自然语言处理模型。研究人员可以通过该数据集分析不同反驳策略的有效性,并开发针对中文仇恨言论的自动化反驳系统。数据集中的配对结构使得模型能够学习如何在特定上下文中生成有效的反驳语料。此外,数据集还可用于评估LLM在中文反驳语料生成中的表现,帮助改进现有的评估方法。
背景与挑战
背景概述
PANDA(Paired Anti-hate Narratives Dataset from Asia)是由佛罗里达大学的研究团队于2025年创建的首个专注于中文反仇恨言论(Counterspeech, CS)的数据集。该数据集的诞生填补了东亚地区,尤其是中国大陆在反仇恨言论研究领域的空白。尽管现代标准汉语在全球范围内广泛使用,但针对中文的反仇恨言论资源却几乎不存在。PANDA数据集的创建旨在通过使用大语言模型(LLM-as-a-Judge)生成高质量的反仇恨言论,并结合模拟退火算法、零样本生成和轮询算法等技术手段,构建了一个包含成对仇恨言论与反仇恨言论的语料库。该数据集不仅为中文反仇恨言论的生成与评估提供了重要资源,还为非西方语言的反仇恨言论研究开辟了新的方向。
当前挑战
PANDA数据集在构建过程中面临多重挑战。首先,中文仇恨言论的识别与标注存在显著困难,尤其是由于网络用语、地域性语言差异以及社交媒体审查等因素,导致仇恨言论的界定复杂且模糊。其次,尽管大语言模型在生成反仇恨言论方面表现出潜力,但其生成的文本往往缺乏文化敏感性和语境相关性,难以有效应对中文语境下的复杂情感和修辞策略。此外,数据集的标注过程中,人工审核的成本较高,且现有的大语言模型评估机制(如JudgeLM)在评分时倾向于偏好AI生成的文本,而忽视了人类编辑的反仇恨言论的深度和逻辑性。这些挑战凸显了在中文反仇恨言论研究中,仍需进一步优化生成模型和评估方法,以确保生成的反仇恨言论既具有文化敏感性,又能有效应对仇恨言论的多样性。
常用场景
经典使用场景
PANDA数据集主要用于研究中文环境下的反仇恨言论生成与评估。该数据集通过提供成对的仇恨言论与反仇恨言论,为自然语言处理领域的研究者提供了一个独特的资源,用于训练和评估反仇恨言论生成模型。特别是在中文语境下,PANDA填补了现有数据集的空白,使得研究者能够更深入地探讨如何在中文社交媒体上有效应对仇恨言论。
实际应用
在实际应用中,PANDA数据集可以用于开发自动化的反仇恨言论生成系统,帮助社交媒体平台和在线社区更有效地应对仇恨言论。通过使用该数据集训练的模型,平台可以自动生成针对特定仇恨言论的反驳内容,从而减少仇恨言论的传播和影响。此外,PANDA还可以用于教育领域,帮助用户识别和应对网络上的仇恨言论,提升公众的媒体素养和网络道德意识。
衍生相关工作
PANDA数据集的发布催生了一系列相关研究,特别是在中文反仇恨言论生成和评估领域。基于该数据集,研究者开发了多种基于大语言模型的生成方法,并提出了新的评估指标,如JudgeLM和BERTScore等。此外,PANDA还为跨语言反仇恨言论研究提供了基础,推动了其他东亚语言(如日语和韩语)的类似数据集开发。这些工作不仅扩展了反仇恨言论研究的范围,还为全球范围内的仇恨言论治理提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



