five

PANDA – Paired Anti-hate Narratives Dataset from Asia

收藏
arXiv2025-01-05 更新2025-01-08 收录
下载链接:
https://github.com/michaelbennieUFL/PANDA
下载链接
链接失效反馈
官方服务:
资源简介:
PANDA数据集是首个专注于中文反仇恨言论的语料库,由佛罗里达大学和Lingua的研究团队创建。该数据集包含2974条仇恨言论与反仇恨言论的配对数据,旨在解决中文社交媒体中仇恨言论的对抗问题。数据来源包括多个开源中文仇恨言论数据集,如COLD、SWSR和CHSD。通过使用LLM-as-a-Judge和模拟退火算法生成反仇恨言论,并经过人工验证,确保数据的质量和上下文相关性。该数据集为中文反仇恨言论的生成和评估提供了重要资源,适用于自然语言处理领域的研究和应用。

PANDA Dataset is the first corpus focused on Chinese anti-hate speech, created by research teams from the University of Florida and Lingua. This dataset contains 2,974 paired instances of hate speech and anti-hate speech, aiming to address the adversarial problem of hate speech on Chinese social media. Its data sources cover multiple open-source Chinese hate speech datasets, including COLD, SWSR and CHSD. Anti-hate speech were generated using the LLM-as-a-Judge framework and simulated annealing algorithm, and underwent manual verification to ensure data quality and contextual relevance. This dataset provides an important resource for the generation and evaluation of Chinese anti-hate speech, applicable to both research and practical applications in the field of natural language processing.
提供机构:
佛罗里达大学, Lingua
创建时间:
2025-01-01
搜集汇总
数据集介绍
main_image_url
构建方式
PANDA数据集的构建采用了创新的方法,结合了LLM-as-a-Judge(大语言模型作为评判者)的机制、模拟退火算法、零样本生成技术以及轮询算法。首先,从现有的开源中文仇恨言论数据集中筛选出潜在的仇恨言论实例,随后通过大语言模型生成对应的反仇恨言论。生成的反仇恨言论经过模拟退火算法优化,并通过轮询算法进行筛选,最终由人工进行质量验证和上下文相关性检查。这一过程确保了生成的反仇恨言论在语言和文化上的准确性,并为中文反仇恨言论研究提供了首个成对的数据集。
使用方法
PANDA数据集的使用方法多样,适用于多种自然语言处理任务。首先,研究人员可以利用该数据集进行反仇恨言论生成的模型训练和评估,特别是针对中文语境下的生成任务。其次,数据集可以用于研究反仇恨言论的有效性,通过分析不同策略的反仇恨言论在对抗仇恨言论中的表现。此外,数据集还可用于跨语言研究,帮助理解不同文化背景下反仇恨言论的差异。使用该数据集时,建议结合人工评估,以确保生成的反仇恨言论在文化和语言上的准确性。
背景与挑战
背景概述
PANDA(Paired Anti-hate Narratives Dataset from Asia)是由佛罗里达大学的研究团队于2025年创建的首个专注于中文反仇恨言论的数据集。该数据集的诞生填补了东亚地区,尤其是中文语境下反仇恨言论研究的空白。随着社交媒体上仇恨言论的泛滥,传统的言论审查方法引发了关于言论自由的争议,反仇恨言论作为一种替代策略逐渐受到关注。PANDA数据集通过引入LLM-as-a-Judge的方法,结合模拟退火算法和人工验证,生成了高质量的中文反仇恨言论对。该数据集不仅为中文反仇恨言论的生成与评估提供了重要资源,还为非欧洲中心语言的仇恨言论研究开辟了新路径。
当前挑战
PANDA数据集在构建过程中面临多重挑战。首先,中文仇恨言论的识别与标注存在显著困难,尤其是在面对隐晦的网络用语和地域性语言差异时,标注者需要具备深厚的语言和文化知识。其次,现有的中文仇恨言论数据集质量参差不齐,许多数据存在误标问题,导致数据集构建过程中需要大量的人工干预。此外,LLM-as-a-Judge的评估方法在中文语境下表现出一定的局限性,尤其是在评估人类编辑的反仇恨言论时,模型倾向于优先选择AI生成的表面化回应,而非更具深度和逻辑性的反仇恨言论。这些挑战凸显了在中文语境下构建高质量反仇恨言论数据集的复杂性与必要性。
常用场景
经典使用场景
PANDA数据集在自然语言处理领域中被广泛应用于中文反仇恨言论生成的研究。该数据集通过提供成对的仇恨言论与反仇恨言论,为研究人员提供了一个标准化的基准,用于开发和评估自动生成反仇恨言论的模型。特别是在中文语境下,PANDA填补了现有数据集的空白,使得研究者能够更深入地探讨如何通过语言模型生成有效的反仇恨言论。
解决学术问题
PANDA数据集解决了中文反仇恨言论研究中数据稀缺的问题。传统上,中文反仇恨言论的研究受限于缺乏高质量、标注准确的数据集。PANDA通过引入LLM-as-a-Judge的方法,结合模拟退火算法和人工验证,生成了首个中文反仇恨言论数据集。这不仅为中文反仇恨言论的生成提供了数据支持,还为评估反仇恨言论的质量和有效性提供了新的标准。
实际应用
在实际应用中,PANDA数据集可以用于社交媒体平台的自动反仇恨言论生成系统。通过训练基于该数据集的模型,平台可以自动识别仇恨言论并生成相应的反仇恨言论,从而在不删除内容的情况下,有效减少仇恨言论的负面影响。此外,该数据集还可用于教育领域,帮助用户理解如何通过语言对抗仇恨言论,促进更健康的在线讨论环境。
数据集最近研究
最新研究方向
近年来,随着社交媒体上仇恨言论的激增,反仇恨言论(Counterspeech, CS)作为一种替代内容删除的策略,逐渐成为研究热点。PANDA数据集作为首个专注于亚洲地区、特别是中国大陆的现代标准汉语反仇恨言论数据集,填补了该领域的研究空白。该数据集通过引入LLM-as-a-Judge的评估方法,结合模拟退火算法和零样本生成技术,生成了高质量的汉语反仇恨言论对。这一创新方法不仅解决了汉语反仇恨言论数据稀缺的问题,还为非欧洲中心语言的仇恨言论研究提供了新的方法论支持。PANDA数据集的发布,为未来反仇恨言论的自动生成与评估研究提供了重要资源,尤其是在跨文化、跨语言的仇恨言论应对策略中,具有深远的影响和意义。
相关研究论文
  • 1
    PANDA -- Paired Anti-hate Narratives Dataset from Asia: Using an LLM-as-a-Judge to Create the First Chinese Counterspeech Dataset佛罗里达大学, Lingua · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作