PANDA – Paired Anti-hate Narratives Dataset from Asia
收藏PANDA – Paired Anti-hate Narratives Dataset from Asia
数据集概述
- 总行数:785
- 语言:简体中文(部分情况下包含中英混用)
- 仇恨言论来源:
- COLD (Zhang et al., 2020)
- SWSR (Li et al., 2021)
- CHSD (Wu et al., 2022)
这些来源被选中是因为它们的开源可用性以及对各种仇恨/冒犯场景的覆盖,如性别歧视、种族歧视、地域偏见、反LGBTQ和一般冒犯内容。
数据集结构
数据集以单个CSV文件panda_dataset.csv提供,包含以下列:
| 列名 | 描述 |
|---|---|
hatespeech |
被评估为仇恨或问题内容的输入文本。 |
hateScore |
反言论:-1;中性或模糊:0;仇恨言论:1 |
userEnteredResponse |
人类编写或选择的回应,针对hatespeech内容。 |
generatedResponse1 |
第一个AI生成的回应。 |
generatedResponse2 |
第二个AI生成的回应。 |
generatedResponse3 |
第三个AI生成的回应。 |
generatedResponse4 |
第四个AI生成的回应。 |
生成的回应1-4按JudgeLM评分排序,generatedResponse1是JudgeLM最偏好的AI回应,generatedResponse4是最不偏好的。userEnteredResponse由人类从头编写、编辑或直接复制自AI回应。
数据集创建过程
- 数据收集:从上述开源中文数据集中汇总仇恨/冒犯性帖子。
- 预过滤:应用基于LLM的评分来隔离可能是仇恨言论的文本,并根据长度和预测的毒性进行细化。
- 反言论生成:使用模拟退火方法,通过多个LLM为每个仇恨言论实例生成4个不同的反言论回应。
- 循环排名:专门的LLM-as-a-Judge(JudgeLM)以成对循环方式对这些反言论回应进行评分,并保留最终排名。
- 人工标注:人工评审员从4个候选中选择最佳反言论,可选地修改以提高准确性和流畅性,并标注每个最终对。
使用场景
- 仇恨言论检测研究:训练或微调分类模型以检测中文中的特定仇恨内容。
- 反言论建模:微调或评估生成模型,以生成中文中的上下文敏感反言论。
- 行为/社会研究:研究不同反言论策略在缓解在线仇恨内容方面的有效性。
- 提示工程:研究如何通过提示引导LLM生成更具同理心或说服力的回应。
许可证
PANDA采用MIT许可证发布。只要遵循LICENSE文件中的规定,您可以在研究和商业领域自由使用该数据。
引用
如果您在研究中使用或引用PANDA,请引用我们的预印本: bibtex @misc{bennie2025pandapairedantihate, title={PANDA -- Paired Anti-hate Narratives Dataset from Asia: Using an LLM-as-a-Judge to Create the First Chinese Counterspeech Dataset}, author={Michael Bennie and Demi Zhang and Bushi Xiao and Jing Cao and Chryseis Xinyi Liu and Jian Meng and Alayo Tripp}, year={2025}, eprint={2501.00697}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.00697}, }




