CONAN-MT-SP

github2024-04-27 更新2024-05-31 收录

下载链接：

https://github.com/sinai-uja/RefutES

下载链接

链接失效反馈

官方服务：

资源简介：

RefutES任务中创建的新数据集，包含8个不同仇恨目标（残疾人、犹太人、LGBT+、移民、穆斯林、有色人种、女性及其他群体）的HS-CN对。数据集通过将英语的CONAN-MT语料库中的仇恨言论翻译成西班牙语，并使用GPT-4生成对应的反叙事。数据集经过人工审核和编辑，确保翻译的准确性和反叙事的质量。

A new dataset created for the RefutES task, comprising HS-CN (Hate Speech-Counter Narrative) pairs targeting eight distinct groups (people with disabilities, Jews, LGBT+, immigrants, Muslims, people of color, women, and other groups). The dataset was developed by translating hate speech from the English CONAN-MT corpus into Spanish and generating corresponding counter-narratives using GPT-4. It has undergone manual review and editing to ensure the accuracy of translations and the quality of counter-narratives.

创建时间：

2024-02-21

原始信息汇总

RefutES 数据集概述

数据集内容

数据集名称： RefutES
数据集描述： 该数据集包含了一个名为CONAN-MT-SP的语料库，该语料库由HS-CN对组成，覆盖了8种不同的仇恨目标（残疾人、犹太人、LGBT+、移民、穆斯林、有色人种、女性及其他群体）。

数据集构建

数据来源： 使用英语MultiTarget CONAN (CONAN-MT) 语料库的仇恨言论，通过DeepL API翻译成西班牙语。
生成方法： 使用GPT-4模型通过Few Shot Learning Strategy生成每个仇恨言论的反叙事（CN）。
质量控制： 所有翻译和生成的反叙事均由人工标注者审核，必要时进行编辑。

数据集评估

评估指标： 使用多种指标评估反叙事的质量，包括攻击性、立场、信息性、真实性、编辑需求和CN比较。

数据集结构

数据集分割：
- 训练集： 包含2496个HS-CN对。
- 开发集： 包含279个HS-CN对。
- 测试集： 包含156个HS-CN对，其中78对由GPT-4生成并人工标注，另外78对由人工生成。

数据集特征

id： 字符串，表示HS-CN对的标识。
Hate-speech： 包含仇恨言论消息。
Reference-counternarrative： 包含与仇恨言论消息相关联的由GPT-4生成的反叙事。
Target： 包含受仇恨消息影响的群体，可以是残疾人、犹太人、LGBT+、移民、穆斯林、有色人种、女性及其他群体。

搜集汇总

数据集介绍

构建方式

CONAN-MT-SP数据集的构建基于英语多目标CONAN（CONAN-MT）语料库，该语料库通过从两个不同的非政府组织（NGO）获取仇恨言论与反叙事对（HS-CN pairs），并使用GPT-4模型生成更多HS-CN对，过程中结合了人工审查。为了适应西班牙语环境，CONAN-MT中的仇恨言论被翻译成西班牙语，翻译过程使用了DeepL API，并由标注人员进行校对和修正。每个仇恨言论对应的反叙事由GPT-4模型生成，采用少样本学习策略，模型通过任务描述和8个示例HS-CN对进行提示。生成的反叙事经过人工专家的多维度评估，包括冒犯性、立场、信息性、真实性、编辑需求以及与人类生成反叙事的比较。最终，数据集筛选出符合标准的‘完美’反叙事，并分为训练集、开发集和测试集。

使用方法

CONAN-MT-SP数据集可用于多种自然语言处理任务，包括仇恨言论检测、反叙事生成及跨语言文本翻译与评估。用户可以通过提供的CSV文件访问数据集，文件中包含仇恨言论、GPT-4生成的反叙事、目标群体等特征。数据集分为训练集、开发集和测试集，用户可根据需求选择合适的子集进行模型训练、验证和测试。此外，数据集还提供了评估指标的实现代码，用户可通过metrics.py脚本进行模型性能的量化评估。通过这些资源，研究者和开发者能够深入探索仇恨言论与反叙事生成领域的最新技术与方法。

背景与挑战

背景概述

在应对仇恨言论的领域中，CONAN-MT-SP数据集的创建标志着一项重要的进展。该数据集由Fanton等人于2021年基于CONAN-MT语料库构建，旨在通过提供多目标仇恨言论及其对应的反叙事，推动跨语言仇恨言论检测与反驳的研究。CONAN-MT-SP数据集涵盖了针对8个不同目标群体的仇恨言论，包括残疾人、犹太人、LGBT+群体、移民、穆斯林、有色人种、女性及其他群体。通过将原始英语仇恨言论翻译为西班牙语，并利用GPT-4生成反叙事，该数据集不仅丰富了跨语言资源，还通过人工审核确保了翻译与反叙事的准确性。这一数据集的发布为研究者提供了一个宝贵的工具，用以探索和评估仇恨言论检测与反驳的算法性能。

当前挑战

CONAN-MT-SP数据集的构建过程中面临多项挑战。首先，跨语言翻译的准确性是一个关键问题，尽管使用了DeepL API进行翻译，但所有翻译结果均需经过人工审核和修正，以确保翻译质量。其次，GPT-4生成的反叙事需要通过多维度的评估，包括冒犯性、立场、信息性、真实性等，以筛选出“完美”的反叙事。此外，数据集的划分和标注过程也需确保公平性和一致性，特别是在区分机器生成与人工生成的反叙事时。这些挑战不仅反映了数据集构建的复杂性，也为未来的研究提出了更高的要求，特别是在提升跨语言处理和生成模型的可靠性方面。

常用场景

经典使用场景

CONAN-MT-SP数据集的经典使用场景主要集中在对抗性文本生成与评估领域。该数据集通过提供多目标仇恨言论及其对应的反叙事，为研究者提供了一个丰富的资源库，用于训练和评估自动生成反叙事模型的性能。具体而言，研究者可以利用该数据集进行模型训练，以生成针对不同仇恨言论目标的反叙事，并通过数据集中的多维度评估指标对生成结果进行细致的分析与优化。

解决学术问题

CONAN-MT-SP数据集解决了在仇恨言论检测与反叙事生成领域中的多个学术研究问题。首先，它为研究者提供了一个多语言、多目标的仇恨言论与反叙事对，填补了该领域在跨语言数据资源上的空白。其次，数据集中的多维度评估指标（如冒犯性、立场、信息量等）为反叙事生成的质量评估提供了科学依据，推动了相关模型的性能提升与理论研究。

实际应用

在实际应用中，CONAN-MT-SP数据集可广泛应用于社交媒体平台的仇恨言论自动检测与反叙事生成系统。通过训练基于该数据集的模型，平台可以实时识别并生成针对仇恨言论的反叙事，从而有效减少网络暴力与仇恨言论的传播。此外，该数据集还可用于教育领域，帮助开发反仇恨言论的教育工具，提升公众对仇恨言论的认知与应对能力。

数据集最近研究