SINAI/RefutES

Name: SINAI/RefutES
Creator: SINAI
Published: 2025-09-03 06:07:17
License: 暂无描述

Hugging Face2025-09-03 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/SINAI/RefutES

下载链接

链接失效反馈

官方服务：

资源简介：

RefutES数据集是一个用于生成西班牙语反叙事以对抗仇恨言论的数据集。它包含针对8个不同群体的仇恨言论和对应的反叙事对，如残疾人、犹太人、LGBT+、移民、穆斯林、有色人种、妇女等。该数据集通过翻译英语CONAN-MT语料库并使用GPT-4模型生成反叙事构建而成，并经过人工评估和编辑。数据集分为训练集、验证集和测试集，每个集合都包含不同的HS-CN对。

The RefutES dataset is a collection designed for generating counter-narratives in Spanish to combat hate speech. It includes hate speech and corresponding counter-narratives targeted at 8 different groups such as disabled, Jews, LGBT+, migrants, Muslims, people of colour, women, and others. The dataset is constructed by translating the English CONAN-MT corpus and generating counter-narratives with the GPT-4 model, followed by human evaluation and editing. The dataset is divided into training, development, and test sets, each containing a different number of HS-CN pairs.

提供机构：

SINAI

原始信息汇总

数据集概述

名称: RefutES

目的: 生成反叙事消息以对抗仇恨言论。

数据集构成:

主要内容: 包含HS-CN（仇恨言论-反叙事）对，覆盖8个不同的仇恨目标。
构建方法: 使用CONAN-MT英语语料库的仇恨言论，通过DeepL API翻译成西班牙语，并使用GPT-4模型生成对应的反叙事。

数据集评估:

评估指标: 包括攻击性、立场、信息性、真实性、编辑需求和CN比较。
评估结果: 选择“完美”的反叙事，即非攻击性、完全不同意、具体且信息丰富、真实可信、无需编辑，且与初始CONAN-MT反叙事相当或更优。

数据集划分:

训练集: 包含2496对HS-CN。
开发集: 包含279对HS-CN。
测试集: 包含156对HS-CN，其中78对由GPT-4生成并人工标注，另78对由人工生成。

数据集特征:

id: HS-CN对的标识符。
Hate-speech: 仇恨言论消息。
Reference-counternarrative: 由GPT-4生成的关联反叙事。
Target: 受仇恨消息影响的群体。

许可证: Apache-2.0 License

5,000+

优质数据集

54 个

任务类型

进入经典数据集