SINAI/RefutES
收藏Hugging Face2025-09-03 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SINAI/RefutES
下载链接
链接失效反馈官方服务:
资源简介:
RefutES数据集是一个用于生成西班牙语反叙事以对抗仇恨言论的数据集。它包含针对8个不同群体的仇恨言论和对应的反叙事对,如残疾人、犹太人、LGBT+、移民、穆斯林、有色人种、妇女等。该数据集通过翻译英语CONAN-MT语料库并使用GPT-4模型生成反叙事构建而成,并经过人工评估和编辑。数据集分为训练集、验证集和测试集,每个集合都包含不同的HS-CN对。
The RefutES dataset is a collection designed for generating counter-narratives in Spanish to combat hate speech. It includes hate speech and corresponding counter-narratives targeted at 8 different groups such as disabled, Jews, LGBT+, migrants, Muslims, people of colour, women, and others. The dataset is constructed by translating the English CONAN-MT corpus and generating counter-narratives with the GPT-4 model, followed by human evaluation and editing. The dataset is divided into training, development, and test sets, each containing a different number of HS-CN pairs.
提供机构:
SINAI
原始信息汇总
数据集概述
名称: RefutES
目的: 生成反叙事消息以对抗仇恨言论。
数据集构成:
- 主要内容: 包含HS-CN(仇恨言论-反叙事)对,覆盖8个不同的仇恨目标。
- 构建方法: 使用CONAN-MT英语语料库的仇恨言论,通过DeepL API翻译成西班牙语,并使用GPT-4模型生成对应的反叙事。
数据集评估:
- 评估指标: 包括攻击性、立场、信息性、真实性、编辑需求和CN比较。
- 评估结果: 选择“完美”的反叙事,即非攻击性、完全不同意、具体且信息丰富、真实可信、无需编辑,且与初始CONAN-MT反叙事相当或更优。
数据集划分:
- 训练集: 包含2496对HS-CN。
- 开发集: 包含279对HS-CN。
- 测试集: 包含156对HS-CN,其中78对由GPT-4生成并人工标注,另78对由人工生成。
数据集特征:
- id: HS-CN对的标识符。
- Hate-speech: 仇恨言论消息。
- Reference-counternarrative: 由GPT-4生成的关联反叙事。
- Target: 受仇恨消息影响的群体。
许可证: Apache-2.0 License



