five

SINAI/RefutES

收藏
Hugging Face2025-09-03 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SINAI/RefutES
下载链接
链接失效反馈
官方服务:
资源简介:
RefutES数据集是一个用于生成西班牙语反叙事以对抗仇恨言论的数据集。它包含针对8个不同群体的仇恨言论和对应的反叙事对,如残疾人、犹太人、LGBT+、移民、穆斯林、有色人种、妇女等。该数据集通过翻译英语CONAN-MT语料库并使用GPT-4模型生成反叙事构建而成,并经过人工评估和编辑。数据集分为训练集、验证集和测试集,每个集合都包含不同的HS-CN对。

The RefutES dataset is a collection designed for generating counter-narratives in Spanish to combat hate speech. It includes hate speech and corresponding counter-narratives targeted at 8 different groups such as disabled, Jews, LGBT+, migrants, Muslims, people of colour, women, and others. The dataset is constructed by translating the English CONAN-MT corpus and generating counter-narratives with the GPT-4 model, followed by human evaluation and editing. The dataset is divided into training, development, and test sets, each containing a different number of HS-CN pairs.
提供机构:
SINAI
原始信息汇总

数据集概述

名称: RefutES

目的: 生成反叙事消息以对抗仇恨言论。

数据集构成:

  • 主要内容: 包含HS-CN(仇恨言论-反叙事)对,覆盖8个不同的仇恨目标。
  • 构建方法: 使用CONAN-MT英语语料库的仇恨言论,通过DeepL API翻译成西班牙语,并使用GPT-4模型生成对应的反叙事。

数据集评估:

  • 评估指标: 包括攻击性、立场、信息性、真实性、编辑需求和CN比较。
  • 评估结果: 选择“完美”的反叙事,即非攻击性、完全不同意、具体且信息丰富、真实可信、无需编辑,且与初始CONAN-MT反叙事相当或更优。

数据集划分:

  • 训练集: 包含2496对HS-CN。
  • 开发集: 包含279对HS-CN。
  • 测试集: 包含156对HS-CN,其中78对由GPT-4生成并人工标注,另78对由人工生成。

数据集特征:

  • id: HS-CN对的标识符。
  • Hate-speech: 仇恨言论消息。
  • Reference-counternarrative: 由GPT-4生成的关联反叙事。
  • Target: 受仇恨消息影响的群体。

许可证: Apache-2.0 License

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作