mteb/multi-hatecheck

Name: mteb/multi-hatecheck
Creator: mteb
Published: 2025-05-04 16:08:10
License: 暂无描述

Hugging Face2025-05-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/mteb/multi-hatecheck

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集结合了多语言的HateCheck数据集（包含10种语言，包括英语），由Paul Roettger及其同事在2021年和2022年创建。原始英语数据集和其他语言的数据集可以在GitHub上找到。使用这些数据集时需要引用相关论文。

提供机构：

mteb

原始信息汇总

数据集概述

数据集基本信息

许可: CC-BY-4.0
任务类别: 文本分类
语言: 阿拉伯语 (ara), 葡萄牙语 (por), 英语 (eng), 法语 (fra), 意大利语 (ita), 汉语 (cmn), 西班牙语 (spa), 荷兰语 (nld), 印地语 (hin), 德语 (deu)
大小: 10K<n<100K

数据集配置

默认配置
- 数据文件路径: test/*.jsonl.gz
- 分割: 测试集
特定语言配置
- 印地语
  - 数据文件路径: multi-hatecheck/test/hin.jsonl.gz
  - 分割: 测试集
- 西班牙语
  - 数据文件路径: multi-hatecheck/test/spa.jsonl.gz
  - 分割: 测试集
- 波兰语
  - 数据文件路径: multi-hatecheck/test/pol.jsonl.gz
  - 分割: 测试集
- 英语
  - 数据文件路径: multi-hatecheck/test/eng.jsonl.gz
  - 分割: 测试集
- 法语
  - 数据文件路径: multi-hatecheck/test/fra.jsonl.gz
  - 分割: 测试集
- 荷兰语
  - 数据文件路径: multi-hatecheck/test/nld.jsonl.gz
  - 分割: 测试集
- 意大利语
  - 数据文件路径: multi-hatecheck/test/ita.jsonl.gz
  - 分割: 测试集
- 德语
  - 数据文件路径: multi-hatecheck/test/deu.jsonl.gz
  - 分割: 测试集
- 阿拉伯语
  - 数据文件路径: multi-hatecheck/test/ara.jsonl.gz
  - 分割: 测试集
- 葡萄牙语
  - 数据文件路径: multi-hatecheck/test/por.jsonl.gz
  - 分割: 测试集
- 汉语
  - 数据文件路径: multi-hatecheck/test/cmn.jsonl.gz
  - 分割: 测试集

数据集描述

来源: 结合了多语言的HateCheck数据集，由Paul Roettger及其同事于2021年和2022年创建。
原始英语数据集: 可从https://github.com/Paul/hatecheck获取。
其他语言数据集: 分别存储在不同的GitHub仓库中，涵盖阿拉伯语、汉语、德语、法语、印地语、意大利语、荷兰语、葡萄牙语、西班牙语。

引用信息

Bibtex引用: 提供了两篇相关论文的引用信息，分别关于HateCheck和Multilingual HateCheck的功能测试。

搜集汇总

数据集介绍

构建方式

本数据集通过专家标注的方式构建，涵盖了25种以上的仇恨类型和具有挑战性的非仇恨类型，以及11种语言。数据集包含的文本均经过精心挑选，以确保样本的多样性和代表性，从而为仇恨言论检测模型提供高质量的训练和测试数据。

使用方法

用户可以使用MTEB库中的MTEB类和get_task方法加载本数据集，并使用evaluator.run(model)方法对模型进行评估。此外，用户还可以通过引用MTEB的GitHub仓库了解更多关于如何在MTEB任务上运行模型的信息。

背景与挑战

背景概述

在数字化世界中，网络仇恨言论的检测与分类成为了一个紧迫且复杂的挑战。MultiHateClassification数据集的创建，旨在应对这一挑战，为研究人员提供一个多语言的、大规模的仇恨言论检测数据集。该数据集由MTEB（Massive Text Embedding Benchmark）项目团队创建，于2021年首次发布，并持续更新，以支持跨语言仇恨言论检测模型的研究与开发。数据集包含了11种语言的文本数据，包括阿拉伯语、中文、德语、英语、法语、印地语、意大利语、荷兰语、波兰语、葡萄牙语和西班牙语，涵盖了25种以上的不同类型的仇恨言论和具有挑战性的非仇恨言论。MultiHateClassification数据集的创建，不仅为仇恨言论检测模型提供了宝贵的训练资源，也为相关领域的研究提供了新的视角和工具。

当前挑战

尽管MultiHateClassification数据集为仇恨言论检测提供了丰富的资源，但仍面临一些挑战。首先，数据集的构建过程中，如何确保不同语言和类型仇恨言论的代表性是一个挑战。其次，数据集的多语言特性也带来了模型训练和评估的复杂性。此外，由于仇恨言论的动态性和社会文化的多样性，如何保持数据集的时效性和适用性也是一个需要持续关注的问题。最后，数据集的构建和使用还需要遵循严格的伦理标准，以避免对特定群体造成伤害。

常用场景

经典使用场景

在多语言环境中，仇恨言论的检测和分类是一项重要且具有挑战性的任务。MultiHateCheck数据集为这一领域的研究提供了宝贵的资源，它包含了超过25种不同类型的仇恨言论和具有挑战性的非仇恨言论，覆盖了11种语言。该数据集被广泛应用于开发跨语言的仇恨言论检测模型，这些模型能够在不同的语言环境中准确识别和分类仇恨言论。此外，它还用于评估模型在不同语言和文化背景下的性能，帮助研究者更好地理解仇恨言论的跨文化特征。

解决学术问题

MultiHateCheck数据集解决了跨语言仇恨言论检测中的关键问题，即如何准确识别和分类不同语言和文化背景下的仇恨言论。它提供了一个大规模的、多语言的仇恨言论数据集，为研究者提供了一个基准来评估和比较不同模型在不同语言和文化背景下的性能。此外，该数据集还包含了一系列具有挑战性的非仇恨言论，帮助研究者更好地理解模型在区分仇恨言论和非仇恨言论时的难点。

实际应用

MultiHateCheck数据集的实际应用场景包括社交媒体平台、在线论坛和聊天应用等。通过使用该数据集训练的模型，这些平台可以自动识别和过滤仇恨言论，保护用户免受网络暴力和歧视的侵害。此外，该数据集还可以用于开发跨语言的仇恨言论检测工具，帮助执法机构和研究人员更好地理解和应对跨文化的仇恨言论问题。

数据集最近研究