LAHM

Name: LAHM
Creator: Logically.ai
Published: 2023-04-03 20:03:45
License: 暂无描述

arXiv2023-04-03 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2304.00913v1

下载链接

链接失效反馈

官方服务：

资源简介：

LAHM数据集是由Logically.ai创建的一个大型多语言和多领域仇恨言论识别数据集，旨在解决社交媒体中仇恨言论的自动检测问题。该数据集包含近50万条推文，覆盖英语、印地语、阿拉伯语、法语、德语和西班牙语六种语言，并针对辱骂、种族主义、性别歧视、宗教仇恨和极端主义等多个领域进行详细标注。数据集的创建过程涉及使用特定关键词从社交媒体和新闻文章中收集数据，并通过多层级的标注流程确保数据的质量。LAHM数据集的应用领域广泛，包括但不限于社交媒体监控、内容审核和跨语言情感分析，旨在提高对仇恨言论的识别准确性和效率。

The LAHM dataset is a large-scale multilingual, multi-domain hate speech recognition dataset developed by Logically.ai, which aims to address the automatic detection of hate speech on social media. This dataset contains nearly 500,000 tweets covering six languages: English, Hindi, Arabic, French, German, and Spanish, with detailed annotations across multiple domains including abuse, racism, sexism, religious hatred, and extremism. The creation of the LAHM dataset involves collecting data from social media and news articles using specific keywords, and ensuring data quality through a multi-level annotation workflow. The LAHM dataset has a wide range of application scenarios, including but not limited to social media monitoring, content moderation, and cross-lingual sentiment analysis, with the goal of improving the accuracy and efficiency of hate speech recognition.

提供机构：

Logically.ai

创建时间：

2023-04-03

搜集汇总

数据集介绍

构建方式

LAHM数据集的构建方式采用了多语言和跨领域的方法。首先，从HateBase词汇数据集中收集了针对英语、印地语、阿拉伯语、法语、德语和西班牙语等六种语言的仇恨关键词。其次，利用twint API收集了与这些关键词相关的推文，并对推文进行了语言检测、清理和筛选。最后，为了获得领域特定的标签，从多个开源数据集中采样了标注示例，并将其映射到不同的领域类别中。

使用方法

使用LAHM数据集时，首先需要进行数据预处理，包括语言检测、清理和筛选等。然后，可以选择合适的模型进行仇恨言论检测和分类，例如单语言BERT模型、多语言BERT模型和跨语言模型等。最后，可以根据模型在验证集上的性能选择最优模型，并在测试集上进行评估。

背景与挑战

背景概述

近年来，社交媒体上的仇恨言论已成为一个日益严重的问题，对个人和社会造成了深远的影响。为了应对这一挑战，研究人员需要高质量、多语言、多领域的仇恨言论数据集来训练和评估仇恨言论检测模型。LAHM 数据集应运而生，它是一个大规模的半监督训练数据集，旨在促进跨语言和多领域的仇恨言论识别。该数据集涵盖了英语、印地语、阿拉伯语、法语、德语和西班牙语六种语言，并涵盖了辱骂、种族主义、性别歧视、宗教仇恨和极端主义五个领域。LAHM 数据集的创建填补了现有数据集的空白，为仇恨言论检测研究提供了重要的资源。

当前挑战

尽管 LAHM 数据集在仇恨言论检测领域取得了重要进展，但仍面临一些挑战。首先，仇恨言论的检测和分类是一个复杂的问题，需要考虑语言、文化和语境等因素。其次，构建大规模的仇恨言论数据集需要大量的时间和资源，且需要确保数据的质量和准确性。此外，仇恨言论的检测模型可能会存在偏见和误判，需要不断优化和改进。为了应对这些挑战，研究人员需要探索更有效的数据收集和标注方法，开发更准确的检测模型，并建立更完善的评估体系。

常用场景

经典使用场景

LAHM数据集在多语言和跨领域仇恨言论识别方面具有广泛的应用。例如，它可以用于构建和训练能够识别多种语言和领域的仇恨言论检测模型，从而帮助社交媒体平台自动识别和过滤有害内容。此外，LAHM数据集还可以用于研究仇恨言论在不同语言和文化背景下的特征和模式，以及开发跨语言仇恨言论检测的新方法。

解决学术问题

LAHM数据集解决了多语言和跨领域仇恨言论检测的难题。目前，大多数仇恨言论检测研究主要集中在单一语言和单一领域，而LAHM数据集涵盖了六种语言和五个领域，为研究仇恨言论提供了更全面的数据基础。此外，LAHM数据集还采用了半监督学习的方法，利用少量标注数据训练模型，从而降低了数据标注的成本和难度。

实际应用

LAHM数据集在实际应用中具有广泛的应用前景。例如，它可以用于社交媒体平台的仇恨言论检测和过滤，以及政府机构的网络舆情监控。此外，LAHM数据集还可以用于开发智能客服系统，帮助识别和过滤用户的恶意言论。

数据集最近研究