Multilingual Hatemail Corpus

github2018-05-02 更新2024-05-31 收录

下载链接：

https://github.com/OmerShapira/Hatemail-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为研究人员和爱好者提供的邮件数据集，用于研究仇恨邮件。数据集采用JSON格式，每个条目包含邮件文本和使用的语言，支持多种语言，并要求提交者按照ISO 639-2语言代码标记语言。

This is an email dataset provided for researchers and enthusiasts to study hate mail. The dataset is in JSON format, with each entry containing the email text and the language used. It supports multiple languages and requires submitters to label the language according to the ISO 639-2 language code.

创建时间：

2014-02-26

原始信息汇总

The Multilingual Hatemail Corpus

目的

该数据集旨在为对仇恨邮件感兴趣的研究人员和爱好者提供一个主要的资源库。

提交指南

提交资格：任何人都可以提交。
格式要求：当前提交格式为JSON，每条记录为一个字符串。
示例格式： json { "entries" : [ { "text" : "HATEMAIL IN HEBREW AND ENGLISH GOES HERE", "languages" : ["heb", "eng"] }, { "text" : "MORE HATEMAIL IN ESTONIAN GOES HERE", "languages" : ["est"] } ]}
语言标记：使用ISO 639-2 语言代码标记语言。
提交方式：按用户名（或匿名）提交到相应文件夹。数据可能会在后期进行处理和重新组织。
注意事项：请勿提交发送者信息。

搜集汇总

数据集介绍

构建方式

Multilingual Hatemail Corpus的构建，旨在汇聚多语言下的侮辱性邮件，以JSON格式存储，每一条目包含文本及对应的ISO 639-2语言代码。参与者可将数据提交至以用户名命名的文件夹中，允许匿名提交，以保护发件人隐私，提交的数据随后可能经过处理与重新组织。

特点

该数据集的特色在于其多语言性，为研究者和爱好者提供了丰富的侮辱性邮件文本资源。其开放式的提交规则允许持续扩展，同时确保了数据的多样性和动态更新。数据集以匿名形式提交，有效保护了个人隐私。

使用方法

使用该数据集，研究者首先需要遵循数据提交指南，将侮辱性邮件以JSON格式整理后，按照用户名分类提交。在使用数据集时，应尊重数据隐私，避免泄露个人信息，同时遵守相应的数据处理和学术规范。

背景与挑战

背景概述

Multilingual Hatemail Corpus是一个多语言仇恨邮件的数据集，旨在为研究人员和爱好者提供研究仇恨邮件的标准化资源。该数据集的创建，源于对网络空间中仇恨言论的广泛关注，以及对有效工具和资源的迫切需求。自创建以来，该数据集已成为多语言仇恨言论检测与处理领域的重要参考，其影响力遍及自然语言处理、社会学和信息安全等多个学科。该数据集由多个研究人员共同维护，并通过GitHub平台进行公开征集和共享。

当前挑战

该数据集面临的挑战主要在于数据的多样性和质量控制。首先，仇恨邮件的语言多样性带来了标注和处理的难题，需要研究人员掌握多种语言的处理能力。其次，构建过程中，确保数据的真实性和代表性的同时，还要保护个人隐私，避免提交者信息泄露。此外，数据集的动态增长特性要求持续的维护和更新机制，以保障数据集的时效性和可用性。

常用场景

经典使用场景

在自然语言处理与机器学习研究领域，Multilingual Hatemail Corpus数据集的经典使用场景主要涉及对仇恨言论的检测与分类。该数据集的多语言特性，使得研究者能够在跨文化交流与理解中，对仇恨言论进行深入分析与研究，进而提升模型的泛化能力。

衍生相关工作

基于该数据集，研究者们衍生出了多项相关经典工作，包括但不限于跨语言仇恨言论检测模型、多语言情感分析工具，以及用于评估和比较不同语言处理模型性能的基准测试。这些研究进一步拓宽了自然语言处理技术在多语言环境中的应用范围。

数据集最近研究