M-Phasis

github2022-04-29 更新2024-05-31 收录

下载链接：

https://github.com/uds-lsv/mphasis

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个特征基于的在线仇恨语料库，用于LREC 2022出版物中提到的研究。数据集包含德语和法语的数据和注释，用于分析和研究在线仇恨言论。

This is a feature-based online hate speech corpus, utilized in the research mentioned in the LREC 2022 publication. The dataset includes data and annotations in both German and French, aimed at analyzing and studying online hate speech.

创建时间：

2022-01-15

原始信息汇总

数据集概述

数据集名称

M-Phasis

数据集来源

LREC 2022出版物 "Placing M-Phasis on the Plurality of Hate: A Feature-Based Corpus of Hate Online"

数据集结构

annotations: 包含原始数据和注释。
model_outputs: 包含论文中介绍的模型的各种测试集预测。
train_dev_test_splits: 包含实验部分使用的训练、开发和测试分割。
annotation_protocol.pdf: 包含用于注释数据集的注释协议。

数据集内容

German (de) and French datasets: 位于{de,fr}.data.csv中，包含以下列：
- id
- content
- user_id
- article_id
- direct_parent_id
- internal_id
- outlet
- outlet2
- type
- type2
- length
- words
Annotations: 位于{de,fr}.annotations.{articles,comments}.csv中，包含以下列：
- id
- annotator
- 其他列的详细解释请参考注释协议。

模型输出

每个模型输出文件包含每行一个测试实例。每个测试实例提供10次随机种子运行的模型输出，以空格分隔。

训练-开发-测试分割

分割格式如下：

id
content
e1-a3c: 实例的相应子任务标签。99表示该实例不应用于子任务。

许可证要求

需要归属（见bibtex）
不允许商业使用
不允许通过除Github仓库以外的任何方式与他人共享上传的材料或其衍生品

引用信息

若使用此数据集，请引用以下出版物：

@InProceedings{ruiter_reiners:2022:LREC, author = {Ruiter, Dana and Reiners, Liane and Geet DSa, Ashwin and Kleinbauer, Thomas and Fohr, Dominique and Illina, Irina and Klakow, Dietrich and Schemer, Christian and Monnier, Angeliki}, title = {Placing M-Phasis on the Plurality of Hate: A Feature-Based Corpus of Hate Online}, booktitle = {Proceedings of The 14th Language Resources and Evaluation Conference}, month = {June}, year = {2022}, address = {Marseille, France}, publisher = {European Language Resources Association} }

搜集汇总

数据集介绍

构建方式

M-Phasis数据集的构建基于对德语和法语在线内容的深入分析，旨在捕捉仇恨言论的多样性。数据集通过从新闻文章及其相关评论中提取内容，结合详细的注释协议进行标注。每个实例均包含唯一标识符、内容、用户ID、文章ID等信息，并通过多轮迭代的注释过程确保数据的丰富性和准确性。注释过程由多名标注者完成，确保了数据的多样性和可靠性。

特点

M-Phasis数据集的特点在于其多语言性和多层次注释结构。数据集涵盖了德语和法语的新闻文章及其评论，注释内容不仅包括基本的文本信息，还涉及多个维度的情感和语义分析。每个实例的注释通过多轮迭代完成，能够捕捉到复杂的语言现象和情感表达。此外，数据集还提供了详细的注释协议，帮助用户理解每个注释变量的具体含义。

使用方法

M-Phasis数据集的使用方法包括下载数据集文件并按照提供的注释协议进行解析。用户可以通过数据集中的唯一标识符将数据实例与相应的注释进行匹配。数据集已划分为训练集、开发集和测试集，用户可以直接使用这些划分进行模型训练和评估。此外，数据集还提供了多个模型的输出结果，用户可以通过这些结果进行模型性能的对比分析。使用数据集时，需遵守非商业用途和禁止分享的许可条款，并在使用时引用相关文献。

背景与挑战

背景概述

M-Phasis数据集由Dana Ruiter、Liane Reiners等研究人员于2022年创建，旨在解决在线仇恨言论的多样性与复杂性。该数据集由德国和法国的新闻文章及其评论组成，涵盖了多种语言环境下的仇恨言论表达形式。研究团队通过细致的注释协议，对数据进行了多层次的特征标注，包括负面评价的多个迭代标注，以捕捉仇恨言论的细微差别。该数据集在LREC 2022会议上发布，为在线仇恨言论的检测与分析提供了重要的数据支持，推动了自然语言处理领域在仇恨言论识别方面的研究进展。

当前挑战

M-Phasis数据集在构建过程中面临多重挑战。首先，仇恨言论的多样性与语境依赖性使得标注工作极为复杂，尤其是在多语言环境下，不同文化背景中的仇恨表达形式差异显著，增加了标注的一致性与准确性难度。其次，数据集的构建需要处理大量的新闻文章与用户评论，如何有效提取与组织这些数据，并确保其代表性，是另一个重要挑战。此外，仇恨言论的敏感性与法律合规性要求研究团队在数据收集与发布过程中严格遵守伦理与法律规范，避免数据滥用或不当传播。这些挑战不仅体现在数据集的构建过程中，也对其在仇恨言论检测任务中的应用提出了更高的要求。

常用场景

经典使用场景

M-Phasis数据集在自然语言处理领域中被广泛用于研究在线仇恨言论的检测与分类。该数据集提供了德语和法语的新闻文章及其评论的详细注释，涵盖了多种类型的仇恨言论特征。研究者可以利用这些数据训练和评估机器学习模型，以识别和分类不同形式的仇恨言论。

衍生相关工作

基于M-Phasis数据集，研究者们已经开发了多种先进的仇恨言论检测模型。这些模型不仅提高了检测的准确性，还扩展了应用范围，如跨语言仇恨言论检测和多模态仇恨言论分析。此外，该数据集还激发了关于仇恨言论生成机制和传播模式的研究，进一步推动了相关领域的发展。

数据集最近研究