five

neuralcatcher/hateful_memes

收藏
Hugging Face2022-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/neuralcatcher/hateful_memes
下载链接
链接失效反馈
官方服务:
资源简介:
# The Hateful Memes Challenge README The Hateful Memes Challenge is a dataset and benchmark created by Facebook AI to drive and measure progress on multimodal reasoning and understanding. The task focuses on detecting hate speech in multimodal memes. Please see the paper for further details: [The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes D. Kiela, H. Firooz, A. Mohan, V. Goswami, A. Singh, P. Ringshia, D. Testuggine]( https://arxiv.org/abs/2005.04790) For more details, see also the website: https://hatefulmemeschallenge.com # Dataset details The files for this folder are arranged as follows: img/ - the PNG images train.jsonl - the training set dev_seen.jsonl - the "seen" development set test_seen.jsonl - the "seen" test set dev_unseen.jsonl - the "unseen" development set test_unseen.jsonl - the "unseen" test set The "seen" dataset was presented in the NeurIPS paper; the “unseen” dev and test set were released as a part of the NeurIPS 2020 competition. The .jsonl format contains one JSON-encoded example per line, each of which has the following fields: ‘text’ - the text occurring in the meme ‘img’ - the path to the image in the img/ directory ‘label’ - the label for the meme (0=not-hateful, 1=hateful), provided for train and dev The metric to use is AUROC. You may also report accuracy in addition, since this is arguably more interpretable. To compute these metrics, we recommend the roc_auc_score and accuracy_score methods in sklearn.metrics, with default settings. # Getting started To get started working on this dataset, there's an easy-to-use "starter kit" available in MMF: https://github.com/facebookresearch/mmf/tree/master/projects/hateful_memes. # Note on Annotator Accuracy As is to be expected with a dataset of this size and nature, some of the examples in the training set have been misclassified. We are not claiming that our dataset labels are completely accurate, or even that all annotators would agree on a particular label. Misclassifications, although possible, should be very rare in the dev and seen test set, however, and we will take extra care with the unseen test set. As a reminder, the annotations collected for this dataset were not collected using Facebook annotators and we did not employ Facebook’s hate speech policy. As such, the dataset labels do not in any way reflect Facebook’s official stance on this matter. # License The dataset is licensed under the terms in the `LICENSE.txt` file. # Image Attribution If you wish to display example memes in your paper, please provide the following attribution: *Image is a compilation of assets, including ©Getty Image.* # Citations If you wish to cite this work, please use the following BiBTeX: ``` @inproceedings{Kiela:2020hatefulmemes, author = {Kiela, Douwe and Firooz, Hamed and Mohan, Aravind and Goswami, Vedanuj and Singh, Amanpreet and Ringshia, Pratik and Testuggine, Davide}, booktitle = {Advances in Neural Information Processing Systems}, editor = {H. Larochelle and M. Ranzato and R. Hadsell and M. F. Balcan and H. Lin}, pages = {2611--2624}, publisher = {Curran Associates, Inc.}, title = {The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes}, url = {https://proceedings.neurips.cc/paper/2020/file/1b84c4cee2b8b3d823b30e2d604b1878-Paper.pdf}, volume = {33}, year = {2020} } ``` # Contact If you have any questions or comments on the dataset, please contact hatefulmemeschallenge@fb.com or one of the authors.

# 仇恨表情包挑战(The Hateful Memes Challenge)自述文件 仇恨表情包挑战(The Hateful Memes Challenge)是由Facebook人工智能实验室(Facebook AI)构建的数据集与基准测试集,旨在推动并量化多模态推理与理解领域的研究进展。该任务的核心为检测多模态表情包中的仇恨言论。 如需了解更多细节,请参阅相关论文:《仇恨表情包挑战:检测多模态表情包中的仇恨言论》,作者为D. Kiela、H. Firooz、A. Mohan、V. Goswami、A. Singh、P. Ringshia、D. Testuggine,论文链接:https://arxiv.org/abs/2005.04790 更多相关信息可访问官方网站:https://hatefulmemeschallenge.com # 数据集详情 本文件夹内的文件组织形式如下: img/ - 存放PNG格式图片 train.jsonl - 训练集 dev_seen.jsonl - “已见”开发集 test_seen.jsonl - “已见”测试集 dev_unseen.jsonl - “未见”开发集 test_unseen.jsonl - “未见”测试集 其中“已见”数据集对应神经信息处理系统大会(NeurIPS)原论文中提出的版本;“未见”开发集与测试集则作为NeurIPS 2020竞赛的一部分发布。 本数据集采用JSON行(.jsonl)格式存储,每行对应一个经过JSON编码的样本,每个样本包含以下字段: ‘text’ - 表情包中附带的文本内容 ‘img’ - 对应图片在img/目录下的路径 ‘label’ - 表情包的标签(0表示非仇恨内容,1表示仇恨内容),该字段仅在训练集与开发集中提供 本任务推荐采用受试者工作特征曲线下面积(AUROC)作为评估指标,同时也可补充报告准确率(Accuracy),因其具备更强的可解释性。如需计算上述指标,建议使用scikit-learn.metrics库中的roc_auc_score与accuracy_score方法,并采用默认参数配置。 # 入门指南 如需快速上手本数据集,可使用MMF框架中集成的“入门套件”:https://github.com/facebookresearch/mmf/tree/master/projects/hateful_memes。 # 标注者准确率说明 鉴于本数据集的规模与特性,训练集中存在少量样本被错误标注的情况。我们并未声称数据集的标签完全准确,亦不保证所有标注者对同一样本的标签判定完全一致。不过,开发集与已见测试集中的误标情况极为罕见,我们将对未见测试集采取更为严格的质控措施。 特此说明:本数据集的标注工作并未由Facebook官方标注人员完成,亦未采用Facebook官方的仇恨言论判定标准。因此,本数据集的标签绝不代表Facebook官方对此类问题的立场。 # 许可证 本数据集的使用需遵循`LICENSE.txt`文件中规定的许可条款。 # 图片署名要求 若需在论文中展示本数据集的表情包示例,请遵循以下署名要求: *本图片为素材合成作品,包含©Getty Image版权内容。* # 引用方式 如需引用本工作,请使用以下BiBTeX格式: @inproceedings{Kiela:2020hatefulmemes, author = {Kiela, Douwe and Firooz, Hamed and Mohan, Aravind and Goswami, Vedanuj and Singh, Amanpreet and Ringshia, Pratik and Testuggine, Davide}, booktitle = {Advances in Neural Information Processing Systems}, editor = {H. Larochelle and M. Ranzato and R. Hadsell and M. F. Balcan and H. Lin}, pages = {2611--2624}, publisher = {Curran Associates, Inc.}, title = {The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes}, url = {https://proceedings.neurips.cc/paper/2020/file/1b84c4cee2b8b3d823b30e2d604b1878-Paper.pdf}, volume = {33}, year = {2020} } # 联系方式 若您对本数据集有任何疑问或建议,请发送邮件至hatefulmemeschallenge@fb.com,或联系论文作者之一。
提供机构:
neuralcatcher
原始信息汇总

数据集详情

数据集概述

The Hateful Memes Challenge 是由 Facebook AI 创建的数据集和基准,旨在推动和衡量多模态推理和理解方面的进展。该任务专注于检测多模态表情包中的仇恨言论。

数据集文件结构

  • img/:PNG 图像文件
  • train.jsonl:训练集
  • dev_seen.jsonl:“已见”开发集
  • test_seen.jsonl:“已见”测试集
  • dev_unseen.jsonl:“未见”开发集
  • test_unseen.jsonl:“未见”测试集

数据格式

每个 .jsonl 文件包含一行一个 JSON 编码的示例,每个示例包含以下字段:

  • text:表情包中的文本
  • img:图像在 img/ 目录中的路径
  • label:表情包的标签(0=非仇恨,1=仇恨),在训练集和开发集中提供

评估指标

使用 AUROC 作为评估指标,也可以报告准确率。推荐使用 sklearn.metrics 中的 roc_auc_scoreaccuracy_score 方法进行计算。

注释准确性

由于数据集的规模和性质,训练集中的一些示例可能被错误分类。开发集和“已见”测试集中的错误分类应非常罕见,对于“未见”测试集将特别注意。

许可

数据集的许可条款在 LICENSE.txt 文件中。

图像归属

如果在论文中展示示例表情包,请提供以下归属信息:

  • Image is a compilation of assets, including ©Getty Image.

引用

如果引用此工作,请使用以下 BiBTeX:

@inproceedings{Kiela:2020hatefulmemes, author = {Kiela, Douwe and Firooz, Hamed and Mohan, Aravind and Goswami, Vedanuj and Singh, Amanpreet and Ringshia, Pratik and Testuggine, Davide}, booktitle = {Advances in Neural Information Processing Systems}, editor = {H. Larochelle and M. Ranzato and R. Hadsell and M. F. Balcan and H. Lin}, pages = {2611--2624}, publisher = {Curran Associates, Inc.}, title = {The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes}, url = {https://proceedings.neurips.cc/paper/2020/file/1b84c4cee2b8b3d823b30e2d604b1878-Paper.pdf}, volume = {33}, year = {2020} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Facebook AI创建,旨在推动和衡量多模态推理与理解的发展。其构建过程包括收集和标注大量包含文本和图像的多模态表情包,旨在检测其中的仇恨言论。数据集分为‘seen’和‘unseen’两部分,前者用于训练和开发,后者用于测试,确保模型在未见过的数据上也能表现良好。
特点
该数据集的显著特点在于其多模态性质,结合了文本和图像信息,使得检测任务更具挑战性。此外,数据集的标注具有一定的主观性,反映了不同标注者对仇恨言论的不同理解。数据集还提供了详细的评估指标,如AUROC和准确率,以全面评估模型的性能。
使用方法
使用该数据集时,用户可以利用提供的MMF(Multimodal Framework)工具包进行快速入门。数据集以.jsonl格式存储,每行包含一个JSON编码的样本,包括文本、图像路径和标签。用户可以通过加载这些文件,结合sklearn库中的roc_auc_score和accuracy_score方法进行模型评估。
背景与挑战
背景概述
在多模态理解和推理领域,Facebook AI于2020年推出了Hateful Memes Challenge数据集,旨在推动和衡量在多模态内容中检测仇恨言论的进展。该数据集由D. Kiela、H. Firooz等研究人员创建,核心研究问题聚焦于识别和分类包含仇恨言论的多模态表情包。这一数据集的发布不仅为学术界提供了一个标准化的评估平台,还对推动人工智能在社会问题中的应用具有重要意义。
当前挑战
Hateful Memes Challenge数据集在构建过程中面临多重挑战。首先,多模态内容的复杂性使得准确分类仇恨言论变得尤为困难。其次,数据集的注释准确性受到注释者主观判断的影响,尽管在开发和测试集中已尽量减少误分类,但仍存在一定的不确定性。此外,数据集的多样性和规模也增加了模型训练的复杂性,要求研究者开发更为精细和鲁棒的算法来应对这些挑战。
常用场景
经典使用场景
在多模态推理与理解领域,neuralcatcher/hateful_memes数据集的经典使用场景主要集中在检测多模态模因中的仇恨言论。通过结合图像和文本信息,研究人员可以开发和评估模型,以识别和分类含有仇恨内容的模因,从而推动多模态数据处理技术的发展。
实际应用
在实际应用中,neuralcatcher/hateful_memes数据集被广泛用于开发和优化社交媒体平台的内容审核系统。通过训练模型识别和过滤含有仇恨言论的模因,这些平台能够更有效地维护社区健康,减少有害信息的传播,从而提升用户体验和社会责任感。
衍生相关工作
基于neuralcatcher/hateful_memes数据集,衍生了一系列相关工作,包括但不限于多模态学习模型的改进、跨模态特征融合技术的研究以及仇恨言论检测算法的优化。这些工作不仅推动了多模态数据处理领域的技术进步,也为实际应用中的内容审核系统提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作