ComMA Dataset V0.2

Name: ComMA Dataset V0.2
Creator: 潘林格语言处理有限责任公司
Published: 2021-11-20 03:03:22
License: 暂无描述

arXiv2021-11-20 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2111.10390v1

下载链接

链接失效反馈

官方服务：

资源简介：

ComMA Dataset V0.2是由潘林格语言处理有限责任公司和Dr Bhimrao Ambedkar大学合作创建的多语言数据集，专注于标记社交媒体话语中的攻击性和偏见。数据集包含15,000条注释评论，涵盖Meitei, Bangla, Hindi, 和 Indian English四种语言，主要从YouTube, Facebook, Twitter 和 Telegram收集。数据集的创建过程涉及从具有社会政治、宗教或文化争议的视频和帖子中收集评论，并通过细致的注释过程来标记不同类型的攻击性和偏见，包括性别偏见、宗教不容忍、阶级/种姓偏见和种族/民族偏见。该数据集旨在帮助开发自动识别社交媒体中攻击性和偏见的系统，以减少其对社会交流和整体社会的负面影响。

提供机构：

潘林格语言处理有限责任公司

创建时间：

2021-11-20

5,000+

优质数据集

54 个

任务类型

进入经典数据集