IndoToxic2024

Name: IndoToxic2024
Creator: 印度尼西亚莫纳什大学
Published: 2025-03-01 17:33:10
License: 暂无描述

arXiv2025-03-01 更新2025-03-06 收录

下载链接：

https://huggingface.co/datasets/Exqrch/IndoToxic2024

下载链接

链接失效反馈

官方服务：

资源简介：

IndoToxic2024是一个印度尼西亚语的多标签数据集，由莫纳什大学印度尼西亚分校创建，包含毒性、两极分化以及标注者人口统计信息。数据集收集了来自多个社交媒体平台和在线新闻文章的文本，经过预处理和质量过滤，共有28,477条独特文本。该数据集旨在研究在线话语中这些因素之间的相互作用，并为数字两极化和毒性研究提供见解。

IndoToxic2024 is an Indonesian-language multi-label dataset developed by Monash University Indonesia. It covers toxicity, polarization, and annotator demographic information. The dataset collects texts from multiple social media platforms and online news articles, with 28,477 unique texts remaining after preprocessing and quality filtering. This dataset aims to investigate the interactions between these factors in online discourse, and provide insights for research on digital polarization and toxicity.

提供机构：

印度尼西亚莫纳什大学

创建时间：

2025-03-01

搜集汇总

数据集介绍

构建方式

IndoToxic2024数据集的构建旨在填补印度尼西亚政治极化与在线毒性之间关系研究的空白。该数据集通过从多个社交媒体平台收集文本，并邀请具有不同人口统计背景的标注者对毒性、极化以及文本与选举的相关性进行标注。数据收集过程中，使用了关键词和正则表达式过滤器进行质量过滤，并排除了少于四个词的文本。标注过程分为两个阶段：训练阶段和主要标注阶段。在训练阶段，标注者参加了关于代码本的研讨会，并对试点文本进行了标注。在主要标注阶段，标注者被分配了文本，并使用分层随机抽样法，根据社交媒体平台进行标注。最终，数据集包含了28,477个唯一文本，其中55.4%由单个标注者标注，44.6%包含多个标注。

特点

IndoToxic2024数据集的特点在于其多标签性质，包括毒性、极化和标注者人口统计信息。该数据集提供了对印度尼西亚话语中这些因素相互作用的深入分析。数据集还展示了毒性检测与极化检测之间的关系，以及人口统计信息如何影响这些检测任务的性能。此外，数据集还揭示了印度尼西亚的极化身份，例如残疾、居住在雅加达和X一代的年龄群体。

使用方法

IndoToxic2024数据集可用于研究在线话语中的毒性、极化和人口统计信息之间的关系。数据集可以用于训练和评估自然语言处理模型，以检测和缓解在线话语中的毒性内容和极化现象。数据集还包含关于毒性类型和与选举相关性的标注，可用于研究这些因素如何影响在线讨论。

背景与挑战

背景概述

IndoToxic2024是一个多标签的印度尼西亚语数据集，旨在研究网络话语中的毒性、极化和人口统计信息之间的相互作用。该数据集由来自印度尼西亚莫纳什大学、波士顿大学和MBZUAI的研究人员共同创建，于2025年3月1日首次发布。IndoToxic2024的核心研究问题是探讨政治极化与在线毒性之间的关系，特别是在印度尼西亚这样一个人口众多、背景多样的民主国家中。该数据集的创建填补了现有研究在这方面的空白，为理解网络话语中各种因素的相互作用提供了新的视角。IndoToxic2024数据集的发布对相关领域产生了重要影响，为研究人员和开发者提供了一个用于检测和调节毒性和极化内容的宝贵资源。

当前挑战

IndoToxic2024数据集面临的主要挑战包括：1) 所解决的领域问题的挑战：政治极化和在线毒性之间的关系复杂，且受到多种因素的影响，如文化、社会和政治身份等，这使得准确识别和分类极化和毒性内容变得困难；2) 构建过程中所遇到的挑战：数据集的创建需要收集和处理大量的网络文本，并进行人工标注，这需要大量的时间和资源。此外，由于极化和毒性内容的判断具有一定的主观性，因此如何确保标注的一致性和准确性也是一个重要的挑战。

常用场景

经典使用场景

IndoToxic2024数据集是一个多标签的印度尼西亚语语料库，它包括了毒性、极化和标注者人口统计信息。该数据集的经典使用场景是在自然语言处理（NLP）领域，特别是在检测和分类网络上的有害言论和极化内容。研究人员可以利用这个数据集来训练和评估各种NLP模型，包括基于BERT的模型和大型语言模型（LLMs），以更好地理解在线话语中这些因素之间的相互作用。

衍生相关工作

IndoToxic2024数据集衍生了与印度尼西亚语和其他低资源语言的毒性检测和极化分析相关的研究工作。该数据集为未来研究提供了基础，以开发更精确的模型，并更好地理解网络话语中的这些现象。

数据集最近研究