IndoToxic2024

Hugging Face2024-07-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Exqrch/IndoToxic2024

下载链接

链接失效反馈

官方服务：

资源简介：

IndoToxic2024是一个在2024年印度尼西亚总统选举前后收集的印度尼西亚语数据集，主要用于仇恨言论和有毒内容的文本分类任务。数据来源于社交媒体，并由19名背景多样的标注者进行标注。

创建时间：

2024-07-11

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别: 文本分类
语言: 印度尼西亚语
标签: 仇恨言论分类, 毒性分类, 人口统计信息
规模类别: 10K<n<100K

配置信息

主配置:
- 配置名称: main
- 数据文件:
  - 分割: main
  - 路径: "indotoxic2024_annotated_data.jsonl"
标注者配置:
- 配置名称: annotator
- 数据文件:
  - 分割: annotator
  - 路径: "indotoxic2024_annotator_data.jsonl"

数据集描述

名称: IndoToxic2024
收集时间: 2024年印度尼西亚总统选举前后
数据来源: 社交媒体
标注者: 19位背景多样的标注者
支持任务: 围绕仇恨言论和毒性内容的文本分类任务

引用信息

作者: Susanto, L., Wijanarko, M. I., Pratama, P. A., Hong, T., Idris, I., Aji, A. F., & Wijaya, D.
发表日期: 2024年6月27日
论文标题: IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language
论文链接: https://arxiv.org/abs/2406.19349

搜集汇总

数据集介绍

构建方式

IndoToxic2024数据集构建于2024年印度尼西亚总统选举前后，数据主要来源于社交媒体平台。该数据集由29名背景多样的标注者进行标注，涵盖了仇恨言论、毒性和极化内容的文本分类任务。数据集通过将独特的文本进行分组，并将标注者的ID以列表形式存储，确保每个文本的标注信息能够准确反映多位标注者的意见。此外，数据集还新增了极化内容的相关标注，进一步丰富了数据的多样性。

特点

IndoToxic2024数据集的特点在于其标注的多样性和丰富性。数据集包含28448条文本，其中12700条（44.64%）由多位标注者共同标注，确保了标注结果的可靠性和一致性。数据集不仅涵盖了仇恨言论和毒性内容的分类，还引入了极化内容的标注，为研究者提供了更全面的分析视角。此外，数据集还包含了标注者的人口统计信息，使得研究者能够进一步探讨标注者背景对标注结果的影响。

使用方法

IndoToxic2024数据集的使用方法简便易行。用户可以通过Hugging Face的`datasets`库加载数据集，具体操作包括加载主数据集和标注者信息数据集。主数据集包含文本及其标注信息，而标注者信息数据集则提供了标注者的详细背景信息。用户可以通过简单的代码调用，快速获取所需数据，进行文本分类任务的研究和分析。此外，数据集的使用需遵循Apache 2.0许可，并在使用时引用相关文献。

背景与挑战

背景概述

IndoToxic2024数据集由Susanto等人于2024年创建，旨在为印度尼西亚语言中的仇恨言论、毒性和极化内容提供文本分类任务的支持。该数据集主要收集自社交媒体平台，涵盖了2024年印度尼西亚总统选举前后的数据。数据由29名背景多样的标注者进行标注，确保了数据的多样性和代表性。该数据集的发布为印度尼西亚语言的自然语言处理研究提供了重要的资源，尤其是在社交媒体内容分析领域具有显著的影响力。

当前挑战

IndoToxic2024数据集在构建过程中面临多重挑战。首先，社交媒体数据的动态性和多样性使得数据的收集和清洗变得复杂，尤其是在处理仇恨言论和毒性内容时，需要精确的标注标准。其次，标注者的背景多样性虽然增强了数据的代表性，但也带来了标注一致性的问题，尤其是在多标注者标注同一文本时，如何确保标注结果的一致性成为一大难题。此外，数据集中极化内容的识别和分类也面临挑战，因为极化内容往往具有较强的主观性和语境依赖性，难以通过简单的规则进行准确分类。

常用场景

经典使用场景

IndoToxic2024数据集在印尼语社交媒体文本分类领域具有重要应用，尤其是在2024年印尼总统选举期间，该数据集被广泛用于识别和分析社交媒体上的仇恨言论、有毒内容及极化言论。研究人员通过该数据集训练和评估模型，以提升对印尼语文本的自动分类能力。

衍生相关工作

基于IndoToxic2024数据集，研究人员开发了多种先进的文本分类模型，并在印尼语自然语言处理领域取得了显著进展。例如，一些研究利用该数据集训练深度学习模型，显著提升了印尼语仇恨言论检测的准确率。此外，该数据集还推动了多语言文本分类模型的跨语言迁移研究。

数据集最近研究