five

IndoToxic2024

收藏
Hugging Face2024-07-12 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Exqrch/IndoToxic2024
下载链接
链接失效反馈
官方服务:
资源简介:
IndoToxic2024是一个在2024年印度尼西亚总统选举前后收集的印度尼西亚语数据集,主要用于仇恨言论和有毒内容的文本分类任务。数据来源于社交媒体,并由19名背景多样的标注者进行标注。
创建时间:
2024-07-11
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别: 文本分类
  • 语言: 印度尼西亚语
  • 标签: 仇恨言论分类, 毒性分类, 人口统计信息
  • 规模类别: 10K<n<100K

配置信息

  • 主配置:
    • 配置名称: main
    • 数据文件:
      • 分割: main
      • 路径: "indotoxic2024_annotated_data.jsonl"
  • 标注者配置:
    • 配置名称: annotator
    • 数据文件:
      • 分割: annotator
      • 路径: "indotoxic2024_annotator_data.jsonl"

数据集描述

  • 名称: IndoToxic2024
  • 收集时间: 2024年印度尼西亚总统选举前后
  • 数据来源: 社交媒体
  • 标注者: 19位背景多样的标注者
  • 支持任务: 围绕仇恨言论和毒性内容的文本分类任务

引用信息

  • 作者: Susanto, L., Wijanarko, M. I., Pratama, P. A., Hong, T., Idris, I., Aji, A. F., & Wijaya, D.
  • 发表日期: 2024年6月27日
  • 论文标题: IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language
  • 论文链接: https://arxiv.org/abs/2406.19349
搜集汇总
数据集介绍
main_image_url
构建方式
IndoToxic2024数据集构建于2024年印度尼西亚总统选举前后,数据主要来源于社交媒体平台。该数据集由29名背景多样的标注者进行标注,涵盖了仇恨言论、毒性和极化内容的文本分类任务。数据集通过将独特的文本进行分组,并将标注者的ID以列表形式存储,确保每个文本的标注信息能够准确反映多位标注者的意见。此外,数据集还新增了极化内容的相关标注,进一步丰富了数据的多样性。
特点
IndoToxic2024数据集的特点在于其标注的多样性和丰富性。数据集包含28448条文本,其中12700条(44.64%)由多位标注者共同标注,确保了标注结果的可靠性和一致性。数据集不仅涵盖了仇恨言论和毒性内容的分类,还引入了极化内容的标注,为研究者提供了更全面的分析视角。此外,数据集还包含了标注者的人口统计信息,使得研究者能够进一步探讨标注者背景对标注结果的影响。
使用方法
IndoToxic2024数据集的使用方法简便易行。用户可以通过Hugging Face的`datasets`库加载数据集,具体操作包括加载主数据集和标注者信息数据集。主数据集包含文本及其标注信息,而标注者信息数据集则提供了标注者的详细背景信息。用户可以通过简单的代码调用,快速获取所需数据,进行文本分类任务的研究和分析。此外,数据集的使用需遵循Apache 2.0许可,并在使用时引用相关文献。
背景与挑战
背景概述
IndoToxic2024数据集由Susanto等人于2024年创建,旨在为印度尼西亚语言中的仇恨言论、毒性和极化内容提供文本分类任务的支持。该数据集主要收集自社交媒体平台,涵盖了2024年印度尼西亚总统选举前后的数据。数据由29名背景多样的标注者进行标注,确保了数据的多样性和代表性。该数据集的发布为印度尼西亚语言的自然语言处理研究提供了重要的资源,尤其是在社交媒体内容分析领域具有显著的影响力。
当前挑战
IndoToxic2024数据集在构建过程中面临多重挑战。首先,社交媒体数据的动态性和多样性使得数据的收集和清洗变得复杂,尤其是在处理仇恨言论和毒性内容时,需要精确的标注标准。其次,标注者的背景多样性虽然增强了数据的代表性,但也带来了标注一致性的问题,尤其是在多标注者标注同一文本时,如何确保标注结果的一致性成为一大难题。此外,数据集中极化内容的识别和分类也面临挑战,因为极化内容往往具有较强的主观性和语境依赖性,难以通过简单的规则进行准确分类。
常用场景
经典使用场景
IndoToxic2024数据集在印尼语社交媒体文本分类领域具有重要应用,尤其是在2024年印尼总统选举期间,该数据集被广泛用于识别和分析社交媒体上的仇恨言论、有毒内容及极化言论。研究人员通过该数据集训练和评估模型,以提升对印尼语文本的自动分类能力。
衍生相关工作
基于IndoToxic2024数据集,研究人员开发了多种先进的文本分类模型,并在印尼语自然语言处理领域取得了显著进展。例如,一些研究利用该数据集训练深度学习模型,显著提升了印尼语仇恨言论检测的准确率。此外,该数据集还推动了多语言文本分类模型的跨语言迁移研究。
数据集最近研究
最新研究方向
在自然语言处理领域,尤其是针对社交媒体内容的文本分类任务,IndoToxic2024数据集为研究者提供了一个独特的视角,特别是在印尼总统选举期间收集的仇恨言论和毒性内容分析。该数据集不仅包含了丰富的文本数据,还特别强调了注释者的多样性背景,这为研究不同文化和社会背景下的语言使用提供了宝贵资源。近年来,随着社交媒体在全球范围内的普及,如何有效识别和处理网络上的有害内容成为了一个热点问题。IndoToxic2024的出现,为开发更精确的文本分类模型,特别是针对印尼语的多标签分类模型,提供了实验基础。此外,该数据集的结构更新,如将注释者信息以列表形式存储,以及新增的极化内容分类,都反映了当前研究对于数据质量和多样性的高要求。这些改进不仅提升了数据集的实用性,也为未来的研究提供了新的方向,如探索不同注释者背景对内容分类的影响,以及如何利用这些数据来训练更加公平和无偏见的AI模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作