IndoToxic2024
收藏arXiv2024-06-28 更新2024-06-29 收录
下载链接:
https://github.com/izzako/IndoToxic2024/tree/main
下载链接
链接失效反馈官方服务:
资源简介:
IndoToxic2024是由莫纳什大学等机构创建的印尼语仇恨言论和毒性类型分类数据集,包含43,692条由19名不同背景的标注者注释的条目。该数据集专注于印尼弱势群体在总统选举期间的文本,旨在通过提供多维度的标注信息来改善仇恨言论检测系统。数据集的创建过程包括从社交媒体和新闻文章中收集数据,并通过多轮培训确保标注的一致性。IndoToxic2024的应用领域主要集中在提高仇恨言论检测的准确性和理解标注者主观性对模型性能的影响。
IndoToxic2024 is an Indonesian hate speech and toxicity classification dataset developed by institutions including Monash University. It contains 43,692 annotated entries from 19 annotators with diverse backgrounds. This dataset focuses on texts targeting Indonesian vulnerable groups during the presidential election period, aiming to improve hate speech detection systems by providing multi-dimensional annotation information. The dataset creation process involves collecting data from social media and news articles, and ensuring annotation consistency through multiple rounds of training. The main application areas of IndoToxic2024 focus on enhancing the accuracy of hate speech detection and understanding the impact of annotator subjectivity on model performance.
提供机构:
莫纳什大学
创建时间:
2024-06-28
搜集汇总
数据集介绍

构建方式
IndoToxic2024数据集的构建始于对印尼社交媒体平台上的帖子进行收集,这些平台包括Facebook、Instagram和Twitter。数据收集时间从2023年9月持续到2024年1月,特别关注2024年印尼总统选举期间针对弱势群体的仇恨言论。收集到的数据根据与印尼弱势群体相关的关键词进行筛选。随后,19位来自不同背景的标注者对43,692条文本进行了标注,每位标注者都提供了10维人口统计信息,以反映他们的人口统计特征。标注过程分为两个阶段:训练阶段和主要标注阶段。在训练阶段,标注者根据代码本学习如何识别和分类仇恨言论。在主要标注阶段,标注者独立地对更多文本进行标注,最终形成了IndoToxic2024数据集。
特点
IndoToxic2024数据集的特点在于其全面性和多样性。数据集包含了43,692条由19位不同背景的标注者标注的文本,每位标注者都提供了详细的人口统计信息,这为研究标注过程中的主观性提供了可能。数据集的标签是按照每位标注者的判断来保留的,而不是简单地合并标注结果。此外,IndoToxic2024数据集专注于印尼语,特别是针对弱势群体的仇恨言论,这使其成为印尼语仇恨言论检测研究的重要资源。
使用方法
IndoToxic2024数据集可用于训练和评估仇恨言论检测系统。数据集的多样性和人口统计信息可以用于研究不同人口群体对仇恨言论的感知和标注的主观性。此外,数据集还可以用于分析不同类型的仇恨言论的分布情况,以及人口统计信息对模型性能的影响。在使用数据集时,研究人员应该注意数据集中的主观性,并采取措施减少模型偏差。
背景与挑战
背景概述
IndoToxic2024数据集的创建旨在应对印度尼西亚在线仇恨言论日益严重的挑战。近年来,印度尼西亚仇恨言论的比例增加了十倍,对社会和谐构成了重大威胁。现有的印度尼西亚文本数据集有限,且缺乏对边缘化少数群体的关注,导致检测工具对这些群体的仇恨言论理解不足。IndoToxic2024数据集由19位具有不同背景的标注者对43,692个条目进行标注,重点关注在印度尼西亚最热门的政治事件——总统选举期间针对弱势群体的文本。该数据集为七个二元分类任务建立了基线,使用针对仇恨言论分类进行微调的BERT模型(IndoBERTweet)实现了0.78的宏F1分数。此外,该数据集还展示了如何通过纳入人口统计信息来提高大型语言模型gpt-3.5-turbo的零样本性能。然而,研究人员也警告说,过分强调人口统计信息可能会由于数据碎片化而对微调模型性能产生负面影响。
当前挑战
IndoToxic2024数据集面临的主要挑战包括:1) 当前数据集在解决印度尼西亚语言中仇恨言论和毒性类型分类问题方面的挑战;2) 构建过程中所遇到的挑战。具体而言,构建过程中遇到的挑战包括:a) 数据收集过程中,如何确保数据的多样性和代表性,以便更好地反映不同人口群体对仇恨言论的理解;b) 标注过程中,如何处理标注者之间的主观性差异,以及如何确保标注结果的可靠性;c) 模型训练过程中,如何利用人口统计信息来提高模型的性能,同时避免数据碎片化带来的负面影响。
常用场景
经典使用场景
IndoToxic2024数据集主要用于印度尼西亚语言的仇恨言论和毒性类型分类。该数据集由19位来自不同背景的标注者对43,692个条目进行了标注,重点关注针对印尼弱势群体的文本,特别是在该国最热门的政治事件——总统选举期间。IndoToxic2024数据集为构建更好的仇恨言论检测系统提供了基础,特别是在印尼语方面。
衍生相关工作
IndoToxic2024数据集的衍生相关工作包括对标注者人口统计信息在仇恨言论分类中的作用的探索,以及对过度依赖人口统计信息对微调模型性能的影响的分析。此外,该数据集还可以用于研究大型语言模型中的偏见问题,以及如何通过提供元数据来减少这些偏见。IndoToxic2024数据集的创建为未来在仇恨言论和毒性文本检测方面的研究提供了重要的基础。
数据集最近研究
最新研究方向
IndoToxic2024数据集的引入为印尼语仇恨言论和毒性分类研究提供了新的视角。该数据集关注了印尼社会中易受攻击的群体,并在2024年总统选举期间收集了数据,填补了印尼语仇恨言论数据集的空白。研究还探讨了人口统计信息在仇恨言论分类中的作用,发现提供注释者的人口统计信息可以显著提高大型语言模型GPT-3.5-turbo的性能。然而,过度强调人口统计信息可能会导致数据碎片化,从而对微调模型的性能产生负面影响。这些发现对于开发更有效的仇恨言论检测系统具有重要意义,尤其是在保护易受攻击的少数群体方面。
相关研究论文
- 1IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language莫纳什大学 · 2024年
以上内容由遇见数据集搜集并总结生成



