five

IndoToxic2024

收藏
arXiv2025-03-01 更新2025-03-06 收录
下载链接:
https://huggingface.co/datasets/Exqrch/IndoToxic2024
下载链接
链接失效反馈
官方服务:
资源简介:
IndoToxic2024是一个印度尼西亚语的多标签数据集,由莫纳什大学印度尼西亚分校创建,包含毒性、两极分化以及标注者人口统计信息。数据集收集了来自多个社交媒体平台和在线新闻文章的文本,经过预处理和质量过滤,共有28,477条独特文本。该数据集旨在研究在线话语中这些因素之间的相互作用,并为数字两极化和毒性研究提供见解。

IndoToxic2024 is an Indonesian-language multi-label dataset developed by Monash University Indonesia. It covers toxicity, polarization, and annotator demographic information. The dataset collects texts from multiple social media platforms and online news articles, with 28,477 unique texts remaining after preprocessing and quality filtering. This dataset aims to investigate the interactions between these factors in online discourse, and provide insights for research on digital polarization and toxicity.
提供机构:
印度尼西亚莫纳什大学
创建时间:
2025-03-01
搜集汇总
数据集介绍
main_image_url
构建方式
IndoToxic2024数据集的构建旨在填补印度尼西亚政治极化与在线毒性之间关系研究的空白。该数据集通过从多个社交媒体平台收集文本,并邀请具有不同人口统计背景的标注者对毒性、极化以及文本与选举的相关性进行标注。数据收集过程中,使用了关键词和正则表达式过滤器进行质量过滤,并排除了少于四个词的文本。标注过程分为两个阶段:训练阶段和主要标注阶段。在训练阶段,标注者参加了关于代码本的研讨会,并对试点文本进行了标注。在主要标注阶段,标注者被分配了文本,并使用分层随机抽样法,根据社交媒体平台进行标注。最终,数据集包含了28,477个唯一文本,其中55.4%由单个标注者标注,44.6%包含多个标注。
特点
IndoToxic2024数据集的特点在于其多标签性质,包括毒性、极化和标注者人口统计信息。该数据集提供了对印度尼西亚话语中这些因素相互作用的深入分析。数据集还展示了毒性检测与极化检测之间的关系,以及人口统计信息如何影响这些检测任务的性能。此外,数据集还揭示了印度尼西亚的极化身份,例如残疾、居住在雅加达和X一代的年龄群体。
使用方法
IndoToxic2024数据集可用于研究在线话语中的毒性、极化和人口统计信息之间的关系。数据集可以用于训练和评估自然语言处理模型,以检测和缓解在线话语中的毒性内容和极化现象。数据集还包含关于毒性类型和与选举相关性的标注,可用于研究这些因素如何影响在线讨论。
背景与挑战
背景概述
IndoToxic2024是一个多标签的印度尼西亚语数据集,旨在研究网络话语中的毒性、极化和人口统计信息之间的相互作用。该数据集由来自印度尼西亚莫纳什大学、波士顿大学和MBZUAI的研究人员共同创建,于2025年3月1日首次发布。IndoToxic2024的核心研究问题是探讨政治极化与在线毒性之间的关系,特别是在印度尼西亚这样一个人口众多、背景多样的民主国家中。该数据集的创建填补了现有研究在这方面的空白,为理解网络话语中各种因素的相互作用提供了新的视角。IndoToxic2024数据集的发布对相关领域产生了重要影响,为研究人员和开发者提供了一个用于检测和调节毒性和极化内容的宝贵资源。
当前挑战
IndoToxic2024数据集面临的主要挑战包括:1) 所解决的领域问题的挑战:政治极化和在线毒性之间的关系复杂,且受到多种因素的影响,如文化、社会和政治身份等,这使得准确识别和分类极化和毒性内容变得困难;2) 构建过程中所遇到的挑战:数据集的创建需要收集和处理大量的网络文本,并进行人工标注,这需要大量的时间和资源。此外,由于极化和毒性内容的判断具有一定的主观性,因此如何确保标注的一致性和准确性也是一个重要的挑战。
常用场景
经典使用场景
IndoToxic2024数据集是一个多标签的印度尼西亚语语料库,它包括了毒性、极化和标注者人口统计信息。该数据集的经典使用场景是在自然语言处理(NLP)领域,特别是在检测和分类网络上的有害言论和极化内容。研究人员可以利用这个数据集来训练和评估各种NLP模型,包括基于BERT的模型和大型语言模型(LLMs),以更好地理解在线话语中这些因素之间的相互作用。
衍生相关工作
IndoToxic2024数据集衍生了与印度尼西亚语和其他低资源语言的毒性检测和极化分析相关的研究工作。该数据集为未来研究提供了基础,以开发更精确的模型,并更好地理解网络话语中的这些现象。
数据集最近研究
最新研究方向
IndoToxic2024数据集的最新研究方向主要集中在探究网络话语中的毒性、极化和人口统计信息之间的相互作用。该数据集的创建填补了先前自然语言处理研究中对毒性与极化之间关系探讨不足的空白。通过将毒性、极化和标注者人口统计信息结合在一个多标签数据集中,研究人员能够更深入地分析这些因素如何共同影响在线话语。此外,该数据集还提供了对印尼政治选举期间网络话语毒性激增的研究,这对于理解和解决印尼乃至全球范围内的网络话语问题具有重要意义。
相关研究论文
  • 1
    A Multi-Labeled Dataset for Indonesian Discourse: Examining Toxicity, Polarization, and Demographics Information印度尼西亚莫纳什大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作