five

JunyuLu/ToxiCN

收藏
Hugging Face2024-12-02 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/JunyuLu/ToxiCN
下载链接
链接失效反馈
官方服务:
资源简介:
ToxiCN数据集是一个用于中文有毒语言细粒度检测的数据集,包含从知乎和贴吧爬取的12k条评论。这些评论经过细粒度标注,涵盖了性别歧视、种族歧视、地域偏见、反LGBTQ等类别。数据集还提供了一个层次化的分类框架,用于逐步划分帖子的不同粒度,包括是否具有毒性、毒性类型、目标群体和表达类别。数据集旨在促进中文有毒语言的检测研究,并提供了一个可迁移的基准模型Toxic Knowledge Enhancement(TKE)。

The ToxiCN dataset is a fine-grained Chinese toxic language detection dataset, containing 12k comments crawled from Zhihu and Tieba, annotated with fine-grained labels such as sexism, racism, regional bias, anti-LGBTQ, etc. The dataset introduces a hierarchical taxonomy, Monitor Toxic Frame, to progressively divide posts into different granularities, including whether toxic, toxic type, targeted group, and expression category.
提供机构:
JunyuLu
搜集汇总
数据集介绍
构建方式
ToxiCN数据集的构建,基于细粒度的层级分类框架Monitor Toxic Frame,从知乎和贴吧爬取的帖子被细分为是否具有毒性、毒性类型、目标群体以及表达类别等不同层级。数据集包含了12000条评论,这些评论被标注为包含性别歧视、种族主义、地域偏见、反LGBTQ以及其他类型的毒性内容。
特点
该数据集的特点在于其细粒度的标注,不仅标注了评论是否具有毒性,还进一步标注了毒性的类型、针对的目标群体以及表达的方式。这种多维度的标注方式使得数据集在毒性语言检测任务中具有更高的实用价值和研究意义。
使用方法
用户可以通过访问ToxiCN数据集的GitHub页面来获取数据集文件ToxiCN_1.0.csv。在使用数据集时,需遵守Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License(CC BY-NC-ND 4.0),并确保仅将数据集用于科学研究目的,避免商业用途或滥用。
背景与挑战
背景概述
ToxiCN数据集,由大连理工大学的研究团队于2023年提出,旨在促进中文有毒语言的细粒度检测。该数据集采用层次化分类法Monitor Toxic Frame,将来自知乎和贴吧的帖子细粒度标注,包含性别歧视、种族歧视、地域偏见、反LGBTQ等类别。ToxiCN的创建丰富了中文有毒语言检测领域的研究资源,对相关领域产生了重要影响。
当前挑战
ToxiCN数据集面临的挑战主要包括:1) 如何准确识别和分类细粒度的有毒语言,尤其是隐含的有毒表达;2) 构建过程中,确保标注质量与一致性,处理潜在的伦理与责任问题;3) 在实际应用中,防止数据集的滥用与不当使用,保护用户隐私与安全。
常用场景
经典使用场景
在深度学习与自然语言处理领域,ToxiCN数据集的典型应用场景在于细粒度的中文毒性语言检测。该数据集通过构建层级化的毒性框架,为研究者提供了一个系统性的标注体系,从而能够准确识别并分类网络论坛中的毒性言论,如性别歧视、种族歧视等,为相关算法模型的训练与评估提供了标准化数据。
实际应用
在实际应用中,ToxiCN数据集可被用于社交媒体平台的言论监控与净化,以减少网络霸凌和仇恨言论的传播。此外,该数据集还能助力企业构建更为健康、积极的网络交流环境,提高用户体验。
衍生相关工作
ToxiCN数据集衍生了多项相关研究工作,如针对有害表情包的检测研究ToxiCN_MM,以及针对特定类型隐性毒性语言(如优越性语言)的检测研究PclGPT。这些工作进一步拓展了毒性语言检测的研究领域,并推动了相关技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作