TOXICN|毒性语言检测数据集|自然语言处理数据集

arXiv2023-05-08 更新2024-06-21 收录

毒性语言检测

自然语言处理

下载链接：

https://github.com/DUT-lujunyu/ToxiCN

下载链接

链接失效反馈

资源简介：

TOXICN数据集由大连理工大学计算机科学与技术学院创建，包含12,011条中文毒性语言样本，涵盖性别歧视、种族歧视、地域偏见和反LGBTQ等多个领域。数据集通过MONITOR TOXIC FRAME分类框架进行细粒度标注，区分直接和间接毒性表达。创建过程中，研究团队构建了包含隐含毒性词汇的侮辱词典，并提出了Toxic Knowledge Enhancement (TKE)基准，以增强文本表示。该数据集旨在解决中文网络环境中毒性语言的细粒度检测问题，为自然语言处理领域的研究提供重要资源。

提供机构：

大连理工大学计算机科学与技术学院

创建时间：

2023-05-08

AI搜集汇总

数据集介绍

构建方式

为了促进对中文有害语言的细粒度检测，研究者们构建了MONITOR TOXIC FRAME这一分层分类法，以分析有害类型和表达方式。在此基础上，他们提出了一个细粒度数据集TOXICN，其中包括直接和间接的有害样本。数据集的构建首先涉及从两个公共在线媒体平台Zhihu和Tieba爬取帖子，并经过敏感话题筛选和关键字提取。随后，采用MONITOR TOXIC FRAME进行标注，通过伪标注和主要手动标注两个步骤，并使用开源文本标注工具Doccano辅助标注过程。最后，对数据进行去敏化处理，保留emoji以供检测。

特点

TOXICN数据集具有以下特点：1. 分离了仇恨言论和一般性攻击性言论；2. 包含直接和间接表达的有害样本；3. 构建了一个包含隐含侮辱和明确侮辱的侮辱词典；4. 提出了一个名为Toxic Knowledge Enhancement (TKE)的基准，将词汇特征融入文本表示中，以检测有害语言。数据集涵盖了性别、种族、地域和LGBTQ等主题的有害样本，具有多样性。

使用方法

TOXICN数据集以JSON格式存储，每个样本包含ID、平台、主题、文本、是否有害语言、是否为仇恨言论、目标群体和表达方式等信息。使用该数据集时，可以将其分割为训练集和测试集，利用预训练语言模型等方法进行有害语言检测。在检测过程中，可以引入TKE基准，以增强模型对有害语言的检测能力。此外，还可以通过分析侮辱词典和样本统计信息，进一步了解有害语言的特点和规律。

背景与挑战

背景概述

随着社交媒体的普及，网络暴力和恶意言论的传播对社会造成了严重危害。针对中文网络暴力语言的检测研究相对滞后，现有的数据集缺乏对恶意言论类型的细粒度标注，且忽略了间接恶意言论的样本。此外，引入词汇知识来检测恶意言论的毒性一直是研究人员的挑战。为了促进中文恶意言论的细粒度检测，研究人员构建了MONITOR TOXIC FRAME，一个用于分析恶意类型和表达的层次分类法。基于此分类法，提出了细粒度数据集TOXICN，包括直接和间接恶意样本。此外，还构建了一个包含隐含侮辱和侮辱性词汇的知识库，并提出了 Toxic Knowledge Enhancement (TKE) 作为基准，将词汇特征用于检测恶意言论。实验结果表明，TKE在检测恶意言论方面具有有效性。

当前挑战

中文恶意言论检测面临的挑战包括：1) 区分恶意言论类型和一般性侮辱性语言的挑战；2) 识别间接表达，包括隐含仇恨和报道歧视经历的样本的挑战；3) 构建包含隐含侮辱性词汇的知识库的挑战；4) 在不增加模型偏差的情况下引入外部知识以增强模型检测能力的挑战。

常用场景

经典使用场景

TOXICN数据集构建了一个层次化的分类体系MONITOR TOXIC FRAME，以分析有毒类型和表达。该数据集包括直接和间接的有毒样本，涵盖了性别歧视、种族主义、地区偏见和反LGBTQ等话题。此外，还构建了一个侮辱词典，包含隐含的侮辱和毒词。基于这些资源和分类体系，TOXICN数据集为研究有毒语言检测提供了丰富的实验数据。

实际应用

TOXICN数据集的实际应用场景包括社交媒体平台的有毒内容检测、网络论坛的有毒评论过滤、聊天机器人中的有毒语言识别等。该数据集可以帮助社交媒体平台和论坛管理员及时发现和过滤有毒内容，提高用户的使用体验和社区环境的健康程度。此外，TOXICN数据集还可以用于聊天机器人中的有毒语言识别，避免机器人在与用户交互时产生不良影响。

衍生相关工作

TOXICN数据集的构建和分类体系为有毒语言检测领域的研究提供了重要的基础和参考。基于TOXICN数据集，研究人员可以进一步研究有毒语言检测的算法和模型，提高检测模型的性能和准确性。此外，TOXICN数据集还可以用于研究有毒语言的社会影响和应对策略，为制定相关政策和措施提供科学依据。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集，旨在微调大型语言模型。该数据集包含三个部分：指令（问题）、摘要（从PubMed检索的相关摘要，包含PubMed ID、摘要标题和内容）和答案（预期答案，包含PubMed ID形式的参考）。数据集通过半自动方式创建，利用了PubMedQA数据集中的问题。

huggingface 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录