Chinese-Toxic-Multimodal-Dataset

github2024-08-29 更新2024-08-30 收录

下载链接：

https://github.com/MrHuangZy/Chinese-Toxic-Multimodal-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Chinese-Toxic-Multimodal-Dataset是一个包含10,294个条目的数据集，其中6,310个被标记为有毒，3,984个被标记为无毒。数据集从Bilibili、Douyin、Kuaishou和YouTube等社交平台收集视频，通过特定的网络爬虫收集含有敏感关键词的视频，并使用Jianying软件提取和同步字幕信息。数据集经过严格的标注过程，由九名研究生根据明确的毒性判定标准进行标注。数据集的平均话语长度约为12个字符，平均持续时间为2.28秒，其中3,543个条目存在视觉和音频信息的不一致性。

The Chinese-Toxic-Multimodal-Dataset is a multimodal dataset consisting of 10,294 entries, 6,310 of which are annotated as toxic and 3,984 as non-toxic. Videos were collected from social platforms including Bilibili, Douyin, Kuaishou and YouTube via targeted web crawlers that harvested videos containing sensitive keywords, and subtitle information was extracted and synchronized using the Jianying software. The dataset underwent a rigorous annotation process, with nine graduate students performing labeling based on explicit toxicity judgment criteria. The average length of utterances in the dataset is approximately 12 characters, with an average duration of 2.28 seconds. Additionally, 3,543 entries exhibit inconsistency between visual and audio information.

创建时间：

2024-08-29

原始信息汇总

Chinese-Toxic-Multimodal-Dataset

数据收集

来源平台：Bilibili、Douyin、Kuaishou、YouTube
收集方法：使用特定网络爬虫，针对包含地区歧视、侮辱、脏话、种族歧视、威胁、辱骂等敏感关键词的视频进行筛选
视频数量：共收集3,781个视频，经过初步评估后保留626个视频
处理工具：使用Jianying软件提取并同步字幕信息，通过调整字幕时间戳和修改文本内容，使字幕、音频和文本信息对齐
视频分割：使用moviepy工具包将长视频分割成多个句子级别的视频片段，最终生成10,294个数据条目

数据标注

标注人员：九名研究生
标注标准：使用0表示“非毒性”，1表示“毒性”，每个数据条目由三组标注人员独立标注，最终得分范围为0到3，0表示“非毒性”，1、2、3表示“毒性”
标注结果：共10,294个数据条目，其中6,310个标记为毒性，3,984个标记为非毒性

数据统计与分析

数据条目：共10,294个
平均话语长度：约12个字符
平均时长：2.28秒
信息不一致：3,543个条目存在视觉和音频信息不一致的情况，如电影旁白、仅有配音的视频、缺乏清晰肢体语言或面部表情的视频

数据来源

数据下载：数据已加密，感兴趣的用户请联系qzc@cqust.edu.cn

温馨提示

敏感信息：数据集可能包含敏感信息，但这些内容不代表个人观点或意图，仅供毒性视频检测研究使用

搜集汇总

数据集介绍

构建方式

在构建中文毒性多模态数据集（Chinese-Toxic-Multimodal-Dataset, CTMD）的过程中，研究团队首先从多个社交平台（如Bilibili、Douyin、Kuaishou和YouTube）收集视频数据。通过开发特定的网络爬虫，针对包含区域歧视、侮辱、亵渎、种族歧视、威胁和辱骂等敏感关键词的内容进行筛选，共提取了3,781个视频。随后，利用Jianying软件提取并同步视频字幕信息，并根据字幕内容进行初步评估，最终保留了626个视频。通过调整字幕时间戳和修改文本内容，确保字幕、音频和文本信息的一致性，并使用moviepy工具包将长视频分割为多个句子级别的视频片段，生成10,294个数据条目。

使用方法

使用CTMD数据集时，研究者可以通过访问Google Driver链接获取加密的数据文件，并联系qzc@cqust.edu.cn获取解密信息。数据集的每个条目包含视频片段、同步的字幕信息以及毒性标签，标签范围从0（无毒）到3（有毒）。研究者可以利用这些数据进行多模态毒性检测模型的训练和评估，特别是针对视频内容中的视觉和音频信息进行综合分析。此外，数据集的构建过程和标注标准为研究者提供了明确的参考，有助于确保研究结果的可靠性和一致性。

背景与挑战

背景概述

Chinese-Toxic-Multimodal-Dataset（CTMD）是由一群研究生在2024年创建的，旨在解决中文社交媒体平台上多模态有毒内容检测的问题。该数据集的核心研究问题是如何有效识别和分类视频中的有毒言论，这对于维护网络环境的健康至关重要。主要研究人员来自重庆科技学院，他们通过从Bilibili、Douyin、Kuaishou和YouTube等平台收集视频，并利用Jianying软件提取和同步字幕信息，最终构建了一个包含10,294个数据条目的数据集。CTMD的创建不仅为多模态有毒内容检测提供了宝贵的资源，还推动了相关领域的研究进展。

当前挑战

CTMD在构建过程中面临多项挑战。首先，数据收集阶段需要开发专门的网络爬虫，以从海量视频中筛选出含有敏感关键词的内容，这要求高效的算法和强大的计算资源。其次，数据标注过程复杂，需要九名研究生进行独立的手动标注，确保标注结果的准确性和一致性。此外，数据集中存在3,543个条目的视觉和音频信息不一致，这增加了多模态有毒内容检测的难度。最后，数据集中的敏感信息处理也是一个重要挑战，需确保数据的安全性和隐私保护，同时满足研究需求。

常用场景

经典使用场景

在多模态内容分析领域，Chinese-Toxic-Multimodal-Dataset（CTMD）数据集被广泛应用于检测和分类视频中的有害言论。通过整合视频、音频和字幕信息，该数据集为研究人员提供了一个全面的框架，用于开发和验证多模态有害内容检测模型。其经典使用场景包括但不限于：利用深度学习算法分析视频中的视觉、听觉和文本信息，识别并量化有害言论的严重程度，从而为社交媒体平台提供自动化的内容审核工具。

解决学术问题

CTMD数据集在学术研究中解决了多模态有害内容检测的关键问题。通过提供丰富的视频、音频和字幕数据，该数据集使得研究人员能够深入探讨如何有效整合不同模态的信息，以提高有害内容检测的准确性和效率。此外，数据集中包含的多种有害言论类型，如地域歧视、侮辱、种族歧视等，为跨文化和社会背景下的有害言论研究提供了宝贵的资源，推动了相关领域的理论和方法创新。

实际应用

在实际应用中，CTMD数据集为社交媒体平台的内容审核提供了强有力的支持。通过训练基于该数据集的模型，平台可以实现对用户上传视频的实时有害内容检测，从而有效减少有害言论的传播，维护社区的健康环境。此外，该数据集还可应用于教育、企业内部沟通等多个领域，帮助识别和预防有害言论，提升信息交流的安全性和质量。

数据集最近研究