five

Chinese-Toxic-Multimodal-Dataset

收藏
github2024-08-29 更新2024-08-30 收录
下载链接:
https://github.com/MrHuangZy/Chinese-Toxic-Multimodal-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Chinese-Toxic-Multimodal-Dataset是一个包含10,294个条目的数据集,其中6,310个被标记为有毒,3,984个被标记为无毒。数据集从Bilibili、Douyin、Kuaishou和YouTube等社交平台收集视频,通过特定的网络爬虫收集含有敏感关键词的视频,并使用Jianying软件提取和同步字幕信息。数据集经过严格的标注过程,由九名研究生根据明确的毒性判定标准进行标注。数据集的平均话语长度约为12个字符,平均持续时间为2.28秒,其中3,543个条目存在视觉和音频信息的不一致性。

The Chinese-Toxic-Multimodal-Dataset is a multimodal dataset consisting of 10,294 entries, 6,310 of which are annotated as toxic and 3,984 as non-toxic. Videos were collected from social platforms including Bilibili, Douyin, Kuaishou and YouTube via targeted web crawlers that harvested videos containing sensitive keywords, and subtitle information was extracted and synchronized using the Jianying software. The dataset underwent a rigorous annotation process, with nine graduate students performing labeling based on explicit toxicity judgment criteria. The average length of utterances in the dataset is approximately 12 characters, with an average duration of 2.28 seconds. Additionally, 3,543 entries exhibit inconsistency between visual and audio information.
创建时间:
2024-08-29
原始信息汇总

Chinese-Toxic-Multimodal-Dataset

数据收集

  • 来源平台:Bilibili、Douyin、Kuaishou、YouTube
  • 收集方法:使用特定网络爬虫,针对包含地区歧视、侮辱、脏话、种族歧视、威胁、辱骂等敏感关键词的视频进行筛选
  • 视频数量:共收集3,781个视频,经过初步评估后保留626个视频
  • 处理工具:使用Jianying软件提取并同步字幕信息,通过调整字幕时间戳和修改文本内容,使字幕、音频和文本信息对齐
  • 视频分割:使用moviepy工具包将长视频分割成多个句子级别的视频片段,最终生成10,294个数据条目

数据标注

  • 标注人员:九名研究生
  • 标注标准:使用0表示“非毒性”,1表示“毒性”,每个数据条目由三组标注人员独立标注,最终得分范围为0到3,0表示“非毒性”,1、2、3表示“毒性”
  • 标注结果:共10,294个数据条目,其中6,310个标记为毒性,3,984个标记为非毒性

数据统计与分析

  • 数据条目:共10,294个
  • 平均话语长度:约12个字符
  • 平均时长:2.28秒
  • 信息不一致:3,543个条目存在视觉和音频信息不一致的情况,如电影旁白、仅有配音的视频、缺乏清晰肢体语言或面部表情的视频

数据来源

  • 数据下载:数据已加密,感兴趣的用户请联系qzc@cqust.edu.cn

温馨提示

  • 敏感信息:数据集可能包含敏感信息,但这些内容不代表个人观点或意图,仅供毒性视频检测研究使用
搜集汇总
数据集介绍
main_image_url
构建方式
在构建中文毒性多模态数据集(Chinese-Toxic-Multimodal-Dataset, CTMD)的过程中,研究团队首先从多个社交平台(如Bilibili、Douyin、Kuaishou和YouTube)收集视频数据。通过开发特定的网络爬虫,针对包含区域歧视、侮辱、亵渎、种族歧视、威胁和辱骂等敏感关键词的内容进行筛选,共提取了3,781个视频。随后,利用Jianying软件提取并同步视频字幕信息,并根据字幕内容进行初步评估,最终保留了626个视频。通过调整字幕时间戳和修改文本内容,确保字幕、音频和文本信息的一致性,并使用moviepy工具包将长视频分割为多个句子级别的视频片段,生成10,294个数据条目。
使用方法
使用CTMD数据集时,研究者可以通过访问Google Driver链接获取加密的数据文件,并联系qzc@cqust.edu.cn获取解密信息。数据集的每个条目包含视频片段、同步的字幕信息以及毒性标签,标签范围从0(无毒)到3(有毒)。研究者可以利用这些数据进行多模态毒性检测模型的训练和评估,特别是针对视频内容中的视觉和音频信息进行综合分析。此外,数据集的构建过程和标注标准为研究者提供了明确的参考,有助于确保研究结果的可靠性和一致性。
背景与挑战
背景概述
Chinese-Toxic-Multimodal-Dataset(CTMD)是由一群研究生在2024年创建的,旨在解决中文社交媒体平台上多模态有毒内容检测的问题。该数据集的核心研究问题是如何有效识别和分类视频中的有毒言论,这对于维护网络环境的健康至关重要。主要研究人员来自重庆科技学院,他们通过从Bilibili、Douyin、Kuaishou和YouTube等平台收集视频,并利用Jianying软件提取和同步字幕信息,最终构建了一个包含10,294个数据条目的数据集。CTMD的创建不仅为多模态有毒内容检测提供了宝贵的资源,还推动了相关领域的研究进展。
当前挑战
CTMD在构建过程中面临多项挑战。首先,数据收集阶段需要开发专门的网络爬虫,以从海量视频中筛选出含有敏感关键词的内容,这要求高效的算法和强大的计算资源。其次,数据标注过程复杂,需要九名研究生进行独立的手动标注,确保标注结果的准确性和一致性。此外,数据集中存在3,543个条目的视觉和音频信息不一致,这增加了多模态有毒内容检测的难度。最后,数据集中的敏感信息处理也是一个重要挑战,需确保数据的安全性和隐私保护,同时满足研究需求。
常用场景
经典使用场景
在多模态内容分析领域,Chinese-Toxic-Multimodal-Dataset(CTMD)数据集被广泛应用于检测和分类视频中的有害言论。通过整合视频、音频和字幕信息,该数据集为研究人员提供了一个全面的框架,用于开发和验证多模态有害内容检测模型。其经典使用场景包括但不限于:利用深度学习算法分析视频中的视觉、听觉和文本信息,识别并量化有害言论的严重程度,从而为社交媒体平台提供自动化的内容审核工具。
解决学术问题
CTMD数据集在学术研究中解决了多模态有害内容检测的关键问题。通过提供丰富的视频、音频和字幕数据,该数据集使得研究人员能够深入探讨如何有效整合不同模态的信息,以提高有害内容检测的准确性和效率。此外,数据集中包含的多种有害言论类型,如地域歧视、侮辱、种族歧视等,为跨文化和社会背景下的有害言论研究提供了宝贵的资源,推动了相关领域的理论和方法创新。
实际应用
在实际应用中,CTMD数据集为社交媒体平台的内容审核提供了强有力的支持。通过训练基于该数据集的模型,平台可以实现对用户上传视频的实时有害内容检测,从而有效减少有害言论的传播,维护社区的健康环境。此外,该数据集还可应用于教育、企业内部沟通等多个领域,帮助识别和预防有害言论,提升信息交流的安全性和质量。
数据集最近研究
最新研究方向
近年来,随着社交媒体的蓬勃发展,多模态数据中的有害内容检测成为研究热点。Chinese-Toxic-Multimodal-Dataset(CTMD)作为这一领域的关键资源,其最新研究方向主要集中在多模态融合技术上,旨在通过整合视频、音频和文本信息,提升有害内容检测的准确性和效率。研究者们正致力于开发更先进的模型,如ToxMNet,以处理视频数据中的复杂性和不一致性,从而更精确地识别和分类有害内容。此外,数据集的构建和标注方法也在不断优化,以确保数据的质量和可靠性,为后续的模型训练和评估提供坚实基础。这些研究不仅有助于净化网络环境,还为相关政策制定提供了科学依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作