five

ToxCMM Dataset

收藏
github2024-05-24 更新2024-06-06 收录
下载链接:
https://github.com/justaguyalways/ToxVidLM_ACL_2024
下载链接
链接失效反馈
官方服务:
资源简介:
用于ACL 2024接受的关于混合英语和印地语视频内容中检测毒性的长论文的数据集。

A dataset for the accepted long paper at ACL 2024 regarding toxicity detection in code-switched English and Hindi video content.
创建时间:
2024-05-21
原始信息汇总

数据集信息

数据集下载

数据集安装

  • 解压后,将文件夹移动至仓库内的final_data目录。

数据集使用

  • 用于模型训练和测试。
    • 训练:通过运行train.py进行,可指定GPU使用。
    • 测试:通过运行test.py进行,同样可指定GPU使用。
搜集汇总
数据集介绍
main_image_url
构建方式
在构建ToxCMM数据集时,研究团队精心设计了多模态框架,旨在捕捉代码混合视频中的毒性内容。该数据集通过整合视频、音频和文本数据,确保了数据的全面性和多样性。具体而言,团队从多个公开资源中筛选并标注了大量视频片段,确保每个样本都经过严格的毒性检测和分类。此外,数据集的构建过程中采用了先进的自动化工具和人工审核相结合的方式,以提高标注的准确性和可靠性。
特点
ToxCMM数据集的显著特点在于其多模态数据的整合和高质量的标注。该数据集不仅包含了视频和音频数据,还结合了相应的文本描述,使得模型能够从多个维度理解和识别毒性内容。此外,数据集的标注过程经过多次校验和修正,确保了标注的一致性和准确性。这种多模态和高精度的特点使得ToxCMM数据集在毒性检测领域具有较高的应用价值。
使用方法
使用ToxCMM数据集进行模型训练和测试时,用户首先需要下载并解压数据集文件,然后将其放置在指定目录中。接着,用户可以通过运行`train.py`脚本进行模型训练,并通过`CUDA_VISIBLE_DEVICES`环境变量指定使用的GPU。类似地,测试过程可以通过运行`test.py`脚本来完成。这种清晰的操作流程和详细的文档说明,使得用户能够方便快捷地利用该数据集进行研究和开发。
背景与挑战
背景概述
ToxCMM Dataset,由Maity等人于2024年创建,旨在解决多模态视频中的毒性检测问题。该数据集的核心研究问题是如何在代码混合(Code-Mixed)视频中有效识别和分类毒性内容。主要研究人员包括Krishanu Maity、Poornash Sangeetha、Sriparna Saha和Pushpak Bhattacharyya,他们隶属于多个知名机构,如印度理工学院和印度科学研究所。该数据集的发布对计算语言学领域,特别是多模态内容分析和毒性检测,具有重要影响。
当前挑战
ToxCMM Dataset在构建过程中面临多重挑战。首先,多模态数据的整合与处理,特别是视频和文本的同步分析,增加了数据处理的复杂性。其次,代码混合语言的多样性和语境依赖性,使得毒性检测模型的训练和验证变得尤为困难。此外,数据集的标注工作需要高度的专业性和时间投入,以确保标注的准确性和一致性。这些挑战不仅影响了数据集的构建效率,也对后续模型的性能提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,ToxCMM数据集的经典使用场景主要集中在多模态毒性检测任务中。该数据集通过整合视频和文本数据,为研究人员提供了一个丰富的资源,用于训练和评估模型在检测代码混合视频中的毒性内容。通过这种方式,研究者能够开发出更为精准和鲁棒的毒性检测算法,从而有效应对社交媒体和在线平台中日益增长的毒性内容问题。
实际应用
在实际应用中,ToxCMM数据集被广泛应用于社交媒体平台的毒性内容监控和过滤系统。通过利用该数据集训练的模型,平台能够更有效地识别和过滤含有毒性内容的视频和文本,从而提升用户体验和社区健康。此外,该数据集还被用于企业内部培训和教育领域,帮助开发人员和内容审核员提升对毒性内容的识别能力。
衍生相关工作
基于ToxCMM数据集,研究者们开展了一系列相关工作,包括但不限于多模态毒性检测模型的优化、跨语言毒性检测技术的研究以及多模态数据融合方法的创新。这些工作不仅在学术界引起了广泛关注,还在工业界得到了实际应用,推动了毒性检测技术的发展和应用。此外,该数据集还激发了更多关于多模态学习和跨文化交流的研究,为相关领域的发展提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作