five

MuTox

收藏
arXiv2024-01-10 更新2024-06-21 收录
下载链接:
https://github.com/facebookresearch/seamless_communication/tree/main/docs/rai/mutox_README.md
下载链接
链接失效反馈
官方服务:
资源简介:
MuTox是由Meta公司开发的第一个高度多语言的音频基础毒性数据集,包含21种语言的毒性标签。数据集主要由英语和西班牙语的20000条音频以及其余19种语言的4000条音频组成。创建过程中,使用了多种文本毒性分类器进行预筛选,并根据长度和认知负荷筛选音频文件。MuTox数据集旨在解决多语言音频毒性检测的问题,特别是在多模态和多语言翻译中添加或删除毒性的情况。

MuTox is the first highly multilingual audio-based toxicity dataset developed by Meta, which provides toxicity labeling for 21 languages. The dataset primarily consists of 20,000 audio clips in English and Spanish, plus 4,000 audio clips spanning the remaining 19 languages. During its development, multiple text toxicity classifiers were employed for pre-screening, and audio files were filtered based on their duration and cognitive load. The MuTox dataset aims to address the challenges of multilingual audio toxicity detection, particularly scenarios where toxicity is added or removed during multimodal and multilingual translation processes.
提供机构:
Meta
创建时间:
2024-01-10
搜集汇总
数据集介绍
main_image_url
构建方式
在音频毒性检测领域,多语言数据的稀缺性长期制约着相关研究的发展。MuTox数据集的构建采用了系统化的方法,首先从大规模多语言语音数据集(如COMMONVOICE和SEAMLESSALIGN)中筛选音频片段,确保时长介于2至8秒之间以平衡语义完整性与认知负荷。随后,利用文本毒性分类器(如DETOXIFY和ETOX)对转录文本进行毒性预标注,以此为基础从高毒性得分样本中抽样,并结合人工标注进行最终验证。对于英语和西班牙语,数据集包含20,000条标注语句;其余19种语言各包含4,000条,形成了覆盖21种语言的毒性标注语音库。
特点
MuTox数据集的显著特点在于其高度的多语言覆盖与精细的毒性标注体系。该数据集涵盖21种语言,不仅包括英语和西班牙语的大规模标注数据,还扩展至孟加拉语、阿拉伯语、汉语等多种高优先级语言,为跨语言毒性检测研究提供了宝贵资源。标注内容细致区分了多种毒性类别,如污言秽语、仇恨言论、色情语言及暴力威胁语言,并同时考虑了词汇语义与言后效应对毒性的影响。这种多维度的标注框架使得数据集能够捕捉语音中隐含的毒性特征,超越了传统基于词表的检测局限。
使用方法
MuTox数据集为音频毒性检测模型的训练与评估提供了标准化基准。研究人员可利用其划分好的训练、开发、测试子集,构建端到端的音频毒性分类器。数据集支持零样本检测场景,借助预训练的SONAR编码器,模型能够在未见语言上实现毒性识别。在实际应用中,用户可直接加载音频数据,通过集成MuTox分类器进行毒性概率预测,或将其与自动语音识别系统结合,构建级联检测流程。该数据集亦可用于对比分析不同毒性检测方法的性能,推动多语言语音安全技术的发展。
背景与挑战
背景概述
在自然语言处理领域,音频模态的毒性检测研究相对有限,尤其在非英语语言中更为突出。为填补这一空白并推动多语言音频毒性检测的发展,Meta公司的FAIR团队于2024年推出了MuTox数据集。该数据集作为首个高度多语言的音频毒性标注资源,涵盖了21种语言,其中英语和西班牙语各包含20,000条音频语句,其余19种语言各含4,000条。其核心研究问题在于解决跨语言音频毒性检测的通用性与准确性,通过构建端到端的零样本检测模型,显著提升了多语言环境下的检测性能,为语音安全与内容审核提供了重要基础。
当前挑战
MuTox数据集面临的挑战主要体现在两个方面:其一,在领域问题层面,音频毒性检测需克服语言多样性带来的复杂性,包括不同语言中毒性表达的文化差异、语音语调对语义的影响,以及隐含性毒性内容的识别难题;其二,在构建过程中,数据标注面临主观性困扰,毒性定义因文化背景而异,同时音频预处理需平衡语句长度与语义完整性,且依赖文本毒性分类器进行数据预筛选可能引入偏差,影响数据集的代表性与泛化能力。
常用场景
经典使用场景
在音频内容安全领域,MuTox数据集为多语言语音毒性检测提供了首个大规模基准。该数据集通过涵盖21种语言的标注语音片段,为研究者构建端到端音频毒性分类器奠定了数据基础。其经典应用场景在于训练和评估能够直接处理原始音频信号、无需依赖语音识别中间步骤的毒性检测模型,有效避免了传统级联系统中因转写错误导致的性能损失。
实际应用
在实际应用层面,MuTox数据集及其衍生的分类器可广泛应用于在线社交平台、语音聊天应用及内容审核系统。通过实时检测语音流中的侮辱性言论、仇恨言论、暴力威胁等有害内容,该系统能够辅助构建更安全的数字交流环境。其支持超过100种语言的零样本检测能力,尤其适用于用户群体语言多样的全球化平台,为自动化内容审核提供了高效且覆盖广泛的技术方案。
衍生相关工作
基于MuTox数据集,研究者开发了同名的MuTox音频毒性分类器,该模型采用SONAR编码器架构,实现了在未见语言上的零样本检测。相关工作还包括将其与基于词表的ETOX分类器以及基于上下文的DETOXIFY分类器进行系统性对比分析,揭示了端到端音频模型在精度和召回率上的显著优势。这些研究深化了对多模态毒性检测中模态差异与语言泛化能力的理解,并为后续构建更鲁棒的跨语言内容安全系统指明了方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作