five

MuSeD

收藏
arXiv2025-04-15 更新2025-04-17 收录
下载链接:
https://github.com/lauradegrazia/MuSeD
下载链接
链接失效反馈
官方服务:
资源简介:
MuSeD是一个西班牙语的多模态数据集,用于检测性别歧视,由巴塞罗那大学CLiC语言与计算中心创建。该数据集包含了从TikTok和BitChute平台收集的大约11个小时的视频,旨在扩展性别歧视的定义,涵盖基于性别、性取向和性别身份的歧视。数据集通过不同模态(文本、音频、图像)的标注,分析视觉和多媒体信息在识别性别歧视内容中的作用,并为研究提供了模态特定的标签,以评估多模态模型在性别歧视检测任务上的性能。

MuSeD is a Spanish multimodal dataset for gender discrimination detection, created by the CLiC Language and Computing Center at the University of Barcelona. This dataset contains approximately 11 hours of videos collected from TikTok and BitChute platforms, aiming to expand the definition of gender discrimination to cover discrimination based on gender, sexual orientation, and gender identity. It provides annotations across different modalities including text, audio and image, to analyze the role of visual and multimedia information in identifying gender discrimination content, and offers modality-specific labels for research to evaluate the performance of multimodal models on the gender discrimination detection task.
提供机构:
巴塞罗那大学,CLiC语言与计算中心
创建时间:
2025-04-15
搜集汇总
数据集介绍
main_image_url
构建方式
MuSeD数据集的构建过程体现了严谨的多模态数据采集与标注策略。研究团队从TikTok和BitChute平台采集了约11小时的西班牙语短视频,通过187个涵盖性别、性取向等主题的标签进行系统性筛选。数据预处理阶段采用Whisper-CTranslate2进行音频转录,结合专业语言学家校对,并运用EasyOCR提取视频帧文字,确保多模态信息的完整性。标注框架采用三级分层设计,由性别背景多元的标注团队分别对文本、音频和完整视频进行独立标注,并通过Fleiss' kappa系数验证标注一致性达到0.8以上。
特点
该数据集的核心价值在于其创新的多模态注释体系与平衡的数据结构。作为首个涵盖性别、性取向和性别认同多维歧视的西班牙语视频数据集,MuSeD包含400段平均97秒的视频,其中48.5%被标注为性别歧视内容。数据集特别区分了刻板印象、不平等、歧视和物化四种性别歧视类型,并保留了原始平台元数据。值得注意的是,视觉模态的引入使标注者间一致性从文本标注的0.71提升至视频标注的0.85,证实了多模态信息对识别隐性性别歧视的关键作用。
使用方法
研究者可通过多维度路径利用该数据集开展探索。技术层面支持三种输入模式:纯文本(转录+OCR)、多模态(文本+图像帧)及原始视频输入,适配从传统LLM到多模态大模型的评估需求。使用提示工程时建议区分西班牙语和英语提示模板,其中Qwen2.5-32B-Instruct模型在英语提示下准确率提升显著。评估指标推荐采用平衡准确率和F1分数,特别关注模型在BitChute低审查内容(93.94%性别歧视标注)与TikTok内容的表现差异。对于隐性歧视案例,建议结合标注团队讨论记录进行错误分析。
背景与挑战
背景概述
MuSeD(Multimodal Spanish Dataset for Sexism Detection)是由巴塞罗那大学和哥本哈根大学的研究团队于2024年创建的一个多模态西班牙语社交媒体视频数据集,旨在检测视频中的性别歧视内容。该数据集包含从TikTok和BitChute平台收集的约11小时的视频内容,涵盖了基于性别、性取向和性别认同的歧视现象。MuSeD的创新之处在于其多层次的标注框架,分别对文本、音频和视频内容进行标注,以分析不同模态在性别歧视检测中的贡献。该数据集的建立填补了多模态性别歧视检测领域的空白,特别是在西班牙语社交媒体视频分析方面,为相关研究提供了重要的数据支持。
当前挑战
MuSeD数据集面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,性别歧视检测本身具有高度复杂性,尤其是隐性的性别歧视(如刻板印象)往往依赖于社会文化背景,使得模型和标注者都难以准确识别。此外,多模态内容中不同模态(如文本、音频、视觉)可能呈现矛盾信息,进一步增加了检测难度。在构建过程方面,数据收集需要平衡不同平台(如TikTok和BitChute)的内容,并确保数据多样性;标注过程中需要克服标注者偏见,尤其是处理敏感内容时可能引发的道德问题;同时,多模态标注的复杂性也要求标注者具备专业的领域知识和细致的标注培训。
常用场景
经典使用场景
MuSeD数据集在性别歧视检测领域具有广泛的应用价值,尤其在社交媒体视频内容分析中表现突出。该数据集通过整合文本、音频和视觉信息,为研究者提供了一个多模态分析的平台。其经典使用场景包括自动识别和分类社交媒体视频中的性别歧视内容,特别是在西班牙语环境中。通过多模态标注框架,研究者能够深入分析不同模态在性别歧视表达中的贡献,从而提升检测模型的准确性和鲁棒性。
实际应用
在实际应用中,MuSeD数据集为社交媒体平台的自动化内容审核系统提供了重要支持。通过利用该数据集训练的模型,平台可以更高效地识别和过滤性别歧视内容,减轻人工审核的工作负担。此外,数据集还可用于教育领域,帮助培训学生和公众识别隐性性别歧视,提升社会对性别平等的认知。数据集的开放性和多模态特性使其成为跨学科研究的理想工具。
衍生相关工作
MuSeD数据集衍生了一系列经典研究工作,特别是在多模态性别歧视检测领域。基于该数据集的研究探索了大型语言模型(LLMs)和多模态模型在性别歧视检测中的性能差异,揭示了视觉信息对模型性能的提升作用。此外,数据集的标注框架为后续研究提供了标准化流程,促进了多模态数据标注方法的发展。相关研究还探讨了文化和社会背景对性别歧视识别的影响,为跨文化研究奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作