five

FineMuSe

收藏
arXiv2026-02-18 更新2026-02-19 收录
下载链接:
https://github.com/lauradegrazia/FineMuSe
下载链接
链接失效反馈
官方服务:
资源简介:
FineMuSe是由巴塞罗那大学和哥本哈根大学联合构建的西班牙语多模态性别歧视检测数据集,包含828条来自TikTok、BitChute和YouTube Shorts平台的短视频。该数据集创新性地融合了文本、语音和视觉模态,并采用专家标注策略对内容进行二元分类(性别歧视/非性别歧视)及细粒度标注(包括刻板印象、不平等、歧视等4类性别歧视类型,以及反讽、幽默等修辞手法)。数据采集过程通过主题标签策略确保覆盖拉美与西班牙本土方言变体,并利用Whisper-ctranslate2进行音频转录以支持多模态分析。该资源旨在推动社交媒体中隐性性别歧视的识别研究,为内容审核系统提供细粒度分类基准。

FineMuSe is a Spanish-language multimodal dataset for gender discrimination detection, jointly constructed by the University of Barcelona and the University of Copenhagen. It contains 828 short videos sourced from TikTok, BitChute, and YouTube Shorts platforms. This dataset innovatively integrates text, speech, and visual modalities, and adopts expert annotation strategies to perform two-tier annotations: binary classification (gender discrimination / non-gender discrimination) and fine-grained labeling covering four types of gender discrimination such as stereotypes, inequality, and discrimination, as well as rhetorical devices including irony and humor. During data collection, hashtag-based strategies were employed to ensure coverage of Latin American and Spanish regional dialect variants, and Whisper-ctranslate2 was utilized for audio transcription to support multimodal analysis. This resource aims to advance research on the identification of implicit gender discrimination in social media, and provide a fine-grained classification benchmark for content moderation systems.
提供机构:
巴塞罗那大学·语言与计算中心; 哥本哈根大学·计算机科学系
创建时间:
2026-02-18
搜集汇总
数据集介绍
构建方式
在社交媒体性别歧视检测领域,现有数据集多局限于二元分类或单一模态,难以捕捉性别歧视的细微与隐含表达。FineMuSe数据集的构建旨在填补这一空白,其以西班牙语多模态视频为研究对象,从TikTok、BitChute和YouTube Shorts三个平台系统采集了828个视频样本。数据收集基于一套涵盖性别刻板印象、不平等否认、歧视和物化等主题的西班牙语主题标签,确保覆盖多元的性别歧视表现形式。数据处理阶段采用Whisper-ctranslate2进行音频转录,并利用FFmpeg提取音频,为后续的多模态标注奠定基础。标注工作由具备性别歧视内容标注经验的专家团队执行,采用三级分层分类法,涵盖性别歧视与非性别歧视内容,以及反讽与幽默等修辞手法,并支持多标签标注以反映性别歧视类型的重叠性。
使用方法
FineMuSe数据集主要用于开发和评估细粒度多模态性别歧视检测模型。研究者可利用该数据集进行二元性别歧视分类任务,或更复杂的多标签细粒度分类任务,以区分不同类型的性别歧视内容。数据集提供的多模态信息(文本转录、音频、视频帧)支持构建融合文本、听觉与视觉特征的模型,探索不同模态对检测性能的贡献。在实验设置上,可采用零样本提示或微调等策略,利用大型语言模型或多模态模型进行预测,并通过准确率、宏F1值等指标评估模型性能。此外,数据集标注的修辞手法(如反讽、幽默)可用于研究隐含性别歧视的表达方式,而专家标注的解释文本可用于评估模型生成解释的质量与可解释性。数据集的平台与方言多样性也使其适用于研究性别歧视表达的平台差异与跨文化比较。
背景与挑战
背景概述
FineMuSe数据集由巴塞罗那大学与哥本哈根大学的研究团队于2026年构建,旨在应对社交媒体中性别歧视检测的复杂挑战。该数据集聚焦于西班牙语短视频内容,涵盖TikTok、BitChute与YouTube Shorts三大平台,共收录828个视频样本。其核心创新在于突破了传统二元分类的局限,引入细粒度标注体系,将性别歧视划分为刻板印象、否认不平等、歧视与物化四大类别,并纳入反讽与幽默等修辞手法分析。这一多模态框架整合文本、语音与视觉信息,为深入理解性别歧视在数字环境中的隐性表达提供了重要资源,推动了内容审核与自然语言处理领域向更精准、可解释的方向发展。
当前挑战
FineMuSe数据集面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面,细粒度性别歧视检测要求模型识别高度隐含且多类别共现的歧视表达,例如物化类别常通过视觉线索传递,而现有模型对此类跨模态语义的理解仍显不足。构建过程中,标注工作因多标签分类的复杂性而极具挑战,不同性别歧视类别常相互重叠,且修辞手法如反讽的主观性导致标注者间一致性较低。此外,数据采集需平衡多平台内容差异与西班牙语方言变体,确保数据集的代表性与泛化能力,这些因素共同构成了数据集开发与应用中的核心难点。
常用场景
经典使用场景
在社交媒体内容审核与性别偏见分析领域,FineMuSe数据集为研究者提供了探索细粒度性别歧视检测的宝贵资源。该数据集通过整合来自TikTok、BitChute和YouTube Shorts三个平台的西班牙语短视频,构建了一个涵盖文本、音频和视觉模态的多模态语料库。其经典使用场景在于支持机器学习模型进行层次化多标签分类任务,即首先判断内容是否属于性别歧视,进而识别其具体表现形式,如刻板印象、不平等否认、歧视或物化。这种设计使得研究者能够超越传统的二元分类框架,深入探究性别歧视在数字环境中的复杂呈现方式。
解决学术问题
FineMuSe数据集有效应对了当前性别歧视检测研究中面临的若干关键挑战。传统自动化工具通常局限于二元分类,难以捕捉隐性或微妙的歧视形式。该数据集通过引入细粒度标注体系,将性别歧视细分为四大非互斥类别,并纳入反歧视言论与经历报告等非歧视内容,以及反讽与幽默等修辞手法。这一架构使得研究者能够系统考察性别歧视的多模态共现模式,例如视觉线索如何强化文本中的物化倾向。数据集不仅提升了模型对复杂语义的理解能力,也为探究平台差异、文化语境对歧视表达的影响提供了实证基础。
实际应用
在实际应用层面,FineMuSe数据集为社交媒体平台的内容审核系统开发提供了重要支撑。基于该数据集训练的多模态大语言模型能够辅助人工审核员识别短视频中隐含的性别歧视内容,特别是在处理西班牙语用户生成内容时展现出显著价值。其细粒度分类能力有助于平台制定更精准的社区准则执行策略,例如区分教育性内容与歧视性言论。数据集涵盖的跨平台样本(包括监管强度各异的平台)为理解不同生态系统的内容治理提供了比较视角,可助力平台优化算法审核机制,在保障言论自由的同时有效遏制网络性别暴力。
数据集最近研究
最新研究方向
在社交媒体内容审核领域,针对性别歧视的自动检测正逐步从传统的二元分类向细粒度、多模态分析演进。FineMuSe数据集的推出标志着这一前沿趋势,其通过整合文本、音频与视频信息,构建了涵盖刻板印象、不平等否认、歧视与物化等多类别的层次化标注体系。当前研究聚焦于探索大规模语言模型与多模态模型在识别微妙性别歧视表达上的性能边界,尤其关注视觉线索与修辞手法(如反讽与幽默)对模型判断的挑战。相关实验表明,尽管先进的多模态模型在二元检测任务上已接近人类水平,但在处理共现的歧视类型及视觉传达的物化内容时仍存在显著局限。这一进展不仅推动了透明化内容审核工具的发展,也为理解跨平台、跨方言的性别歧视传播机制提供了实证基础。
相关研究论文
  • 1
    Beyond Binary Classification: Detecting Fine-Grained Sexism in Social Media Videos巴塞罗那大学·语言与计算中心; 哥本哈根大学·计算机科学系 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作