新浪微博性别歧视审查(SWSR)数据集
收藏arXiv2021-08-06 更新2024-06-21 收录
下载链接:
http://doi.org/10.5281/zenodo.4773875
下载链接
链接失效反馈官方服务:
资源简介:
SWSR数据集是首个针对中文的性别歧视数据集,由伦敦玛丽女王大学创建。该数据集包含10496条新浪微博内容,包括微博及其评论,旨在识别和分析中文网络环境中的性别歧视言论。数据集通过关键词搜索收集,涵盖多种性别歧视类型,如外貌、文化背景、微侵犯和性侵犯。此外,数据集还提供用户性别和位置等匿名信息,以支持更深入的分析。SWSR数据集的应用领域包括性别歧视的自动检测和分析,以及促进跨语言性别歧视研究。
The SWSR dataset is the first Chinese-language dataset focused on gender discrimination, created by Queen Mary University of London. Comprising 10,496 Sina Weibo posts and their accompanying comments, this dataset is designed to identify and analyze gender-discriminatory remarks in Chinese online environments. Collected via keyword-based searches, the dataset covers multiple types of gender discrimination, including those targeting appearance, cultural background, microaggressions, and sexual assault. Additionally, the dataset provides anonymous user information such as gender and location to support more in-depth analyses. Applications of the SWSR dataset include automatic detection and analysis of gender discrimination, as well as advancing cross-linguistic gender discrimination research.
提供机构:
伦敦玛丽女王大学
创建时间:
2021-08-06
搜集汇总
数据集介绍

构建方式
在构建新浪微博性别歧视审查(SWSR)数据集的过程中,研究团队首先通过关键词驱动的搜索方法,从新浪微博平台(weibo.cn)上收集了与性别歧视相关的内容。具体而言,团队确定了七个与性别歧视热点话题和事件相关的关键词,包括‘婊子’、‘女同性恋’、‘女权’、‘厌女’、‘metoo运动’、‘性别歧视’和‘性骚扰’。这些关键词被用于筛选微博内容,并进一步收集相关的评论。随后,通过去除重复内容、过滤无评论的微博以及处理短评论等步骤,最终形成了包含1,527条微博和8,969条评论的数据集。此外,团队还构建了一个包含3,016个与性别歧视和辱骂相关词汇的中文词典SexHateLex,以辅助数据集的标注和后续研究。
特点
SWSR数据集的一个显著特点是其多层次的标注体系,包括性别歧视与否的二元标注、性别歧视类别的多类别标注(如基于外貌的刻板印象、基于文化背景的刻板印象、微攻击和性侵犯),以及目标类型的标注(个体或群体)。这种细致的标注方式使得数据集不仅适用于性别歧视的检测,还能支持更细粒度的性别相关辱骂语言的研究。此外,数据集还包含了用户的匿名化信息,如性别、地理位置和社交网络特征,这些信息为研究用户特征与性别歧视内容之间的关系提供了可能。
使用方法
SWSR数据集可用于多种自然语言处理任务,特别是性别歧视检测和相关研究。研究者可以利用数据集中的微博和评论文本,结合多层次的标注信息,训练和评估性别歧视检测模型。例如,可以使用BERT、RoBERTa等基于Transformer的模型,或者传统的机器学习模型如逻辑回归和支持向量机,来识别和分类性别歧视内容。此外,数据集中的用户元数据可以用于探索用户特征与性别歧视内容之间的关联,从而为个性化内容审查和干预提供依据。SexHateLex词典则可以作为外部知识源,增强模型对性别歧视词汇的识别能力。
背景与挑战
背景概述
随着社交媒体平台的普及,网络性别歧视问题日益引起关注,对互联网的健康发展和社会产生了负面影响。尽管性别歧视检测领域的研究不断增长,但大多数研究集中在英语和Twitter平台上。为了拓宽这一研究领域,我们考虑了中文和新浪微博平台,并提出了首个中文性别歧视数据集——新浪微博性别歧视审查(SWSR)数据集,以及一个包含辱骂和性别相关词汇的大型中文词典SexHateLex。我们介绍了数据收集和标注过程,并提供了数据集特征的探索性分析,以验证其质量和展示性别歧视在中文中的表现形式。SWSR数据集在不同粒度级别上提供了标签,包括性别歧视或非性别歧视、性别歧视类别和目标类型,可用于构建计算方法来识别和调查更细粒度的性别相关辱骂语言。我们使用最先进的机器学习模型进行了三次性别歧视分类实验,结果显示了竞争性能,为中文性别歧视检测提供了基准,并进行了错误分析,突出了中文自然语言处理中需要更多研究的开放挑战。
当前挑战
构建SWSR数据集过程中遇到的挑战包括:1) 数据收集的复杂性,特别是由于中国方言的多样性和新兴网络语言的模糊性;2) 标注过程中的主观性和一致性问题,尤其是在识别隐含和微妙的性别歧视表达时;3) 模型在处理隐含性别歧视、缺乏先验信息和过度依赖性别歧视词汇方面的局限性。此外,外部知识的引入,如词典的使用,虽然对模型性能有所提升,但仍存在数据集多样性、词汇不一致性、语言特征、幽默讽刺和拼写变异等问题。
常用场景
经典使用场景
新浪微博性别歧视审查(SWSR)数据集最经典的使用场景在于自动检测和分类中文社交媒体平台上的性别歧视言论。该数据集通过收集和标注新浪微博上的性别歧视相关内容,提供了多层次的标签,包括性别歧视与否、性别歧视类别以及目标类型。这些标签使得研究者能够构建计算模型,以识别和研究更为细粒度的性别相关辱骂语言。
解决学术问题
SWSR数据集解决了在性别歧视检测领域中,大多数研究集中在英语和Twitter平台上的问题。通过提供首个中文性别歧视数据集,该数据集拓宽了性别歧视检测研究的视野,特别是在中文社交媒体平台如新浪微博上的应用。这不仅有助于学术界对性别歧视现象的深入理解,还为跨语言和跨平台的性别歧视检测研究提供了宝贵的资源。
衍生相关工作
SWSR数据集的发布催生了多项相关研究工作,包括但不限于多语言性别歧视检测、跨领域仇恨言论检测以及用户特征对性别歧视检测的影响研究。此外,该数据集还促进了性别歧视相关词汇资源的构建和扩展,如SexHateLex词典,这些资源为后续研究提供了重要的基础和支持。
以上内容由遇见数据集搜集并总结生成



