five

新浪微博性别歧视审查(SWSR)数据集|性别歧视数据集|社交媒体分析数据集

收藏
arXiv2021-08-06 更新2024-06-21 收录
性别歧视
社交媒体分析
下载链接:
http://doi.org/10.5281/zenodo.4773875
下载链接
链接失效反馈
资源简介:
SWSR数据集是首个针对中文的性别歧视数据集,由伦敦玛丽女王大学创建。该数据集包含10496条新浪微博内容,包括微博及其评论,旨在识别和分析中文网络环境中的性别歧视言论。数据集通过关键词搜索收集,涵盖多种性别歧视类型,如外貌、文化背景、微侵犯和性侵犯。此外,数据集还提供用户性别和位置等匿名信息,以支持更深入的分析。SWSR数据集的应用领域包括性别歧视的自动检测和分析,以及促进跨语言性别歧视研究。
提供机构:
伦敦玛丽女王大学
创建时间:
2021-08-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建新浪微博性别歧视审查(SWSR)数据集的过程中,研究团队首先通过关键词驱动的搜索方法,从新浪微博平台(weibo.cn)上收集了与性别歧视相关的内容。具体而言,团队确定了七个与性别歧视热点话题和事件相关的关键词,包括‘婊子’、‘女同性恋’、‘女权’、‘厌女’、‘metoo运动’、‘性别歧视’和‘性骚扰’。这些关键词被用于筛选微博内容,并进一步收集相关的评论。随后,通过去除重复内容、过滤无评论的微博以及处理短评论等步骤,最终形成了包含1,527条微博和8,969条评论的数据集。此外,团队还构建了一个包含3,016个与性别歧视和辱骂相关词汇的中文词典SexHateLex,以辅助数据集的标注和后续研究。
特点
SWSR数据集的一个显著特点是其多层次的标注体系,包括性别歧视与否的二元标注、性别歧视类别的多类别标注(如基于外貌的刻板印象、基于文化背景的刻板印象、微攻击和性侵犯),以及目标类型的标注(个体或群体)。这种细致的标注方式使得数据集不仅适用于性别歧视的检测,还能支持更细粒度的性别相关辱骂语言的研究。此外,数据集还包含了用户的匿名化信息,如性别、地理位置和社交网络特征,这些信息为研究用户特征与性别歧视内容之间的关系提供了可能。
使用方法
SWSR数据集可用于多种自然语言处理任务,特别是性别歧视检测和相关研究。研究者可以利用数据集中的微博和评论文本,结合多层次的标注信息,训练和评估性别歧视检测模型。例如,可以使用BERT、RoBERTa等基于Transformer的模型,或者传统的机器学习模型如逻辑回归和支持向量机,来识别和分类性别歧视内容。此外,数据集中的用户元数据可以用于探索用户特征与性别歧视内容之间的关联,从而为个性化内容审查和干预提供依据。SexHateLex词典则可以作为外部知识源,增强模型对性别歧视词汇的识别能力。
背景与挑战
背景概述
随着社交媒体平台的普及,网络性别歧视问题日益引起关注,对互联网的健康发展和社会产生了负面影响。尽管性别歧视检测领域的研究不断增长,但大多数研究集中在英语和Twitter平台上。为了拓宽这一研究领域,我们考虑了中文和新浪微博平台,并提出了首个中文性别歧视数据集——新浪微博性别歧视审查(SWSR)数据集,以及一个包含辱骂和性别相关词汇的大型中文词典SexHateLex。我们介绍了数据收集和标注过程,并提供了数据集特征的探索性分析,以验证其质量和展示性别歧视在中文中的表现形式。SWSR数据集在不同粒度级别上提供了标签,包括性别歧视或非性别歧视、性别歧视类别和目标类型,可用于构建计算方法来识别和调查更细粒度的性别相关辱骂语言。我们使用最先进的机器学习模型进行了三次性别歧视分类实验,结果显示了竞争性能,为中文性别歧视检测提供了基准,并进行了错误分析,突出了中文自然语言处理中需要更多研究的开放挑战。
当前挑战
构建SWSR数据集过程中遇到的挑战包括:1) 数据收集的复杂性,特别是由于中国方言的多样性和新兴网络语言的模糊性;2) 标注过程中的主观性和一致性问题,尤其是在识别隐含和微妙的性别歧视表达时;3) 模型在处理隐含性别歧视、缺乏先验信息和过度依赖性别歧视词汇方面的局限性。此外,外部知识的引入,如词典的使用,虽然对模型性能有所提升,但仍存在数据集多样性、词汇不一致性、语言特征、幽默讽刺和拼写变异等问题。
常用场景
经典使用场景
新浪微博性别歧视审查(SWSR)数据集最经典的使用场景在于自动检测和分类中文社交媒体平台上的性别歧视言论。该数据集通过收集和标注新浪微博上的性别歧视相关内容,提供了多层次的标签,包括性别歧视与否、性别歧视类别以及目标类型。这些标签使得研究者能够构建计算模型,以识别和研究更为细粒度的性别相关辱骂语言。
解决学术问题
SWSR数据集解决了在性别歧视检测领域中,大多数研究集中在英语和Twitter平台上的问题。通过提供首个中文性别歧视数据集,该数据集拓宽了性别歧视检测研究的视野,特别是在中文社交媒体平台如新浪微博上的应用。这不仅有助于学术界对性别歧视现象的深入理解,还为跨语言和跨平台的性别歧视检测研究提供了宝贵的资源。
衍生相关工作
SWSR数据集的发布催生了多项相关研究工作,包括但不限于多语言性别歧视检测、跨领域仇恨言论检测以及用户特征对性别歧视检测的影响研究。此外,该数据集还促进了性别歧视相关词汇资源的构建和扩展,如SexHateLex词典,这些资源为后续研究提供了重要的基础和支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录