wonbias-partial-dataset

Hugging Face2025-04-16 更新2025-04-17 收录

下载链接：

https://huggingface.co/datasets/gender-bias-bengali/wonbias-partial-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

孟加拉语性别偏见数据集（部分）：用于分析和减轻性别偏见的平衡语料库

创建时间：

2025-04-11

搜集汇总

数据集介绍

构建方式

该数据集聚焦于孟加拉语文本中的性别偏见问题，通过多源数据采集与半自动化工具相结合的方式构建。数据来源涵盖社交媒体平台（如TikTok、Facebook）、在线论坛、新闻评论及政府报告等公开渠道，采用速率限制爬取技术确保合规性。所有文本均经过严格匿名化处理，移除用户标识符和元数据，并通过本地标注团队进行人工标注，形成包含中立、积极和消极三类标签的平衡语料库。

特点

作为孟加拉语领域首个针对女性性别偏见的标注数据集，其核心价值体现在三方面：标签体系设计上采用三分法（中立/积极/消极），能有效捕捉文本情感倾向；数据分布上保持三类样本均衡（32.6%/31.4%/36.0%），避免模型训练时的偏差；语料覆盖社交媒体、新闻等多模态文本，包含11,178条样本。特别值得注意的是数据集通过心理支持机制保障标注者权益，体现研究伦理考量。

使用方法

该数据集主要服务于伦理NLP研究和性别偏见检测任务，使用者可通过Hugging Face平台加载CSV格式数据。典型应用场景包括：作为基准数据集评估孟加拉语文本分类模型性能；用于训练仇恨言论检测系统的分类器；支持计算社会科学中的偏见模式分析。使用需遵循CC-BY-NC-SA-4.0许可协议，特别要注意非商业用途和相同方式共享条款，引用时需注明匿名作者及出版信息。

背景与挑战

背景概述

在自然语言处理领域，性别偏见检测已成为伦理人工智能研究的重要课题。Bengali Gender Bias Dataset（部分数据集）由匿名研究团队于2025年创建，专注于孟加拉语文本中针对女性的性别偏见分析。该数据集收集自社交媒体平台、在线论坛、新闻报道及政府报告等多源数据，通过半自动化工具结合人工标注构建而成。作为孟加拉语NLP领域首个专注于女性安全议题的平衡语料库，它为偏见检测、仇恨言论识别及计算社会科学研究提供了重要基准。数据集采用三分类体系（中立/积极/消极），其平衡的标签分布（各约占32%-36%）显著提升了模型训练的可靠性。

当前挑战

该数据集面临双重挑战：在领域问题层面，孟加拉语复杂的形态变化和方言差异导致隐性偏见识别困难，特别是针对文化特定隐喻和语境依赖表达的检测准确率有待提升；在构建过程中，需平衡数据隐私保护与研究效度，通过严格的匿名化处理（去除用户标识和元数据）与心理支持机制（为标注人员提供心理资源）来应对伦理风险。此外，数据集目前仅涵盖二元性别偏见，对第三性别和交叉性偏见的覆盖不足，且限于孟加拉语单语种，难以直接迁移至其他南亚语言场景。

常用场景

经典使用场景

在自然语言处理领域，Bengali Gender Bias Dataset作为孟加拉语性别偏见研究的基准数据集，常被用于训练和评估文本分类模型。研究者通过该数据集可系统分析社交媒体文本中针对女性的显性与隐性偏见，为构建更公平的NLP系统提供数据支撑。其平衡的标签分布特别适合作为多分类任务的测试平台，在情感分析和仇恨言论检测方向具有典型应用价值。

实际应用

实际应用中，该数据集被整合进社交媒体内容审核系统，帮助平台识别孟加拉语社区的性别歧视内容。非政府组织利用其开发了实时监测工具，用于追踪网络暴力趋势并制定干预策略。在政策制定层面，数据集的分析结果为南亚地区数字性别平等政策的制定提供了实证依据。

衍生相关工作

基于该数据集衍生的经典研究包括跨模态偏见检测框架的开发，以及结合方言特征的偏见传播分析模型。部分学者将其与英语偏见数据集进行对比研究，揭示了文化差异对语言偏见表征的影响。在技术层面，该数据促进了适应低资源语言的轻量化检测模型的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集