Dutch Government Data for Bias Detection (DGDB)

Name: Dutch Government Data for Bias Detection (DGDB)
Creator: 荷兰教育文化和科学部
Published: 2025-02-19 16:56:16
License: 暂无描述

arXiv2025-02-19 更新2025-02-21 收录

下载链接：

https://huggingface.co/datasets/milenamileentje/Dutch-Government-Data-forBias-detection/

下载链接

链接失效反馈

官方服务：

资源简介：

Dutch Government Data for Bias Detection (DGDB)是一个由荷兰教育文化和科学部提供的，针对荷兰政府文件进行偏见检测的数据集。该数据集从荷兰众议院的公开文件中收集，并由专家团队针对偏见进行了标注。数据集包含3632个句子，旨在揭示影响立法框架和政策指令的具体偏见，推动更加公平的治理实践。

Dutch Government Data for Bias Detection (DGDB) is a bias detection dataset for Dutch government documents, provided by the Dutch Ministry of Education, Culture and Science. Collected from publicly available documents of the Dutch House of Representatives, the dataset was annotated for bias by a team of experts. Comprising 3,632 sentences, this dataset is designed to uncover specific biases that impact legislative frameworks and policy directives, with the goal of advancing more equitable governance practices.

提供机构：

荷兰教育文化和科学部

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

该数据集的构建过程涉及多个步骤。首先，研究人员定义了多种语言偏见类型，并创建了一个与偏见相关的关键词列表。然后，他们使用这些关键词查询荷兰议会的公开政府文件，从中提取包含偏见相关术语及其上下文信息的句子。接下来，这些句子经过去重和规范化处理，并由一组专家进行标注。最终，研究人员从这些句子中筛选出3,632个包含标注的数据点，构成了最终的DGDB数据集。这一过程确保了数据集的准确性和多样性，反映了各种形式的偏见。

使用方法

使用DGDB数据集的方法涉及几个步骤。首先，研究人员使用BERT等模型对数据集进行微调，以检测语言偏见。然后，他们在两个不同的模式下评估模型的性能：领域内模式和领域外模式。在领域内模式下，模型在整个数据集上进行训练。在领域外模式下，模型在排除了某些罕见偏见术语的数据集上进行训练。此外，研究人员还探索了三种重采样策略对模型性能的影响：过采样、欠采样和平衡重采样。最后，他们使用LIME框架对模型的预测进行解释，以了解上下文信息如何影响偏见的检测。

背景与挑战

背景概述

在政府文件中检测语言偏见是一个未被充分探索的领域，但它对于治理具有重要意义。现有的方法通常忽略了政府文件的独特背景和深远影响，这可能掩盖了嵌入的偏见，这些偏见塑造了公共政策和国民与政府之间的互动。为了弥补这一差距，我们引入了荷兰政府数据偏见检测（DGDB）数据集，该数据集来自荷兰议会，并由专家进行了偏见注释。我们在该数据集上微调了几个基于BERT的模型，并将其性能与生成语言模型进行了比较。此外，我们还进行了一项全面的分析，包括对模型预测的解释。我们的研究结果表明，微调模型具有强大的性能，并且明显优于生成语言模型，这表明DGDB在检测偏见方面是有效的。这项工作强调了为各种语言的偏见检测提供标记数据集的重要性，并为更公平的治理实践做出了贡献。

当前挑战

该数据集相关的挑战包括：1) 解决领域问题，即政府文件中的语言偏见检测；2) 构建过程中所遇到的挑战，如数据收集、注释和模型训练。

常用场景

经典使用场景

该数据集最经典的使用场景是在检测政府文件中的语言偏见。通过对荷兰议会文件进行标注，DGDB数据集提供了大量带有偏见标注的句子，这使得研究者可以训练和评估各种语言模型在偏见检测方面的性能。特别是，该数据集允许研究者在域内和域外两种模式下评估模型的表现，有助于理解模型在不同情况下的泛化能力。

解决学术问题

DGDB数据集解决了在政府文件中进行偏见检测的难题。现有的研究往往忽略了政府文件独特的内容和深远的影响，这可能导致隐藏的偏见无法被识别，从而影响公共政策制定和公民与政府之间的互动。DGDB数据集通过专家标注，揭示了政府文件中的特定偏见，为更公平的治理实践铺平了道路。

实际应用

DGDB数据集的实际应用场景包括帮助政府机构监测和减少其沟通中的语言偏见。通过使用训练好的模型，政府可以识别和修正可能无意中边缘化某些群体或强化刻板印象的语言，从而制定更公平的政策和沟通方式。此外，该数据集还可以用于进一步研究如何在荷兰治理下保护弱势群体，并为在其他弱势语言中开发额外的偏见检测数据集提供灵感。

数据集最近研究