Professions dataset,Gender-Colored Words (GCW)dataset

Name: Professions dataset,Gender-Colored Words (GCW)dataset
Creator: Uppsala University,Sweden; KTH Royal Institute of Technology,Sweden
Published: 2025-08-19 16:10:55
License: 暂无描述

arXiv2025-08-19 更新2025-08-22 收录

下载链接：

https://github.com/suno-a1/bark

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了两个数据集，分别是“职业数据集”和“性别彩色词（GCW）数据集”，用于测试文本到语音（TTS）模型Bark的性别偏见。职业数据集包含26个句子，每个句子都包含一个典型的男性和女性职业。GCW数据集包含60个句子，每个句子都包含一个具有性别含义的词。这些数据集用于评估Bark在没有性别提示的情况下分配说话人的性别。研究结果发现，Bark在大多数情况下没有表现出强烈的性别偏见，但仍然存在一些性别偏好，尤其是在处理具有性别含义的词时。

This study constructs two datasets, namely the "Occupation Dataset" and the "Gender-Colored Word (GCW) Dataset", which are used to test the gender bias of the text-to-speech (TTS) model Bark. The Occupation Dataset consists of 26 sentences, each of which contains a stereotypical male and female occupation. The GCW Dataset contains 60 sentences, each of which includes a word with gender connotations. These datasets are applied to evaluate how Bark assigns the gender of speakers in the absence of gender prompts. The findings reveal that Bark does not exhibit strong gender bias in most cases, but still maintains certain gender preferences, especially when processing words with gender connotations.

提供机构：

Uppsala University,Sweden; KTH Royal Institute of Technology,Sweden

创建时间：

2025-08-19

搜集汇总

数据集介绍

构建方式

在语音合成模型的性别偏见研究框架下，Professions数据集与Gender-Colored Words数据集的构建采用了系统化设计方法。Professions数据集借鉴WinoBias的性别职业刻板印象分类，选取26个典型男性与女性职业词汇，通过第一人称句式重构为语音合成输入文本，例如“我担任开发人员”。GCW数据集则基于词汇关联图谱中的性别色彩词汇分布，从男性与女性关联词汇库中分别抽样30个词汇，采用ChatGPT生成统一句式模板，确保除目标词汇外其他语言要素保持恒定。每个句子均通过Bark模型生成10次音频输出以降低随机性干扰。

使用方法

该数据集的应用需遵循严格的实验流程以保障研究效度。首先将文本输入Bark语音合成模型，在无说话人提示的自主模式下生成音频输出；随后采用预训练的说话人性别识别模型对生成音频进行性别概率分类，输出男性/女性二元判定结果；最后通过统计分析方法计算各词汇的性别分配偏好度。研究中需设置中性文本基线（如彩虹段落）以校准模型的基准性别分布，并通过普通最小二乘回归分析文本性别提示、说话人提示与模型层级交互作用对性别分配的影响。数据集还可用于测试模型在说话人提示冲突情境下的性别推理能力，探究文本语义层与语音合成层的性别信息处理机制。

背景与挑战

背景概述

Professions与Gender-Colored Words (GCW)数据集由瑞典乌普萨拉大学与皇家理工学院联合研究团队于2025年创建，旨在探究语音大模型（Speech-LLM）在说话人分配中的性别偏见问题。该研究以Bark文本转语音模型为分析对象，通过构建职业性别刻板印象词汇与性别色彩词汇两类语料，揭示了模型在无提示状态下自动分配说话人性别时的潜在偏差。该数据集为语音合成领域的性别公平性研究提供了量化评估工具，推动了多模态语言模型偏见检测范式的革新。

当前挑战

该数据集需解决语音合成中性别偏见量化这一核心挑战，包括模型对职业词汇（如‘工程师’‘护士’）和性别色彩词汇（如‘阳刚’‘柔美’)的说话人性别分配系统性偏差。构建过程中面临三重困难：需从WinoBias和词汇关联图谱中提取具有统计学显著性的性别关联词汇；需设计统一句式结构以控制文本变量对语音生成的干扰；需克服Bark模型输出随机性通过多次采样与语音性别分类模型（SGR）实现可靠标注。

常用场景

经典使用场景

在语音合成系统的性别偏见研究中，Professions与GCW数据集被广泛应用于评估语音大模型的说话人分配机制。通过输入包含性别刻板印象的职业术语和性别色彩词汇，研究者能够量化分析模型在无提示状态下自动选择说话人性别的倾向性，从而揭示训练数据中潜在的社会偏见编码模式。

解决学术问题

该数据集解决了语音生成模型中性别偏见检测的量化难题，通过结构化文本输入与语音输出的映射关系，为评估模型对职业性别刻板印象和词汇性别联想的敏感性提供标准范式。其意义在于将文本领域的偏见研究拓展到多模态场景，推动了语音合成伦理评估框架的建立。

实际应用

该数据集实际应用于语音合成系统的偏见审计，帮助开发者在模型部署前检测其说话人分配是否强化性别刻板印象。例如在教育、客服等语音交互场景中，通过分析模型对“护士”或“工程师”等职业的语音输出性别分布，可指导模型优化以实现更公平的语音生成。

数据集最近研究