Artie Bias Corpus

github2023-12-21 更新2024-05-31 收录

下载链接：

https://github.com/artie-inc/artie-bias-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Artie Bias Corpus是一个音频数据集，用于检测语音技术系统中的群体偏见。该数据集包含了处理过的转录文本和工具，用户可以通过这些数据和工具来检测模型在不同群体间的偏见情况。

The Artie Bias Corpus is an audio dataset designed to detect group biases in speech technology systems. This dataset includes processed transcriptions and tools, enabling users to identify biases in models across different demographic groups.

创建时间：

2019-11-27

原始信息汇总

数据集概述

数据集名称

Artie Bias Corpus + Tools

数据集内容

音频和原始转录文本：提供Artie Bias Corpus的音频和原始转录文本下载。
工具和代码：用于检测语音技术系统中的群体偏见。

数据集用途

检测偏见：分析单一模型在两个群体间的偏见或比较两个模型在单一群体上的表现。

数据集结构

artie-bias-corpus.tsv：包含以下列结构：
- client_id
- path
- sentence
- up_votes
- down_votes
- age
- gender
- accent

数据集统计信息

总发言数：1712条
发言人总数：970人
年龄分布：
- 20多岁：827人
- 30多岁：366人
- 青少年：187人
- 40多岁：152人
- 50多岁：101人
- 60多岁：46人
- 70多岁：18人
- 90多岁：1人
- 未知：14人
性别分布：
- 男性：1431人
- 女性：257人
- 未知：20人
- 其他：4人
口音分布：
- 美国：558人
- 印度：264人
- 加拿大：42人
- 英国：131人
- 未知：562人
- 其他国家或地区口音：分布在非洲、澳大利亚、百慕大等。

数据集使用要求

模型预测文件：需提供模型在Artie Bias Corpus音频上的预测结果，格式为两列的TSV文件，包含path和prediction。
ground-truth转录文件：artie-bias-corpus.tsv。
检测偏见脚本：detect_bias.py。

数据集验证

验证标准：在misc/VALIDATION_CRITERIA.md中定义。
验证过程：通过Common Voice的Web应用进行，至少需获得两票赞成。

数据集创建过程

数据筛选：从Common Voice中筛选出包含年龄、性别或口音信息的语音数据。
数据验证：通过训练有素的标注员进行验证，排除不符合标准的数据。

数据集文档

Datasheet：位于data/目录下的DATASHEET.md文件，使用前请查阅。

搜集汇总

数据集介绍

构建方式

Artie Bias Corpus的构建过程主要分为两个关键步骤。首先，从Common Voice数据集中筛选出包含年龄、性别或口音信息的语音片段，并将空白条目标记为`NA`。随后，通过训练有素的标注员使用特定的验证标准对这些片段进行重新验证，剔除未获得足够支持的片段。此外，基于年龄、内容等方面的考虑，进一步移除了24个不符合要求的片段，最终形成了包含1712条语音片段的数据集。

特点

Artie Bias Corpus以其多样化的语音样本和详尽的元数据著称。数据集涵盖了970位不同背景的说话者，年龄分布从青少年到九十岁不等，性别包括男性、女性及其他类别，口音则覆盖了非洲、澳大利亚、加拿大、印度、美国等多个地区。每个语音片段均附带有说话者的年龄、性别和口音信息，为研究语音技术中的群体偏见提供了丰富的基础数据。

使用方法

使用Artie Bias Corpus时，需准备自动语音识别（ASR）模型对数据集音频的预测结果，并与提供的`artie-bias-corpus.tsv`文件中的真实转录进行对比。通过运行`detect_bias.py`脚本，用户可分析单一模型在不同群体间的偏见，或比较两个模型在特定群体上的表现差异。使用前需配置虚拟环境并安装相关依赖，确保分析环境的稳定性和一致性。

背景与挑战

背景概述

Artie Bias Corpus是由Artie公司于2020年发布的一个专门用于检测语音技术系统中人口统计偏见的语料库。该数据集基于Mozilla的Common Voice项目，经过精心筛选和验证，旨在揭示自动语音识别（ASR）系统在不同年龄、性别和口音群体中的性能差异。研究人员通过过滤和重新验证Common Voice中的数据，构建了一个包含1712条语音样本的语料库，涵盖了970名不同背景的说话者。该数据集的发布为语音技术领域的公平性和包容性研究提供了重要的数据支持，相关研究成果已在LREC 2020会议上发表。

当前挑战

Artie Bias Corpus的主要挑战在于如何准确检测和量化语音识别系统中的偏见。首先，语音识别系统在不同人口统计群体中的性能差异往往难以捕捉，尤其是在数据分布不均衡的情况下。其次，构建该数据集时，研究人员面临了数据筛选和验证的复杂性，例如如何确保样本的代表性以及如何处理缺失或不完整的人口统计信息。此外，数据集中某些群体的样本量较少（如非二元性别和特定口音群体），这可能导致偏见检测的统计显著性不足。这些挑战不仅影响了数据集的构建过程，也对后续的偏见检测研究提出了更高的要求。

常用场景

经典使用场景

Artie Bias Corpus 数据集在语音技术领域中被广泛用于检测和评估自动语音识别（ASR）系统中的性别、年龄和口音等人口统计特征的偏见。通过对比不同人口群体在语音识别模型中的表现，研究人员能够识别出模型在处理特定群体语音时的偏差，从而为改进模型提供数据支持。

解决学术问题

该数据集解决了语音识别系统中存在的偏见问题，尤其是在性别、年龄和口音等人口统计特征上的偏差。通过提供经过验证的语音转录数据，研究人员能够量化模型在不同群体上的性能差异，进而推动公平性和包容性在语音技术中的应用。这一数据集为学术界提供了重要的工具，帮助识别和缓解技术中的潜在歧视问题。

衍生相关工作

基于 Artie Bias Corpus，许多研究进一步探讨了语音识别系统中的偏见问题。例如，一些研究提出了新的算法来减少模型在性别和口音上的偏差，另一些研究则开发了更精细的评估框架，以量化偏见的影响。这些工作不仅推动了语音识别技术的发展，还为其他领域（如自然语言处理）中的偏见检测提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集