gilkeyio/inclusive_voice

Name: gilkeyio/inclusive_voice
Creator: gilkeyio
Published: 2023-11-23 03:34:27
License: 暂无描述

Hugging Face2023-11-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gilkeyio/inclusive_voice

下载链接

链接失效反馈

官方服务：

资源简介：

Inclusive Voice数据集是从Mozilla Common Voice项目中精选出来的，旨在解决语音识别数据集中性别不平衡的问题。该数据集包含了男、女和其他性别的平衡表示，主要用于训练和评估语音识别模型，特别是在性别分类应用中。数据集的结构包括客户端ID、音频、句子、年龄、性别和口音等字段，分为训练集和测试集。数据集的创建动机是为了提供性别平衡的语音数据，但可能存在某些口音或年龄组的过度代表问题。

提供机构：

gilkeyio

原始信息汇总

数据集卡片概述

数据集描述

数据字段

client_id: 每个参与者的唯一标识符。
audio: 语音录制的音频文件。
sentence: 音频文件的文本内容。
age: 参与者的年龄组别。
gender: 参与者的性别（平衡表示）。
accent: 参与者的口音信息（如果有）。

数据分割

Train: 6,075个样本（每种性别2,025个）。
Test: 1,812个样本（每种性别604个）。

数据集创建

数据集来源

数据集源自Mozilla的Common Voice项目，经过额外处理以平衡性别表示并限制任何单一语音的支配。

数据集用途

该数据集旨在用于训练和评估语音识别模型，特别是用于性别分类的应用。

数据集限制

尽管努力平衡性别表示，该数据集可能仍然存在偏差，例如某些口音或年龄组的过度表示。它并不全面地代表英语语音的所有可能变体。

引用

原始Common Voice的引用：

@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

搜集汇总

数据集介绍

构建方式

该数据集由Kim Gilkey精心策划，源自Mozilla Common Voice项目，旨在解决语音识别数据集中性别不平衡的问题。通过额外的数据处理步骤，确保了男性、女性和非二元性别声音的均衡代表性。数据集的构建过程中，特别关注了性别比例的调整，以避免任何单一性别的过度主导，从而为语音识别模型提供了更加多样化的训练数据。

特点

该数据集的主要特点在于其性别平衡的语音样本，确保了男性、女性和非二元性别声音的均衡分布。此外，数据集包含了音频记录、对应的文本内容、参与者的年龄组别、性别和口音信息。尽管在性别平衡方面做出了努力，数据集在口音和年龄组的代表性上可能仍存在局限，且主要集中于英语语音。

使用方法

该数据集适用于训练和评估语音识别模型，特别是在性别分类方面的应用。用户可以通过HuggingFace平台下载并使用该数据集，利用其提供的音频和文本数据进行模型训练。数据集的结构清晰，包含训练集和测试集，分别有6,075和1,812个样本，适合用于构建和验证语音识别系统。

背景与挑战

背景概述

Inclusive Voice数据集由Kim Gilkey精心策划，源自Mozilla Common Voice项目，旨在解决语音识别领域中性别不平衡的问题。该数据集创建于近年来，专注于提供男性、女性及非二元性别声音的均衡代表性，以促进语音识别模型在性别分类任务中的应用。通过从Mozilla Common Voice中提取数据并进行额外处理，Inclusive Voice数据集不仅丰富了语音识别领域的多样性，还为相关研究提供了新的视角和资源。

当前挑战

尽管Inclusive Voice数据集在性别代表性上做出了显著努力，但仍面临诸多挑战。首先，数据集在处理过程中可能存在对某些口音或年龄组的过度代表，导致潜在的偏见。其次，由于原始数据集中女性和非二元性别的声音较少，经过筛选后的数据集规模相对较小，限制了其在广泛应用中的效能。此外，该数据集不适用于需要多种方言或非英语语言的应用场景，进一步限制了其适用范围。

常用场景

经典使用场景

Inclusive Voice数据集的经典使用场景主要集中在语音识别和性别分类任务中。由于该数据集在性别代表性上的均衡设计，它特别适用于训练和评估能够准确区分男性和女性声音的模型。此外，该数据集还可用于开发和测试语音识别系统，尤其是在需要考虑性别多样性的应用场景中。

实际应用

在实际应用中，Inclusive Voice数据集可广泛应用于智能语音助手、语音识别软件和性别分类系统等领域。例如，在智能客服系统中，该数据集可以帮助模型更准确地识别和响应不同性别用户的需求，从而提升用户体验。此外，在安全监控和身份验证系统中，性别分类的准确性对于提高系统的可靠性和安全性至关重要。

衍生相关工作

Inclusive Voice数据集的发布激发了大量相关研究工作，特别是在语音识别和性别分类领域。研究者们利用该数据集开发了多种改进的语音识别算法，旨在提高模型在不同性别声音上的表现。此外，该数据集还促进了关于语音数据集多样性和公平性的讨论，推动了更多关于如何构建更具代表性数据集的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集