gilkeyio/inclusive_voice
收藏Hugging Face2023-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gilkeyio/inclusive_voice
下载链接
链接失效反馈官方服务:
资源简介:
Inclusive Voice数据集是从Mozilla Common Voice项目中精选出来的,旨在解决语音识别数据集中性别不平衡的问题。该数据集包含了男、女和其他性别的平衡表示,主要用于训练和评估语音识别模型,特别是在性别分类应用中。数据集的结构包括客户端ID、音频、句子、年龄、性别和口音等字段,分为训练集和测试集。数据集的创建动机是为了提供性别平衡的语音数据,但可能存在某些口音或年龄组的过度代表问题。
Inclusive Voice数据集是从Mozilla Common Voice项目中精选出来的,旨在解决语音识别数据集中性别不平衡的问题。该数据集包含了男、女和其他性别的平衡表示,主要用于训练和评估语音识别模型,特别是在性别分类应用中。数据集的结构包括客户端ID、音频、句子、年龄、性别和口音等字段,分为训练集和测试集。数据集的创建动机是为了提供性别平衡的语音数据,但可能存在某些口音或年龄组的过度代表问题。
提供机构:
gilkeyio
原始信息汇总
数据集卡片概述
数据集描述
数据字段
- client_id: 每个参与者的唯一标识符。
- audio: 语音录制的音频文件。
- sentence: 音频文件的文本内容。
- age: 参与者的年龄组别。
- gender: 参与者的性别(平衡表示)。
- accent: 参与者的口音信息(如果有)。
数据分割
- Train: 6,075个样本(每种性别2,025个)。
- Test: 1,812个样本(每种性别604个)。
数据集创建
数据集来源
数据集源自Mozilla的Common Voice项目,经过额外处理以平衡性别表示并限制任何单一语音的支配。
数据集用途
该数据集旨在用于训练和评估语音识别模型,特别是用于性别分类的应用。
数据集限制
尽管努力平衡性别表示,该数据集可能仍然存在偏差,例如某些口音或年龄组的过度表示。它并不全面地代表英语语音的所有可能变体。
引用
原始Common Voice的引用:
@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }
搜集汇总
数据集介绍

构建方式
该数据集由Kim Gilkey精心策划,源自Mozilla Common Voice项目,旨在解决语音识别数据集中性别不平衡的问题。通过额外的数据处理步骤,确保了男性、女性和非二元性别声音的均衡代表性。数据集的构建过程中,特别关注了性别比例的调整,以避免任何单一性别的过度主导,从而为语音识别模型提供了更加多样化的训练数据。
特点
该数据集的主要特点在于其性别平衡的语音样本,确保了男性、女性和非二元性别声音的均衡分布。此外,数据集包含了音频记录、对应的文本内容、参与者的年龄组别、性别和口音信息。尽管在性别平衡方面做出了努力,数据集在口音和年龄组的代表性上可能仍存在局限,且主要集中于英语语音。
使用方法
该数据集适用于训练和评估语音识别模型,特别是在性别分类方面的应用。用户可以通过HuggingFace平台下载并使用该数据集,利用其提供的音频和文本数据进行模型训练。数据集的结构清晰,包含训练集和测试集,分别有6,075和1,812个样本,适合用于构建和验证语音识别系统。
背景与挑战
背景概述
Inclusive Voice数据集由Kim Gilkey精心策划,源自Mozilla Common Voice项目,旨在解决语音识别领域中性别不平衡的问题。该数据集创建于近年来,专注于提供男性、女性及非二元性别声音的均衡代表性,以促进语音识别模型在性别分类任务中的应用。通过从Mozilla Common Voice中提取数据并进行额外处理,Inclusive Voice数据集不仅丰富了语音识别领域的多样性,还为相关研究提供了新的视角和资源。
当前挑战
尽管Inclusive Voice数据集在性别代表性上做出了显著努力,但仍面临诸多挑战。首先,数据集在处理过程中可能存在对某些口音或年龄组的过度代表,导致潜在的偏见。其次,由于原始数据集中女性和非二元性别的声音较少,经过筛选后的数据集规模相对较小,限制了其在广泛应用中的效能。此外,该数据集不适用于需要多种方言或非英语语言的应用场景,进一步限制了其适用范围。
常用场景
经典使用场景
Inclusive Voice数据集的经典使用场景主要集中在语音识别和性别分类任务中。由于该数据集在性别代表性上的均衡设计,它特别适用于训练和评估能够准确区分男性和女性声音的模型。此外,该数据集还可用于开发和测试语音识别系统,尤其是在需要考虑性别多样性的应用场景中。
实际应用
在实际应用中,Inclusive Voice数据集可广泛应用于智能语音助手、语音识别软件和性别分类系统等领域。例如,在智能客服系统中,该数据集可以帮助模型更准确地识别和响应不同性别用户的需求,从而提升用户体验。此外,在安全监控和身份验证系统中,性别分类的准确性对于提高系统的可靠性和安全性至关重要。
衍生相关工作
Inclusive Voice数据集的发布激发了大量相关研究工作,特别是在语音识别和性别分类领域。研究者们利用该数据集开发了多种改进的语音识别算法,旨在提高模型在不同性别声音上的表现。此外,该数据集还促进了关于语音数据集多样性和公平性的讨论,推动了更多关于如何构建更具代表性数据集的研究。
以上内容由遇见数据集搜集并总结生成



